跳转到主要内容
Archive API 是 Bright Data 提供的一个庞大、持续扩展的缓存存储库,旨在大规模捕获和提供公共网页数据。它提供完整的网页和元数据,非常适合用于 AI 训练、机器学习和大规模数据分析。与传统网页抓取不同,Archive API 更加注重相关性新鲜度可用性,让你能够访问每天抓取的互联网上最重要的内容。
Bright Data 的 Archive API 在推出后的前 8 个月内已收集 17.5 PB 的数据,涵盖来自 4000 万个域名的 280 亿个唯一 URL。我们每周持续新增约 1 PB 的数据,以及约 20 亿个唯一 URL,使 Archive 成为最大规模、最新的网页数据存储库——非常适合 AI 和数据驱动型应用。
你可以通过我们的 Archive API 立即开始访问数据。API 允许你搜索、检索和筛选 Archive 中的数据快照,高效且无缝。
  • 最近 3 天的数据:根据快照规模,从几分钟到数小时不等
  • 3 天前的数据:根据快照规模,从数小时到 3 天不等
Archive 提供两种交付方式,确保与你的现有工作流程无缝集成:
  • Amazon S3 存储桶: 将数据快照直接传输到你的 S3 存储桶。
  • Webhook: 通过 webhook 获取,实现系统的实时集成。
当然可以!Archive API 支持按类别、域名、日期、语言和国家进行筛选,以确保你只获取真正需要的数据。
在处理大规模网页数据时,新鲜度相关性可访问性至关重要。Common Crawl 提供的是广泛的网页历史快照,而 Bright Data 的 Archive API 则提供实时、持续更新的数据,并支持高级筛选和交付。以下是两者的对比:
功能Bright Data 的 ArchiveCommon Crawl
数据采集方式持续实时采集公开网页数据,提供接近“现在”的结果。定期抓取(非实时),按月或双月更新。数据可能已过时。
数据量8 个月内收集 17.5 PB,覆盖 1180 亿页面(280 亿唯一 URL、4000 万域名)。每周新增约 1 PB 和 20 亿唯一 URL。18 年共收集 2500 亿页面。
网站覆盖率与相关性聚焦高价值、真实抓取需求驱动的网站数据。无差别抓取,包括过时或低质量页面。
数据类型完整网页(含 JS 渲染)98.6% 为 HTML 与文本
筛选与交付完整发现与交付平台——支持按类别、域名、语言、日期等筛选。通过 Amazon S3 或 webhook 交付。无内置筛选或交付机制,需要手动处理庞大的 WARC 原始文件。