什么是 Archive API?
什么是 Archive API?
Archive API 是 Bright Data 提供的一个庞大、持续扩展的缓存存储库,旨在大规模捕获和提供公共网页数据。它提供完整的网页和元数据,非常适合用于 AI 训练、机器学习和大规模数据分析。与传统网页抓取不同,Archive API 更加注重相关性、新鲜度和可用性,让你能够访问每天抓取的互联网上最重要的内容。
可用的数据量有多少?
可用的数据量有多少?
Bright Data 的 Archive API 在推出后的前 8 个月内已收集 17.5 PB 的数据,涵盖来自 4000 万个域名的 280 亿个唯一 URL。我们每周持续新增约 1 PB 的数据,以及约 20 亿个唯一 URL,使 Archive 成为最大规模、最新的网页数据存储库——非常适合 AI 和数据驱动型应用。
我能多快访问这些数据?
我能多快访问这些数据?
你可以通过我们的 Archive API 立即开始访问数据。API 允许你搜索、检索和筛选 Archive 中的数据快照,高效且无缝。
- 最近 3 天的数据:根据快照规模,从几分钟到数小时不等
- 3 天前的数据:根据快照规模,从数小时到 3 天不等
我的数据可以通过哪些方式交付?
我的数据可以通过哪些方式交付?
Archive 提供两种交付方式,确保与你的现有工作流程无缝集成:
- Amazon S3 存储桶: 将数据快照直接传输到你的 S3 存储桶。
- Webhook: 通过 webhook 获取,实现系统的实时集成。
我可以筛选 Archive 的数据,只获取需要的内容吗?
我可以筛选 Archive 的数据,只获取需要的内容吗?
当然可以!Archive API 支持按类别、域名、日期、语言和国家进行筛选,以确保你只获取真正需要的数据。
Bright Data 的 Archive 与 Common Crawl 有何不同?
Bright Data 的 Archive 与 Common Crawl 有何不同?
在处理大规模网页数据时,新鲜度、相关性和可访问性至关重要。Common Crawl 提供的是广泛的网页历史快照,而 Bright Data 的 Archive API 则提供实时、持续更新的数据,并支持高级筛选和交付。以下是两者的对比:
| 功能 | Bright Data 的 Archive | Common Crawl |
|---|---|---|
| 数据采集方式 | 持续实时采集公开网页数据,提供接近“现在”的结果。 | 定期抓取(非实时),按月或双月更新。数据可能已过时。 |
| 数据量 | 8 个月内收集 17.5 PB,覆盖 1180 亿页面(280 亿唯一 URL、4000 万域名)。每周新增约 1 PB 和 20 亿唯一 URL。 | 18 年共收集 2500 亿页面。 |
| 网站覆盖率与相关性 | 聚焦高价值、真实抓取需求驱动的网站数据。 | 无差别抓取,包括过时或低质量页面。 |
| 数据类型 | 完整网页(含 JS 渲染) | 98.6% 为 HTML 与文本 |
| 筛选与交付 | 完整发现与交付平台——支持按类别、域名、语言、日期等筛选。通过 Amazon S3 或 webhook 交付。 | 无内置筛选或交付机制,需要手动处理庞大的 WARC 原始文件。 |