常见问题：Archive API - Bright Data Docs

什么是 Archive API？

Archive API 是 Bright Data 提供的一个庞大、持续扩展的缓存存储库，旨在大规模捕获和提供公共网页数据。它提供完整的网页和元数据，非常适合用于 AI 训练、机器学习和大规模数据分析。与传统网页抓取不同，Archive API 更加注重相关性、新鲜度和可用性，让你能够访问每天抓取的互联网上最重要的内容。

可用的数据量有多少？

Bright Data 的 Archive API 在推出后的前 8 个月内已收集 17.5 PB 的数据，涵盖来自 4000 万个域名的 280 亿个唯一 URL。我们每周持续新增约 1 PB 的数据，以及约 20 亿个唯一 URL，使 Archive 成为最大规模、最新的网页数据存储库——非常适合 AI 和数据驱动型应用。

我能多快访问这些数据？

你可以通过我们的 Archive API 立即开始访问数据。API 允许你搜索、检索和筛选 Archive 中的数据快照，高效且无缝。

最近 3 天的数据：根据快照规模，从几分钟到数小时不等
3 天前的数据：根据快照规模，从数小时到 3 天不等

我的数据可以通过哪些方式交付？

Archive 提供两种交付方式，确保与你的现有工作流程无缝集成：

Amazon S3 存储桶： 将数据快照直接传输到你的 S3 存储桶。
Webhook： 通过 webhook 获取，实现系统的实时集成。

我可以筛选 Archive 的数据，只获取需要的内容吗？

当然可以！Archive API 支持按类别、域名、日期、语言和国家进行筛选，以确保你只获取真正需要的数据。

Bright Data 的 Archive 与 Common Crawl 有何不同？

在处理大规模网页数据时，新鲜度、相关性和可访问性至关重要。Common Crawl 提供的是广泛的网页历史快照，而 Bright Data 的 Archive API 则提供实时、持续更新的数据，并支持高级筛选和交付。以下是两者的对比：

功能	Bright Data 的 Archive	Common Crawl
数据采集方式	持续实时采集公开网页数据，提供接近“现在”的结果。	定期抓取（非实时），按月或双月更新。数据可能已过时。
数据量	8 个月内收集 17.5 PB，覆盖 1180 亿页面（280 亿唯一 URL、4000 万域名）。每周新增约 1 PB 和 20 亿唯一 URL。	18 年共收集 2500 亿页面。
网站覆盖率与相关性	聚焦高价值、真实抓取需求驱动的网站数据。	无差别抓取，包括过时或低质量页面。
数据类型	完整网页（含 JS 渲染）	98.6% 为 HTML 与文本
筛选与交付	完整发现与交付平台——支持按类别、域名、语言、日期等筛选。通过 Amazon S3 或 webhook 交付。	无内置筛选或交付机制，需要手动处理庞大的 WARC 原始文件。