跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

功能说明

无需运行自己的爬虫,您可以直接在 Web Archive 中搜索,按需筛选(时间范围、域名、URL 模式、语言、拦截信号),并以 HTML 文件 + 元数据的形式导出即用型数据集。

常见用例

  • LLM 训练与 RAG 管道:基于目标网络片段构建或刷新训练语料
  • 搜索与索引:使用大型域名集合的历史内容回填索引
  • 搜索产品增强:改善具有高级反爬拦截的网站覆盖率,支持大规模可靠的页面检索

工作原理

运行搜索

按时间范围、域名、URL 模式、语言或信号(CAPTCHA、robots 拦截等)进行筛选

查看预估

查看匹配的文件数、快照大小、预计时长和费用

创建并传送快照

将快照以 HTML 文件 + 元数据(URL、时间戳、采集属性)的形式导出至 Amazon S3、Azure Blob Storage 或通过 webhook 传送