跳转到主要内容

如何获取 WARC 文件输出

概述 Web Scraper IDE 现在支持以 WARC(Web ARChive)格式返回完整的 HTTP 响应。此功能使你能够归档在采集过程中接收到的网页内容及其元数据。 什么是 WARC 文件? WARC 是一种用于存储网页抓取内容和 HTTP 交互的标准化文件格式。它常用于数字存档、研究和合规场景。 如何启用 WARC 输出 WARC 文件仅适用于 browser workers 要在采集结果中包含 WARC 文件:
  • 打开你的 Web-Scraper IDE 配置。
  • 在 Output Schema 中的 additional_data 字段下,点击 warc_snapshot 旁边的眼睛图标。
Warc Example Pn
  • 保存并运行一个任务
  • 当任务完成后,WARC 文件将根据 scraper 的交付设置提供给你。
最佳使用方式 为确保 WARC 文件尽可能完整地捕获页面内容,请注意以下事项:
  • WARC 捕获仅限浏览器端请求。这包括页面加载期间由浏览器发起的所有网络活动(例如 HTML、CSS、JS、图像、XHR 请求)。
  • 在采集流程中使用 wait_network_idle() 函数,让浏览器在 WARC 文件最终生成前完成所有资源加载。这有助于最大化捕获数据的完整性。