跳转到主要内容如何获取 WARC 文件输出
概述
Web Scraper IDE 现在支持以 WARC(Web ARChive)格式返回完整的 HTTP 响应。此功能使你能够归档在采集过程中接收到的网页内容及其元数据。
什么是 WARC 文件?
WARC 是一种用于存储网页抓取内容和 HTTP 交互的标准化文件格式。它常用于数字存档、研究和合规场景。
如何启用 WARC 输出
WARC 文件仅适用于 browser workers
要在采集结果中包含 WARC 文件:
- 打开你的 Web-Scraper IDE 配置。
- 在 Output Schema 中的
additional_data 字段下,点击 warc_snapshot 旁边的眼睛图标。
- 保存并运行一个任务
- 当任务完成后,WARC 文件将根据 scraper 的交付设置提供给你。
最佳使用方式
为确保 WARC 文件尽可能完整地捕获页面内容,请注意以下事项:
- WARC 捕获仅限浏览器端请求。这包括页面加载期间由浏览器发起的所有网络活动(例如 HTML、CSS、JS、图像、XHR 请求)。
- 在采集流程中使用
wait_network_idle() 函数,让浏览器在 WARC 文件最终生成前完成所有资源加载。这有助于最大化捕获数据的完整性。