Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

本指南向您展示如何使用抓取器的两个高级传递功能:用于大型快照的流式传递,以及用于检索原始页面文件的文件传递
前置条件:
  • 拥有活跃抓取器的 Bright Data 账户
  • 传递方法设置为存储Webhook(两个功能都需要这样设置)

流式传递

当快照很大时,流式传递让您可以立即以批次方式接收收集的结果,而不必等待完整快照完成。

如何启用流式传递

选项 1:控制面板
  1. 打开您的抓取器的传递设置选项卡。
  2. 打开流式传递结果
  3. 输入每个批次应包含的数据行数。
传递设置中的流式传递结果开关
选项 2:WSAPI 参数 在您的 WSAPI 请求中添加 &stream_max_lines=10
curl "https://api.brightdata.com/datasets/v3/trigger?dataset_id=<DATASET_ID>&stream_max_lines=10" \
  -H "Authorization: Bearer API_KEY"

限制

设置
最小批次大小10 行
最大批次大小100,000 行
流式传递需要存储Webhook 传递方法。它与 API 下载不兼容。

文件传递

文件传递让您可以检索原始页面文件(HTML 快照、WARC 档案或屏幕截图)以及您的抓取数据。

如何启用文件传递

在您的 WSAPI 请求中添加 &download_fields= 并使用一个或多个可用的文件类型:
curl "https://api.brightdata.com/datasets/v3/trigger?dataset_id=<DATASET_ID>&download_fields=html" \
  -H "Authorization: Bearer API_KEY"
要请求多个文件类型,请将其作为逗号分隔列表传递:
curl "https://api.brightdata.com/datasets/v3/trigger?dataset_id=<DATASET_ID>&download_fields=html,screenshot" \
  -H "Authorization: Bearer API_KEY"

可用的文件类型

类型可用性描述
html始终可用抓取页面的原始 HTML
warc不总是可用完整的 WARC 档案,包括请求和响应
screenshot不总是可用抓取时页面的屏幕截图
文件传递仅在传递方法设置为存储Webhook 时有效。

相关内容

传递选项

配置您的存储目标和输出格式

API 参考

用于触发和管理快照的完整 API 参数