
启动爬虫
要开始收集数据,请选择以下三种方式之一:- 通过 API 启动
- 手动启动
- 计划爬虫
您可以通过 API 启动数据收集,无需访问 Bright Data 控制面板:
API 文档入门指南在发起 API 请求前,请先创建 API 密钥。创建 API 密钥请访问:
控制面板侧边菜单设置 > 账户设置 > API 密钥
API 文档入门指南在发起 API 请求前,请先创建 API 密钥。创建 API 密钥请访问:
控制面板侧边菜单设置 > 账户设置 > API 密钥

- 手动设置输入 - 通过手动或 API 请求提供输入
- 触发行为 - 可以并行添加多个请求,它们会按定义顺序激活。您可以向队列中添加另一个任务并同时运行多个任务。
- API 请求预览 - Bright Data 提供 REST API 调用以启动爬虫。请为 CURL 命令选择“Linux Bash”查看器。发送请求后,您将收到一个作业 ID。
如果交付偏好设置为 API 下载,则必须进行接收数据 API 调用以获取数据
交付选项
您可以为数据集设置交付偏好。只需在“我的爬虫”标签中点击爬虫行,然后点击“交付偏好”即可。
选择获取数据的时间
选择获取数据的时间
- 批量:管理大量数据的高效方式
- 分批:数据准备好后以较小批量交付
- 实时:获取单次请求快速响应的理想方式
- 跳过重试:出错时不重试,可加快收集速度
选择文件格式
选择文件格式
- JSON
- NDJSON
- CSV
- XLSX
选择接收数据方式
选择接收数据方式
- 电子邮件
- API 下载
- Webhook
- 云存储提供商:Amazon S3, Google Cloud Storage, Azure
- SFTP/FTP
当设置为电子邮件或 API 下载时,媒体文件无法交付
选择结果格式
选择结果格式
- 结果和错误分开文件
- 结果和错误合并为一个文件
- 仅成功结果
- 仅错误
定义通知
定义通知
- 收集完成时通知
- 成功率通知
- 出错时通知
输出模式
模式定义数据点结构及数据组织方式。您可以更改模式结构并修改数据点以满足需求,重新排序、设置默认值,并向输出配置添加额外数据。可通过高级设置添加新字段名并编辑代码。
| 输入 / 输出模式 | 选择要配置的标签 |
| 自定义验证 | 验证模式 |
| 解析数据 | 爬虫收集的数据点 |
| 添加新字段 | 如需额外数据点,可添加字段并定义字段名和类型 |
| 附加数据 | 可向模式添加的额外信息(时间戳、截图等) |