使用 IDE Scraper 启动数据收集与交付

在 IDE 上编写爬虫代码时，系统会将爬虫自动保存为开发环境中的草稿。在 IDE 内，您可以一次运行一页以预览爬虫行为。若要进行完整的生产运行，需要点击 IDE 界面右上角的“保存到生产”按钮将爬虫保存到生产环境中。所有爬虫将显示在控制面板的 我的爬虫 标签下。任何非活动爬虫将以淡化状态显示。

启动爬虫

要开始收集数据，请选择以下三种方式之一：

通过 API 启动
手动启动
计划爬虫

您可以通过 API 启动数据收集，无需访问 Bright Data 控制面板：
API 文档入门指南在发起 API 请求前，请先创建 API 密钥。创建 API 密钥请访问：
控制面板侧边菜单设置 > 账户设置 > API 密钥

手动设置输入 - 通过手动或 API 请求提供输入
触发行为 - 可以并行添加多个请求，它们会按定义顺序激活。您可以向队列中添加另一个任务并同时运行多个任务。
API 请求预览 - Bright Data 提供 REST API 调用以启动爬虫。请为 CURL 命令选择“Linux Bash”查看器。发送请求后，您将收到一个作业 ID。

您将根据之前定义的交付偏好接收数据。

如果交付偏好设置为 API 下载，则必须进行接收数据 API 调用以获取数据

交付选项

您可以为数据集设置交付偏好。只需在“我的爬虫”标签中点击爬虫行，然后点击“交付偏好”即可。

选择获取数据的时间

批量：管理大量数据的高效方式
- 分批：数据准备好后以较小批量交付
实时：获取单次请求快速响应的理想方式
- 跳过重试：出错时不重试，可加快收集速度

选择文件格式

JSON
NDJSON
CSV
XLSX

选择接收数据方式

电子邮件
API 下载
Webhook
云存储提供商：Amazon S3, Google Cloud Storage, Azure
SFTP/FTP
当设置为电子邮件或 API 下载时，媒体文件无法交付

选择结果格式

结果和错误分开文件
结果和错误合并为一个文件
仅成功结果
仅错误

定义通知

收集完成时通知
成功率通知
出错时通知

输出模式

模式定义数据点结构及数据组织方式。您可以更改模式结构并修改数据点以满足需求，重新排序、设置默认值，并向输出配置添加额外数据。可通过高级设置添加新字段名并编辑代码。


输入 / 输出模式	选择要配置的标签
自定义验证	验证模式
解析数据	爬虫收集的数据点
添加新字段	如需额外数据点，可添加字段并定义字段名和类型
附加数据	可向模式添加的额外信息（时间戳、截图等）

介绍

产品指南

使用 IDE Scraper 启动数据收集与交付

启动爬虫

交付选项

输出模式

介绍

产品指南

​启动爬虫

​交付选项

​输出模式

启动爬虫

交付选项

输出模式