跳转到主要内容
在 IDE 上编写爬虫代码时,系统会将爬虫自动保存为开发环境中的草稿。在 IDE 内,您可以一次运行一页以预览爬虫行为。若要进行完整的生产运行,需要点击 IDE 界面右上角的“保存到生产”按钮将爬虫保存到生产环境中。所有爬虫将显示在控制面板的 我的爬虫 标签下。任何非活动爬虫将以淡化状态显示。

启动爬虫

要开始收集数据,请选择以下三种方式之一:
  • 通过 API 启动
  • 手动启动
  • 计划爬虫
您可以通过 API 启动数据收集,无需访问 Bright Data 控制面板:
API 文档入门指南
在发起 API 请求前,请先创建 API 密钥。创建 API 密钥请访问:
控制面板侧边菜单设置 > 账户设置 > API 密钥
  1. 手动设置输入 - 通过手动或 API 请求提供输入
  2. 触发行为 - 可以并行添加多个请求,它们会按定义顺序激活。您可以向队列中添加另一个任务并同时运行多个任务。
  3. API 请求预览 - Bright Data 提供 REST API 调用以启动爬虫。请为 CURL 命令选择“Linux Bash”查看器。发送请求后,您将收到一个作业 ID。
您将根据之前定义的交付偏好接收数据。
如果交付偏好设置为 API 下载,则必须进行接收数据 API 调用以获取数据

交付选项

您可以为数据集设置交付偏好。只需在“我的爬虫”标签中点击爬虫行,然后点击“交付偏好”即可。
  • 批量:管理大量数据的高效方式
    • 分批:数据准备好后以较小批量交付
  • 实时:获取单次请求快速响应的理想方式
    • 跳过重试:出错时不重试,可加快收集速度
  • JSON
  • NDJSON
  • CSV
  • XLSX
  • 电子邮件
  • API 下载
  • Webhook
  • 云存储提供商:Amazon S3, Google Cloud Storage, Azure
  • SFTP/FTP
    当设置为电子邮件或 API 下载时,媒体文件无法交付
  • 结果和错误分开文件
  • 结果和错误合并为一个文件
  • 仅成功结果
  • 仅错误
  • 收集完成时通知
  • 成功率通知
  • 出错时通知

输出模式

模式定义数据点结构及数据组织方式。您可以更改模式结构并修改数据点以满足需求,重新排序、设置默认值,并向输出配置添加额外数据。可通过高级设置添加新字段名并编辑代码。
输入 / 输出模式选择要配置的标签
自定义验证验证模式
解析数据爬虫收集的数据点
添加新字段如需额外数据点,可添加字段并定义字段名和类型
附加数据可向模式添加的额外信息(时间戳、截图等)