在IDE中编写抓取器代码时,系统会自动将抓取器作为草稿保存到开发环境中。 在IDE内部,您可以逐页运行以了解抓取器的行为。 要进行完整的生产运行,请点击IDE屏幕右上角的“保存到生产环境”按钮,将抓取器保存到生产环境中。所有抓取器都会显示在控制面板中的我的抓取器选项卡下。任何处于非活动状态的抓取器都将以褪色状态显示。

启动抓取器

要开始收集数据,请从以下三个选项中选择一个:

您可以通过API开始数据收集,无需访问Bright Data控制面板:开始使用API文档

在启动API请求之前,请创建API令牌。 要创建API令牌,请转到: 控制面板侧边菜单设置 > 账户设置 > API令牌

  1. 手动设置输入 - 手动输入或通过API请求输入数据
  2. 触发行为 - 您可以添加多个并行请求,这些请求将根据定义的顺序激活。您可以将另一个作业添加到队列中,并同时运行两个以上的作业。
  3. API请求预览 - Bright Data为您提供REST API调用,用于启动抓取器。请选择“Linux Bash”查看器以查看CURL命令。发送请求后,您就会立即收到作业ID。

数据将根据之前定义的交付首选项交付给您。

如果交付首选项设置为API下载,则必须具有调用API才能接收数据

交付选项

您可以为数据集设置交付首选项。要进行此设置,只需点击“我的抓取器”选项卡中的抓取器行,然后点击“交付首选项”即可

输出架构

架构定义了数据点结构以及数据的组织方式。 您可以更改架构结构和修改数据点以满足您的需求,包括重新排序、设置默认值,以及将其他数据添加到输出配置中。 要添加新的字段名称,请进入高级设置并编辑代码。

输入/输出架构选择要配置的选项卡
自定义验证验证架构
已解析的数据抓取器收集的数据点
添加新字段如果您需要其他数据点,可以添加字段,并定义字段名称和类型
附加数据您可以将附加信息(时间戳、截图等)添加到架构中