跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

本指南将带您从零开始在 Bright Data Scraper Studio IDE 中构建一个自定义网页爬虫。您将编写导航目标站点的交互代码、提取结构化字段的解析器代码,然后将爬虫保存到生产环境并配置交付方式。完成后,您将获得一个可通过 API、手动或按计划触发的可运行爬虫。 预计用时: 每个爬虫约 15 到 30 分钟,具体取决于目标站点的复杂程度。

前提条件

  • 一个已激活且可访问 Scraper Studio 的 Bright Data 账户
  • 基础的 JavaScript 知识(变量、函数、控制流)
  • 一个您想抓取的目标 URL
如果您更习惯用自然语言描述爬虫而不是亲自写代码,请使用 Scraper Studio AI Agent。AI Agent 生成的爬虫与 IDE 编写的属于同一类。

如何在 IDE 中构建爬虫?

1

打开 Scraper Studio IDE

前往 www.bright.cn/cp/scrapers,点击 Scraper Studio,然后点击 Develop a web scraper (IDE)(使用 IDE 开发爬虫)打开一个空爬虫。
2

从零开始或选择模板

如果您的目标站点有匹配的起始模板,可以在 Templates(模板)面板中选择一个;否则从空白爬虫开始。模板是面向常见模式与站点的预构建爬虫,是快速熟悉 Bright Data Scraper Studio 写法约定的捷径。
3

编写交互代码

交互代码负责导航目标站点并将所需数据传递给解析器。在左侧的 Interaction code(交互代码)编辑器中编写。最简单的交互脚本:
navigate(input.url);
wait('.product-title');

let data = parse();
collect(data);
对于多页抓取,使用 next_stage() 进行分发:
navigate(input.url);
wait('.listing');
let listings = parse().listings;
for (let url of listings)
  next_stage({url});
每条交互命令的完整说明请参见 Scraper Studio 函数参考
4

编写解析器代码

解析器代码读取已加载页面的 HTML,返回一条结构化记录。使用 Cheerio 类 jQuery 风格的 $ 选择器。
return {
  title: $('h1').text_sane(),
  price: new Money(+$('.price').text().replace(/\D+/g, ''), 'USD'),
  image: new Image($('img.product').attr('src')),
  listings: $('.listing a').toArray().map(el => $(el).attr('href')),
};
解析器代码会将数据返回给调用 parse() 的那个交互函数。Bright Data Scraper Studio 提供的解析器辅助函数请参见 Scraper Studio 函数参考
5

选择 worker 类型

Settings(设置)面板中选择 worker 类型:
  • Code worker(更快、更便宜):适用于静态 HTML 页面和公开 JSON 端点
  • Browser worker:适用于 JavaScript 渲染的页面、点击、滚动、弹窗或需要捕获后台流量的场景
建议先用 Code worker,如果您需要使用仅限 Browser worker 的函数,再切换为 Browser worker。
6

运行预览

点击 Preview(预览)按钮,对单个测试输入运行爬虫。结果会出现在 Output(输出)选项卡。使用 Run log(运行日志)和 Browser network(浏览器网络)选项卡可调试失败的运行。
预期结果: Output 选项卡显示一条包含解析器代码中所定义字段的结构化记录。
7

保存到生产环境

点击右上角的 Save to Production(保存到生产环境)。爬虫会出现在控制面板的 My Scrapers(我的爬虫)下,可通过 API、手动或按计划触发。
8

配置交付方式

My Scrapers 中打开爬虫,点击 Delivery preferences(交付偏好),选择目标位置(API 下载、webhook、S3、GCS、Azure、SFTP 或电子邮件)以及格式(JSON、NDJSON、CSV、XLSX)。完整的选项请参见 启动数据收集与交付
9

启动爬虫

触发首次生产运行。根据您的工作流选择启动方式:

常见问题

在 Bright Data Scraper Studio IDE 中打开爬虫,查看 Last errors(最近错误)选项卡。每个失败的输入都会与其精确的错误信息和错误代码一起被保存(最多保留最近 1,000 次失败)。在 IDE 中重新运行失败的输入以本地复现问题,修复交互或解析器代码后,保存一个新的生产版本。
可以。Bright Data Scraper Studio 中的任何爬虫,无论以何种方式创建,都可以在 IDE 中打开并编辑。您可以修改提取逻辑、调整选择器、增删输出字段,以及更换 worker 类型。
在 IDE 的输出 schema 面板中点击 Edit Schema(编辑 schema)并添加新字段;或者直接在解析器代码中返回这些字段,保存到生产环境时 Bright Data Scraper Studio 会提示您更新 schema。
使用 collect() 每次追加一条记录,这是发出数据的默认方式。set_lines() 用于逐步收集记录的场景:即使后续步骤抛出错误,也会交付最近一次的快照。每次调用 set_lines() 都会覆盖前一次。详见 collectset_lines

相关内容

Scraper Studio 函数参考

交互命令与解析器命令的完整参考

最佳实践

构建快速、可靠爬虫的推荐模式

Scraper Studio IDE 界面

IDE 中每个面板与控件的参考

自我修复工具

使用自然语言提示词修复失效的爬虫并新增字段