本指南将带您从零开始在 Bright Data Scraper Studio IDE 中构建一个自定义网页爬虫。您将编写导航目标站点的交互代码、提取结构化字段的解析器代码,然后将爬虫保存到生产环境并配置交付方式。完成后,您将获得一个可通过 API、手动或按计划触发的可运行爬虫。 预计用时: 每个爬虫约 15 到 30 分钟,具体取决于目标站点的复杂程度。Documentation Index
Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt
Use this file to discover all available pages before exploring further.
前提条件
- 一个已激活且可访问 Scraper Studio 的 Bright Data 账户
- 基础的 JavaScript 知识(变量、函数、控制流)
- 一个您想抓取的目标 URL
如何在 IDE 中构建爬虫?
打开 Scraper Studio IDE
前往 www.bright.cn/cp/scrapers,点击 Scraper Studio,然后点击 Develop a web scraper (IDE)(使用 IDE 开发爬虫)打开一个空爬虫。
从零开始或选择模板
如果您的目标站点有匹配的起始模板,可以在 Templates(模板)面板中选择一个;否则从空白爬虫开始。模板是面向常见模式与站点的预构建爬虫,是快速熟悉 Bright Data Scraper Studio 写法约定的捷径。
编写交互代码
交互代码负责导航目标站点并将所需数据传递给解析器。在左侧的 Interaction code(交互代码)编辑器中编写。最简单的交互脚本:对于多页抓取,使用 每条交互命令的完整说明请参见 Scraper Studio 函数参考。
next_stage() 进行分发:编写解析器代码
解析器代码读取已加载页面的 HTML,返回一条结构化记录。使用 Cheerio 类 jQuery 风格的 解析器代码会将数据返回给调用
$ 选择器。parse() 的那个交互函数。Bright Data Scraper Studio 提供的解析器辅助函数请参见 Scraper Studio 函数参考。选择 worker 类型
在 Settings(设置)面板中选择 worker 类型:
- Code worker(更快、更便宜):适用于静态 HTML 页面和公开 JSON 端点
- Browser worker:适用于 JavaScript 渲染的页面、点击、滚动、弹窗或需要捕获后台流量的场景
运行预览
点击 Preview(预览)按钮,对单个测试输入运行爬虫。结果会出现在 Output(输出)选项卡。使用 Run log(运行日志)和 Browser network(浏览器网络)选项卡可调试失败的运行。
预期结果: Output 选项卡显示一条包含解析器代码中所定义字段的结构化记录。
配置交付方式
在 My Scrapers 中打开爬虫,点击 Delivery preferences(交付偏好),选择目标位置(API 下载、webhook、S3、GCS、Azure、SFTP 或电子邮件)以及格式(JSON、NDJSON、CSV、XLSX)。完整的选项请参见 启动数据收集与交付。
常见问题
如何调试某个特定输入下失败的爬虫?
如何调试某个特定输入下失败的爬虫?
在 Bright Data Scraper Studio IDE 中打开爬虫,查看 Last errors(最近错误)选项卡。每个失败的输入都会与其精确的错误信息和错误代码一起被保存(最多保留最近 1,000 次失败)。在 IDE 中重新运行失败的输入以本地复现问题,修复交互或解析器代码后,保存一个新的生产版本。
可以编辑由 AI Agent 生成的爬虫吗?
可以编辑由 AI Agent 生成的爬虫吗?
可以。Bright Data Scraper Studio 中的任何爬虫,无论以何种方式创建,都可以在 IDE 中打开并编辑。您可以修改提取逻辑、调整选择器、增删输出字段,以及更换 worker 类型。
如何向输出 schema 添加字段?
如何向输出 schema 添加字段?
在 IDE 的输出 schema 面板中点击 Edit Schema(编辑 schema)并添加新字段;或者直接在解析器代码中返回这些字段,保存到生产环境时 Bright Data Scraper Studio 会提示您更新 schema。
相关内容
Scraper Studio 函数参考
交互命令与解析器命令的完整参考
最佳实践
构建快速、可靠爬虫的推荐模式
Scraper Studio IDE 界面
IDE 中每个面板与控件的参考
自我修复工具
使用自然语言提示词修复失效的爬虫并新增字段