跳转到主要内容
Scraper Studio

为任意网站构建自定义爬虫

目标网站没有现成的爬虫?描述您想要的数据,即可在 Bright Data 的代理与解封基础设施上构建一个。无需管理服务器、代理轮换或重试逻辑。

Bright Data Scraper Studio 主视觉插图
💡不想写代码?用自然语言描述您的目标,让 AI Agent 直接从您的控制台生成爬虫。

在终端中创建爬虫

安装 Bright Data CLI,登录后传入一个目标 URL 和一句描述所需数据的话。Bright Data 的 AI Agent 会生成输出 schema、编写爬虫代码并返回一个 Collector ID。
npm install -g @brightdata/cli
bdata login
bdata scraper create https://news.ycombinator.com \
  "Extract top stories: title, url, points, author, comment count"
同一个爬虫可以在 AI Agent 或 IDE 中打开编辑,并能在 Claude Code、Cursor 或 Codex 等任意编码代理的内置终端中原样运行。完整演练参见 使用 Bright Data CLI 构建爬虫

选择哪种构建方式

AI Agent

用自然语言描述数据。Bright Data AI 会生成 schema 并编写爬虫代码。无需写代码,最快得到可用爬虫。

IDE

在基于浏览器的编辑器中编写和调试 JavaScript。对交互与解析逻辑拥有完全控制权。

Bright Data CLI

从终端或任意编码代理创建、运行和自愈爬虫。新功能。
无论以何种方式构建,每个爬虫都产生相同的输出。在 AI Agent 中创建的爬虫随时可以在 IDE 中打开和编辑,因此您不会被锁定在某一种方式上。

工作原理

每个 Bright Data Scraper Studio 爬虫都执行两项核心操作,并在目标网站发生变化时保持自身持续运行。

交互

导航到目标 URL,处理分页,点击元素或发送 HTTP 请求。

解析

读取页面 HTML,并将结构化字段提取到预定义的 schema 中:JSON、CSV、NDJSON 或 XLSX。

自愈

当网站布局变化导致爬虫失效时,用一段自然语言提示词更新它,而无需重写选择器。

何时使用 Scraper Studio

当您需要的数据不在 爬虫库 中、希望拥有爬虫逻辑的所有权,并且不想自行管理代理或基础设施时,就使用 Bright Data Scraper Studio。完整对比以及 AI Agent 与 IDE 的取舍,参见 了解 Scraper Studio

现成爬虫

需要零配置的热门网站?请改用 Web Scraper API 库中的 700+ 现成爬虫。

托管服务

希望由我们为您构建并运营爬虫?Bright Data 团队为您的目标构建自定义爬虫。无需写代码。

数据集市场

完全跳过抓取。购买按计划刷新的现成数据集。无需写代码。

您可以构建什么

小众网站抓取

从任意没有现成爬虫的网站提取结构化数据,从区域性市场到行业目录皆可。

价格监控

在标准爬虫库未覆盖的网站上跟踪价格、库存和商品列表。

AI 与 RAG 数据摄取

将目标页面转换为干净的 JSON 或 NDJSON,供模型训练和检索管道使用。

销售线索生成

从目录和列表中提取联系人与公司数据,导入您的销售管道。

内容聚合

从多个来源收集文章、列表或评论,汇聚成一个结构化数据源。

市场研究

从频繁变化的网站聚合竞品动态、目录数据和趋势。

进一步了解