Documentation Index
Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt
Use this file to discover all available pages before exploring further.
使用 AI Agent 构建您的第一个爬虫
在本教程中,我们将使用 Scraper Studio 的 AI Agent 使用自然语言创建自定义网络爬虫 - 无需编码。完成后,您将拥有一个运行中的爬虫,可以从任何公共网站收集结构化数据。完成时间:约 10 分钟
前置条件
前置条件
- Bright Data 账户(免费注册)
- 您想要爬取的网站的 URL
输入目标网站 URL
将您想要爬取的页面 URL 粘贴到聊天输入框中并提���。除了 URL 外,您还可以包括额外的说明(可选)以帮助 AI 直接构建更准确的爬虫。您提供的背景信息越多,输出效果越好。
有用的信息包括:

- 特定字段您想要收集(例如,“我需要价格、标题和库存状态”)
- 数据在页面上的位置(例如,“价格在产品详情面板中,而不是列表页面”)
- 访问数据所需的操作(例如,“您需要点击’显示更多’来加载完整描述”)
- CSS 选择器,如果您知道的话(例如,“.product-price span.amount”)
- 页面加载行为,如果网站较慢或延迟加载内容(例如,“结果动态加载,请给它额外的时间”)
预期结果:AI Agent 确认 URL,可能会提出一两个关于您想要收集的数据的澄清问题
审查并批准架构
仔细阅读生成的架构。您有三���选项:
- 批准 - 如果字段看起来正确,点击”批准”继续
- 拒绝 - 在聊天中输入您的反馈(例如,“删除图像字段并添加评级字段”),AI 将重新生成架构
- 直接编辑 - 无需返回聊天,您可以内联修改架构:
- 点击任何字段旁的 (编辑)来更新其名称或数据类型
- 点击 (删除)来删除您不需要的字段
- 点击 添加字段 如果您想添加其他字段

其他选项:
- 从头开始:删除所有架构字段,以便您可以从空白状态手动构建架构
- 重置架构:放弃所有更改并将架构恢复到其原始 AI 生成状态
- 编辑完成后点击 批准
- 上传您自己的架构:如果您已经有架构,可以直接上传���下载架构示例文件以使用正确的格式
- 编辑完成后点击 批准
预期结果:批准后,AI Agent 开始生成爬虫代码。
AI Agent 可以构建什么
AI Agent 根据特定的输入类型和收集目标创建爬虫。它不会爬取整个域 - 提供主页 URL 并要求它”爬取一切”将不会产生有用的结果。 AI Agent 可以创建四种爬虫类型:1. 产品页面 (PDP) 爬虫
您提供产品页面 URL 列表。爬虫访问每个 URL 并提取产品级数据(例如,标题、价格、描述、图像)。使用时机:当您已有想要爬取的特定页面的 URL 时。
2. 发现爬虫
您提供分类页面 URL 或列表页面 URL。爬虫直接从该列表收集可用数据 - 如产品标题、价格和评分 - 而不访问单个产品页面。使用时机:当您需要分类或搜索结果页面中的项目概览,且不需要单个产品页面的详细信息时。
3. 发现 + PDP 爬虫
您提供分类或列表页面 URL。爬虫首先发现该页面上的所有产品 URL,然后访问每个产品页面以收集完整的产品级详情。使用时机:当您需���整个分类的完整产品数据,而不仅仅是列表页面上可见的数据时。
4. 搜索爬虫
您提供搜索关键字。AI Agent 根据您的声明要求创建发现爬虫或发现 + PDP 爬虫 - 首先找到该关键字的结果,然后从中收集数据。使用时机:当您没有特定 URL 并想根据搜索词收集数据时。


