跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

使用 AI Agent 构建您的第一个爬虫

在本教程中,我们将使用 Scraper Studio 的 AI Agent 使用自然语言创建自定义网络爬虫 - 无需编码。完成后,您将拥有一个运行中的爬虫,可以从任何公共网站收集结构化数据。
完成时间:约 10 分钟
  • Bright Data 账户(免费注册
  • 您想要爬取的网站的 URL
1

导航到 Scraper Studio 页面

导航到 Scraper Studio 页面
2

输入目标网站 URL

将您想要爬取的页面 URL 粘贴到聊天输入框中并提���。除了 URL 外,您还可以包括额外的说明(可选)以帮助 AI 直接构建更准确的爬虫。您提供的背景信息越多,输出效果越好。
add-additional-instructions.png
有用的信息包括:
  • 特定字段您想要收集(例如,“我需要价格、标题和库存状态”)
  • 数据在页面上的位置(例如,“价格在产品详情面板中,而不是列表页面”)
  • 访问数据所需的操作(例如,“您需要点击’显示更多’来加载完整描述”)
  • CSS 选择器,如果您知道的话(例如,“.product-price span.amount”)
  • 页面加载行为,如果网站较慢或延迟加载内容(例如,“结果动态加载,请给它额外的时间”)
预期结果:AI Agent 确认 URL,可能会提出一两个关于您想要收集的数据的澄清问题
3

回答 AI 的问题

用纯语言进行回复
预期结果:AI Agent 生成一个架构 - 它将提取的数据字段的结构化列表及其数据类型。这是您爬虫输出的蓝图。
4

审查并批准架构

仔细阅读生成的架构。您有三���选项:
  1. 批准 - 如果字段看起来正确,点击”批准”继续
  2. 拒绝 - 在聊天中输入您的反馈(例如,“删除图像字段并添加评级字段”),AI 将重新生成架构
  3. 直接编辑 - 无需返回聊天,您可以内联修改架构:
    • 点击任何字段旁的 (编辑)来更新其名称或数据类型
    • 点击 (删除)来删除您不需要的字段
    • 点击 添加字段 如果您想添加其他字段
approve-schema.png

其他选项:

  1. 从头开始:删除所有架构字段,以便您可以从空白状态手动构建架构
  2. 重置架构:放弃所有更改并将架构恢复到其原始 AI 生成状态
    • 编辑完成后点击 批准
  3. 上传您自己的架构:如果您已经有架构,可以直接上传���下载架构示例文件以使用正确的格式
    • 编辑完成后点击 批准
预期结果:批准后,AI Agent 开始生成爬虫代码。
5

等待代码生成

AI 编写完整的爬虫代码 - 包括提取逻辑、导航处理、数据验证和错误处理。这需要几分钟。
预期结果:出现确认弹窗表示您的爬虫已准备好。
collector-created-successfully.png
6

运行您的爬虫

点击 试一试 - 这将重定向您到”手动启动”页面。审查您的收集设置并点击 开始 来开始数据收集。
start-button
您也可以选择其他启动方式:
  • 通过 API 启动 - 在不进入控制面板的情况下以编程方式触发爬虫
  • 计划 - 在每日、每周或自定义间隔上设置定期运行
预期结果:您的爬虫开始收集数据。您可以从”运行”仪表板监控进度,并在任务完成后以 JSON、NDJSON、CSV 或 XLSX 格式下载结果。
您可以使用我们的 New 自我修复工具AI 代码重构)在爬虫准备好后对其进行调整,或者在需要时在内置 IDE 中编辑代码。

AI Agent 可以构建什么

AI Agent 根据特定的输入类型和收集目标创建爬虫。它不会爬取整个域 - 提供主页 URL 并要求它”爬取一切”将不会产生有用的结果。 AI Agent 可以创建四种爬虫类型:

1. 产品页面 (PDP) 爬虫

您提供产品页面 URL 列表。爬虫访问每个 URL 并提取产品级数据(例如,标题、价格、描述、图像)。
使用时机:当您已有想要爬取的特定页面的 URL 时。

2. 发现爬虫

您提供分类页面 URL 或列表页面 URL。爬虫直接从该列表收集可用数据 - 如产品标题、价格和评分 - 而不访问单个产品页面。
使用时机:当您需要分类或搜索结果页面中的项目概览,且不需要单个产品页面的详细信息时。

3. 发现 + PDP 爬虫

您提供分类或列表页面 URL。爬虫首先发现该页面上的所有产品 URL,然后访问每个产品页面以收集完整的产品级详情。
使用时机:当您需���整个分类的完整产品数据,而不仅仅是列表页面上可见的数据时。

4. 搜索爬虫

您提供搜索关键字。AI Agent 根据您的声明要求创建发现爬虫或发现 + PDP 爬虫 - 首先找到该关键字的结果,然后从中收集数据。
使用时机:当您没有特定 URL 并想根据搜索词收集数据时。