每个网络爬虫项目的开始方式都是相同的:编写解析器、添加代理轮换、部署。直到目标网站更改其 DOM、添加验证码或开始对无头浏览器进行指纹识别时,它才能工作。然后您就在维护爬虫,而不是使用数据。 本指南比较了 DIY 方法(代理 + 自定义代码)与 Bright Data Web Scraper API(660+ 预构建的、经过维护的爬虫),以便您可以决定哪种方法适合您的使用场景。Documentation Index
Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt
Use this file to discover all available pages before exploring further.
什么是 DIY 网络爬虫?
DIY 网络爬虫意味着您自己构建和维护整个管道:- 爬虫(BeautifulSoup、Playwright、Puppeteer、Scrapy)
- 用于 IP 轮换的代理层
- 重试和错误处理逻辑
- 用于按定期运行作业的调度程序
什么是 Bright Data Web Scraper API?
Bright Data Web Scraper API 是由 Bright Data 工程团队维护的 660+ 预构建爬虫 的集合,涵盖包括 LinkedIn、Amazon、Instagram、YouTube、TikTok、Google Maps 等顶级网站。您发送一个 URL,获得结构化的 JSON 数据,无需解析、无需选择器、无需代理配置。 每个爬虫平均返回 220+ 个数据字段,涵盖丰富片段、地图坐标、广告扩展和结构化元数据等详细信息,这些信息是大多数 DIY 爬虫所缺少的。 如果您的目标网站未被覆盖,您可以使用 Bright Data Scraper Studio 在几分钟内构建自定义爬虫:只需传递 URL 和对所需数据的纯文本描述。当网站更改其前端并破坏您的爬虫时,自我修复工具 会根据提示重写受影响的代码,因此您不需要手动深入研究脚本。相同的爬虫,两种方式
以下是使用每种方法爬取 Amazon 产品页面的样子。 使用 Playwright 的 DIY:您编写并维护��个选择器:Python
cURL
Response
关键差异
| DIY(代理 + 自定义代码) | Web Scraper API | |
|---|---|---|
| 爬虫逻辑 | 您编写并维护选择器 | 为每个网站预构建 |
| 反机器人处理 | 您管理验证码、指纹识别、隐形 | 自动 |
| 当网站更改时 | 您调试并重新部署 | Bright Data 更新爬虫 |
| 输出格式 | 您解析为结构化数据的原始 HTML | 具有命名字段的结构化 JSON/CSV |
| 数据字段 | 仅您编写选择器的内容 | 每个爬虫平均 220+ 个字段 |
| 首个结果的时间 | 几小时到几天 | 分钟 |
| 持续维护 | 您,无期限 | Bright Data 的爬虫团队 |
| 成功率 | 通常 60–85%,取决于反机器人投资 | 平均 98.44% |
| 支持的网站 | 任何您可以为其编写解析器的网站 | 660+ 预构建;通过 Scraper Studio 自定义 |
支持的网站
爬虫库 包括跨类别的现成爬虫:| 类别 | 示例网站 |
|---|---|
| 电子商务 | Amazon、Walmart、eBay、Shopify |
| 社交媒体 | LinkedIn、Instagram、TikTok、X、Facebook |
| 搜索引擎 | Google、Bing、Yahoo、DuckDuckGo |
| 房地产 | Zillow、Realtor、Redfin |
| 旅游 | Booking.com、Tripadvisor、Airbnb |
| 工作和 B2B | Indeed、Glassdoor、Crunchbase |
同步与异步收集
Web Scraper API 支持两种收集模式:| 模式 | 端点 | 最适合 | 并发限制 |
|---|---|---|---|
| 同步 | /scrape | 单个 URL 查询、价格检查、CRM 丰富 | 5,000 个并发请求 |
| 异步 | /trigger | 包含数百或数千个 URL 的批量作业 | 100 个并发作业,每个 1 GB 输入 |
snapshot_id:您轮询进度或通过 webhook 接收结果。交付选项包括 webhook(JSON、NDJSON、CSV)、S3、Google Cloud 和 Snowflake。
同步请求有 1 分钟的超时时间。如果爬取需要更长时间,它会自动转换为异步并返回
snapshot_id。何时使用什么
| 如果您需要… | 使用 | 您编写代码吗? | 您维护爬虫吗? |
|---|---|---|---|
| 来自热门网站的结构化数据 | Web Scraper API | 仅 API 调用 | 否 |
| 来自任何网站的原始 HTML(自定义解析) | Web Unlocker | 是 | 是 |
| JS 重型页面(点击、滚动、表单) | Bright Data Browser API | 是(Playwright/Puppeteer) | 是 |
| 对您现有堆栈的完全控制 | 代理 | 是(一切) | 是 |
限制和权衡
预定义的数据字段。 每个预构建爬虫平均返回 220+ 个结构化字段,这涵盖了大多数用例。如果您需要未包含的字段,您可以使用 Bright Data Scraper Studio 自定义爬虫的输出,或返回到 Web Unlocker 获取原始 HTML。 延迟。 同步爬取通常在几秒内返回,但复杂网站可能需要更长时间并自动转换为异步。如果您需要亚秒级的响应,您可能想缓存结果或使用预先爬取的 数据集。常见问题
Web Scraper API 的成本是多少?
Web Scraper API 的成本是多少?
定价从标准域名的每 1,000 条记录 $1 起,高级目标的每 1,000 条记录 $2.50 起。新账户获得 $2 的免费额度(无需信用卡),加上高达 $500 的匹配存款。有关完整详情,请参见 定价页面。
我可以将 Web Scraper API 与 Python、Node.js 或其他语言一起使用吗?
我可以将 Web Scraper API 与 Python、Node.js 或其他语言一起使用吗?
是的。Web Scraper API 是一个标准 REST API,因此任何可以进行 HTTP 请求的语言都可以工作。Bright Data 还提供了官方的 Python SDK 和 CLI 工具 用于基于终端的工作流。有关示例,请参见 快速入门指南。
Web Scraper API 支持哪些输出格式?
Web Scraper API 支持哪些输出格式?
JSON、NDJSON(换行分隔的 JSON)、JSON Lines 和 CSV。结果可以通过 webhook(最多 1 GB)、API 下载(最多 5 GB)或推送到外部存储(S3、Google Cloud、Snowflake)来交付。
我应该使用 Web Scraper API 还是 Web Unlocker?
我应该使用 Web Scraper API 还是 Web Unlocker?
当您想要来自受支持网站的结构��数据且零爬虫维护时,使用 Web Scraper API。当您需要来自任何网站的原始 HTML 并想编写自己的自定义解析逻辑时,使用 Web Unlocker。Web Unlocker 处理反机器人绕过,但返回 HTML,而不是结构化字段。
Web Scraper API 是否适用于 AI 和 LLM 训练管道?
Web Scraper API 是否适用于 AI 和 LLM 训练管道?
是的。结构化的 JSON 输出可以直接被 AI 管道摄入,无需 HTML 清理或解析。Bright Data 还提供与 MCP 服务器、LlamaIndex、Google ADK、Dify 等的集成。
使用 Bright Data 的网络爬虫在合规性和道德上是否合适?
使用 Bright Data 的网络爬虫在合规性和道德上是否合适?
Bright Data 在严格的合规标准下运营。所有爬虫仅收集公开可用的数据。有关其道德网络数据收集政策、KYC 流程和合规框架,请参见 信任中心。