Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

每个网络爬虫项目的开始方式都是相同的:编写解析器、添加代理轮换、部署。直到目标网站更改其 DOM、添加验证码或开始对无头浏览器进行指纹识别时,它才能工作。然后您就在维护爬虫,而不是使用数据。 本指南比较了 DIY 方法(代理 + 自定义代码)与 Bright Data Web Scraper API(660+ 预构建的、经过维护的爬虫),以便您可以决定哪种方法适合您的使用场景。

什么是 DIY 网络爬虫?

DIY 网络爬虫意味着您自己构建和维护整个管道:
  • 爬虫(BeautifulSoup、Playwright、Puppeteer、Scrapy)
  • 用于 IP 轮换的代理层
  • 重试和错误处理逻辑
  • 用于按定期运行作业的调度程序
这给了您完全的控制权。您选择自己的选择器并以自己的方式处理边界情况。 权衡是维护。每个目标网站都会成为一个单独的��码库,当网站更改其 DOM、添加反机器人措施或开始对无头浏览器进行指纹识别时,这个代码库会独立损坏。

什么是 Bright Data Web Scraper API?

Bright Data Web Scraper API 是由 Bright Data 工程团队维护的 660+ 预构建爬虫 的集合,涵盖包括 LinkedIn、Amazon、Instagram、YouTube、TikTok、Google Maps 等顶级网站。您发送一个 URL,获得结构化的 JSON 数据,无需解析、无需选择器、无需代理配置。 每个爬虫平均返回 220+ 个数据字段,涵盖丰富片段、地图坐标、广告扩展和结构化元数据等详细信息,这些信息是大多数 DIY 爬虫所缺少的。 如果您的目标网站未被覆盖,您可以使用 Bright Data Scraper Studio 在几分钟内构建自定义爬虫:只需传递 URL 和对所需数据的纯文本描述。当网站更改其前端并破坏您的爬虫时,自我修复工具 会根据提示重写受影响的代码,因此您不需要手动深入研究脚本。

相同的爬虫,两种方式

以下是使用每种方法爬取 Amazon 产品页面的样子。 使用 Playwright 的 DIY:您编写并维护��个选择器:
Python
from playwright.sync_api import sync_playwright

def scrape_amazon_product(url: str, proxy: str) -> dict:
    with sync_playwright() as p:
        browser = p.chromium.launch(proxy={"server": proxy})
        page = browser.new_page()
        page.goto(url, wait_until="domcontentloaded")

        title = page.query_selector("#productTitle").inner_text().strip()
        price = page.query_selector(".a-price .a-offscreen").inner_text()
        rating = page.query_selector("#acrPopover span").inner_text()

        browser.close()
        return {"title": title, "price": price, "rating": rating}
这些 CSS 选择器(#productTitle.a-price .a-offscreen)会在 Amazon 更新其前端时损坏。发生这种情况时,您的爬虫会以静默方式返回错误的数据或崩溃。
Web Scraper API:一个 API 调用,结构化输出:
cURL
curl "https://api.brightdata.com/datasets/v3/scrape?dataset_id=gd_l7q7dkf244hwjntr0&format=json" \
  -H "Authorization: Bearer API_KEY" \
  -H "Content-Type: application/json" \
  -d '[{"url": "https://www.amazon.com/dp/B0EXAMPLE"}]'
Response
{
  "title": "Wireless Bluetooth Headphones",
  "price": 49.99,
  "currency": "USD",
  "rating": 4.5,
  "reviews_count": 12847,
  "seller": "TechBrand Official",
  "availability": "In Stock"
}
爬虫库 中找到您的目标网站的 dataset_id。每个网站都有其自己的 ID。

关键差异

DIY(代理 + 自定义代码)Web Scraper API
爬虫逻辑您编写并维护选择器为每个网站预构建
反机器人处理您管理验证码、指纹识别、隐形自动
当网站更改时您调试并重新部署Bright Data 更新爬虫
输出格式您解析为结构化数据的原始 HTML具有命名字段的结构化 JSON/CSV
数据字段仅您编写选择器的内容每个爬虫平均 220+ 个字段
首个结果的时间几小时到几天分钟
持续维护您,无期限Bright Data 的爬虫团队
成功率通常 60–85%,取决于反机器人投资平均 98.44%
支持的网站任何您可以为其编写解析器的网站660+ 预构建;通过 Scraper Studio 自定义

支持的网站

爬虫库 包括跨类别的现成爬虫:
类别示例网站
电子商务Amazon、Walmart、eBay、Shopify
社交媒体LinkedIn、Instagram、TikTok、X、Facebook
搜索引擎Google、Bing、Yahoo、DuckDuckGo
房地产Zillow、Realtor、Redfin
旅游Booking.com、Tripadvisor、Airbnb
工作和 B2BIndeed、Glassdoor、Crunchbase
如果您的目标不在库中,Bright Data Scraper Studio 可以根据 URL 和对所需数据的自然语言描述生成自定义爬虫。

同步与异步收集

Web Scraper API 支持两种收集模式:
模式端点最适合并发限制
同步/scrape单个 URL 查询、价格检查、CRM 丰富5,000 个并发请求
异步/trigger包含数百或数千个 URL 的批量作业100 个并发作业,每个 1 GB 输入
同步在相同的 HTTP 响应中返回结果。异步返回一个 snapshot_id:您轮询进度或通过 webhook 接收结果。交付选项包括 webhook(JSON、NDJSON、CSV)、S3、Google Cloud 和 Snowflake。
同步请求有 1 分钟的超时时间。如果爬取需要更长时间,它会自动转换为异步并返回 snapshot_id
有关端���示例和请求/响应格式,请参见 快速入门指南

何时使用什么

如果您需要…使用您编写代码吗?您维护爬虫吗?
来自热门网站的结构化数据Web Scraper API仅 API 调用
来自任何网站的原始 HTML(自定义解析)Web Unlocker
JS 重型页面(点击、滚动、表单)Bright Data Browser API是(Playwright/Puppeteer)
对您现有堆栈的完全控制代理是(一切)

限制和权衡

预定义的数据字段。 每个预构建爬虫平均返回 220+ 个结构化字段,这涵盖了大多数用例。如果您需要未包含的字段,您可以使用 Bright Data Scraper Studio 自定义爬虫的输出,或返回到 Web Unlocker 获取原始 HTML。 延迟。 同步爬取通常在几秒内返回,但复杂网站可能需要更长时间并自动转换为异步。如果您需要亚秒级的响应,您可能想缓存结果或使用预先爬取的 数据集

常见问题

定价从标准域名的每 1,000 条记录 $1 起,高级目标的每 1,000 条记录 $2.50 起。新账户获得 $2 的免费额度(无需信用卡),加上高达 $500 的匹配存款。有关完整详情,请参见 定价页面
是的。Web Scraper API 是一个标准 REST API,因此任何可以进行 HTTP 请求的语言都可以工作。Bright Data 还提供了官方的 Python SDKCLI 工具 用于基于终端的工作流。有关示例,请参见 快速入门指南
JSON、NDJSON(换行分隔的 JSON)、JSON Lines 和 CSV。结果可以通过 webhook(最多 1 GB)、API 下载(最多 5 GB)或推送到外部存储(S3、Google Cloud、Snowflake)来交付。
当您想要来自受支持网站的结构��数据且零爬虫维护时,使用 Web Scraper API。当您需要来自任何网站的原始 HTML 并想编写自己的自定义解析逻辑时,使用 Web Unlocker。Web Unlocker 处理反机器人绕过,但返回 HTML,而不是结构化字段。
是的。结构化的 JSON 输出可以直接被 AI 管道摄入,无需 HTML 清理或解析。Bright Data 还提供与 MCP 服务器、LlamaIndex、Google ADK、Dify 等的集成。
Bright Data 在严格的合规标准下运营。所有爬虫仅收集公开可用的数据。有关其道德网络数据收集政策、KYC 流程和合规框架,请参见 信任中心