> ## Documentation Index
> Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt
> Use this file to discover all available pages before exploring further.

# Web Scraper API vs DIY 网络爬虫

> 比较 Bright Data Web Scraper API 与 DIY 网络爬虫（代理 + 自定义代码），以确定哪种方法适合您的使用场景。

每个网络爬虫项目的开始方式都是相同的：编写解析器、添加代理轮换、部署。直到目标网站更改其 DOM、添加验证码或开始对无头浏览器进行指纹识别时，它才能工作。然后您就在维护爬虫，而不是使用数据。

本指南比较了 DIY 方法（代理 + 自定义代码）与 Bright Data Web Scraper API（700+ 预构建的、经过维护的爬虫），以便您可以决定哪种方法适合您的使用场景。

## 什么是 DIY 网络爬虫？

DIY 网络爬虫意味着您自己构建和维护整个管道：

* 爬虫（BeautifulSoup、Playwright、Puppeteer、Scrapy）
* 用于 IP 轮换的代理层
* 重试和错误处理逻辑
* 用于按定期运行作业的调度程序

这给了您完全的控制权。您选择自己的选择器并以自己的方式处理边界情况。

权衡是维护。每个目标网站都会成为一个单独的��码库，当网站更改其 DOM、添加反机器人措施或开始对无头浏览器进行指纹识别时，这个代码库会独立损坏。

## 什么是 Bright Data Web Scraper API？

Bright Data Web Scraper API 是由 Bright Data 工程团队维护的 [700+ 预构建爬虫](https://www.bright.cn/cp/scrapers/browse) 的集合，涵盖包括 LinkedIn、Amazon、Instagram、YouTube、TikTok、Google Maps 等顶级网站。您发送一个 URL，获得结构化的 JSON 数据，无需解析、无需选择器、无需代理配置。

每个爬虫平均返回 [220+ 个数据字段](https://aimultiple.com/serp-scraper-api)，涵盖丰富片段、地图坐标、广告扩展和结构化元数据等详细信息，这些信息是大多数 DIY 爬虫所缺少的。

如果您的目标网站未被覆盖，您可以使用 [Bright Data Scraper Studio](/cn/datasets/scraper-studio/introduction) 在几分钟内构建自定义爬虫：只需传递 URL 和对所需数据的纯文本描述。当网站更改其前端并破坏您的爬虫时，[自我修复工具](/cn/datasets/scraper-studio/self-healing-tool) 会根据提示重写受影响的代码，因此您不需要手动深入研究脚本。

## 相同的爬虫，两种方式

以下是使用每种方法爬取 Amazon 产品页面的样子。

**使用 Playwright 的 DIY**：您编写并维护��个选择器：

```python Python theme={null}
from playwright.sync_api import sync_playwright

def scrape_amazon_product(url: str, proxy: str) -> dict:
    with sync_playwright() as p:
        browser = p.chromium.launch(proxy={"server": proxy})
        page = browser.new_page()
        page.goto(url, wait_until="domcontentloaded")

        title = page.query_selector("#productTitle").inner_text().strip()
        price = page.query_selector(".a-price .a-offscreen").inner_text()
        rating = page.query_selector("#acrPopover span").inner_text()

        browser.close()
        return {"title": title, "price": price, "rating": rating}
```

<Warning>
  这些 CSS 选择器（`#productTitle`、`.a-price .a-offscreen`）会在 Amazon 更新其前端时损坏。发生这种情况时，您的爬虫会以静默方式返回错误的数据或崩溃。
</Warning>

**Web Scraper API**：一个 API 调用，结构化输出：

```bash cURL theme={null}
curl "https://api.brightdata.com/datasets/v3/scrape?dataset_id=gd_l7q7dkf244hwjntr0&format=json" \
  -H "Authorization: Bearer API_KEY" \
  -H "Content-Type: application/json" \
  -d '[{"url": "https://www.amazon.com/dp/B0EXAMPLE"}]'
```

```json Response theme={null}
{
  "title": "Wireless Bluetooth Headphones",
  "price": 49.99,
  "currency": "USD",
  "rating": 4.5,
  "reviews_count": 12847,
  "seller": "TechBrand Official",
  "availability": "In Stock"
}
```

<Tip>
  在 [爬虫库](/cn/datasets/scrapers/scrapers-library/overview) 中找到您的目标网站的 `dataset_id`。每个网站都有其自己的 ID。
</Tip>

## 关键差异

|             | DIY（代理 + 自定义代码）     | Web Scraper API                                                            |
| ----------- | ------------------- | -------------------------------------------------------------------------- |
| **爬虫逻辑**    | 您编写并维护选择器           | 为每个网站预构建                                                                   |
| **反机器人处理**  | 您管理验证码、指纹识别、隐形      | 自动                                                                         |
| **当网站更改时**  | 您调试并重新部署            | Bright Data 更新爬虫                                                           |
| **输出格式**    | 您解析为结构化数据的原始 HTML   | 具有命名字段的结构化 JSON/CSV                                                        |
| **数据字段**    | 仅您编写选择器的内容          | [每个爬虫平均 220+ 个字段](https://aimultiple.com/serp-scraper-api)                 |
| **首个结果的时间** | 几小时到几天              | 分钟                                                                         |
| **持续维护**    | 您，无期限               | Bright Data 的爬虫团队                                                          |
| **成功率**     | 通常 60–85%，取决于反机器人投资 | [平均 98.44%](https://www.bright.cn/blog/web-data/best-web-scraping-apis)    |
| **支持的网站**   | 任何您可以为其编写解析器的网站     | [700+ 预构建](https://www.bright.cn/cp/scrapers/browse)；通过 Scraper Studio 自定义 |

## 支持的网站

[爬虫库](/cn/datasets/scrapers/scrapers-library/overview) 包括跨类别的现成爬虫：

| 类别          | 示例网站                                 |
| ----------- | ------------------------------------ |
| **电子商务**    | Amazon、Walmart、eBay、Shopify          |
| **社交媒体**    | LinkedIn、Instagram、TikTok、X、Facebook |
| **搜索引擎**    | Google、Bing、Yahoo、DuckDuckGo         |
| **房地产**     | Zillow、Realtor、Redfin                |
| **旅游**      | Booking.com、Tripadvisor、Airbnb       |
| **工作和 B2B** | Indeed、Glassdoor、Crunchbase          |

如果您的目标不在库中，[Bright Data Scraper Studio](/cn/datasets/scraper-studio/ai-agent) 可以根据 URL 和对所需数据的自然语言描述生成自定义爬虫。

## 同步与异步收集

Web Scraper API 支持两种收集模式：

| 模式     | 端点         | 最适合                   | 并发限制                 |
| ------ | ---------- | --------------------- | -------------------- |
| **同步** | `/scrape`  | 单个 URL 查询、价格检查、CRM 丰富 | 5,000 个并发请求          |
| **异步** | `/trigger` | 包含数百或数千个 URL 的批量作业    | 100 个并发作业，每个 1 GB 输入 |

同步在相同的 HTTP 响应中返回结果。异步返回一个 `snapshot_id`：您轮询进度或通过 webhook 接收结果。交付选项包括 webhook（JSON、NDJSON、CSV）、S3、Google Cloud 和 Snowflake。

<Note>
  同步请求有 1 分钟的超时时间。如果爬取需要更长时间，它会自动转换为异步并返回 `snapshot_id`。
</Note>

有关端���示例和请求/响应格式，请参见 [快速入门指南](/cn/datasets/scrapers/scrapers-library/quickstart)。

## 何时使用什么

| 如果您需要...              | 使用                                                                                   | 您编写代码吗？                 | 您维护爬虫吗？ |
| --------------------- | ------------------------------------------------------------------------------------ | ----------------------- | ------- |
| 来自热门网站的结构化数据          | **Web Scraper API**                                                                  | 仅 API 调用                | 否       |
| 来自任何网站的原始 HTML（自定义解析） | **[Web Unlocker](/cn/scraping-automation/web-unlocker/bestpractices)**               | 是                       | 是       |
| JS 重型页面（点击、滚动、表单）     | **[Bright Data Browser API](/cn/scraping-automation/scraping-browser/introduction)** | 是（Playwright/Puppeteer） | 是       |
| 对您现有堆栈的完全控制           | **[代理](/proxy-networks/introduction)**                                               | 是（一切）                   | 是       |

## 限制和权衡

**预定义的数据字段。** 每个预构建爬虫平均返回 220+ 个结构化字段，这涵盖了大多数用例。如果您需要未包含的字段，您可以使用 [Bright Data Scraper Studio](/cn/datasets/scraper-studio/ai-agent) 自定义爬虫的输出，或返回到 [Web Unlocker](/cn/scraping-automation/web-unlocker/bestpractices) 获取原始 HTML。

**延迟。** 同步爬取通常在几秒内返回，但复杂网站可能需要更长时间并自动转换为异步。如果您需要亚秒级的响应，您可能想缓存结果或使用预先爬取的 [数据集](https://www.bright.cn/products/datasets)。

## 常见问题

<AccordionGroup>
  <Accordion title="Web Scraper API 的成本是多少？">
    定价从标准域名的每 1,000 条记录 \$1 起，高级目标的每 1,000 条记录 \$2.50 起。新账户每月获得 5,000 个免费信用额度（无需信用卡），加上高达 \$500 的匹配存款。有关完整详情，请参见[定价页面](https://www.bright.cn/pricing/web-scraper)和[免费套餐](/cn/general/account/billing-and-pricing/free-tier)。
  </Accordion>

  <Accordion title="我可以将 Web Scraper API 与 Python、Node.js 或其他语言一起使用吗？">
    是的。Web Scraper API 是一个标准 REST API，因此任何可以进行 HTTP 请求的语言都可以工作。Bright Data 还提供了官方的 [Python SDK](/sdk-quickstart) 和 [CLI 工具](/cli/overview) 用于基于终端的工作流。有关示例，请参见 [快速入门指南](/cn/datasets/scrapers/scrapers-library/quickstart)。
  </Accordion>

  <Accordion title="Web Scraper API 支持哪些输出格式？">
    JSON、NDJSON（换行分隔的 JSON）、JSON Lines 和 CSV。结果可以通过 webhook（最多 1 GB）、API 下载（最多 5 GB）或推送到外部存储（S3、Google Cloud、Snowflake）来交付。
  </Accordion>

  <Accordion title="我应该使用 Web Scraper API 还是 Web Unlocker？">
    当您想要来自受支持网站的结构��数据且零爬虫维护时，使用 **Web Scraper API**。当您需要来自任何网站的原始 HTML 并想编写自己的自定义解析逻辑时，使用 **[Web Unlocker](/cn/scraping-automation/web-unlocker/bestpractices)**。Web Unlocker 处理反机器人绕过，但返回 HTML，而不是结构化字段。
  </Accordion>

  <Accordion title="Web Scraper API 是否适用于 AI 和 LLM 训练管道？">
    是的。结构化的 JSON 输出可以直接被 AI 管道摄入，无需 HTML 清理或解析。Bright Data 还提供与 MCP 服务器、LlamaIndex、Google ADK、Dify 等的集成。
  </Accordion>

  <Accordion title="使用 Bright Data 的网络爬虫在合规性和道德上是否合适？">
    Bright Data 在严格的合规标准下运营。所有爬虫仅收集公开可用的数据。有关其道德网络数据收集政策、KYC 流程和合规框架，请参见 [信任中心](https://www.bright.cn/trustcenter)。
  </Accordion>
</AccordionGroup>