跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

在 Bright Data Scraper Studio 中把爬虫保存到生产环境后,您可以通过三种方式触发采集运行(API、手动、按计划),并以五种格式(JSON、NDJSON、CSV、XLSX、Parquet)将结果交付到八种目的地(API 下载、webhook、Amazon S3、Google Cloud Storage、Azure Blob Storage、Alibaba Cloud OSS、SFTP 或电子邮件)。本页涵盖所有选项。

前提条件

如何把爬虫保存到生产环境?

在 Bright Data Scraper Studio IDE 中编辑代码时,系统会自动将您的工作保存为开发草稿。要让爬虫能在 IDE 之外运行,请点击 IDE 右上角的 Save to Production(保存到生产环境)。所有生产爬虫会出现在控制面板的 My Scrapers(我的爬虫)下,非活动爬虫以淡化状态显示。
My Scrapers 仪表盘,显示已保存的爬虫

如何触发爬虫运行?

Bright Data Scraper Studio 支持三种启动采集的方式。
无需打开控制面板,通过 REST API 启动采集。认证、请求格式与响应 schema 请参见 API 入门指南在发送请求前,请先创建 API key。前往 仪表盘 > 账户设置 > API key
通过 API 启动爬虫
API 触发面板提供三项内容:
  1. Inputs(输入): 手动或通过 API 请求体提供输入值
  2. Trigger behavior(触发行为): 将多个请求加入队列以并行或顺序运行;排队任务按提交顺序执行
  3. API 请求预览: Bright Data 会为您生成一条可直接运行的 curl 命令。请为 curl 选择 Linux Bash 视图。响应中包含一个 job_id,稍后可用它拉取数据。
当交付方式设置为 API download(API 下载)时,必须调用 “Receive data” API 端点才能获取结果。Webhook 与云存储目的地会自动推送数据。

速率限制与并发限制是多少?

Bright Data Scraper Studio 按爬虫强制执行并发限制,依据请求是批量还是实时。
采集类型并发限制
Batch(批量)每个爬虫最多 1,000 个并发请求
Real-time(实时)无限制
当超出批量限制时,Bright Data 会返回错误:Maximum limit of 1000 jobs per scraper has been exceeded. Please reduce the number of parallel jobs.

批量 vs 实时采集

Bright Data Scraper Studio 提供两种采集方法,分别针对不同使用场景做了优化。
Batch 批量采集Real-time 实时采集
输入规模每个任务多条输入(URL 或关键词列表)每个请求一条输入
响应时机任务全部完成后返回结果实时返回响应
保留期16 天7 天
并发限制1,000 个并发任务
适用场景构建数据集且可等待在一次实时请求内得到结果
两种方法都可靠,选择与您应用形态匹配的那一种即可。

如何配置交付?

打开 My Scrapers,点击爬虫所在行,选择 Delivery preferences(交付偏好)以设置 Bright Data Scraper Studio 投递结果的目的地与方式。
  • Batch(批量): 整个任务完成后获取结果;适合大数据集
    • Split batch(分批): 准备就绪的部分结果以小批次先行交付
  • Real-time(实时): 获取单次请求的快速响应
    • Skip retries(跳过重试): 出错时不重试(以完整性换取速度)
  • JSON
  • NDJSON
  • CSV
  • XLSX
  • Parquet
  • 电子邮件
  • API 下载(通过 REST API 拉取)
  • Webhook(通过 HTTPS POST 推送)
  • 云存储:Amazon S3、Google Cloud Storage、Azure Blob Storage、Alibaba Cloud OSS
  • SFTP / FTP
媒体文件无法通过电子邮件或 API 下载交付。采集图片、视频或其他二进制内容时请使用云存储、SFTP 或 webhook。
  • 结果与错误分别输出到两个文件
  • 结果与错误合并到一个文件
  • 仅成功的结果
  • 仅错误
  • 采集完成时通知
  • 触达成功率阈值时通知
  • 出现错误时通知

如何配置输出 schema?

输出 schema 定义您所采集数据的结构:字段名、数据类型、默认值,以及您希望 Bright Data Scraper Studio 附加的任何额外元数据(时间戳、截图、WARC 快照)。 输出 schema 配置
控件说明
Input / Output schema在输入与输出两种 schema 视图之间切换
Custom validation定义对每条采集记录运行的校验规则
Parsed data爬虫解析器代码输出的原始字段
Add new field按名称与类型新增字段
Additional data可选元数据:时间戳、截图、WARC 快照等

相关内容

Scraper Studio 规格说明

基础设施限制、计费与数据保留

WARC 快照

在采集数据的同时归档原始 HTTP 响应