Skip to main content
本指南展示如何使用异步 /trigger 端点进行大规模 LinkedIn 数据抓取。当您有超过 20 个 URL、需要发现功能或想要将数据发送到 webhook 或 S3 时,请使用此方法。
不确定是否使用同步或异步?请阅读了解同步与异步请求

前置条件

步骤 1:触发采集

/trigger 端点发送 POST 请求,带上您的输入 URL:
curl -X POST \
  "https://api.brightdata.com/datasets/v3/trigger?dataset_id=gd_l1viktl72bvl7bjuj0&format=json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '[
    {"url": "https://www.linkedin.com/in/satyanadella"},
    {"url": "https://www.linkedin.com/in/jeffweiner08"},
    {"url": "https://www.linkedin.com/in/rbranson"},
    {"url": "https://www.linkedin.com/in/sherylsandberg"},
    {"url": "https://www.linkedin.com/in/raboram"}
  ]'
您应该会看到带有 snapshot_id200 响应:
{
  "snapshot_id": "s_m1a2b3c4d5e6f7g8h"
}
保存此 ID。您需要它来检查进度和下载结果。

步骤 2:监控进度

轮询快照状态,直到显示 ready。根据 URL 数量的多少,这可能需要 30 秒到几分钟。
curl "https://api.brightdata.com/datasets/v3/progress/s_m1a2b3c4d5e6f7g8h" \
  -H "Authorization: Bearer YOUR_API_KEY"
状态值:
状态含义
collecting抓取正在进行中
digesting数据正在处理中
ready结果可供下载
failed采集遇到错误

步骤 3:下载结果

状态为 ready 后,下载抓取的数据:
curl "https://api.brightdata.com/datasets/v3/snapshot/s_m1a2b3c4d5e6f7g8h?format=json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -o results.json
您已成功触发、监控并下载了批量 LinkedIn 抓取任务。

使用 webhook 跳过轮询

如果不想轮询状态,可以添加 webhook 参数以自动接收结果:
curl -X POST \
  "https://api.brightdata.com/datasets/v3/trigger?dataset_id=gd_l1viktl72bvl7bjuj0&format=json&webhook=https://your-server.com/webhook" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '[{"url": "https://www.linkedin.com/in/satyanadella"}]'
请参阅如何通过 webhook 接收 LinkedIn 数据以获取完整设置。

限制和约束

约束
最大输入文件大小1 GB
最大并发批量请求数100
最大并发单输入请求数1,500
Webhook 交付大小最高 1 GB
API 下载大小最高 5 GB

故障排除

您已超出并发请求限制。减少并行请求数量或将输入合并为更少的较大批次。每个批次最多可包含 1 GB 的输入数据。
检查所有输入 URL 是否都是有效的 LinkedIn URL。在快��响应中查看错误详情或在 Bright Data 仪表板的日志选项卡中查看。
某些 URL 可能会单独失败,但总体任务仍会成功。在快照响应中检查任何 errors 字段。在单独的请求中重试失败的 URL。

后续步骤

设置 webhook

在不轮询的情况下接收结果。

交付到 S3

将结果直接发送到您的 S3 存储桶。