本指南展示如何使用异步 /trigger 端点进行大规模 LinkedIn 数据抓取。当您有超过 20 个 URL、需要发现功能或想要将数据发送到 webhook 或 S3 时,请使用此方法。
前置条件
步骤 1:触发采集
向 /trigger 端点发送 POST 请求,带上您的输入 URL:
curl -X POST \
"https://api.brightdata.com/datasets/v3/trigger?dataset_id=gd_l1viktl72bvl7bjuj0&format=json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '[
{"url": "https://www.linkedin.com/in/satyanadella"},
{"url": "https://www.linkedin.com/in/jeffweiner08"},
{"url": "https://www.linkedin.com/in/rbranson"},
{"url": "https://www.linkedin.com/in/sherylsandberg"},
{"url": "https://www.linkedin.com/in/raboram"}
]'
您应该会看到带有 snapshot_id 的 200 响应:
{
"snapshot_id": "s_m1a2b3c4d5e6f7g8h"
}
保存此 ID。您需要它来检查进度和下载结果。
步骤 2:监控进度
轮询快照状态,直到显示 ready。根据 URL 数量的多少,这可能需要 30 秒到几分钟。
curl "https://api.brightdata.com/datasets/v3/progress/s_m1a2b3c4d5e6f7g8h" \
-H "Authorization: Bearer YOUR_API_KEY"
状态值:
| 状态 | 含义 |
|---|
collecting | 抓取正在进行中 |
digesting | 数据正在处理中 |
ready | 结果可供下载 |
failed | 采集遇到错误 |
步骤 3:下载结果
状态为 ready 后,下载抓取的数据:
curl "https://api.brightdata.com/datasets/v3/snapshot/s_m1a2b3c4d5e6f7g8h?format=json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-o results.json
您已成功触发、监控并下载了批量 LinkedIn 抓取任务。
使用 webhook 跳过轮询
如果不想轮询状态,可以添加 webhook 参数以自动接收结果:
curl -X POST \
"https://api.brightdata.com/datasets/v3/trigger?dataset_id=gd_l1viktl72bvl7bjuj0&format=json&webhook=https://your-server.com/webhook" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '[{"url": "https://www.linkedin.com/in/satyanadella"}]'
请参阅如何通过 webhook 接收 LinkedIn 数据以获取完整设置。
限制和约束
| 约束 | 值 |
|---|
| 最大输入文件大小 | 1 GB |
| 最大并发批量请求数 | 100 |
| 最大并发单输入请求数 | 1,500 |
| Webhook 交付大小 | 最高 1 GB |
| API 下载大小 | 最高 5 GB |
故障排除
您已超出并发请求限制。减少并行请求数量或将输入合并为更少的较大批次。每个批次最多可包含 1 GB 的输入数据。
检查所有输入 URL 是否都是有效的 LinkedIn URL。在快��响应中查看错误详情或在 Bright Data 仪表板的日志选项卡中查看。
某些 URL 可能会单独失败,但总体任务仍会成功。在快照响应中检查任何 errors 字段。在单独的请求中重试失败的 URL。
后续步骤