如何批量抓取 LinkedIn 数据

本指南展示如何使用异步 /trigger 端点进行大规模 LinkedIn 数据抓取。当您有超过 20 个 URL、需要发现功能或想要将数据发送到 webhook 或 S3 时，请使用此方法。

不确定是否使用同步或异步？请阅读了解同步与异步请求。

前置条件

拥有有效 API 密钥的 Bright Data 账户
熟悉同步请求流程

步骤 1：触发采集

向 /trigger 端点发送 POST 请求，带上您的输入 URL：

curl -X POST \
  "https://api.brightdata.com/datasets/v3/trigger?dataset_id=gd_l1viktl72bvl7bjuj0&format=json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '[
    {"url": "https://www.linkedin.com/in/satyanadella"},
    {"url": "https://www.linkedin.com/in/jeffweiner08"},
    {"url": "https://www.linkedin.com/in/rbranson"},
    {"url": "https://www.linkedin.com/in/sherylsandberg"},
    {"url": "https://www.linkedin.com/in/raboram"}
  ]'

您应该会看到带有 snapshot_id 的 200 响应：

{
  "snapshot_id": "s_m1a2b3c4d5e6f7g8h"
}

保存此 ID。您需要它来检查进度和下载结果。

步骤 2：监控进度

轮询快照状态，直到显示 ready。根据 URL 数量的多少，这可能需要 30 秒到几分钟。

curl "https://api.brightdata.com/datasets/v3/progress/s_m1a2b3c4d5e6f7g8h" \
  -H "Authorization: Bearer YOUR_API_KEY"

状态值：

状态	含义
`collecting`	抓取正在进行中
`digesting`	数据正在处理中
`ready`	结果可供下载
`failed`	采集遇到错误

步骤 3：下载结果

状态为 ready 后，下载抓取的数据：

curl "https://api.brightdata.com/datasets/v3/snapshot/s_m1a2b3c4d5e6f7g8h?format=json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -o results.json

您已成功触发、监控并下载了批量 LinkedIn 抓取任务。

使用 webhook 跳过轮询

如果不想轮询状态，可以添加 webhook 参数以自动接收结果：

curl -X POST \
  "https://api.brightdata.com/datasets/v3/trigger?dataset_id=gd_l1viktl72bvl7bjuj0&format=json&webhook=https://your-server.com/webhook" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '[{"url": "https://www.linkedin.com/in/satyanadella"}]'

请参阅如何通过 webhook 接收 LinkedIn 数据以获取完整设置。

限制和约束

约束	值
最大输入文件大小	1 GB
最大并发批量请求数	100
最大并发单输入请求数	1,500
Webhook 交付大小	最高 1 GB
API 下载大小	最高 5 GB

故障排除

收到 429 请求过多错误？

您已超出并发请求限制。减少并行请求数量或将输入合并为更少的较大批次。每个批次最多可包含 1 GB 的输入数据。

快照状态显示'failed'？

检查所有输入 URL 是否都是有效的 LinkedIn URL。在快��响应中查看错误详情或在 Bright Data 仪表板的日志选项卡中查看。

结果不完整或缺少某些 URL？

某些 URL 可能会单独失败，但总体任务仍会成功。在快照响应中检查任何 errors 字段。在单独的请求中重试失败的 URL。

如何批量抓取 LinkedIn 数据

前置条件

步骤 1：触发采集

步骤 2：监控进度

步骤 3：下载结果

使用 webhook 跳过轮询

限制和约束

故障排除

后续步骤

设置 webhook

交付到 S3

Documentation Index

​前置条件

​步骤 1：触发采集

​步骤 2：监控进度

​步骤 3：下载结果

​使用 webhook 跳过轮询

​限制和约束

​故障排除

​后续步骤

设置 webhook

交付到 S3

前置条件

步骤 1：触发采集

步骤 2：监控进度

步骤 3：下载结果

使用 webhook 跳过轮询

限制和约束

故障排除

后续步骤