前提条件
- 一个 Bright Data 账户,拥有有效的 API 密钥
- 一个拥有 S3 存储桶的 AWS 账户
- 具有对存储桶的写入访问权限的 IAM 凭证
- 熟悉 异步请求工作流
步骤 1:创建 S3 存储桶
如果您已经有一个存储桶,请跳到步骤 2。 在 AWS S3 控制台中:- 点击 创建存储桶
- 输入存储桶名称(例如,
linkedin-scraper-data) - 选择您偏好的 AWS 区域
- 保持默认设置并点击 创建存储桶
步骤 2:设置 IAM 权限
创建一个 IAM 角色,授予 Bright Data 对您的存储桶的写入访问权限。创建策略
在 IAM 控制台中,转到 策略 并使用此 JSON 创建新策略:linkedin-scraper-data 替换为您的实际存储桶名称。
为 Bright Data 创建角色
- 转到 角色 > 创建角色
- 选择 AWS 账户 作为受信任的实体类型
- 输入 Bright Data 的 AWS 账户 ID:
422310177405 - 附加您上面创建的策略
- 为角色命名(例如,
BrightDataS3Delivery) - 记下角色 ARN(例如,
arn:aws:iam::123456789012:role/BrightDataS3Delivery)
步骤 3:在 Bright Data 中配置交付
- 导航到您的 爬虫配置
- 点击 交付设置 标签
- 选择 Amazon S3 作为交付目标
- 输入您的凭证:
- 存储桶名称:您的 S3 存储桶名称
- 角色 ARN:步骤 2 中的 IAM 角色 ARN
- 区域:您的 S3 存储桶区域
- 路径前缀(可选):存储桶内的文件夹路径(例如,
linkedin/profiles/)
- 选择您偏好的文件格式(JSON、NDJSON 或 CSV)
- 点击 保存
步骤 4:触发集合
触发异步集合。结果自动交付到您的 S3 存储桶:步骤 5:验证交付
集合完成后,检查您的 S3 存储桶中是否有交付的文件:s_m1a2b3c4d5e6f7g8h.json)。
下载并检查它:
故障排除
文件未出现在 S3 中?
文件未出现在 S3 中?
- 验证 IAM 角色 ARN 和外部 ID 是否正确
- 检查存储桶策略是否允许来自 Bright Data 账户的
s3:PutObject - 确保存储桶区域与您的配置相匹配
- 在 Bright Data 仪表板的 日志 下查看交付状态
访问被拒绝错误?
访问被拒绝错误?
验证您 IAM 角色上的信任策略包括 Bright Data 的账户 (
422310177405),且您的外部 ID 与您在 账户设置 中找到的 Bright Data 客户 ID 相匹配。交付的文件为空或记录缺失?
交付的文件为空或记录缺失?
检查 Bright Data 仪表板中的集合状态。如果某些 URL 失败,交付的文件仅包含成功的结果。在单独的请求中重试失败的 URL。
后续步骤
设置 webhooks
在您的 HTTP 端点接收结果。
所有交付选项
Snowflake、Azure、GCS、SFTP 等。