Skip to main content
要为数据集设置交付首选项,只需点击”交付设置”选项卡:
  • 选择文件格式:
    • JSON
    • NDJSON
    • CSV
    • JSON lines
  • 选择接收数据的方式:
  • Amazon S3 (AWS S3 用户角色权限)
  • Google Cloud Storage (如何找到您的 Google Cloud 私钥)
  • Google Cloud PubSub
  • Microsoft Azure Storage
  • SFTP/FTP
  • Snowflake (Snowflake 交付配置指南) 流式交付功能(流式传输结果) - 对于大型快照,您可以选择以最小批次 10 的形式立即获得结果。需要一种交付方法(存储或 webhook - 与 API 下载不兼容)。要在 WSAPI 中触发,请添加 &stream_max_lines=10 / 或打开切换栏。
    • 10 是最小值
    • 100k 是最大值 Screenshot 2025 12 23 120416
文件交付: 您可以在 WSA 请求中添加 &download_fields= 来检索文件以及提取的数据。 可用选项:
  • html
  • warc(不总是可用)
  • screenshot(不总是可用)
注意:这仅在交付方法设置为存储Webhook 时有效。

AWS S3 用户角色权限

delivery-strategy.png
要控制对 S3 资源的访问,您可以使用 IAM(身份和访问管理)来创建和管理 AWS 用户及其权限。一种方式是创建 IAM 角色并将其附加到 S3 资源。
1

创建策略

转到 IAM 控制台中的”策略”部分
policies.png
创建一个新策略,定义要授予访问权限的 S3 资源的权限。AWS 策略示例:
{
"Version": "2012-10-17",
"Statement": [
    {
    "Effect": "Allow",
    "Action": [
        "s3:PutObject",
        "s3:GetObject"
    ],
    "Resource": "arn:aws:s3:::NAME-OF-YOUR-BUCKET/*"
    }
]
}
2

创建角色

转到 IAM 控制台中的”角色”部分
roles.png
创建一个新角色,并在”权限策略”部分中指定在步骤 1 中创建的策略。记下角色的 ARN,该 ARN 将用于交付凭证。(ARN 看起来像 arn:aws:iam::<ROLE_ID>:role/<ROLE_NAME>用户角色示例:
{
"Version": "2012-10-17",
"Statement": [
    {
    "Effect": "Allow",
    "Principal": {
        "AWS": "arn:aws:iam::422310177405:role/brd.ec2.zs-dca-delivery"
    },
    "Action": "sts:AssumeRole",
    "Condition": {
        "StringEquals": {
        "sts:ExternalId": "YOUR EXTERNAL ID"
        }
    }
    }
]
}
3

使用角色的 ARN

在您要授予访问权限的 S3 资源中,通过使用 ARN 附加在步骤 2 中创建的角色。

如何找到您的 Google Cloud 私钥

  1. 转到 Google Cloud Platform 控制台主页 - https://console.cloud.google.com/
  2. 展开 Google Cloud Platform 菜单,并点击”IAM 和管理”。
  3. 点击服务账户
service-accounts.png
  1. 从列表中选择现有服务账户或创建一个新的。
create-service-account.png
如果按钮不可见,请先创建一个项目以创建服务账户
create-project.png
  1. 创建服务账户过程中通过输入名称、ID 和描述来创建服务账户。然后授予访问权限并创建账户。
service-account-details.png
  1. 点击服务账户的电子邮件。
email.png
  1. 要访问密钥,点击”KEYS”选项��。点击”添加密钥”下拉菜单,然后选择”创建新密钥”。
create-new-key.png
  1. 选择 JSON 作为密钥类型。
type-json.png
  1. 服务账户密钥 JSON 文件会自动下载到您的本地计算机。
  2. 从下载的 JSON 文件中复制 private_key 并将其粘贴到数据收集器交付设置中。
private-key.png

Snowflake 交付配置指南

Snowflake 配置可用于”数据集”交付,不适用于数据收集器(Web 爬虫)
入门 为了允许将数据集高效交付到您的 Snowflake 环境,我们提供了分步指南来设置它。只需按照以下步骤操作:
1

选择或创建数据库

首先,决定是否使用现有数据库或创建新数据库。如果您选择创建新数据库,以下是您需要的命令:
CREATE DATABASE <database>;
请记住将 <database> 替换为您想要的数据库名称。
2

选择或创建架构

决定是否使用现有架构或创建新架构。默认情况下,每个数据库都有一个 PUBLIC 架构。如果您希望使用不同的架构,以下是您需要的命令:
CREATE SCHEMA <schema>;
<schema> 替换为您自己的架构名称。
3

选择或创建仓库

选择现有仓库或创建新仓库。创建新仓库时,请考虑 Snowflake 关于配置专用于数据加载仓库的建议。使用以下命令创建仓库:
CREATE WAREHOUSE <warehouse>;
<warehouse> 替换为您想要的仓库名称。
4

选择或创建内部命名阶段

接下来,选择现有的内部命名阶段或创建新的阶段。要创建新阶段,请使用此命令:
CREATE STAGE <stage>;
不要忘记将 <stage> 替换为您首选的阶段名称。
5

创建角色

您需要一个可以写入所选阶段的角色。要创建一个,请使用:
CREATE ROLE <role_name>;
<role_name> 更改为您选择的角色名称。
6

向角色授予仓库权限

现在,使用以下命令为新角色授予必要的权限以在所选仓库上操作:
GRANT OPERATE ON WAREHOUSE <warehouse> TO ROLE <role_name>;
请记住将 <warehouse><role_name> 替换为您具体的仓库和角色名称。
7

为角色启用阶段上的写入操作

要使您的角色能够在阶段上写入,请使用命令:
GRANT WRITE ON STAGE <stage> TO ROLE <role_name>;
同样,将 <stage><role_name> 替换为您选择的阶段和角色名称。
8

创建 BrightData 用户

接下来,为将用于直接上传数据到 Snowflake 的 BrightData 创建新用户。命令如下:
create user <user_name>
PASSWORD = '<password>'
LOGIN_NAME = <login>
MUST_CHANGE_PASSWORD = FALSE
DISABLED = FALSE  
COMMENT = 'user for BrightData to upload data directly into Snowflake'
<user_name><password><login> 替换为您选择的用户名、密码和登录名。
9

向新用户授予角色权限

最后,为新用户授予您创建的角色的权限:
GRANT ROLE <role_name> TO USER <user_name>;
<role_name><user_name> 替换为您的角色和用户名。
10

允许列表 IP

如果您在 Snowflake 账户中应用了活跃的网络策略,您需要将以下 IP 添加到允许列表:
ALTER NETWORK POLICY <policy_name>  
SET ALLOWED_IP_LIST=(  
<existing_allowlisted_ips>,  
'35.169.71.210',  
'34.233.211.38',  
'44.194.183.74',  
'54.243.177.151');
<policy_name> 替换为您的网络策略名称。将 <existing_whiltelisted_ips> 替换为现有允许列表 IP 的列表。就这样!您现在已配置了 Snowflake 环境以从我们的平台接收数据。

webhook 允许列表 IP

下面列出的所有 IP 地址都是合法的 Bright Data webhook 源,用于我们的基础设施(爬虫、AI 爬虫、SERP API 等)。这适用于来自 Bright Data 服务的所有异步 webhook 交付。为了确保您接收所有 webhook 通知而不出现问题,请允许列表(白名单)以下 IP:
54.175.27.69
34.225.9.175
100.28.38.247
100.29.18.195
52.72.185.255
35.174.112.248
54.165.183.124
3.91.140.7
52.202.75.37
98.82.225.117
100.27.150.189
18.214.10.85
35.169.71.210
44.194.183.74
如果您有任何问题或需要进一步的帮助,请联系我们的支持团队。如果您想了解更多关于数据加载性能和仓库大小考虑的信息,请点击这里