-
选择文件格式:
- JSON
- NDJSON
- CSV
- JSON lines
-
选择接收数据的方式:
- Amazon S3 (AWS S3 用户角色权限)
- Google Cloud Storage (如何找到 Google Cloud 私钥)
- Google Cloud PubSub
- Microsoft Azure Storage
- SFTP/FTP
- Snowflake (Snowflake 交付配置指南)
AWS S3 用户角色权限

1
创建策略
转到 IAM 控制台的“Policies”部分
创建一个新策略,定义您希望授予访问权限的 S3 资源的权限。AWS 策略示例:

2
创建角色
转到 IAM 控制台的“Roles”部分
创建新角色,并在“Permission policies”部分指定步骤 1 中创建的策略。记下该角色的 ARN,将用于交付凭证。(ARN 示例:

arn:aws:iam::<ROLE_ID>:role/<ROLE_NAME>)用户角色示例:3
使用角色 ARN
在希望授予访问权限的 S3 资源中,使用步骤 2 中创建的角色 ARN 进行附加。
如何找到 Google Cloud 私钥
- 访问 Google Cloud Platform 控制台主页 - https://console.cloud.google.com/
- 展开 Google Cloud Platform 菜单,点击 IAM & Admin。
- 点击 Service accounts。

- 从列表中选择现有服务账号或创建一个新账号。


- 在 Create Service Account 流程中输入名称、ID 和描述来创建服务账号,然后授予访问权限并创建账号。

- 点击服务账号的邮箱。

- 要访问密钥,请点击“KEYS”标签。点击“Add Key”下拉菜单并选择“Create New Key”。

- 选择 JSON 作为密钥类型。

- 服务账号密钥 JSON 文件会自动下载到本地。
- 从下载的 JSON 文件中复制
private_key并粘贴到 Data Collector 的交付设置中。

Snowflake 交付配置指南
Snowflake 配置仅适用于“Datasets”交付,不适用于数据收集器(Web Scraper)
1
选择或创建数据库
首先,决定使用现有数据库还是创建新数据库。如果选择新数据库,请使用以下命令:请将
<database> 替换为您想要的数据库名称。2
选择或创建 Schema
决定使用现有 Schema 还是创建新 Schema。默认情况下,每个数据库都有 PUBLIC Schema。如果希望使用其他 Schema,请使用以下命令:将
<schema> 替换为您自己的 Schema 名称。3
选择或创建 Warehouse
选择现有仓库或创建新仓库。创建新仓库时,请参考 Snowflake 对数据加载优化的建议。使用以下命令创建仓库:将
<warehouse> 替换为所需仓库名称。4
选择或创建 Internal Named Stage
接下来,选择现有内部命名阶段或创建新阶段。创建新阶段请使用命令:不要忘记将
<stage> 替换为所需阶段名称。5
创建角色
您需要一个能够写入所选阶段的角色。创建命令如下:将
<role_name> 替换为所选角色名称。6
授予仓库操作权限给角色
授予新角色在所选仓库上操作的权限,命令如下:将
<warehouse> 和 <role_name> 替换为具体仓库和角色名称。7
允许角色在阶段上写入
使用命令启用角色在阶段上写入权限:同样,将
<stage> 和 <role_name> 替换为所选阶段和角色名称。8
创建 BrightData 用户
创建一个用于 BrightData 直接上传数据到 Snowflake 的新用户。命令如下:将
<user_name>、<password> 和 <login> 替换为所选用户名、密码和登录名。9
授予新用户角色权限
授予新用户创建的角色权限:将
<role_name> 和 <user_name> 替换为角色和用户名称。10
允许 IP 列表
如果 Snowflake 账户应用了 Network Policy,请将以下 IP 添加到白名单:将
<policy_name> 替换为网络策略名称。将 <existing_whiltelisted_ips> 替换为现有白名单 IP 列表。完成!您已成功配置 Snowflake 环境以接收平台数据。如果遇到问题或需要进一步帮助,请联系支持团队。想了解更多关于数据加载性能和仓库大小的注意事项 点击这里。