跳转到主要内容
要设置数据集的交付偏好,只需点击“Delivery settings”标签:

AWS S3 用户角色权限

delivery-strategy.png
要控制对 S3 资源的访问,可以使用 IAM(身份和访问管理)创建和管理 AWS 用户及其权限。一种方式是创建 IAM 角色并将其附加到 S3 资源上。
1

创建策略

转到 IAM 控制台的“Policies”部分
policies.png
创建一个新策略,定义您希望授予访问权限的 S3 资源的权限。AWS 策略示例:
{
"Version": "2012-10-17",
"Statement": [
    {
    "Effect": "Allow",
    "Action": [
        "s3:PutObject",
        "s3:GetObject"
    ],
    "Resource": "arn:aws:s3:::NAME-OF-YOUR-BUCKET/*"
    }
]
}
2

创建角色

转到 IAM 控制台的“Roles”部分
roles.png
创建新角色,并在“Permission policies”部分指定步骤 1 中创建的策略。记下该角色的 ARN,将用于交付凭证。(ARN 示例:arn:aws:iam::<ROLE_ID>:role/<ROLE_NAME>用户角色示例:
{
"Version": "2012-10-17",
"Statement": [
    {
    "Effect": "Allow",
    "Principal": {
        "AWS": "arn:aws:iam::422310177405:role/brd.ec2.zs-dca-delivery"
    },
    "Action": "sts:AssumeRole",
    "Condition": {
        "StringEquals": {
        "sts:ExternalId": "YOUR EXTERNAL ID"
        }
    }
    }
]
}
3

使用角色 ARN

在希望授予访问权限的 S3 资源中,使用步骤 2 中创建的角色 ARN 进行附加。

如何找到 Google Cloud 私钥

  1. 访问 Google Cloud Platform 控制台主页 - https://console.cloud.google.com/
  2. 展开 Google Cloud Platform 菜单,点击 IAM & Admin。
  3. 点击 Service accounts
service-accounts.png
  1. 从列表中选择现有服务账号或创建一个新账号。
create-service-account.png
如果按钮不可见,请先创建项目以启用 Create Service Account
create-project.png
  1. Create Service Account 流程中输入名称、ID 和描述来创建服务账号,然后授予访问权限并创建账号。
service-account-details.png
  1. 点击服务账号的邮箱。
email.png
  1. 要访问密钥,请点击“KEYS”标签。点击“Add Key”下拉菜单并选择“Create New Key”。
create-new-key.png
  1. 选择 JSON 作为密钥类型。
type-json.png
  1. 服务账号密钥 JSON 文件会自动下载到本地。
  2. 从下载的 JSON 文件中复制 private_key 并粘贴到 Data Collector 的交付设置中。
private-key.png

Snowflake 交付配置指南

Snowflake 配置仅适用于“Datasets”交付,不适用于数据收集器(Web Scraper)
开始使用 为了高效将 Datasets 交付到您的 Snowflake 环境,我们提供了分步指南。请按照以下步骤操作:
1

选择或创建数据库

首先,决定使用现有数据库还是创建新数据库。如果选择新数据库,请使用以下命令:
CREATE DATABASE <database>;
请将 <database> 替换为您想要的数据库名称。
2

选择或创建 Schema

决定使用现有 Schema 还是创建新 Schema。默认情况下,每个数据库都有 PUBLIC Schema。如果希望使用其他 Schema,请使用以下命令:
CREATE SCHEMA <schema>;
<schema> 替换为您自己的 Schema 名称。
3

选择或创建 Warehouse

选择现有仓库或创建新仓库。创建新仓库时,请参考 Snowflake 对数据加载优化的建议。使用以下命令创建仓库:
CREATE WAREHOUSE <warehouse>;
<warehouse> 替换为所需仓库名称。
4

选择或创建 Internal Named Stage

接下来,选择现有内部命名阶段或创建新阶段。创建新阶段请使用命令:
CREATE STAGE <stage>;
不要忘记将 <stage> 替换为所需阶段名称。
5

创建角色

您需要一个能够写入所选阶段的角色。创建命令如下:
CREATE ROLE <role_name>;
<role_name> 替换为所选角色名称。
6

授予仓库操作权限给角色

授予新角色在所选仓库上操作的权限,命令如下:
GRANT OPERATE ON WAREHOUSE <warehouse> TO ROLE <role_name>;
<warehouse><role_name> 替换为具体仓库和角色名称。
7

允许角色在阶段上写入

使用命令启用角色在阶段上写入权限:
GRANT WRITE ON STAGE <stage> TO ROLE <role_name>;
同样,将 <stage><role_name> 替换为所选阶段和角色名称。
8

创建 BrightData 用户

创建一个用于 BrightData 直接上传数据到 Snowflake 的新用户。命令如下:
create user <user_name>
PASSWORD = '<password>'
LOGIN_NAME = <login>
MUST_CHANGE_PASSWORD = FALSE
DISABLED = FALSE  
COMMENT = 'user for BrightData to upload data directly into Snowflake'
<user_name><password><login> 替换为所选用户名、密码和登录名。
9

授予新用户角色权限

授予新用户创建的角色权限:
GRANT ROLE <role_name> TO USER <user_name>;
<role_name><user_name> 替换为角色和用户名称。
10

允许 IP 列表

如果 Snowflake 账户应用了 Network Policy,请将以下 IP 添加到白名单:
ALTER NETWORK POLICY <policy_name>  
SET ALLOWED_IP_LIST=(  
<existing_allowlisted_ips>,  
'35.169.71.210',  
'34.233.211.38',  
'44.194.183.74',  
'54.243.177.151');
<policy_name> 替换为网络策略名称。将 <existing_whiltelisted_ips> 替换为现有白名单 IP 列表。完成!您已成功配置 Snowflake 环境以接收平台数据。
如果遇到问题或需要进一步帮助,请联系支持团队。想了解更多关于数据加载性能和仓库大小的注意事项 点击这里