要为数据集设置交付首选项,只需点击”交付设置”选项卡:
-
选择文件格式:
- JSON
- NDJSON
- CSV
- JSON lines
-
选择接收数据的方式:
-
Amazon S3 (AWS S3 用户角色权限)
-
Google Cloud Storage (如何找到您的 Google Cloud 私钥)
-
Google Cloud PubSub
-
Microsoft Azure Storage
-
SFTP/FTP
-
Snowflake (Snowflake 交付配置指南)
流式交付功能(流式传输结果) - 对于大型快照,您可以选择以最小批次 10 的形式立即获得结果。需要一种交付方法(存储或 webhook - 与 API 下载不兼容)。要在 WSAPI 中触发,请添加
&stream_max_lines=10 / 或打开切换栏。
-
10 是最小值
-
100k 是最大值
文件交付: 您可以在 WSA 请求中添加 &download_fields= 来检索文件以及提取的数据。
可用选项:
html
warc(不总是可用)
screenshot(不总是可用)
注意:这仅在交付方法设置为存储和 Webhook 时有效。
AWS S3 用户角色权限
要控制对 S3 资源的访问,您可以使用 IAM(身份和访问管理)来创建和管理 AWS 用户及其权限。一种方式是创建 IAM 角色并将其附加到 S3 资源。
创建策略
转到 IAM 控制台中的”策略”部分创建一个新策略,定义要授予访问权限的 S3 资源的权限。AWS 策略示例:{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"s3:PutObject",
"s3:GetObject"
],
"Resource": "arn:aws:s3:::NAME-OF-YOUR-BUCKET/*"
}
]
}
创建角色
转到 IAM 控制台中的”角色”部分创建一个新角色,并在”权限策略”部分中指定在步骤 1 中创建的策略。记下角色的 ARN,该 ARN 将用于交付凭证。(ARN 看起来像 arn:aws:iam::<ROLE_ID>:role/<ROLE_NAME>)用户角色示例:{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Principal": {
"AWS": "arn:aws:iam::422310177405:role/brd.ec2.zs-dca-delivery"
},
"Action": "sts:AssumeRole",
"Condition": {
"StringEquals": {
"sts:ExternalId": "YOUR EXTERNAL ID"
}
}
}
]
}
使用角色的 ARN
在您要授予访问权限的 S3 资源中,通过使用 ARN 附加在步骤 2 中创建的角色。
如何找到您的 Google Cloud 私钥
- 转到 Google Cloud Platform 控制台主页 - https://console.cloud.google.com/
- 展开 Google Cloud Platform 菜单,并点击”IAM 和管理”。
- 点击服务账户。
- 从列表中选择现有服务账户或创建一个新的。
如果按钮不可见,请先创建一个项目以创建服务账户。
- 在创建服务账户过程中通过输入名称、ID 和描述来创建服务账户。然后授予访问权限并创建账户。
- 点击服务账户的电子邮件。
- 要访问密钥,点击”KEYS”选项��。点击”添加密钥”下拉菜单,然后选择”创建新密钥”。
- 选择 JSON 作为密钥类型。
- 服务账户密钥 JSON 文件会自动下载到您的本地计算机。
- 从下载的 JSON 文件中复制
private_key 并将其粘贴到数据收集器交付设置中。
Snowflake 交付配置指南
Snowflake 配置可用于”数据集”交付,不适用于数据收集器(Web 爬虫)
入门
为了允许将数据集高效交付到您的 Snowflake 环境,我们提供了分步指南来设置它。只需按照以下步骤操作:
选择或创建数据库
首先,决定是否使用现有数据库或创建新数据库。如果您选择创建新数据库,以下是您需要的命令:CREATE DATABASE <database>;
请记住将 <database> 替换为您想要的数据库名称。 选择或创建架构
决定是否使用现有架构或创建新架构。默认情况下,每个数据库都有一个 PUBLIC 架构。如果您希望使用不同的架构,以下是您需要的命令:将 <schema> 替换为您自己的架构名称。 选择或创建仓库
选择现有仓库或创建新仓库。创建新仓库时,请考虑 Snowflake 关于配置专用于数据加载仓库的建议。使用以下命令创建仓库:CREATE WAREHOUSE <warehouse>;
将 <warehouse> 替换为您想要的仓库名称。 选择或创建内部命名阶段
接下来,选择现有的内部命名阶段或创建新的阶段。要创建新阶段,请使用此命令:不要忘记将 <stage> 替换为您首选的阶段名称。 创建角色
您需要一个可以写入所选阶段的角色。要创建一个,请使用:将 <role_name> 更改为您选择的角色名称。 向角色授予仓库权限
现在,使用以下命令为新角色授予必要的权限以在所选仓库上操作:GRANT OPERATE ON WAREHOUSE <warehouse> TO ROLE <role_name>;
请记住将 <warehouse> 和 <role_name> 替换为您具体的仓库和角色名称。 为角色启用阶段上的写入操作
要使您的角色能够在阶段上写入,请使用命令:GRANT WRITE ON STAGE <stage> TO ROLE <role_name>;
同样,将 <stage> 和 <role_name> 替换为您选择的阶段和角色名称。 创建 BrightData 用户
接下来,为将用于直接上传数据到 Snowflake 的 BrightData 创建新用户。命令如下:create user <user_name>
PASSWORD = '<password>'
LOGIN_NAME = <login>
MUST_CHANGE_PASSWORD = FALSE
DISABLED = FALSE
COMMENT = 'user for BrightData to upload data directly into Snowflake'
将 <user_name>、<password> 和 <login> 替换为您选择的用户名、密码和登录名。 向新用户授予角色权限
最后,为新用户授予您创建的角色的权限:GRANT ROLE <role_name> TO USER <user_name>;
将 <role_name> 和 <user_name> 替换为您的角色和用户名。 允许列表 IP
如果您在 Snowflake 账户中应用了活跃的网络策略,您需要将以下 IP 添加到允许列表:ALTER NETWORK POLICY <policy_name>
SET ALLOWED_IP_LIST=(
<existing_allowlisted_ips>,
'35.169.71.210',
'34.233.211.38',
'44.194.183.74',
'54.243.177.151');
将 <policy_name> 替换为您的网络策略名称。将 <existing_whiltelisted_ips> 替换为现有允许列表 IP 的列表。就这样!您现在已配置了 Snowflake 环境以从我们的平台接收数据。webhook 允许列表 IP
下面列出的所有 IP 地址都是合法的 Bright Data webhook 源,用于我们的基础设施(爬虫、AI 爬虫、SERP API 等)。这适用于来自 Bright Data 服务的所有异步 webhook 交付。为了确保您接收所有 webhook 通知而不出现问题,请允许列表(白名单)以下 IP:54.175.27.69
34.225.9.175
100.28.38.247
100.29.18.195
52.72.185.255
35.174.112.248
54.165.183.124
3.91.140.7
52.202.75.37
98.82.225.117
100.27.150.189
18.214.10.85
35.169.71.210
44.194.183.74
如果您有任何问题或需要进一步的帮助,请联系我们的支持团队。如果您想了解更多关于数据加载性能和仓库大小考虑的信息,请点击这里。