网络存档 API(测试版)
了解如何使用网络存档 API(测试版)访问 Bright Data 的缓存并从中检索数据快照,然后通过 Amazon S3 或 webhook 交付数据。
网络存档 API 让您可以顺畅、高效地访问 Bright Data 采集的缓存数据并从中检索数据快照。
如想访问此 API,您需拥有 Bright Data API 令牌
API token
运行搜索请求
要开始搜索我们的网络存档,请使用以下 /search
端点。
端点: POST api.brightdata.com/webarchive/search
Your search cannot cover a date range of more than 7d. If you need to query a longer period than this, please contact your account manager.
You can run 5 searches per day without triggering a dump. Once you trigger a dump, that search no longer count against your limit.
获取搜索状态
查看已进行的特定查询的状态。
端点: GET api.brightdata.com/webarchive/search/<search_id>
调用成功后它将检索:
- 您查询的条目数量
- 完整数据快照的大小和成本的估算值
获取所有搜索状态
检查当前所有搜索的状态。
Endpoint: GET api.brightdata.com/webarchive/searches
将快照传送至 Amazon S3 Storage
要使用 S3 存储服务交付数据,您首先需要执行以下操作:
- 创建一个可访问 Bright Data 系统的 AWS 角色: https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-user_externalid.html
- 在此设置过程中,Amazon 会要求您提供与该角色一起使用的“外部 ID”。
- 您的 S3 外部 ID 就是您的 Bright Data 账户 ID,可在“账户设置”中找到: https://brightdata.com/cp/setting/customer_details
- 创建角色后,您需允许我们的系统交付角色通过 AssumeRole 操作访问该角色。
- 我们的系统交付角色是:arn:aws:iam::422310177405:role/brd.ec2.zs-dca-delivery
要将特定 search_id
中的特定快照传送至 S3 存储服务平台,请使用以下 /dump
端点。
Endpoint: POST api.brightdata.com/webarchive/dump
通过 Webhook 采集快照
通过 Webhook 从特定的 search_id
采集数据快照
端点: POST api.brightdata.com/cache/dump
获取数据快照的状态
使用 dump_id 查看特定数据快照(转储)的状态。
端点: GET api.brightdata.com/webarchive/dump/<dump_id>
获取所有数据快照的状态
端点: GET api.brightdata.com/webarchive/dumps