网络存档 API 让您可以顺畅、高效地访问 Bright Data 采集的缓存数据并从中检索数据快照。

如想访问此 API,您需拥有 Bright Data API 令牌
API token

运行搜索请求

要开始搜索我们的网络存档,请使用以下 /search 端点。
端点: POST api.brightdata.com/webarchive/search

请求
POST api.brightdata.com/webarchive/search
{
    filters: {
        max_age?: Duration,
        min_date?: yyyy-mm-dd,
        max_date?: yyyy-mm-dd,
        domain_whitelist?: ['example.com'],
        domain_blacklist?: ['example.com'],
        domain_regex_whitelist?: ['.*example..*'],
        domain_regex_blacklist?: ['.*example..*'],
        category_whitelist?: ['Automotive'],
        category_blacklist?: ['Automotive'],
        path_regex_whitelist?: ['.*/products/.*'],
        path_regex_blacklist?: ['.*/products/.*'],
        language_whitelist?: ['eng'], //ISO 639-3 letter language codes
        language_blacklist?: ['eng'],
        ip_country_whitelist?: ['us', 'ie', 'in'],
        ip_country_blacklist?: ['mx', 'ae', 'ca']
    }
}

Your search cannot cover a date range of more than 7d. If you need to query a longer period than this, please contact your account manager.

You can run 5 searches per day without triggering a dump. Once you trigger a dump, that search no longer count against your limit.

获取搜索状态

查看已进行的特定查询的状态。
端点: GET api.brightdata.com/webarchive/search/<search_id>

调用成功后它将检索:

  • 您查询的条目数量
  • 完整数据快照的大小和成本的估算值
GET api.brightdata.com/webarchive/search/<search_id>

获取所有搜索状态

检查当前所有搜索的状态。
Endpoint: GET api.brightdata.com/webarchive/searches

GET api.brightdat.com/webarchive/searches

将快照传送至 Amazon S3 Storage

要使用 S3 存储服务交付数据,您首先需要执行以下操作:

要将特定 search_id 中的特定快照传送至 S3 存储服务平台,请使用以下 /dump 端点。
Endpoint: POST api.brightdata.com/webarchive/dump

通过 Webhook 采集快照

通过 Webhook 从特定的 search_id 采集数据快照

端点: POST api.brightdata.com/cache/dump

{
    search_id: <search_id>,
    max_entries?: 1000000,
    delivery: {
		strategy: 'webhook',
		settings: {
             url: string(),
             auth?: string(), // will be added as an Authorization header
        },
    }
}

获取数据快照的状态

使用 dump_id 查看特定数据快照(转储)的状态。
端点: GET api.brightdata.com/webarchive/dump/<dump_id>

GET api.brightdata.com/webarchive/dump/<dump_id>

获取所有数据快照的状态

端点: GET api.brightdata.com/webarchive/dumps

200 OK
[
    {
        dump_id: 'ID',
        status: 'in_progress',
        batches_total: 130,
        batches_uploaded: 29,
        files_total: 1241241251,
        estimate_finish: Date
    },
    {
        dump_id: 'ID',
        status: 'done',
        batches_total: 130,
        files_total: 1241241251,
        files_uploaded: 2412515,
        completed_at: Date
    }
    // ... rest of the dumps
]

High-level process flow diagram