跳转到主要内容
Web Scraper API 允许用户使用预构建的爬虫按需提取最新网站数据。它可用于自动化数据收集并与其他系统集成。
数据分析师、科学家、工程师和开发人员,或寻求高效收集和分析 Web 数据的方法(用于 AI、ML、大数据应用等,无需开发爬虫)的人,将会发现 Scraper API 特别有用。
使用 Scraper API 非常简单,一旦您开通 Bright Data 账户,您需要从账户设置中生成 API 密钥。拥有密钥后,您可以参考我们的API 文档 获取如何发起首次 API 调用的详细说明。
每个爬虫可能需要不同的输入。爬虫主要分为两类:
  1. PDP
    这些爬虫需要 URL 作为输入。PDP 爬虫可从网页提取详细的产品信息,如规格、价格和功能
  2. Discovery/ Discovery+PDP
    Discovery 爬虫允许您通过搜索、分类、关键词等方式探索并发现新实体/产品。
delivery-pdp.png
每个 Discovery API 允许您使用不同的方法查找所需数据,可能通过关键词、分类 URL,甚至地理位置。
认证通过 API 密钥完成。在请求的 Authorization 头中包含 API 密钥,如下所示:Authorization: Bearer YOUR_API_KEY
选择要运行的 API 后,您可以使用我们的详细 API 参数文档自定义请求,指定不同类型及预期的输入和响应。
您将获得 2$ 额度来探索和测试我们的服务。
您可以通过在控制面板上自定义代码快速测试产品(演示视频
1

从多种 API 中选择所需的 API

2

输入您的参数

trigger-a-collection.png
3

输入您的 API 密钥

enter-api-token.png
4

选择首选的交付方式

delivery-method.png
使用 webhook - 更新 webhook URL 并复制“触发数据收集”代码,在客户端运行。使用 API - 根据所选特定设置(S3GCPpubsub 等)填写所需凭证和信息,收集结束后复制并运行代码
5

复制代码并在客户端运行

code.png上述操作也可通过免费工具完成,例如 Webhook-sitePostman我们还提供额外的管理 API,可获取收集状态信息,并在 Management APIs 标签下获取所有快照列表
Web Scraper API 支持多种数据格式提取,包括 JSONNDJSONJSONLCSV。请在请求参数中指定所需格式。
我们按交付的记录数量收费,您只需为实际获取的内容付费。请注意,由用户输入错误导致的失败尝试仍会计费。由于数据未成功获取是用户输入问题,而非系统性能问题,因此仍会消耗资源处理请求。每条记录的费率取决于您的订阅计划(起价 0.7$ / 1000 条记录)。请查看我们的定价计划或您的账户详情了解具体费率。
对于账户管理员:如果 API 密钥过期,您需要在账户设置中创建新的密钥。
no-api-token.png
对于账户用户:如果 API 密钥过期,请联系账户管理员签发新的 API 密钥。
no-api-token-user.png
通过支持高并发和批处理的能力,Scraper API 在大规模数据提取场景中表现出色。这确保开发者可以高效扩展爬取操作,应对大量请求并保持高吞吐量。
要升级订阅计划,请访问仪表盘账户的计费部分并选择所需计划。如需进一步帮助,请联系支持团队。
Web Scraper API 支持广泛的用例,包括竞争基准分析、市场趋势分析、动态定价算法、情感提取以及将数据输入机器学习管道。对于电商、金融科技和社交媒体分析至关重要,这些 API 让开发者能够有效实施数据驱动策略。
我们为使用 URL 作为输入的爬虫提供实时支持,每次可处理最多 20 个 URL 输入,对于超过 20 个输入则支持批量处理,无论爬虫类型如何。Web Scraper API 每次调用可为最多 20 个输入提供实时数据,响应时间因域名而异,确保获取最新数据而无需依赖缓存信息。用于发现新记录的爬虫(例如“按关键词发现”、“按话题发现”)通常耗时更长,并使用批量支持,因为实际响应时间可能受多种因素影响,包括目标 URL 的加载时间和用户定义页面交互的执行时间。每个爬虫的平均响应时间可在对应的 Scraper 页面查看。
您可以使用以下端点取消运行:
  curl -H "Authorization: API key" -H "Content-Type: application/json" -k "https://api.brightdata.com/datasets/v3/snapshot/SNAPSHOT_ID/cancel" -X POST
确保使用的是您想要取消的快照 ID。注意:如果取消运行,将不会向您交付任何数据,并且快照在收集完成后无法取消。
API 配置中 notify URL 与 webhook URL 的主要区别在于用途和使用方式:Notify URL:
  • 通常用于异步通信。
  • 当任务完成或事件发生时,系统会向指定 URL 发送通知。
  • 通知通常比较轻量,不包含详细数据,但可能提供参考或状态以便进一步操作(例如:“作业完成,请检查日志详情”)。
Webhook URL:
  • 也用于异步通信,但更以数据为中心。
  • 当特定事件发生时,系统会将详细的实时数据推送到指定 URL。
  • Webhook 提供直接可操作的信息,无需客户端轮询系统。
示例用例:
  • notify URL 可用于通知您爬取任务已完成。
  • webhook URL 可将实际爬取的数据或完成的详细元数据直接发送给您。
快照可保存 30 天, 在此期间,您可以通过交付 API及快照 ID 获取快照。
这些平台存在一定限制:
贴文(按个人资料 URL)
评论
Reels
贴文(按关键词)
贴文(按个人资料 URL)
评论
Reels
媒体链接在 24 小时后过期。
个人资料
贴文(按关键词)
贴文(按个人资料 URL)
贴文(按关键词)
评论
个人资料(按搜索 URL)
评论
贴文(按关键词)
贴文(按个人资料 URL)
贴文
贴文(按关键词)
贴文(按 URL)
贴文
个人资料
贴文(按关键词)
贴文(按 URL)
贴文(按搜索过滤条件)
媒体仅在同一会话生成的令牌下可访问。
贴文数量限制为公开显示的数量(例如 10
当快照被标记为空时,表示快照中没有有效或可用的记录。然而,这并不意味着快照完全没有内容。在大多数情况下,它包含诸如错误或无效页面的信息:
  • 错误:在数据收集过程中遇到的问题,例如无效输入、系统错误或访问限制。
  • 无效页面:无法访问的页面,原因可能包括 404 错误(页面未找到)、内容已移除(例如不可用的产品)或访问受限。
要查看这些详细信息,您可以在请求中使用参数 include_errors=true,它将显示快照中的错误信息和无效页面信息。这有助于您诊断并理解快照中的问题。
您可以通过以下 API 调用停止正在运行的收集: https://docs.brightdata.com/cn/api-reference/web-scraper-api/management-apis/cancel-snapshot
ae.comairbnb.comamazon.comapps.apple.comashleyfurniture.comasos.combalenciaga.combbc.comberluti.combestbuy.combooking.combottegaveneta.combsky.appcarsales.com.aucarters.comceline.comchanel.comchileautos.clcrateandbarrel.comcreativecommons.orgcrunchbase.comdelvaux.comdigikey.comdior.comebay.comedition.cnn.comen.wikipedia.orgenricheddata.comespn.cometsy.comexample.comfacebook.comfanatics.comfendi.comfinance.yahoo.comg2.comgithub.comglassdoor.comglobal.llbean.comgoodreads.comgoogle.comhermes.comhomedepot.cahomedepot.comikea.comimdb.comindeed.cominfocasas.com.uyinmuebles24.cominstagram.comla-z-boy.comlazada.com.mylazada.sglazada.vnlego.comlinkedin.comloewe.comlowes.commanta.commartindale.commassimodutti.commattressfirm.commediamarkt.demetrocuadrado.commontblanc.commouser.commoynat.commybobs.commyntra.comnews.google.comnordstrom.comolx.comotodom.plowler.comozon.rupinterest.compitchbook.complay.google.comprada.comproperati.com.coraymourflanigan.comrealestate.com.aureddit.comreuters.comrevenuebase.aisephora.frshop.mango.comshopee.co.idsleepnumber.comslintel.comtarget.comtiktok.comtoctoc.comtokopedia.comtoysrus.comtrustpilot.comtrustradius.comunashamedcataddicts.quora.comus.shein.comventureradar.comvimeo.comwalmart.comwayfair.comwebmotors.com.brwildberries.ruworldpopulationreview.comworldpostalcode.comwww2.hm.comx.comxing.comyapo.clyelp.comyoutube.comysl.comzalando.dezara.comzarahome.comzillow.comzonaprop.com.arzoominfo.comzoopla.co.uk如果您的目标域名不在此列表中,我们可以为您开发专属的定制爬虫
我们没有专门为酒店提供的爬虫,但我们提供了 Booking.com 爬虫,并可以根据您的特定需求创建定制爬虫。
以下是快速指南,帮助您入门并选择适合您需求的解决方案:
  • 选项 1:丰富的预收集数据 – 探索我们的数据集市场
如果您需要可直接使用的高质量数据,我们的数据集市场是最佳起点。我们已经收集并丰富了来自各种来源的大量数据。这些数据集旨在节省您的时间和精力,让您专注于分析数据并做出更明智的决策。只需浏览市场,找到符合您需求的数据集,即可立即开始使用。
  • 选项 2:用于实时数据的新鲜爬虫
如果您的项目需要新鲜数据或数据集市场中不可用的高度特定信息,我们提供强大的工具,帮助您直接从网络收集实时数据。开始方法如下:预建网页爬虫
我们提供广泛的热门网站预建爬虫,让您快速高效地收集数据。这些爬虫可直接使用,设置简单,非常适合希望快速上手的用户。
定制爬虫
如果在预建爬虫列表中找不到目标网站,也没问题\! 我们可以为您创建专属定制爬虫。我们的专家团队将与您合作,设计能够收集精确所需数据的解决方案。
自行构建爬虫
对于具备 JavaScript 知识或开发资源的用户,我们还提供使用集成开发环境(IDE)构建爬虫的选项。这让您可以完全控制并灵活地创建符合您独特需求的爬虫。
如有疑问或需要帮助,我们的专家团队随时为您提供支持。让我们开始吧\!
  1. 在控制面板找到“Google Maps 评论”爬虫,选择以 API 请求运行或使用“无代码”选项启动。
  2. 输入参数(地点页面 URL 以及要检索评论的天数)。
  3. 配置所需请求参数(如果使用 API)。
  4. 启动运行并收集数据。
要取消正在运行的快照,可使用以下方法之一:
  1. API 请求:
  • 发送 POST 请求至端点: POST /datasets/v3/snapshot/cencel (playground)
  • {snapshot_id} 替换为要取消的快照 ID。
  1. 控制面板:
  • 转到爬虫的 日志 标签。
  • 找到正在运行的快照。
  • 将鼠标悬停在特定运行上,点击 “X” 进行取消。
如果快照正在运行,这两种方法都会停止快照进程。
可以,Bright Data GPT 爬虫在“搜索”功能激活时始终可工作。
Web Scrapers Library 中的爬虫是预建解决方案,其底层代码无法访问或修改。
对于希望了解爬虫工作原理的用户,Web Scraper IDE 在创建新爬虫时提供多个示例模板。这些示例可作为实用参考,帮助您理解爬虫技术并构建自己的定制解决方案。
是的,使用 Web Scraper API 您可以将抓取的数据返回到请求端点。
使用以下端点 - POST api.brightdata.com/datasets/v3/scrape
该端点允许高效获取数据,并确保与您的应用或工作流程无缝集成。

它是如何工作的?
API 使您可以发送抓取请求,并直接在请求端点接收结果。这消除了数据检索或发送至外部存储的需求,简化了数据收集流程。

限制
  • 对于长时间的收集操作,最佳做法是使用我们的tigger/端点(如果在使用 /scrape 端点时收集请求耗时过长,您将获得快照 ID,收集完成后可使用该 ID下载数据)。
Dataset ID 是 Web Scraper API 请求中使用的唯一标识符。它包含在请求 URL 中,用于指定您要访问的特定爬虫。该 ID 确保您的 API 调用从系统中正确爬虫获取数据。用法如下:
https://api.brightdata.com/datasets/v3/trigger?dataset_id=DATASET_ID_HERE
Dataset ID 示例:gd_XXXXXXXXXXXXXXXXX
例如:gd_l1viktl72bvl7bjuj0
您可以在感兴趣爬虫的 Web Scraper API 页面中,在 API 请求生成器 标签下找到精确的 Dataset ID,已自动填入 API 请求,方便复制使用。注意:类似 s_XXXXXXXXXXXXXXXXXX 的 ID,例如 s_m7hm4et0141r2rhojq 不是 Dataset ID,而是快照 ID——快照是从单次 Web Scraper API 请求收集的数据集合。
在仅发现模式下,发现阶段获得的结果会作为最终输出返回,不会进入 PDP(产品详情页)阶段。例如,如果启动亚马逊产品发现爬虫时使用仅发现模式,它只会返回发现阶段找到的产品 URL。当关闭此模式时,爬虫会继续访问并提取在发现阶段识别的每个产品页面的数据。