跳转到主要内容
Bright Data Web Scraper 是自动化工具,使企业能够在大规模下自动收集各种公开在线数据,同时大幅减少内部代理维护和开发成本。Web Scraper 能够以结构化格式提供大量原始数据,并与现有系统集成,可立即用于竞争性数据驱动决策。Bright Data 已经开发了数百个针对热门平台定制的 Web Scraper。
Web Scraper IDE 是一个集成开发环境。IDE 将公共网页数据轻松置于你的指尖,你可以:
  • 在几分钟内构建你的抓取器
  • 轻松调试和诊断
  • 快速投入生产
  • 使用简单的 JavaScript 进行浏览器脚本操作
在收集数据时,你的“输入”是运行抓取所需的参数。这可以包括关键词、URL、搜索项目、产品 ID、ASIN、个人资料名称、入住和退房日期等。
输出是你根据输入参数从平台收集的数据。你将以 JSON/NDJSON/CSV/XLSX 格式收到数据。
每次免费试用包含 100 条记录(注意:100 条记录不等于 100 页加载)。
你收到的记录总是多于请求的输入记录数。
粉丝数量、帖子平均点赞数、互动水平、账号主题、受众社交与人口统计特征、社交聆听:关键词/品牌提及、情感、病毒趋势。
可以,我们可以同时从大量网站收集数据。
可以,你可以向你的客户经理寻求帮助,或者通过选择“报告问题”打开相关 Web Scraper 的工单。然后请求添加或移除字段。
当你不知道具体 URL 时,可以搜索一个词,并基于该词获取数据。
使用发现抓取器,你输入 URL,并收集该页面的所有数据。无需指定具体产品或关键词即可获得数据。
可以,代码是 JS 语言,对于自主管理的抓取器,你可以根据需求进行修改。
我们有 3 种发起请求的方式:
  • 通过 API 发起 - 普通请求、排队请求和替换请求
  • 手动发起
  • 定时模式
使用数据收集工具有两种方式:
web-scraper-two-ways-of-usage.png
当你发送多个 API 请求时,“排队请求”意味着希望下一次请求在前一次请求完成后自动开始,以此类推。
CPM = 1000 页加载
计费事件:
  • navigate()
  • request()
  • load_more()
  • (稍后)媒体文件下载
你会收到电子邮件,告知开发者正在开发你的新 Web Scraper,并在抓取器准备好时通知你。请求状态也可在你的仪表板查看:web-scraper-status.png
你可以使用此表单提交任何平台、抓取器或数据集结果的问题。
工单将根据所选问题类型分配至不同部门。请确保选择最相关的类型。*
1

选择作业 ID:已发布数据集

job-id.png
2

选择问题类型

issue-category.png
此选项仅适用于 托管 抓取器。工单将直接发送至你的 抓取器工程师
  • 缺失字段
  • 缺失记录
  • 缺失值
  • 解析问题:数据集结果不正确
此类工单将由我们的 支持代理 处理。
  • 交付不完整:交付过程中出现问题
  • 抓取器运行缓慢:抓取器收集结果缓慢或卡住
此类工单将由你的 客户经理 处理。
  • UI 问题:UI 无法正常操作
  • 产品问题:关于使用 Web Scraper 产品的一般问题
  • 其他问题
3

(解析问题)使用“bug”红色图标标记错误结果位置

4

(解析问题)输入你预期收到的结果

5

描述出错内容及数据收集的 URL

6

如有需要,附加图片以支持报告

add-more-context.png
当输入/输出架构更新时,抓取器需要更新以匹配新架构。如果抓取器正在处理且尚未更新,你会看到“输入/输出架构不兼容”错误。
  • 通过 UI
  • 通过 API
via-ui.png

如果希望忽略架构更改发起抓取,可以在 UI 点击“仍然触发”。API 上可以添加:
  • 输出架构不兼容: override_incompatible_schema=1
  • 输入架构不兼容: override_incompatible_input_schema=1
参数来触发抓取器:
curl "https://api.brightdata.com/dca/trigger?scraper=ID_COLLECTOR&queue_next=1&override_incompatible_schema=1" -H "Content-Type: application/json" -H "Authorization: Bearer API_KEY" -d "[{\"url\":\"https://targetwebsite.com/product_id/\"}]"
我们在虚拟作业记录中存储最近 1000 个错误,以便你可以查看错误的输入示例(IDE 中有 CP 按钮查看错误)。客户应已知哪些输入出错,因为他们收到了“错误”响应。你可以在 IDE 中手动重新运行这些输入,查看发生了什么。就像在阻塞器表现异常时提供 CURL 请求示例。
从 Bright Data 控制面板选择“报告问题”。一旦报告问题,将自动分配工单给我们 14 位每天监控工单的开发人员。请提供问题细节,如果不确定,请联系客户经理。一旦报告问题,无需其他操作,并会收到确认邮件。three-dots-report-an-issue.pngtabs-report-an-issue.png
报告问题时,请提供以下信息:
  • 选择问题类型(例如:结果错误/数据点缺失/结果未加载/交付问题/UI 问题/抓取器慢/IDE 问题/其他)
  • 详细描述问题
  • 可上传文件描述问题
报告问题后,我们会自动打开工单,由研发部门及时处理。
过去,我们将所有抓取工具称为“Collector”。Collector 本质上是由交互代码和解析器代码组成的 Web Scraper。它可以以 HTTP 请求方式或在真实浏览器中运行,所有请求都通过我们的解锁网络以防被封。随着时间发展,我们开发了数据集单元(Dataset Unit),可基于一个或多个 Collector 构建。例如,通过单个 Collector(直接请求),你可以抓取特定 URL(如电商网站产品页),并获取解析数据。在更复杂场景中,多个 Collector 可协作,如先发现和抓取类别,再收集该类别下每个产品的数据。
你有几种创建和配置 Data Collector 的方式:
  1. 使用 Web Scraper IDE: 你可以将解析器设计为单独 Collector 或多步骤单 Collector。开始方法:
  • 点击右侧“Web Data Collection”图标
  • 转到“My Scrapers”标签
  • 点击“Develop a Web Scraper (IDE)”按钮
从这里可以从零构建或参考模板。 开始这里: 创建数据采集器
  1. 请求自定义数据集: 如果希望我们处理,可请求自定义数据集,我们将创建所需 Data Collector。 点击“My Datasets”下的“Request Datasets”按钮,选择最适合的选项。 开始这里: 请求自定义数据集
我们限制 100 个并行运行作业。超过 100 个作业时,额外作业将排队等待先前作业完成。
概述
此功能旨在为目标网站生成定制代码模板。只需输入目标 URL,我们会自动生成可编辑或运行的代码模板。
工作原理
输入目标 URL 并点击“生成代码”。代码准备好后会显示在 IDE 标签中,无需等待 AI 处理完成。代码准备好后你会收到邮件通知。\
此功能适用于 PDP(产品详情页)URL——已知目标 URL 时生成相应解析器代码。不适合“发现”场景。
结果数据在收集后可下载 16 天。为避免过期,请在 16 天内下载,或配置自动交付至存储。