跳转到主要内容

概述

Bright Data 的自动化数据集创建平台在数据集交付之前包含验证和审批阶段。该平台提供错误处理、验证检查和自定义功能,确保数据的准确性和可靠性。这些验证检查对于节省时间、减少数据错误以及保持数据质量至关重要。 flow-chart.png

工作原理

一旦数据集快照准备就绪:
  • ✅ 如果所有验证测试均通过
  • ❌ 如果全部/部分验证测试失败
用户将获得数据集,并在平台中看到所有测试均已通过的提示。
当用户批准数据集快照后,他们将进入交付阶段。

验证规则

数据集必须包含一定比例的唯一值。
  • 示例:在 LinkedIn 公司资料数据集中,每家公司的 LinkedIn URL 应为唯一。如果存在重复 URL,则表示同一公司被列出不止一次,违反了唯一性规则。
数据集必须包含至少最低比例的已填充值。
  • 示例:在 LinkedIn 公司资料数据集中,至少 90% 的资料必须填写“行业”字段。如果超过 10% 的资料缺少该信息(字段为空),数据集将不符合所需的填充率。
某些字段必须填写;如果保持为空,将会触发错误。
  • 示例:在 LinkedIn 数据集中,“公司名称”和“总部位置”等字段可能是必填项。缺少这些信息的资料将被标记为错误。
与之前采集的值相比,数值变化不得超过 X。
  • 示例:若数据集定期更新,公司员工人数不应在两次更新之间出现巨大变化(例如突然从 50 跳到 5000),除非有已知原因(如并购)。
验证每条数据的值类型是否与字段类型(如字符串、数字、日期)一致,并标记不一致项以供修正。
  • 示例:数据集应在“成立日期”字段中仅接受日期格式。如果录入了如“unknown”这样的文本,应被标记为错误。
创建自定义规则验证某字段是否存在且其值是否有效,例如要求 size 字段只能为“S”、“M”或“L”。
  • 示例:数据集中可能有“公司规模”字段,接受的值包括“小”、“中”、“大”。若记录中出现了其他值,应被标记为错误。
数据集必须包含 X 条记录(每个 URL 应在总输入 URL 中返回 X 条记录)。
  • 示例:若数据集旨在代表某一领域(如科技行业)的公司,则必须包含该领域的最小公司数量,才能视为完整且具有代表性。
确定数据集规模波动是否处于 ±X% 范围内。
  • 示例:对于每月更新的数据集,公司总数不应出现剧烈波动(例如超过 10% 的增减),除非行业内出现特定事件或趋势。
检查数据集中每条记录,确保其空字段或 null 字段不超过一定比例(如 70%)。若超过该阈值,则触发错误。
  • 示例:在 LinkedIn 公司资料数据集中,如果某公司超过 70% 的字段(如行业、规模、位置、描述)为空,则该记录将被标记为不完整。
检测并解决因标识错误或录入失误导致的重复记录问题,确保每条记录唯一且准确代表独立的数据点。
  • 示例:在 LinkedIn 数据集中,该规则会识别由于唯一标识分配错误导致同一公司被列出多次的情况。例如公司名称拼写略有差异导致被当作不同公司,该规则将标记这些记录以供修正。

主要组件与功能

overall-view.png

数据集测试的整体视图(全部结果、通过、失败)

评估验证测试结果

evaluate.png
一旦数据集快照的验证错误被处理,用户将收到通知并可选择:
  1. 通过
  2. 临时通过
  3. 拒绝快照

评估操作

对于每个失败的验证测试,用户有三种选择:
  1. 设置新阈值
    1. 设置自定义值 – 如果开发者未达到默认阈值,用户可以设定新阈值。设置后快照将返回给开发者处理。
    2. 按 X% 设置 – 接受开发者达到的成功率,并将阈值设为开发者提取的值。
  2. 忽略测试(仅一次) – 接受开发者此次提取的值(默认值在下次快照中不会改变)。
  3. 拒绝 – 用户不接受对失败测试的调整;问题将返回给开发者修复。状态将标记为“已拒绝”,之后会再次发送给客户审批。
evaluate-options.png
如果所有问题都被忽略/批准,点击“交付数据集”以交付快照。
如果客户审批处于待处理状态超过 14 天,将自动交付快照。
validations-results.png
如果所有/部分问题被拒绝,点击“发送给开发者”以返回进行进一步修复。
failed-results.png

通知与沟通

用户会在控制面板账户和电子邮件中收到状态更新通知。