Bright Data 的自动数据集创建平台包括数据集交付之前的验证和批准阶段。该平台便于错误处理、验证检查和客户定制, 确保数据的准确性和可靠性。这些验证检查对于节省时间、减少数据错误,以及将数据质量保持在所需水平至关重要。
数据集快照准备就绪后:
用户将获得数据集,并在平台上显示所有测试均已通过。
当用户批准数据集快照后,将进入交付阶段。
独特性
数据集必须包含一定百分比的唯一值。
填写率
数据集必须包含填写值的最小百分比。
必填字段
某些字段必须填写;如果保持空白,则会出现错误。
数据稳定性
与先前收集的值相比,数字值的变化不得超过 X。
类型验证
根据其字段类型(例如字符串、数字、日期)验证每个条目的数据类型,并标记为不匹配以进行更正。
架构和字段自定义验证
创建自定义规则以验证字段是否存在及其值是否有效,例如要求大小字符串为 “S”、“M” 或 “L”。
最低记录阈值
数据集必须有 X 条记录(每个 URL 应包含来自总网址输入的 X 条记录)。
数据大小波动阈值
确定数据集大小的波动是否在 +/-X% 范围内。
记录完整性验证
检查数据集中的每条记录,确保其中的留白字段或空字段比例不高。如果所记录的留白或空字段超过预定阈值(例如 70%),则会触发错误。
唯一身份和重复项验证
检测并解决由于身份分配不当或输入错误而导致数据集中出现多条重复记录的问题。它确保每条记录都是不同的,并准确地代表一个唯一的数据点。
数据集测试的总体视图(所有结果、通过、失败)
处理数据集快照验证错误后,系统会通知用户进行评估并选择是否:
对于每一次失败的验证测试,用户有三个选择:
设置新的阈值
忽略测试(仅限一次) - 接受开发人员仅提取一次的值(下一个数据集快照的默认值不会改变)
拒绝 - 用户不接受对失败测试的调整;问题将返回给开发者进行修复。 . 如果需要更多修复,该状态将标记为“已拒绝”,稍后将重新发送给客户审批。
如果所有问题都已忽略/批准,请单击“交付数据集”以交付快照。
如果所有/部分问题都已拒绝,请单击“发回给开发者”将其发回以进行更多修复。
用户通过控制面板中的账户和电子邮件收到状态更新的通知。