Bright Data Webmaster Console 是什么?

网站管理员可以配置 collectors.txt 文件,以通知 Bright Data 数据收集者关于重要信息,例如个人信息的存在等。

网站管理员可以配置 collectors.txt 文件,以通知 Bright Data 他们网站上存在的交互式端点。

Webmaster Console 提供了一种实用且信息丰富的解决方案,用于管理您的网站上的 Bright Data 流量。

  • 用户友好的控制面板

  • 用于网站健康监测的往返时间 (RTT) 统计

什么是 collectors.txt?

BrightBot 遵循 robots.txt 指南;但需要注意的是,robots.txt 最初是为搜索引擎爬虫设计的,而不是为公共网页数据收集者设计的。负责任的数据收集者应了解更多信息,以确保与您的网站进行适当且尊重的交互。

关键考虑因素包括个人信息的存在,应遵守适用的隐私法律进行处理。此外,您网站上的许多公共端点可能资源有限。通过传达这些限制,您可以帮助防止意外过载各种资源。

Bright Data 将在实施前审核 collectors.txt 信息,但来自合作网络安全公司的身份验证令牌除外。是否接受特定网页的 collectors.txt 由 Bright Data 全权决定,Bright Data 没有义务接受任何请求,也不对未获批准的请求可能产生的后果负责。

  • 通过监测 Bright Data 如何与您的网站交互来增强透明度。

  • 利用 collectors.txt 文件微调对您网站特定部分的访问权限。

网站管理员可以通过在 Webmaster Console 中提供 collectors.txt 文件的访问指南,使 Bright Data 运营的 BrightBot 更高效地访问他们的网站。此文件可能包含以下信息:

类别描述适用字段
个人信息包含与已识别或可识别自然人相关信息的端点。URL / 文档对象
禁止列出交互式端点模式,如广告链接、点赞、评论和帖子。此指令使 BrightBot 能够屏蔽这些端点,以符合我们禁止从这些区域收集数据的指南。URL / 文档对象
负载报告您在特定域或子域以及特定时间段内的有机流量负载。BrightBot 将使用此信息而不是公共负载统计数据来决定自身的速率限制。

URL / 文档对象


速率时间框架

流量高峰时间定义有机流量高峰时段,以减少这些时间的数据收集。

URL / 文档对象


日期 | 工作日 | 任意


开始时间 / 结束时间

工作原理

  1. 创建 Webmaster Console
  2. 验证您的网站
  3. 为每个站点构建 collectors.txt

什么是 BrightBot?

BrightBot 是 Bright Data 的爬虫层,它监测其目标域的健康状况并执行道德使用规范。此爬虫技术可防止访问非公开信息,并阻止可能被滥用的交互式端点,如广告点击、评论、点赞、账户管理等。当您加入 Bright Data Webmaster Console 并提交 collectors.txt 文件的请求后,BrightBot 将根据 Bright Data 批准的方式执行符合道德规范的数据收集。

示例 & 格式

Ignore: robots.txt
pii: /personal_info_1
pii: /personal_info_2

// 包含与已识别或可识别自然人相关信息的端点。

Disallow: /disallow_1
disallow: /disallow_2

// 列出交互式端点模式,如广告链接、点赞、评论和帖子。

Load: example.com:100:min
load: /endpoint_1:4500:day
load: /endpoint_2:20000:month

// 由网站管理员报告的每个域或子域的有机流量负载及其时间框架,BrightBot 将参考此信息进行速率限制。