Webmaster Console
更好地控制来自您网站的数据收集
Bright Data Webmaster Console 是什么?
网站管理员可以配置 collectors.txt 文件,以通知 Bright Data 数据收集者关于重要信息,例如个人信息的存在等。
网站管理员可以配置 collectors.txt 文件,以通知 Bright Data 他们网站上存在的交互式端点。
Webmaster Console 提供了一种实用且信息丰富的解决方案,用于管理您的网站上的 Bright Data 流量。
-
用户友好的控制面板
-
用于网站健康监测的往返时间 (RTT) 统计
什么是 collectors.txt?
BrightBot 遵循 robots.txt 指南;但需要注意的是,robots.txt 最初是为搜索引擎爬虫设计的,而不是为公共网页数据收集者设计的。负责任的数据收集者应了解更多信息,以确保与您的网站进行适当且尊重的交互。
关键考虑因素包括个人信息的存在,应遵守适用的隐私法律进行处理。此外,您网站上的许多公共端点可能资源有限。通过传达这些限制,您可以帮助防止意外过载各种资源。
Bright Data 将在实施前审核 collectors.txt 信息,但来自合作网络安全公司的身份验证令牌除外。是否接受特定网页的 collectors.txt 由 Bright Data 全权决定,Bright Data 没有义务接受任何请求,也不对未获批准的请求可能产生的后果负责。
-
通过监测 Bright Data 如何与您的网站交互来增强透明度。
-
利用 collectors.txt 文件微调对您网站特定部分的访问权限。
网站管理员可以通过在 Webmaster Console 中提供 collectors.txt 文件的访问指南,使 Bright Data 运营的 BrightBot 更高效地访问他们的网站。此文件可能包含以下信息:
类别 | 描述 | 适用字段 |
---|---|---|
个人信息 | 包含与已识别或可识别自然人相关信息的端点。 | URL / 文档对象 |
禁止 | 列出交互式端点模式,如广告链接、点赞、评论和帖子。此指令使 BrightBot 能够屏蔽这些端点,以符合我们禁止从这些区域收集数据的指南。 | URL / 文档对象 |
负载 | 报告您在特定域或子域以及特定时间段内的有机流量负载。BrightBot 将使用此信息而不是公共负载统计数据来决定自身的速率限制。 | URL / 文档对象 速率时间框架 |
流量高峰时间 | 定义有机流量高峰时段,以减少这些时间的数据收集。 | URL / 文档对象 日期 | 工作日 | 任意 开始时间 / 结束时间 |
工作原理
- 创建 Webmaster Console
- 验证您的网站
- 为每个站点构建 collectors.txt
什么是 BrightBot?
BrightBot 是 Bright Data 的爬虫层,它监测其目标域的健康状况并执行道德使用规范。此爬虫技术可防止访问非公开信息,并阻止可能被滥用的交互式端点,如广告点击、评论、点赞、账户管理等。当您加入 Bright Data Webmaster Console 并提交 collectors.txt 文件的请求后,BrightBot 将根据 Bright Data 批准的方式执行符合道德规范的数据收集。
示例 & 格式
此页面对您有帮助吗?