Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

Bright Data Webmaster Console 是什么?

网站管理员可以配置 collectors.txt 文件,以通知 Bright Data 数据收集者关于重要信息,例如个人信息的存在等。 网站管理员可以配置 collectors.txt 文件,以通知 Bright Data 他们网站上存在的交互式端点。 Webmaster Console 提供了一种实用且信息丰富的解决方案,用于管理您的网站上的 Bright Data 流量。
  • 用户友好的控制面板
  • 用于网站健康监测的往返时间 (RTT) 统计

什么是 collectors.txt?

BrightBot 遵循 robots.txt 指南;但需要注意的是,robots.txt 最初是为搜索引擎爬虫设计的,而不是为公共网页数据收集者设计的。负责任的数据收集者应了解更多信息,以确保与您的网站进行适当且尊重的交互。 关键考虑因素包括个人信息的存在,应遵守适用的隐私法律进行处理。此外,您网站上的许多公共端点可能资源有限。通过传达这些限制,您可以帮助防止意外过载各种资源。 Bright Data 将在实施前审核 collectors.txt 信息,但来自合作网络安全公司的身份验证令牌除外。是否接受特定网页的 collectors.txt 由 Bright Data 全权决定,Bright Data 没有义务接受任何请求,也不对未获批准的请求可能产生的后果负责。
  • 通过监测 Bright Data 如何与您的网站交互来增强透明度。
  • 利用 collectors.txt 文件微调对您网站特定部分的访问权限。
网站管理员可以通过在 Webmaster Console 中提供 collectors.txt 文件的访问指南,使 Bright Data 运营的 BrightBot 更高效地访问他们的网站。此文件可能包含以下信息:
类别描述适用字段
个人信息包含与已识别或可识别自然人相关信息的端点。URL / 文档对象
禁止列出交互式端点模式,如广告链接、点赞、评论和帖子。此指令使 BrightBot 能够屏蔽这些端点,以符合我们禁止从这些区域收集数据的指南。URL / 文档对象
负载报告您在特定域或子域以及特定时间段内的有机流量负载。BrightBot 将使用此信息而不是公共负载统计数据来决定自身的速率限制。URL / 文档对象
速率时间框架
流量高峰时间定义有机流量高峰时段,以减少这些时间的数据收集。URL / 文档对象
日期 | 工作日 | 任意
开始时间 / 结束时间

工作原理

  1. 创建 Webmaster Console
  2. 验证您的网站
  3. 为每个站点构建 collectors.txt

什么是 BrightBot?

BrightBot 是 Bright Data 的爬虫层,它监测其目标域的健康状况并执行道德使用规范。此爬虫技术可防止访问非公开信息,并阻止可能被滥用的交互式端点,如广告点击、评论、点赞、账户管理等。当您加入 Bright Data Webmaster Console 并提交 collectors.txt 文件的请求后,BrightBot 将根据 Bright Data 批准的方式执行符合道德规范的数据收集。

示例 & 格式

Ignore: robots.txt
pii: /personal_info_1
pii: /personal_info_2

// 包含与已识别或可识别自然人相关信息的端点。

Disallow: /disallow_1
disallow: /disallow_2

// 列出交互式端点模式,如广告链接、点赞、评论和帖子。

Load: example.com:100:min
load: /endpoint_1:4500:day
load: /endpoint_2:20000:month

// 由网站管理员报告的每个域或子域的有机流量负载及其时间框架,BrightBot 将参考此信息进行速率限制。