根据行业标准,Anthropic使用各种数据源进行模型开发,例如通过网络爬虫从互联网上收集的公开可用数据。作为我们建立安全可靠的前沿系统和推进负责任的人工智能发展领域的使命的一部分,我们分享我们收集数据的原则以及如何选择退出我们未来的爬取:
我们的数据收集应该是透明的。用户代理标记ClaudeBot标识了Anthropic的通用网络爬虫。
我们的爬取不应该具有侵入性或破坏性。我们通过谨慎考虑爬取相同域名的频率并在适当情况下尊重Crawl-delay,以达到最小化干扰的目标。
Anthropic的爬虫尊重"不要爬取"信号,遵守robots.txt中的行业标准指令,包括对Common Crawl的CCBot用户代理的任何禁止。
Anthropic的爬虫尊重反规避技术(例如,我们不会试图绕过我们爬取的网站的验证码。)
为了限制爬取活动,我们支持robots.txt的非标准Crawl-delay扩展。一个例子可能是:
User-agent: ClaudeBot
Crawl-delay: 1
要阻止爬虫访问您的整个网站,请在顶级目录的robots.txt文件中添加以下内容。请为您希望选择退出的每个子域名执行此操作。
User-agent: ClaudeBot
Disallow: /
选择退出ClaudeBot的爬取需要按上述方式修改robots.txt文件。其他方法,如阻止ClaudeBot运行的IP地址,可能无法正确或持续地保证选择退出,因为这样做会妨碍我们读取您的robots.txt文件。此外,我们目前不公布IP范围,因为我们使用服务提供商的公共IP。这在未来可能会改变。
您可以在我们的帮助中心了解更多关于我们的数据处理实践和承诺。如果您有进一步的问题,或认为我们的爬虫可能出现故障,请联系claudebot@anthropic.com。请使用包含您联系我们的域名的电子邮件与我们联系,否则很难验证报告。