跳转到主要内容
所有收藏隐私和法律
Anthropic是否从网络上抓取数据,网站所有者如何阻止爬虫?

Anthropic是否从网络上抓取数据,网站所有者如何阻止爬虫?

超过 2 周前更新

根据行业标准,Anthropic使用各种机器人从公共网络收集数据用于模型开发、搜索网络以及按用户指示检索网络内容。Anthropic使用不同的机器人以确保网站所有者的透明度和选择权。以下是Anthropic使用的三种机器人的信息,以及如何设置您的网站偏好以启用您想要访问您内容的机器人并限制那些您不想要的机器人。

机器人

用途

禁用时会发生什么

ClaudeBot

ClaudeBot通过收集可能有助于训练的网络内容来帮助提高我们生成式AI模型的实用性和安全性。

当网站限制ClaudeBot访问时,这表明该网站的未来材料应该被排除在我们的AI模型训练数据集之外。

Claude-User

Claude-User支持Claude AI用户。当个人向Claude提问时,它可能会使用Claude-User代理访问网站。

Claude-User允许网站所有者控制哪些网站可以通过这些用户发起的请求访问。在您的网站上禁用Claude-User会阻止我们的系统响应用户查询时检索您的内容,这可能会降低您的网站在用户指导的网络搜索中的可见性。

Claude-SearchBot

Claude-SearchBot浏览网络以提高用户的搜索结果质量。它专门分析在线内容以提高搜索响应的相关性和准确性。

在您的网站上禁用Claude-SearchBot会阻止我们的系统为搜索优化而索引您的内容,这可能会降低您的网站在用户搜索结果中的可见性和准确性。

作为我们构建安全可靠的前沿系统和推进负责任的AI开发领域的使命的一部分,我们分享了我们收集数据的原则以及如何选择退出我们未来的爬取的说明:

  • 我们的数据收集应该是透明的。Anthropic使用上述机器人访问网络内容。

  • 我们的爬取不应该具有侵入性或破坏性。我们通过谨慎考虑爬取相同域名的频率并在适当的情况下尊重Crawl-delay来尽量减少干扰。

  • Anthropic的机器人尊重"不要爬取"信号,遵守robots.txt中的行业标准指令。

  • Anthropic的机器人尊重反规避技术(例如,我们不会试图绕过我们爬取的网站的CAPTCHA。)

为了限制爬取活动,我们支持robots.txt的非标准Crawl-delay扩展。例如:

User-agent: ClaudeBot

Crawl-delay: 1

要阻止机器人访问您的整个网站,请将以下内容添加到您顶级目录中的robots.txt文件中。请为您希望选择退出的每个子域名执行此操作。例如:

User-agent: ClaudeBot

Disallow: /

选择退出Anthropic机器人的爬取需要按上述方式修改robots.txt文件。其他方法,如阻止Anthropic机器人运行的IP地址,可能无法正确或持续地保证选择退出,因为这样做会妨碍我们读取您的robots.txt文件。此外,我们目前不公布IP范围,因为我们使用服务提供商的公共IP。这可能在未来发生变化。

您可以在我们的帮助中心了解更多关于我们的数据处理实践和承诺。如果您有进一步的问题,或认为我们的机器人可能出现故障,请联系claudebot@anthropic.com。请使用包含您联系我们的域名的电子邮件与我们联系,否则很难验证报告。

这是否解答了您的问题?