Anthropic

根据行业标准,Anthropic使用各种数据源进行模型开发,如通过网络爬虫从互联网上收集的公开可用数据。作为我们建立安全可靠的前沿系统和推进负责任的人工智能开发领域的使命的一部分,我们分享我们收集数据的原则以及如何选择退出我们未来的爬取:

我们的数据收集应该是透明的。用户代理标记ClaudeBot标识了Anthropic的通用网络爬虫。

我们的爬取不应该具有侵入性或破坏性。我们通过谨慎考虑爬取相同域名的频率并在适当情况下尊重Crawl-delay,以达到最小化干扰的目的。

Anthropic的爬虫尊重"不要爬取"信号,遵守robots.txt中的行业标准指令,包括对<a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">Common Crawl的CCBot</a>用户代理的任何禁止。

Anthropic的爬虫尊重反规避技术(例如,我们不会试图绕过我们爬取的网站的验证码。)

- 我们的数据收集应该是透明的。用户代理标记ClaudeBot标识了Anthropic的通用网络爬虫。
- 我们的爬取不应该具有侵入性或破坏性。我们通过谨慎考虑爬取相同域名的频率并在适当情况下尊重Crawl-delay,以达到最小化干扰的目的。
- Anthropic的爬虫尊重"不要爬取"信号,遵守robots.txt中的行业标准指令,包括对<a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">Common Crawl的CCBot</a>用户代理的任何禁止。
- Anthropic的爬虫尊重反规避技术(例如,我们不会试图绕过我们爬取的网站的验证码。)

为了限制爬取活动,我们支持robots.txt的非标准Crawl-delay扩展。一个例子可能是:

要阻止爬虫访问您的整个网站,请在顶级目录的robots.txt文件中添加以下内容。请为您希望选择退出的每个子域名执行此操作。

选择退出ClaudeBot的爬取需要按上述方式修改robots.txt文件。其他方法,如阻止ClaudeBot运行的IP地址,可能无法正确或持续地保证选择退出,因为这样做会妨碍我们读取您的robots.txt文件。此外,我们目前不公布IP范围,因为我们使用服务提供商的公共IP。这可能在未来发生变化。

您可以在我们的<a href="https://support.anthropic.com/en/collections/4078534-privacy-legal">帮助中心</a>了解更多关于我们的数据处理实践和承诺。如果您有进一步的问题,或认为我们的爬虫可能出现故障,请联系<a href="mailto:claudebot@anthropic.com" rel="nofollow noopener noreferrer" target="_blank">claudebot@anthropic.com</a>。请使用包含您联系我们的域名的电子邮件与我们联系,否则很难验证报告。

Anthropic是否从网络上抓取数据，网站所有者如何阻止爬虫？

Terms of Service - Consumer

Product

Research

Terms of Service - Commercial

Privacy Policy

Company

Usage Policy

News

Responsible Disclosure Policy

Careers

Compliance

查找答案并从 Intercom 支持和社区专家那里获得帮助

空的帮助中心

哎哟。该页面不存在。

失望

表情平淡

面带微笑

正在思考……

正在搜索来源...

分析中...

标题

跟踪与贵公司相关的所有工单的进度。

工单门户。

{assigneeName} 很快就会处理此问题

{assigneeName} 需要您提供更多信息