跳至主要內容
Anthropic 是否會從網路上爬取數據,網站所有者如何阻擋爬蟲?
3 個月前已更新

根據行業標準,Anthropic使用各種數據來源進行模型開發,例如通過網絡爬蟲從互聯網上收集的公開可用數據。作為我們建立安全可靠的前沿系統和推進負責任的人工智能發展領域使命的一部分,我們分享我們收集數據的原則以及如何選擇退出我們未來的爬取:

  • 我們的數據收集應該是透明的。用戶代理標記ClaudeBot標識了Anthropic的通用網絡爬蟲。

  • 我們的爬取不應該具有侵入性或破壞性。我們通過謹慎考慮爬取相同域名的頻率並在適當情況下尊重Crawl-delay,以達到最小化干擾的目標。

  • Anthropic的爬蟲尊重"不要爬取"信號,遵守robots.txt中的行業標準指令,包括對Common Crawl的CCBot用戶代理的任何禁止。

  • Anthropic的爬蟲尊重反規避技術(例如,我們不會試圖繞過我們爬取的網站的驗證碼。)

為了限制爬取活動,我們支持robots.txt的非標準Crawl-delay擴展。一個例子可能是:

User-agent: ClaudeBot

Crawl-delay: 1

要阻止爬蟲訪問您的整個網站,請在您的頂級目錄的robots.txt文件中添加以下內容。請為您希望選擇退出的每個子域名執行此操作。

User-agent: ClaudeBot

Disallow: /

選擇退出被ClaudeBot爬取需要按上述方式修改robots.txt文件。其他方法,如阻止ClaudeBot運行的IP地址,可能無法正確或持續地保證選擇退出,因為這樣做會阻礙我們讀取您的robots.txt文件的能力。此外,我們目前不公布IP範圍,因為我們使用服務提供商的公共IP。這可能在未來會有所改變。

您可以在我們的幫助中心了解更多關於我們的數據處理實踐和承諾。如果您有進一步的問題,或認為我們的爬蟲可能出現故障,請聯繫claudebot@anthropic.com。請使用包含您聯繫我們的域名的電子郵件地址與我們聯繫,否則很難驗證報告。

是否回答了您的問題?