根據行業標準,Anthropic使用各種機器人從公共網絡收集數據以進行模型開發、搜索網絡以及按用戶指示檢索網絡內容。Anthropic使用不同的機器人以實現網站所有者的透明度和選擇。以下是Anthropic使用的三種機器人的信息,以及如何設置您的網站偏好以啟用您想要訪問您內容的機器人並限制那些您不想要的。
機器人 | 用途 | 禁用時會發生什麼 |
ClaudeBot | ClaudeBot通過收集可能有助於訓練的網絡內容來幫助提高我們生成式AI模型的實用性和安全性。 | 當網站限制ClaudeBot訪問時,這表明該網站的未來材料應該從我們的AI模型訓練數據集中排除。 |
Claude-User | Claude-User支持Claude AI用戶。當個人向Claude提問時,它可能會使用Claude-User代理訪問網站。 | Claude-User允許網站所有者控制哪些網站可以通過這些用戶發起的請求訪問。在您的網站上禁用Claude-User會阻止我們的系統響應用戶查詢時檢索您的內容,這可能會降低您的網站在用戶指導的網絡搜索中的可見性。 |
Claude-SearchBot | Claude-SearchBot瀏覽網絡以提高用戶的搜索結果質量。它專門分析在線內容以提高搜索響應的相關性和準確性。 | 在您的網站上禁用Claude-SearchBot會阻止我們的系統為搜索優化而索引您的內容,這可能會降低您的網站在用戶搜索結果中的可見性和準確性。 |
作為我們建立安全可靠的前沿系統和推進負責任的AI開發領域的使命的一部分,我們分享了我們收集數據的原則以及如何選擇退出我們未來的爬取的說明:
我們的數據收集應該是透明的。Anthropic使用上述機器人訪問網絡內容。
我們的爬取不應該具有侵入性或破壞性。我們通過謹慎考慮爬取相同域名的頻率並在適當的情況下尊重Crawl-delay來盡量減少干擾。
Anthropic的機器人尊重"不要爬取"信號,遵守robots.txt中的行業標準指令。
Anthropic的機器人尊重反規避技術(例如,我們不會試圖繞過我們爬取的網站的CAPTCHA。)
為了限制爬取活動,我們支持robots.txt的非標準Crawl-delay擴展。例如:
User-agent: ClaudeBot
Crawl-delay: 1
要阻止機器人訪問您的整個網站,請將以下內容添加到您的頂級目錄中的robots.txt文件中。請為您希望選擇退出的每個子域名執行此操作。例如:
User-agent: ClaudeBot
Disallow: /
選擇退出被Anthropic機器人爬取需要以上述方式修改robots.txt文件。替代方法,如阻止Anthropic機器人運行的IP地址,可能無法正確或持續地保證選擇退出,因為這樣做會阻礙我們讀取您的robots.txt文件的能力。此外,我們目前不公布IP範圍,因為我們使用服務提供商的公共IP。這可能在未來會改變。
您可以在我們的幫助中心了解更多關於我們的數據處理實踐和承諾。如果您有進一步的問題,或認為我們的機器人可能出現故障,請聯繫claudebot@anthropic.com。請使用包含您聯繫我們的域名的電子郵件地址與我們聯繫,否則很難驗證報告。