根據行業標準,Anthropic 使用各種機器人從公共網路收集數據以進行模型開發、搜索網路,以及按照用戶指示檢索網路內容。Anthropic 使用不同的機器人來實現網站所有者的透明度和選擇權。以下是 Anthropic 使用的三種機器人的資訊,以及如何設定您的網站偏好設定,以允許您希望訪問您內容的機器人並限制您不希望的機器人。
機器人 | 用途 | 當您禁用它時會發生什麼 |
ClaudeBot | ClaudeBot 透過收集可能有助於訓練的網路內容,幫助增強我們生成式 AI 模型的實用性和安全性。 | 當網站限制 ClaudeBot 訪問時,這表示該網站的未來材料應從我們的 AI 模型訓練數據集中排除。 |
Claude-User | Claude-User 支援 Claude AI 用戶。當個人向 Claude 提問時,它可能會使用 Claude-User 代理訪問網站。 | Claude-User 允許網站所有者控制哪些網站可以透過這些用戶發起的請求被訪問。在您的網站上禁用 Claude-User 會阻止我們的系統響應用戶查詢而檢索您的內容,這可能會降低您網站在用戶導向網路搜索中的可見度。 |
Claude-SearchBot | Claude-SearchBot 瀏覽網路以改善用戶的搜索結果品質。它專門分析線上內容以增強搜索回應的相關性和準確性。 | 在您的網站上禁用 Claude-SearchBot 會阻止我們的系統為搜索優化而索引您的內容,這可能會降低您網站在用戶搜索結果中的可見度和準確性。 |
作為我們建構安全可靠的前沿系統並推進負責任 AI 開發領域使命的一部分,我們分享收集數據的原則以及如何選擇退出我們未來爬取的說明:
我們的數據收集應該是透明的。Anthropic 使用上述描述的機器人來訪問網路內容。
我們的爬取不應該具有侵入性或破壞性。我們透過謹慎考慮爬取相同域名的速度並在適當時尊重 Crawl-delay 來實現最小干擾。
Anthropic 的機器人尊重「不要爬取」信號,遵守 robots.txt 中的行業標準指令。
Anthropic 的機器人尊重反規避技術(例如,我們不會嘗試繞過我們爬取網站的驗證碼)。
為了限制爬取活動,我們支援 robots.txt 的非標準 Crawl-delay 擴展。例如:
User-agent: ClaudeBot
Crawl-delay: 1
要阻止機器人訪問您的整個網站,請將此內容添加到您頂級目錄中的 robots.txt 檔案。請為您希望選擇退出的每個子域名執行此操作。例如:
User-agent: ClaudeBot
Disallow: /
選擇退出 Anthropic 機器人爬取需要按照上述方式修改 robots.txt 檔案。其他方法,如阻止 Anthropic 機器人運行的 IP 地址,可能無法正確工作或持續保證選擇退出,因為這樣做會阻礙我們讀取您的 robots.txt 檔案的能力。此外,我們目前不公佈 IP 範圍,因為我們使用服務提供商的公共 IP。這在未來可能會改變。
您可以在我們的幫助中心了解更多關於我們數據處理實踐和承諾的資訊。如果您有進一步的問題,或認為我們的機器人可能出現故障,請聯繫 claudebot@anthropic.com。請從包含您聯繫我們相關域名的電子郵件地址聯繫我們,否則很難驗證報告。