業界標準に従い、Anthropicは様々なロボットを使用して、モデル開発のために公開ウェブからデータを収集し、ウェブを検索し、ユーザーの指示に応じてウェブコンテンツを取得しています。Anthropicは、ウェブサイト所有者の透明性と選択を可能にするために、異なるロボットを使用しています。以下は、Anthropicが使用する3つのロボットに関する情報と、コンテンツへのアクセスを許可したいロボットを有効にし、そうでないものを制限するためのサイト設定方法です。
ボット | 用途 | 無効にした場合の影響 |
ClaudeBot | ClaudeBotは、生成AIモデルの有用性と安全性を向上させるために、トレーニングに潜在的に貢献する可能性のあるウェブコンテンツを収集します。 | サイトがClaudeBotのアクセスを制限すると、そのサイトの将来の資料をAIモデルトレーニングデータセットから除外すべきであることを示します。 |
Claude-User | Claude-UserはClaude AIユーザーをサポートします。個人がClaudeに質問すると、Claude-Userエージェントを使用してウェブサイトにアクセスする場合があります。 | Claude-Userにより、サイト所有者はこれらのユーザー主導のリクエストを通じてアクセスできるサイトを制御できます。サイトでClaude-Userを無効にすると、ユーザーのクエリに応じてコンテンツを取得できなくなり、ユーザー主導のウェブ検索におけるサイトの可視性が低下する可能性があります。 |
Claude-SearchBot | Claude-SearchBotは、ユーザーの検索結果の品質を向上させるためにウェブを巡回します。検索応答の関連性と正確性を高めるために、オンラインコンテンツを特に分析します。 | サイトでClaude-SearchBotを無効にすると、検索最適化のためにコンテンツをインデックス化できなくなり、ユーザーの検索結果におけるサイトの可視性と正確性が低下する可能性があります。 |
安全で信頼性の高いフロンティアシステムを構築し、責任あるAI開発の分野を前進させるという我々のミッションの一環として、データ収集の原則と今後のクローリングをオプトアウトする方法を共有します:
データ収集は透明であるべきです。Anthropicは上記のボットを使用してウェブコンテンツにアクセスします。
クローリングは侵入的または破壊的であってはなりません。同じドメインをクロールする速度について慎重に考え、適切な場合はCrawl-delayを尊重することで、最小限の混乱を目指しています。
Anthropicのボットは、robots.txtの業界標準指示を尊重することで、「クロールしない」信号を尊重します。
Anthropicのボットは迂回防止技術を尊重します(例:クロールするサイトのCAPTCHAをバイパスしようとしません)。
クローリング活動を制限するために、robots.txtの非標準のCrawl-delay拡張をサポートしています。例えば:
User-agent: ClaudeBot
Crawl-delay: 1
ボットをウェブサイト全体からブロックするには、トップレベルディレクトリのrobots.txtファイルに以下を追加してください。オプトアウトしたいすべてのサブドメインに対してこれを行ってください。例:
User-agent: ClaudeBot
Disallow: /
Anthropicボットによるクロールをオプトアウトするには、上記の方法でrobots.txtファイルを変更する必要があります。Anthropicボットが動作するIPアドレスをブロックするなどの代替方法は、正しく機能しない場合があり、オプトアウトを永続的に保証できない可能性があります。これは、robots.txtファイルを読み取る能力を妨げるためです。さらに、現在はサービスプロバイダーのパブリックIPを使用しているため、IP範囲を公開していません。これは将来変更される可能性があります。
データ処理の実践とコミットメントについては、ヘルプセンターで詳細をご覧いただけます。さらに質問がある場合や、ボットが誤動作している可能性があると思われる場合は、claudebot@anthropic.comまでご連絡ください。お問い合わせの際は、お問い合わせ内容に関連するドメインを含むメールアドレスからご連絡ください。そうでない場合、報告を確認することが困難になります。