業界標準に従い、Anthropicはモデル開発のために、ウェブクローラーを介してインターネットから収集した公開データなど、さまざまなデータソースを使用しています。安全で信頼性の高いフロンティアシステムを構築し、責任あるAI開発の分野を前進させるという私たちのミッションの一環として、データ収集の原則と今後のクローリングからオプトアウトする方法について共有します:
データ収集は透明であるべきです。ユーザーエージェントトークンClaudeBotは、Anthropicの汎用ウェブクローラーを識別します。
クローリングは侵入的または破壊的であってはなりません。同じドメインをクロールする速度について慎重に考え、適切な場合はCrawl-delayを尊重することで、最小限の混乱を目指しています。
Anthropicのクローラーは、robots.txtの業界標準指示(Common CrawlのCCBotユーザーエージェントに対する禁止を含む)を尊重することで、「クロールしない」信号を尊重します。
Anthropicのクローラーは迂回防止技術を尊重します(例:クロールするサイトのCAPTCHAをバイパスしようとしません)。
クローリング活動を制限するために、robots.txtの非標準拡張であるCrawl-delayをサポートしています。例えば以下のようになります:
User-agent: ClaudeBot
Crawl-delay: 1
ウェブサイト全体からクローラーをブロックするには、トップレベルディレクトリのrobots.txtファイルに以下を追加してください。オプトアウトしたいすべてのサブドメインに対してこれを行ってください。
User-agent: ClaudeBot
Disallow: /
ClaudeBotによるクローリングからオプトアウトするには、上記の方法でrobots.txtファイルを変更する必要があります。ClaudeBotが操作するIPアドレスをブロックするなどの代替方法は、正しく機能しない場合があり、オプトアウトを永続的に保証できない可能性があります。これは、robots.txtファイルを読み取る能力を妨げるためです。さらに、現在はサービスプロバイダーのパブリックIPを使用しているため、IP範囲は公開していません。これは将来変更される可能性があります。
データ処理の実践と約束についての詳細は、ヘルプセンターでご確認いただけます。さらに質問がある場合や、クローラーが誤動作している可能性があると思われる場合は、claudebot@anthropic.comまでお問い合わせください。お問い合わせの際は、お問い合わせ内容に関連するドメインを含むメールアドレスからご連絡ください。そうでない場合、報告を確認することが困難になります。