Anthropicはウェブからデータをクロールしていますか？また、サイト所有者はどのようにクローラーをブロックできますか？

業界標準に従い、Anthropicはモデル開発のために、ウェブクローラーを介してインターネットから収集した公開データなど、さまざまなデータソースを使用しています。安全で信頼性の高いフロンティアシステムを構築し、責任あるAI開発の分野を前進させるという私たちのミッションの一環として、データ収集の原則と今後のクローリングからオプトアウトする方法について共有します：

データ収集は透明であるべきです。ユーザーエージェントトークンClaudeBotは、Anthropicの汎用ウェブクローラーを識別します。
クローリングは侵入的または破壊的であってはなりません。同じドメインをクロールする速度について慎重に考え、適切な場合はCrawl-delayを尊重することで、最小限の混乱を目指しています。
Anthropicのクローラーは、robots.txtの業界標準指示（Common CrawlのCCBotユーザーエージェントに対する禁止を含む）を尊重することで、「クロールしない」信号を尊重します。
Anthropicのクローラーは迂回防止技術を尊重します（例：クロールするサイトのCAPTCHAをバイパスしようとしません）。

クローリング活動を制限するために、robots.txtの非標準のCrawl-delay拡張をサポートしています。例えば：

User-agent: ClaudeBot

Crawl-delay: 1

ウェブサイト全体からクローラーをブロックするには、トップレベルディレクトリのrobots.txtファイルに以下を追加してください。オプトアウトしたいすべてのサブドメインに対してこれを行ってください。

User-agent: ClaudeBot

Disallow: /

ClaudeBotによるクロールからオプトアウトするには、上記の方法でrobots.txtファイルを変更する必要があります。ClaudeBotが操作するIPアドレスをブロックするなどの代替方法は、正しく機能しない可能性があり、オプトアウトを永続的に保証できません。これは、robots.txtファイルを読み取る能力を妨げるためです。さらに、現在はサービスプロバイダーのパブリックIPを使用しているため、IP範囲を公開していません。これは将来変更される可能性があります。

データ処理の実践と約束についての詳細は、ヘルプセンターでご確認いただけます。さらに質問がある場合や、クローラーが誤動作している可能性があると思われる場合は、claudebot@anthropic.comまでご連絡ください。お問い合わせの際は、お問い合わせ内容に関連するドメインを含むメールアドレスからご連絡ください。そうでない場合、報告を確認することが困難になります。

Anthropic APIにアクセスするにはどうすればよいですか?

Anthropic APIを個人利用に使用できますか？

チームのデータの所有権と管理は誰が行うのですか?

Anthropic、顧客、およびユーザー間のデータ関係はどのようになっていますか？

Anthropicのプライバシー慣行についてもっと詳しく知るにはどうすればよいですか？