目的

私たちは、安全なAIエコシステムの構築において外部テストが極めて重要であると考えています。モデルの能力が向上するにつれて、ジェイルブレイクの結果がますます重大になる可能性があります。この継続的なプログラムは、私たちの過去の成功したバグバウンティイニシアチブを基盤とし、いくつかの重要な目標を掲げています：

ASL-3保護機能を備えた私たちの展開システムにおける汎用ジェイルブレイクの特定
私たちの安全対策の有効性の継続的評価の提供
脆弱性を検出する私たちの監視システムの能力のテスト
公開されているジェイルブレイクを報告するための一つの中央集権的な正当なチャネルの使用の奨励

プログラム概要

私たちのモデル安全性バグバウンティプログラムはHackerOneを通じて運営されています。このプログラムを通じて、私たちのConstitutional Classifiersシステムを上回る汎用ジェイルブレイクの発見に関心を持っています。また、将来的にローンチを希望する分類器の堅牢性をテストするために、全体的なプログラム内で対象を絞ったプログラムを時折実施しています。

汎用ジェイルブレイクとは、入力プロンプトに関係なく、言語モデルからポリシー違反の応答を確実に引き出す一般化された技術です。特定の質問や文脈の詳細に依存する狭義のジェイルブレイクとは異なり、汎用ジェイルブレイクは幅広いプロンプトやシナリオで機能します。

これは継続的なプログラムです。HackerOneでプログラムに受け入れられると、参加者はこのプログラムを通じていつでもジェイルブレイクレポートを提出できます。レッドチーミング活動を支援するため、私たちの最新かつ最も高度なモデルでライブ稼働しているモデルと分類器を反映した無料のモデルエイリアスへのアクセスを提供します。この無料モデルエイリアスの使用は、承認されたレッドチーミング活動の実行に限定する必要があります。

プログラム範囲

このプログラムは主に、幅広いクエリにわたって有害な情報を明らかにできるという意味で汎用的であり、生物学的脅威に関連する非常に具体的な有害情報を明らかにするという意味で詳細なジェイルブレイクの発見に関心を持っています。

強調すべきは、私たちはプログラムで受け入れられた参加者と共有する一連の有害な生物学的質問に答える情報を抽出するジェイルブレイクに関心があることです。

私たちは特定された新規の汎用ジェイルブレイクごとに最大35,000ドルを支払います。私たちの独自の基準と裁量に基づいて、相当量の有害情報を明らかにするジェイルブレイクにのみ関心があります。応答がどの程度詳細で正確かを決定する内部採点ルーブリックに基づいたスライディングスケールを使用して報奨金を授与します。

このプログラムは、私たちのConstitutional Classifiersでのジェイルブレイクを対象としています。設定ミス、CSRF（クロスサイトリクエストフォージェリ）、権限昇格攻撃、SQLインジェクション、XSS、ディレクトリトラバーサル攻撃など、私たちの情報システムに潜在的に存在する技術的脆弱性については、私たちの責任ある開示ポリシーを参照し、こちらでレポートを提出してください。

申請方法

私たちのプログラムへの参加申請はこちらから行えます。申請は随時審査しています。受け入れられた場合、HackerOne経由で招待状を受け取ります。まだHackerOneアカウントをお持ちでない場合は、プログラムに申請する前にアカウントを作成してください。そうすることで、プラットフォーム上で直接招待できます。Anthropic Console/APIアカウントを作成するには、@wearehackerone.comのメールエイリアスを使用する必要があります。

開示ガイドライン＆機密保持義務

すべてのプログラム参加者は、参加の条件として、プログラムの機密性を保護するための秘密保持契約に署名する必要があります。公開してもよいもの：

AnthropicのModel Safety Bug Bounty Programの存在
プログラムの選ばれた参加者としてのあなたの参加

明示的な許可なしに開示してはならないもの：

Anthropicからの明示的な同意なしに、プログラム外でのジェイルブレイク/脆弱性（解決済みのものも含む）
テスト質問セット
分類器と安全対策の詳細
テスト対象のモデルに関する情報
他の参加者の身元
上記で明示的に許可されたもの以外の、プログラムに関連するその他の情報

プログラムからのデータのAnthropicによる使用

参加者は、このプログラムに関連してAnthropicに提出されたすべてのデータ（その製品およびサービスを含む

Claudeからのコンテンツの報告、ブロック、削除

ユーザー安全性に対する私たちのアプローチ

外部研究者アクセスプログラムとは何ですか？

Claudeからのコンテンツの報告、ブロック、削除

オンライン安全連絡先