メインコンテンツにスキップ
すべてのコレクション信頼と安全
ユーザーの安全性に対する私たちのアプローチ
ユーザーの安全性に対する私たちのアプローチ
一週間前以上前にアップデートされました

ユーザーの安全性は、信頼性が高く、解釈可能で、操縦可能なAIシステムを作成するというAnthropicのミッションの中核です。Claudeとの新しい対話方法を導入するにつれて、誤情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の悪用など、新たな種類の潜在的な危害が顕在化することも予想されます。私たちは、既存のモデル安全性への取り組みを補完する追加の安全機能に積極的に投資し、実験を行っています。また、幅広い層に役立つツールを提供しながら、危害を軽減するために最善を尽くしています。新製品をオープンベータでリリースすることで、実験、改善、そしてフィードバックを聞くことができます。以下は、私たちが導入した安全機能の一部です:

  • 私たちの利用規約に基づいて、潜在的に有害なコンテンツを検出するモデル。

  • プロンプトに対する安全フィルター。検出モデルがコンテンツを有害と判断した場合、モデルからの応答をブロックする可能性があります。

  • 強化された安全フィルター。これにより、検出モデルの感度を高めることができます。私たちは、規約に繰り返し違反するユーザーに対して一時的に強化された安全フィルターを適用し、違反がないか少ない期間が続いた後にこれらの制御を解除する場合があります。

これらの機能は完全ではなく、偽陽性や偽陰性によって間違いを犯す可能性があります。これらの対策とそれをユーザーにどのように説明するかについてのあなたのフィードバックは、これらの安全システムを改善する上で重要な役割を果たします。ご意見がございましたら、usersafety@anthropic.comまでお寄せください。詳細については、AI安全性に関する私たちの核心的な見解をお読みください

こちらの回答で解決しましたか?