メインコンテンツにスキップ

ユーザー安全性に対する私たちのアプローチ

今週アップデートされました

ユーザーの安全性は、信頼性があり、解釈可能で、制御可能なAIシステムを構築するというAnthropicの使命の中核です。人々がClaudeと対話する新しい方法を開始するにつれて、誤情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の悪用を通じて、新しいタイプの潜在的な害が現れることも予想されます。私たちは既存のモデル安全性への取り組みを補完する追加の安全機能に積極的に投資し、実験を行っており、幅広いオーディエンスに有用なツールを提供すると同時に、害を軽減するために最善を尽くしています。新製品をオープンベータで開始することで、実験、反復、そして皆様からのフィードバックを聞くことができます。以下は、私たちが導入した安全機能の一部です:

  • 私たちの利用規約に基づいて、潜在的に有害なコンテンツにフラグを立てる検出モデル。

  • プロンプトに対する安全フィルター。検出モデルがコンテンツを有害としてフラグを立てた場合、モデルからの応答をブロックする可能性があります。

  • 強化された安全フィルター。検出モデルの感度を高めることができます。私たちのポリシーに繰り返し違反するユーザーに対して、一時的に強化された安全フィルターを適用し、違反がない、または少ない期間の後にこれらの制御を解除する場合があります。

これらの機能は完全ではなく、偽陽性や偽陰性によって間違いを犯す可能性があります。これらの対策と、それらをユーザーにどのように説明するかについての皆様のフィードバックは、これらの安全システムの改善に重要な役割を果たします。フィードバックがございましたら、usersafety@anthropic.comまでお気軽にご連絡ください。詳細については、AI安全性に関する私たちの中核的な見解をお読みください

こちらの回答で解決しましたか?