ユーザーの安全性に対するアプローチ

ユーザーの安全は、Anthropicの信頼できる、解釈可能で、操縦可能なAIシステムを作成する使命の核心です。私たちがClaudeとの新しい対話の方法を提供し始めるにつれて、誤情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の誤用など、新しい種類の潜在的な害が現れることも予想されます。既存のモデルの安全対策を補完する追加の安全機能への投資と実験を積極的に行っており、幅広い対象者に役立つツールを提供しながら、害を軽減するための最善を尽くしています。オープンベータで新製品を立ち上げることで、実験、反復、フィードバックを聞くことができます。導入した安全機能の一部を以下に示します。

当社の利用規約に基づき、潜在的に有害なコンテンツをフラグする検出モデル。
プロンプトに対する安全フィルターで、検出モデルがコンテンツを有害と判断した場合、モデルからの応答をブロックすることがあります。
強化された安全フィルターで、検出モデルの感度を上げることができます。私たちのポリシーに繰り返し違反したユーザーに一時的に強化された安全フィルターを適用し、違反がない、またはごく少数の期間後にこれらの制御を削除することがあります。

これらの機能は完璧なものではなく、偽陽性や偽陰性を通じて間違いを犯す可能性があります。これらの対策とその説明方法に関するフィードバックは、これらの安全システムを改善するうえで重要な役割を果たします。usersafety@anthropic.comまでフィードバックをお寄せください。詳細については、AI安全性に関する当社の考え方をご覧ください。

有害または違法なコンテンツの報告

Claudeを使用して製品をリリースする計画を立てています。Anthropicの許容使用ポリシーに違反しないようにするには、どのような手順を踏むべきでしょうか。

信頼と安全性に関する警告と申し立て

Claude Proに機密データを入力したいのですが、会話を見ることができるのは誰ですか?

API トラスト&セーフティツール