ユーザーの安全性に対する私たちのアプローチ

ユーザーの安全性は、信頼性が高く、解釈可能で、操縦可能なAIシステムを作成するというAnthropicのミッションの核心です。Claudeとの新しい対話方法を導入するにつれて、誤情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の悪用など、新たな種類の潜在的な危害が現れることも予想されます。私たちは、既存のモデル安全性への取り組みを補完するための追加の安全機能に積極的に投資し、実験を行っています。また、幅広い層に役立つツールを提供しながら、危害を軽減するために最善を尽くしています。新製品をオープンベータでリリースすることで、実験、改善、そしてフィードバックを聞くことができます。以下は、私たちが導入した安全機能の一部です：

利用規約に基づいて、潜在的に有害なコンテンツにフラグを立てる検出モデル。
プロンプトに対する安全フィルター。検出モデルがコンテンツを有害とフラグを立てた場合、モデルからの応答をブロックする可能性があります。
強化された安全フィルター。これにより、検出モデルの感度を高めることができます。私たちは、規約に繰り返し違反するユーザーに対して一時的に強化された安全フィルターを適用し、違反がないか少ない期間が続いた後にこれらの制御を解除する場合があります。

これらの機能は完全ではなく、偽陽性や偽陰性によって間違いを犯す可能性があります。これらの措置とそれらをユーザーにどのように説明するかについてのあなたのフィードバックは、これらの安全システムを改善する上で重要な役割を果たします。フィードバックがある場合は、usersafety@anthropic.comまでご連絡ください。詳細については、AI安全性に関する私たちの核心的な見解をお読みください。

有害または違法なコンテンツの報告

Claudeを使用して製品を立ち上げる予定です。Anthropicの利用規約に違反しないようにするために、どのような手順を踏むべきでしょうか？

APIレート制限に対する私たちのアプローチ

無料版のClaude.aiや、Pro/Maxアカウントに機密データを入力したいと思います。私の会話を誰が閲覧できますか？

外部研究者アクセスプログラムとは何ですか？