ClaudeのAPIデプロイメントのTrust&Safetyを設定し始めたばかりか、すでにデプロイメントが実行されているかに関わらず、独自のAI安全プログラムを構築する際に考慮する戦略がここにあります。
基本的な安全対策
各APIコールにリンクされたIDを保存することで、システム内で規制違反のコンテンツを特定する必要がある場合にそれを見つけることができます。
ユーザーにIDを割り当てることを検討してください。これにより、AnthropicのAUPに違反している特定の個人を追跡し、誤用の場合によりターゲットを絞ったアクションを取ることができます。
IDをAnthropicにAPI経由で渡すかどうかはあなた次第です。 ただし、提供された場合、違反をより正確に特定できます。 エンドユーザーのプライバシーを保護するために、渡されるIDは暗号化ハッシュ化する必要があります。
Claudeを利用する前に、プラットフォーム上でアカウント登録を要求することを検討してください。
顧客が許可された使用法を理解していることを確認してください。
中級者向けの安全対策
エンドユーザーのClaudeとの対話を制限されたプロンプトのセットに制限する、またはClaudeがすでにお持ちの特定の知識コーパスのみをレビューできるようにするなどのカスタマイズフレームワークを作成します。これにより、ユーザーが違反行為に従事する能力が低下します。
追加の安全フィルターを有効にする - Anthropicが作成した、潜在的に有害なプロンプトを検出し、被害を軽減するためのリアルタイムアクションを管理するのに役立つ無料のリアルタイムモデレーションツール。
追加の安全フィルターを有効にする方法については、usersafety@anthropic.comまでお問い合わせください。
Bedrockのお客様の場合:
プライベートS3バケットをアクティブにして、プロンプトとコンプリーションを独自に評価できるように保存します。
高度な安全対策
有害でないことを確認するために、エンドユーザーのすべてのプロンプトに対してモデレーションAPIを実行する
包括的な安全対策
Claude(コンテンツモデレーションに使用)またはモデレーションAPIによって有害であるとマークされたプロンプトをフラグする内部人間レビューシステムを設定し、違反率が高いユーザーを制限または削除するために介入できます。