Claudeの API デプロイメントのための Trust & Safety の設定プロセスを始めたばかりの方も、すでにデプロイメントが稼働中の方も、独自の AI 安全プログラムを構築する際に検討すべき戦略をいくつか紹介します。
基本的な安全対策
各 API 呼び出しにリンクされた ID を保存し、特定の違反コンテンツを特定する必要がある場合に、システム内で見つけることができるようにします。
ユーザーに ID を割り当てることを検討してください。これにより、Anthropic の AUP に違反している特定の個人を追跡できるようになり、悪用の場合により的を絞った対応が可能になります。
API を通じて ID を Anthropic に渡すかどうかは、お客様次第です。ただし、提供された場合、より正確に違反を特定することができます。エンドユーザーのプライバシーを保護するため、渡される ID は暗号学的にハッシュ化する必要があります。
Claude を利用する前に、お客様にプラットフォームのアカウントを作成することを要求することを検討してください。
お客様が許可された使用方法を理解していることを確認してください。
中級の安全対策
エンドユーザーの Claude との対話を限定されたプロンプトセットに制限したり、Claude が特定の知識コーパスのみをレビューできるようにするカスタマイズフレームワークを作成し、ユーザーが違反行為に関与する可能性を減らします。
追加の安全フィルターを有効にします - Anthropic が構築した無料のリアルタイムモデレーションツールで、潜在的に有害なプロンプトを検出し、害を軽減するためのリアルタイムアクションを管理するのに役立ちます。
追加の安全フィルターを有効にする方法の詳細については、usersafety@anthropic.com までお問い合わせください。
Bedrock のお客様向け:
プロンプトと完了を独自に評価するために、プライベート S3 バケットをアクティブ化します。
高度な安全対策
Claude に送信される前に、すべてのエンドユーザーのプロンプトに対してモデレーション API を実行し、有害でないことを確認します。
包括的な安全対策
内部の人間によるレビューシステムを設置し、Claude(コンテンツモデレーションに使用)またはモデレーション API によって有害とマークされたプロンプトにフラグを立て、違反率の高いユーザーを制限または削除するために介入できるようにします。