メインコンテンツにスキップ

API セーフガードツール

今週アップデートされました

ClaudeのAPIデプロイメントに対するセーフガードの設定プロセスを開始したばかりの場合でも、既にデプロイメントが稼働している場合でも、独自のAI安全プログラムを構築する際に検討すべき戦略をご紹介します。これらの提案は、Claudeの特定の使用を禁止している当社の利用規約および使用ポリシーへの準拠を支援するために設計されています。利用規約および使用ポリシーへの準拠を怠った場合、サービスへのアクセスが停止または終了される可能性があります。

基本的なセーフガード

  • 各API呼び出しにリンクされたIDを保存し、特定の違反コンテンツを特定する必要がある場合に、システム内でそれを見つけることができるようにします。

  • ユーザーにIDを割り当てることを検討してください。これにより、AnthropicのAUPに違反している特定の個人を追跡でき、誤用の場合により的を絞った対応が可能になります。

    • API経由でAnthropicにIDを渡すかどうかの選択はお客様次第です。ただし、提供された場合、より正確に違反を特定できます。エンドユーザーのプライバシーを保護するため、渡されるIDは暗号学的にハッシュ化されている必要があります。

  • Claudeを利用する前に、顧客にプラットフォームでのアカウント登録を要求することを検討してください

  • 顧客が許可された使用方法を理解していることを確認してください

  • Anthropicの利用規約および使用ポリシーに繰り返し違反するユーザーに対して警告、制限、または停止措置を講じてください

中級レベルのセーフガード

  • エンドユーザーとClaudeとのやり取りを限定されたプロンプトセットに制限するか、Claudeが既にお持ちの特定の知識コーパスのみをレビューできるようにするカスタマイゼーションフレームワークを作成し、ユーザーが違反行為に従事する能力を減らします。

  • 追加の安全フィルターを有効にする - 潜在的に有害なプロンプトの検出を支援し、害を減らすためのリアルタイムアクションを管理するために、Anthropicが構築した無料のリアルタイムモデレーションツール

    • 追加の安全フィルターを有効にする方法の詳細については、usersafety@anthropic.comまでお問い合わせください。

  • Bedrockのお客様向け:

    • 独自の評価のためにプロンプトと完了を保存するために、プライベートS3バケットを有効化してください

高度なセーフガード

包括的なセーフガード

  • Claude(コンテンツモデレーションに使用)またはモデレーションAPIによって有害とマークされたプロンプトにフラグを立てる内部人的レビューシステムを設定し、違反率の高いユーザーを制限または削除するために介入できるようにします。

こちらの回答で解決しましたか?