API信頼性および安全性ツール | Anthropicヘルプセンター

Claudeの API デプロイメントのための Trust & Safety の設定を始めたばかりの方も、すでにデプロイメントが稼働中の方も、独自の AI 安全プログラムを構築する際に検討すべき戦略をいくつか紹介します。これらの提案は、Claude の特定の使用を禁止している利用規約および利用ポリシーを遵守するのに役立つよう設計されています。利用規約および利用ポリシーを遵守しない場合、サービスへのアクセスが停止または終了される可能性があります。

基本的な安全対策

各 API 呼び出しにリンクされた ID を保存し、特定の違反コンテンツを特定する必要がある場合に、システム内で見つけることができるようにします。
ユーザーに ID を割り当てることを検討してください。これにより、Anthropic の AUP に違反している特定の個人を追跡でき、悪用の場合により的を絞った対応が可能になります。
- API を通じて Anthropic に ID を渡すかどうかは、お客様次第です。ただし、提供された場合、違反をより正確に特定することができます。エンドユーザーのプライバシーを保護するため、渡される ID は暗号学的にハッシュ化する必要があります。
Claude を利用する前に、お客様にプラットフォームのアカウントを作成することを要求することを検討してください。
お客様が許可された使用方法を理解していることを確認してください。
Anthropic の利用規約および利用ポリシーに繰り返し違反するユーザーに警告を与え、制限をかけるか、アカウントを停止してください。

中級の安全対策

エンドユーザーの Claude との対話を限定されたプロンプトセットに制限したり、Claude が特定の知識コーパスのみをレビューできるようにするカスタマイズフレームワークを作成し、ユーザーが違反行為に関与する可能性を減らします。
追加の安全フィルターを有効にします - Anthropic が構築した無料のリアルタイムモデレーションツールで、潜在的に有害なプロンプトを検出し、害を軽減するためのリアルタイムアクションを管理するのに役立ちます。
- 追加の安全フィルターを有効にする方法の詳細については、usersafety@anthropic.comまでお問い合わせください。
Bedrock のお客様向け：
- プロンプトと完了を独自に評価するために、プライベート S3 バケットをアクティベートしてください。

高度な安全対策

コンテンツモデレーションに Claude を使用する
エンドユーザーのプロンプトが有害でないことを確認するため、Claude に送信する前にすべてのプロンプトに対してモデレーション API を実行します。

包括的な安全対策

（コンテンツモデレーションに使用されている）Claude またはモデレーション API によって有害とマークされたプロンプトにフラグを立てる内部の人間によるレビューシステムを設置し、違反率の高いユーザーを制限または削除するために介入できるようにします。

ユーザーの安全性に対する私たちのアプローチ

信頼性と安全性に関する警告と異議申し立て

APIキーのベストプラクティス：キーを安全に保護する方法

Claude for Work（チームおよびエンタープライズプラン）を通じて送信したデータを削除することはできますか？

Gmail および Google カレンダー連携機能の使用方法