Egal, ob Sie gerade erst damit beginnen, Trust & Safety für Ihre API-Bereitstellung von Claude einzurichten, oder ob Ihre Bereitstellung bereits läuft, hier sind einige Strategien, die Sie beim Aufbau Ihres eigenen KI-Sicherheitsprogramms berücksichtigen sollten.
Grundlegende Schutzmaßnahmen
Speichern Sie IDs, die mit jedem API-Aufruf verknüpft sind, damit Sie bei Bedarf spezifische regelwidrige Inhalte in Ihren Systemen finden können.
Erwägen Sie die Zuweisung von IDs an Benutzer, was Ihnen helfen kann, bestimmte Personen zu verfolgen, die gegen die Nutzungsbedingungen von Anthropic verstoßen, und so ein gezielteres Vorgehen bei Missbrauch ermöglicht.
Die Entscheidung, IDs über die API an Anthropic zu übermitteln, liegt bei Ihnen. Wenn sie bereitgestellt werden, können wir Verstöße jedoch präziser lokalisieren. Um die Privatsphäre der Endnutzer zu schützen, sollten alle übermittelten IDs kryptografisch gehasht werden.
Erwägen Sie, von Kunden die Erstellung eines Kontos auf Ihrer Plattform zu verlangen, bevor sie Claude nutzen können
Stellen Sie sicher, dass Ihre Kunden die erlaubten Nutzungen verstehen
Mittlere Schutzmaßnahmen
Erstellen Sie Anpassungsrahmen, die die Interaktionen der Endnutzer mit Claude auf eine begrenzte Anzahl von Prompts beschränken oder Claude nur erlauben, einen bestimmten Wissenskorpus zu überprüfen, den Sie bereits haben. Dies wird die Möglichkeit der Nutzer, regelwidriges Verhalten zu zeigen, verringern.
Aktivieren Sie zusätzliche Sicherheitsfilter - kostenlose Echtzeit-Moderationstools, die von Anthropic entwickelt wurden, um potenziell schädliche Prompts zu erkennen und Echtzeitmaßnahmen zur Schadensminderung zu verwalten
Für weitere Informationen darüber, wie Sie unsere zusätzlichen Sicherheitsfilter aktivieren können, wenden Sie sich bitte an usersafety@anthropic.com.
Für Bedrock-Kunden:
Aktivieren Sie Ihren privaten S3-Bucket, um Prompts und Vervollständigungen für Ihre eigene Auswertung zu speichern
Fortgeschrittene Schutzmaßnahmen
Führen Sie eine Moderations-API gegen alle Endnutzer-Prompts aus, bevor sie an Claude gesendet werden, um sicherzustellen, dass sie nicht schädlich sind
Umfassende Schutzmaßnahmen
Richten Sie ein internes System zur menschlichen Überprüfung ein, um Prompts zu kennzeichnen, die von Claude (der für die Inhaltsmoderation verwendet wird) oder einer Moderations-API als schädlich markiert wurden, damit Sie eingreifen und Benutzer mit hohen Verstoßraten einschränken oder entfernen können.