Egal, ob Sie gerade erst damit begonnen haben, Trust & Safety für Ihre API-Bereitstellung von Claude einzurichten, oder Ihre Bereitstellung bereits läuft, hier sind einige Strategien, die Sie bei der Erstellung Ihres eigenen KI-Sicherheitsprogramms in Betracht ziehen sollten.
Grundlegende Sicherheitsvorkehrungen
Speichern Sie IDs, die mit jedem API-Aufruf verknüpft sind, damit Sie bei Bedarf bestimmte Verstöße gegen die Inhaltsrichtlinien in Ihren Systemen finden können.
Erwägen Sie die Zuweisung von IDs an Benutzer. Dies kann Ihnen helfen, bestimmte Personen nachzuverfolgen, die gegen Anthropics AUP verstoßen, was gezieltere Maßnahmen bei Missbrauch ermöglicht.
Die Entscheidung, IDs an Anthropic über die API zu übergeben, liegt bei Ihnen. Wenn Sie sie jedoch bereitstellen, können wir Verstöße genauer lokalisieren. Um die Privatsphäre der Endbenutzer zu schützen, sollten alle übergebenen IDs kryptografisch gehasht werden.
Erwägen Sie, Kunden zum Erstellen eines Kontos auf Ihrer Plattform zu verpflichten, bevor sie Claude nutzen können
Stellen Sie sicher, dass Ihre Kunden die zulässigen Verwendungszwecke verstehen
Mittlere Sicherheitsvorkehrungen
Erstellen Sie Anpassungsrahmen, die die Interaktionen der Endbenutzer mit Claude auf eine begrenzte Anzahl von Aufforderungen beschränken oder Claude nur erlauben, einen bestimmten Wissenscorpus zu überprüfen, den Sie bereits haben. Dies verringert die Fähigkeit der Benutzer, sich regelwidrig zu verhalten.
Aktivieren Sie zusätzliche Sicherheitsfilter - kostenlose Echtzeit-Moderations-Tools, die von Anthropic erstellt wurden, um potenziell schädliche Aufforderungen zu erkennen und Echtzeit-Maßnahmen zu verwalten, um Schäden zu reduzieren
Weitere Informationen darüber, wie Sie unsere zusätzlichen Sicherheitsfilter aktivieren können, erhalten Sie unter usersafety@anthropic.com.
Für Bedrock-Kunden:
Aktivieren Sie Ihren privaten S3-Bucket, um Aufforderungen und Vervollständigungen für Ihre eigene Auswertung zu speichern
Erweiterte Sicherheitsvorkehrungen
Führen Sie eine Moderations-API gegen alle Endbenutzer-Aufforderungen aus, bevor sie an Claude gesendet werden, um sicherzustellen, dass sie nicht schädlich sind
Umfassende Sicherheitsvorkehrungen
Richten Sie ein internes menschliches Prüfsystem ein, um Aufforderungen zu markieren, die von Claude (zur Inhaltsmoderation verwendet) oder einer Moderations-API als schädlich markiert wurden, damit Sie eingreifen können, um Benutzer mit hohen Verstoßraten einzuschränken oder zu entfernen.