Zum Hauptinhalt springen
Alle KollektionenVertrauen & Sicherheit
API-Vertrauens- und Sicherheitstools
API-Vertrauens- und Sicherheitstools
Diese Woche aktualisiert

Egal, ob Sie gerade erst damit beginnen, Trust & Safety für Ihre API-Bereitstellung von Claude einzurichten, oder ob Ihre Bereitstellung bereits läuft, hier sind einige Strategien, die Sie beim Aufbau Ihres eigenen KI-Sicherheitsprogramms berücksichtigen sollten.

Grundlegende Schutzmaßnahmen

  • Speichern Sie IDs, die mit jedem API-Aufruf verknüpft sind, damit Sie bei Bedarf spezifische regelwidrige Inhalte in Ihren Systemen finden können.

  • Erwägen Sie die Zuweisung von IDs an Benutzer, was Ihnen helfen kann, bestimmte Personen zu verfolgen, die gegen die Nutzungsbedingungen von Anthropic verstoßen, und so ein gezielteres Vorgehen bei Missbrauch ermöglicht.

    • Die Entscheidung, IDs über die API an Anthropic zu übermitteln, liegt bei Ihnen. Wenn sie bereitgestellt werden, können wir Verstöße jedoch präziser lokalisieren. Um die Privatsphäre der Endnutzer zu schützen, sollten alle übermittelten IDs kryptografisch gehasht werden.

  • Erwägen Sie, von Kunden die Erstellung eines Kontos auf Ihrer Plattform zu verlangen, bevor sie Claude nutzen können

  • Stellen Sie sicher, dass Ihre Kunden die erlaubten Nutzungen verstehen

Mittlere Schutzmaßnahmen

  • Erstellen Sie Anpassungsrahmen, die die Interaktionen der Endnutzer mit Claude auf eine begrenzte Anzahl von Prompts beschränken oder Claude nur erlauben, einen bestimmten Wissenskorpus zu überprüfen, den Sie bereits haben. Dies wird die Möglichkeit der Nutzer, regelwidriges Verhalten zu zeigen, verringern.

  • Aktivieren Sie zusätzliche Sicherheitsfilter - kostenlose Echtzeit-Moderationstools, die von Anthropic entwickelt wurden, um potenziell schädliche Prompts zu erkennen und Echtzeitmaßnahmen zur Schadensminderung zu verwalten

    • Für weitere Informationen darüber, wie Sie unsere zusätzlichen Sicherheitsfilter aktivieren können, wenden Sie sich bitte an usersafety@anthropic.com.

  • Für Bedrock-Kunden:

    • Aktivieren Sie Ihren privaten S3-Bucket, um Prompts und Vervollständigungen für Ihre eigene Auswertung zu speichern

Fortgeschrittene Schutzmaßnahmen

Umfassende Schutzmaßnahmen

  • Richten Sie ein internes System zur menschlichen Überprüfung ein, um Prompts zu kennzeichnen, die von Claude (der für die Inhaltsmoderation verwendet wird) oder einer Moderations-API als schädlich markiert wurden, damit Sie eingreifen und Benutzer mit hohen Verstoßraten einschränken oder entfernen können.

Hat dies deine Frage beantwortet?