Zum Hauptinhalt springen
Alle KollektionenVertrauen & Sicherheit
API-Vertrauens- und Sicherheitstools
API-Vertrauens- und Sicherheitstools
Gestern aktualisiert

Egal, ob Sie gerade erst damit beginnen, Trust & Safety für Ihre API-Bereitstellung von Claude einzurichten, oder ob Ihre Bereitstellung bereits läuft, hier sind einige Strategien, die Sie beim Aufbau Ihres eigenen KI-Sicherheitsprogramms in Betracht ziehen sollten.

Grundlegende Schutzmaßnahmen

  • Speichern Sie IDs, die mit jedem API-Aufruf verknüpft sind, damit Sie bei Bedarf spezifische regelwidrige Inhalte in Ihren Systemen finden können.

  • Erwägen Sie die Zuweisung von IDs an Benutzer, was Ihnen helfen kann, bestimmte Personen zu verfolgen, die gegen die Nutzungsbedingungen von Anthropic verstoßen, und so ein gezielteres Vorgehen bei Missbrauchsfällen ermöglicht.

    • Die Entscheidung, IDs über die API an Anthropic zu übermitteln, liegt bei Ihnen. Wenn sie jedoch bereitgestellt werden, können wir Verstöße präziser lokalisieren. Um die Privatsphäre der Endnutzer zu schützen, sollten alle übermittelten IDs kryptografisch gehasht werden.

  • Erwägen Sie, dass Kunden sich für ein Konto auf Ihrer Plattform registrieren müssen, bevor sie Claude nutzen können

  • Stellen Sie sicher, dass Ihre Kunden die erlaubten Nutzungen verstehen

Mittlere Schutzmaßnahmen

  • Erstellen Sie Anpassungsrahmen, die die Interaktionen der Endnutzer mit Claude auf eine begrenzte Anzahl von Prompts beschränken oder Claude nur erlauben, einen bestimmten Wissenskorpus zu überprüfen, den Sie bereits haben, was die Möglichkeit der Nutzer zu regelwidrigem Verhalten verringert.

  • Aktivieren Sie zusätzliche Sicherheitsfilter - kostenlose Echtzeit-Moderationstools, die von Anthropic entwickelt wurden, um potenziell schädliche Prompts zu erkennen und Echtzeit-Aktionen zur Schadensminderung zu verwalten

    • Für weitere Informationen darüber, wie Sie unsere zusätzlichen Sicherheitsfilter aktivieren können, wenden Sie sich bitte an usersafety@anthropic.com.

  • Für Bedrock-Kunden:

    • Aktivieren Sie Ihren privaten S3-Bucket, um Prompts und Vervollständigungen für Ihre eigene Auswertung zu speichern

Fortgeschrittene Schutzmaßnahmen

Umfassende Schutzmaßnahmen

  • Richten Sie ein internes System zur menschlichen Überprüfung ein, um Prompts zu kennzeichnen, die von Claude (der für die Inhaltsmoderation verwendet wird) oder einer Moderations-API als schädlich markiert wurden, damit Sie eingreifen können, um Benutzer mit hohen Verstoßraten einzuschränken oder zu entfernen.

Hat dies deine Frage beantwortet?