Alle Kollektionen
Vertrauen & Sicherheit
Unser Ansatz zur Nutzersicherheit
Unser Ansatz zur Nutzersicherheit
Vor über einer Woche aktualisiert

Die Sicherheit der Nutzer ist von zentraler Bedeutung für Anthropics Mission, zuverlässige, interpretierbare und steuerbare KI-Systeme zu schaffen. Wenn wir neue Wege für Menschen einführen, mit Claude zu interagieren, erwarten wir auch, dass neue Arten potenzieller Schäden auftreten, sei es durch die Erzeugung von Fehlinformationen, anstößigen Inhalten, Hassreden oder anderen Missbräuchen. Wir investieren aktiv in zusätzliche Sicherheitsfunktionen und experimentieren damit, um unsere bestehenden Modellsicherheitsbemühungen zu ergänzen. Wir arbeiten daran, nützliche Tools für ein breites Publikum bereitzustellen und gleichzeitig Schäden so gut wie möglich zu begrenzen. Die Einführung neuer Produkte in der offenen Beta-Phase ermöglicht es uns, zu experimentieren, zu iterieren und Ihr Feedback zu hören. Hier sind einige der Sicherheitsfunktionen, die wir eingeführt haben:

  • Erkennungsmodelle, die potenziell schädliche Inhalte basierend auf unseren Nutzungsbedingungen kennzeichnen.

  • Sicherheitsfilter für Eingabeaufforderungen, die Antworten des Modells blockieren können, wenn unsere Erkennungsmodelle Inhalte als schädlich kennzeichnen.

  • Verbesserte Sicherheitsfilter, mit denen wir die Empfindlichkeit unserer Erkennungsmodelle erhöhen können. Wir können verbesserte Sicherheitsfilter vorübergehend auf Benutzer anwenden, die wiederholt gegen unsere Richtlinien verstoßen, und diese Kontrollen nach einer Zeit ohne oder mit nur wenigen Verstößen wieder entfernen.

Diese Funktionen sind nicht fehlerfrei, und wir können Fehler durch Falschpositive oder Falschnegative machen. Ihr Feedback zu diesen Maßnahmen und wie wir sie Nutzern erklären, wird eine Schlüsselrolle dabei spielen, uns bei der Verbesserung dieser Sicherheitssysteme zu helfen. Wir ermutigen Sie, uns unter usersafety@anthropic.com Feedback zu geben. Um mehr zu erfahren, lesen Sie über unsere Grundsätze zur KI-Sicherheit.

Hat dies Ihre Frage beantwortet?