Benutzersicherheit ist ein zentraler Bestandteil von Anthropics Mission, zuverlässige, interpretierbare und steuerbare KI-Systeme zu schaffen. Während wir neue Möglichkeiten für Menschen einführen, mit Claude zu interagieren, erwarten wir auch, dass neue Arten von potenziellem Schaden auftreten, sei es durch die Generierung von Fehlinformationen, anstößigen Inhalten, Hassrede oder anderen Missbrauchsformen. Wir investieren aktiv in zusätzliche Sicherheitsfeatures und experimentieren mit ihnen, um unsere bestehenden Modellsicherheitsbemühungen zu ergänzen, und arbeiten daran, hilfreiche Tools für ein breites Publikum bereitzustellen, während wir gleichzeitig unser Bestes tun, um Schäden zu mindern. Die Einführung neuer Produkte in der offenen Beta ermöglicht es uns zu experimentieren, zu iterieren und Ihr Feedback zu hören. Hier sind einige der Sicherheitsfeatures, die wir eingeführt haben:
Erkennungsmodelle, die potenziell schädliche Inhalte basierend auf unserer Nutzungsrichtlinie kennzeichnen.
Sicherheitsfilter für Eingabeaufforderungen, die Antworten vom Modell blockieren können, wenn unsere Erkennungsmodelle Inhalte als schädlich kennzeichnen.
Erweiterte Sicherheitsfilter, die es uns ermöglichen, die Sensitivität unserer Erkennungsmodelle zu erhöhen. Wir können vorübergehend erweiterte Sicherheitsfilter auf Benutzer anwenden, die wiederholt gegen unsere Richtlinien verstoßen, und diese Kontrollen nach einer Zeit ohne oder mit wenigen Verstößen wieder entfernen.
Diese Features sind nicht ausfallsicher, und wir können Fehler durch falsch positive oder falsch negative Ergebnisse machen. Ihr Feedback zu diesen Maßnahmen und wie wir sie den Benutzern erklären, wird eine Schlüsselrolle dabei spielen, uns zu helfen, diese Sicherheitssysteme zu verbessern, und wir ermutigen Sie, sich unter usersafety@anthropic.com mit jeglichem Feedback, das Sie haben mögen, an uns zu wenden. Um mehr zu erfahren, lesen Sie über unsere Kernansichten zur KI-Sicherheit.