Die Sicherheit der Nutzer ist ein zentraler Bestandteil von Anthropics Mission, zuverlässige, interpretierbare und steuerbare KI-Systeme zu entwickeln. Mit der Einführung neuer Möglichkeiten für Menschen, mit Claude zu interagieren, erwarten wir auch, dass neue Arten potenzieller Schäden auftreten, sei es durch die Erzeugung von Fehlinformationen, anstößigen Inhalten, Hassrede oder anderen Missbrauchsformen. Wir investieren aktiv in zusätzliche Sicherheitsfunktionen und experimentieren damit, um unsere bestehenden Modellsicherheitsmaßnahmen zu ergänzen. Wir arbeiten daran, einem breiten Publikum hilfreiche Tools zur Verfügung zu stellen und gleichzeitig unser Bestes zu tun, um Schaden zu minimieren. Die Einführung neuer Produkte in einer offenen Beta-Phase ermöglicht es uns, zu experimentieren, zu iterieren und Ihr Feedback zu hören. Hier sind einige der Sicherheitsfunktionen, die wir eingeführt haben:
Erkennungsmodelle, die potenziell schädliche Inhalte basierend auf unserer Nutzungsrichtlinie kennzeichnen.
Sicherheitsfilter für Eingabeaufforderungen, die Antworten des Modells blockieren können, wenn unsere Erkennungsmodelle Inhalte als schädlich einstufen.
Erweiterte Sicherheitsfilter, die es uns ermöglichen, die Empfindlichkeit unserer Erkennungsmodelle zu erhöhen. Wir können vorübergehend erweiterte Sicherheitsfilter auf Benutzer anwenden, die wiederholt gegen unsere Richtlinien verstoßen, und diese Kontrollen nach einer Zeit ohne oder mit wenigen Verstößen wieder entfernen.
Diese Funktionen sind nicht fehlerfrei, und wir können Fehler durch falsch positive oder falsch negative Ergebnisse machen. Ihr Feedback zu diesen Maßnahmen und wie wir sie den Nutzern erklären, wird eine Schlüsselrolle dabei spielen, uns bei der Verbesserung dieser Sicherheitssysteme zu helfen. Wir ermutigen Sie, sich mit Ihrem Feedback an usersafety@anthropic.com zu wenden. Um mehr zu erfahren, lesen Sie über unsere Kernansichten zur KI-Sicherheit.