Zweck
Wir glauben, dass externe Tests für den Aufbau eines sicheren KI-Ökosystems von entscheidender Bedeutung sind. Mit fortschreitenden Modellfähigkeiten könnten die Folgen von Jailbreaks zunehmend schwerwiegend werden. Dieses laufende Programm baut auf unseren erfolgreichen vorherigen Bug-Bounty-Initiativen auf und verfolgt mehrere wichtige Ziele:
Identifizierung universeller Jailbreaks in unseren eingesetzten Systemen mit ASL-3-Schutzmaßnahmen
Kontinuierliche Bewertung der Wirksamkeit unserer Schutzmaßnahmen
Testen der Fähigkeit unserer Überwachungssysteme, Schwachstellen zu erkennen
Anreize für die Nutzung eines zentralen legitimen Kanals zur Meldung öffentlich verfügbarer Jailbreaks schaffen
Programmübersicht
Unser Model Safety Bug Bounty Program wird über HackerOne durchgeführt. Durch dieses Programm sind wir daran interessiert, universelle Jailbreaks zu finden, die unser Constitutional Classifiers-System überwinden. Wir führen auch gelegentlich gezielte Programme innerhalb unseres Gesamtprogramms durch, um die Robustheit von Klassifikatoren zu testen, die wir in Zukunft einführen möchten.
Ein universeller Jailbreak ist eine verallgemeinerte Technik, die zuverlässig richtlinienverletzende Antworten von einem Sprachmodell hervorruft, unabhängig vom Eingabeprompt. Im Gegensatz zu engen Jailbreaks, die von den Besonderheiten einer bestimmten Frage oder eines Kontexts abhängen, funktionieren universelle Jailbreaks über eine breite Palette von Prompts und Szenarien hinweg.
Dies ist ein laufendes Programm. Nach der Annahme zum Programm auf HackerOne können Teilnehmer jederzeit Jailbreak-Berichte über dieses Programm einreichen. Um Ihre Red-Teaming-Bemühungen zu unterstützen, stellen wir Zugang zu einem kostenlosen Modell-Alias zur Verfügung, der das Modell und die Klassifikatoren widerspiegelt, die auf unserem neuesten, fortschrittlichsten Modell live sind. Ihre Nutzung dieses kostenlosen Modell-Alias muss auf die Durchführung autorisierter Red-Teaming-Aktivitäten beschränkt sein.
Programmumfang
Dieses Programm ist hauptsächlich daran interessiert, Jailbreaks zu entdecken, die universell sind, in dem Sinne, dass sie schädliche Informationen über eine breite Palette von Anfragen hinweg preisgeben können, und detailliert, in dem Sinne, dass sie hochspezifische schädliche Informationen im Zusammenhang mit biologischen Bedrohungen preisgeben.
Um es zu betonen: Wir sind an Jailbreaks interessiert, die Informationen extrahieren, die eine Reihe von schädlichen biologischen Fragen beantworten, die wir mit akzeptierten Teilnehmern des Programms teilen.
Wir zahlen bis zu 35.000 $ pro neuartigem, universellem Jailbreak, der identifiziert wird. Wir sind nur an Jailbreaks interessiert, die erhebliche Mengen schädlicher Informationen basierend auf unseren alleinigen Kriterien und unserem Ermessen preisgeben. Wir vergeben Prämien anhand einer gleitenden Skala basierend auf einer internen Bewertungsrubrik, die bestimmt, wie detailliert und genau die Antworten sind.
Dieses Programm ist auf Jailbreaks unserer Constitutional Classifiers beschränkt. Für technische Schwachstellen, die möglicherweise in unseren Informationssystemen existieren, wie Fehlkonfigurationen, CSRFs oder Cross-Site-Request-Forgeries, Privilege-Escalation-Angriffe, SQL-Injection, XSS und Directory-Traversal-Angriffe, verweisen Sie bitte auf unsere Responsible Disclosure Policy und reichen Sie Ihren Bericht hier ein.
Wie man sich bewirbt
Sie können sich hier für die Teilnahme an unserem Programm bewerben. Wir prüfen Bewerbungen laufend. Bei Annahme erhalten Sie eine Einladung über HackerOne. Falls Sie noch kein HackerOne-Konto haben, erstellen Sie bitte eines, bevor Sie sich für das Programm bewerben, damit wir Sie direkt auf der Plattform einladen können. Sie müssen Ihren @wearehackerone.com E-Mail-Alias verwenden, um ein Anthropic Console/API-Konto zu erstellen.
Offenlegungsrichtlinien & Vertraulichkeitsverpflichtungen
Alle Programmteilnehmer sind verpflichtet, als Bedingung für die Teilnahme eine Geheimhaltungsvereinbarung zu unterzeichnen, um die Vertraulichkeit des Programms zu schützen. Sie dürfen öffentlich offenlegen:
Die Existenz von Anthropics Model Safety Bug Bounty Program
Ihre Teilnahme als ausgewählter Teilnehmer am Programm
Sie dürfen ohne ausdrückliche Genehmigung nicht offenlegen:
Jegliche Jailbreaks/Schwachstellen (auch gelöste) außerhalb des Programms ohne ausdrückliche Zustimmung von Anthropic
Das Testfragen-Set
Details über die Klassifikatoren und Sicherheitsmaßnahmen
Informationen über die getesteten Modelle
Identität anderer Teilnehmer
Jegliche anderen Informationen im Zusammenhang mit dem Programm, außer wie oben ausdrücklich erlaubt
Anthropics Nutzung von Daten aus dem Programm
Der Teilnehmer stimmt zu, dass alle Daten, die an Anthropic übermittelt werden, einschließlich seiner Produkte und Dienstleistungen, im Zusammenhang mit diesem Programm von Anthropic unbegrenzt zur Förderung seiner Sicherheitsforschung, Modellentwicklung und verwandter Zwecke verwendet, gespeichert, geteilt und/oder veröffentlicht werden können, ohne weitere