Scopo

Crediamo che i test esterni siano cruciali per costruire un ecosistema di IA sicuro. Man mano che le capacità dei modelli avanzano, le conseguenze dei jailbreak potrebbero diventare sempre più significative. Questo Programma in corso si basa sulle nostre precedenti iniziative di bug bounty di successo con diversi obiettivi chiave:

Identificare jailbreak universali nei nostri sistemi implementati con protezioni ASL-3
Fornire una valutazione continua dell'efficacia delle nostre protezioni
Testare la capacità dei nostri sistemi di monitoraggio di rilevare vulnerabilità
Incentivare l'uso di un canale legittimo centrale per segnalare jailbreak pubblicamente disponibili

Panoramica del Programma

Il nostro Programma Model Safety Bug Bounty è gestito tramite HackerOne. Attraverso questo Programma, siamo interessati a trovare jailbreak universali che superino il nostro sistema Constitutional Classifiers. Occasionalmente gestiamo anche programmi mirati all'interno del nostro Programma generale per testare la robustezza dei classificatori che speriamo di lanciare in futuro.

Un jailbreak universale è una tecnica generalizzata che elicita in modo affidabile risposte che violano le policy da un modello linguistico, indipendentemente dal prompt di input. A differenza dei jailbreak ristretti, che dipendono dalle specifiche di una particolare domanda o contesto, i jailbreak universali funzionano attraverso un'ampia gamma di prompt e scenari.

Questo è un Programma in corso. Una volta accettati nel Programma su HackerOne, i partecipanti possono inviare report di jailbreak in qualsiasi momento attraverso questo Programma. Per aiutare con i vostri sforzi di red-teaming, forniamo accesso a un alias di modello gratuito che riflette il modello e i classificatori live sul nostro modello più recente e avanzato. Il vostro uso di questo alias di modello gratuito deve essere limitato all'esecuzione di attività di red-teaming autorizzate.

Ambito del Programma

Questo Programma è principalmente interessato a scoprire jailbreak che sono universali, nel senso che possono rivelare informazioni dannose attraverso un'ampia gamma di query, e dettagliati, nel senso che rivelano informazioni dannose altamente specifiche relative a minacce biologiche.

Per sottolineare, siamo interessati a jailbreak che estraggono informazioni che rispondono a un set di domande biologiche dannose che condividiamo con i partecipanti accettati nel Programma.

Pagheremo fino a $35.000 per ogni jailbreak universale e nuovo identificato. Siamo interessati solo a jailbreak che rivelano quantità sostanziali di informazioni dannose basate sui nostri criteri e discrezione esclusivi. Assegniamo ricompense utilizzando una scala mobile basata su una rubrica di valutazione interna che determina quanto dettagliate e accurate sono le risposte.

Questo programma è limitato ai jailbreak sui nostri Constitutional Classifiers. Per vulnerabilità tecniche che potrebbero esistere sui nostri Sistemi Informativi come configurazioni errate, CSRF o cross site request forgeries, attacchi di escalation dei privilegi, SQL Injection, XSS e attacchi di directory traversal, si prega di fare riferimento alla nostra Responsible Disclosure Policy e inviare il vostro report qui.

Come Candidarsi

Potete candidarvi per unirvi al nostro Programma qui. Esaminiamo le candidature su base continuativa. Se accettati, riceverete un invito tramite HackerOne. Se non avete già un account HackerOne, si prega di crearne uno prima di candidarsi al Programma così possiamo invitarvi direttamente sulla piattaforma. Dovete utilizzare il vostro alias email @wearehackerone.com per creare un account Anthropic Console/API.

Linee Guida per la Divulgazione e Obblighi di Riservatezza

Tutti i partecipanti al Programma sono tenuti a firmare un accordo di non divulgazione per proteggere la riservatezza del Programma come condizione per l'adesione. Potete divulgare pubblicamente:

L'esistenza del Model Safety Bug Bounty Program di Anthropic
La vostra partecipazione come partecipante selezionato nel Programma

Non potete divulgare senza permesso esplicito:

Qualsiasi jailbreak/vulnerabilità (anche quelli risolti) al di fuori del Programma senza consenso esplicito da Anthropic
Il set di domande di test
Dettagli sui classificatori e le mitigazioni di sicurezza
Informazioni sui modelli in fase di test
Identità di altri partecipanti
Qualsiasi altra informazione relativa al Programma, eccetto come espressamente permesso sopra

Uso dei Dati del Programma da parte di Anthropic

Il Partecipante accetta che tutti i dati inviati ad Anthropic, inclusi i suoi prodotti e servizi, in connessione con questo Programma possano essere utilizzati, archiviati, condivisi e/o pubblicati da Anthropic indefinitamente per promuovere la sua ricerca sulla sicurezza, lo sviluppo di modelli e scopi correlati senza ulteriori obblighi verso il Partecipante.