Propósito

Creemos que las pruebas externas son cruciales para construir un ecosistema de IA seguro. A medida que avanzan las capacidades de los modelos, las consecuencias de los jailbreaks podrían volverse cada vez más significativas. Este Programa continuo se basa en nuestras exitosas iniciativas previas de recompensas por errores con varios objetivos clave:

Identificar jailbreaks universales en nuestros sistemas desplegados con protecciones ASL-3
Proporcionar evaluación continua de la efectividad de nuestras salvaguardas
Probar la capacidad de nuestros sistemas de monitoreo para detectar vulnerabilidades
Incentivar el uso de un canal legítimo central para reportar jailbreaks disponibles públicamente

Descripción General del Programa

Nuestro Programa de Recompensas por Errores de Seguridad de Modelos se ejecuta a través de HackerOne. A través de este Programa, estamos interesados en encontrar jailbreaks universales que superen nuestro sistema de Clasificadores Constitucionales. También ejecutamos ocasionalmente programas dirigidos dentro de nuestro Programa general para probar la robustez de clasificadores que esperamos lanzar en el futuro.

Un jailbreak universal es una técnica generalizada que obtiene de manera confiable respuestas que violan políticas de un modelo de lenguaje, independientemente del prompt de entrada. A diferencia de los jailbreaks específicos, que dependen de los detalles de una pregunta o contexto particular, los jailbreaks universales funcionan en una amplia gama de prompts y escenarios.

Este es un Programa continuo. Una vez aceptado en el Programa en HackerOne, los participantes pueden enviar reportes de jailbreak en cualquier momento a través de este Programa. Para ayudar con sus esfuerzos de red-teaming, proporcionamos acceso a un alias de modelo gratuito que refleja el modelo y clasificadores en vivo en nuestro modelo más reciente y avanzado. Su uso de este alias de modelo gratuito debe limitarse a realizar actividades de red-teaming autorizadas.

Alcance del Programa

Este Programa está principalmente interesado en descubrir jailbreaks que sean universales, en el sentido de que pueden revelar información dañina en una amplia gama de consultas, y detallados, en el sentido de que revelan información dañina altamente específica relacionada con amenazas biológicas.

Para enfatizar, estamos interesados en jailbreaks que extraigan información que responda a un conjunto de preguntas biológicas dañinas que compartimos con los participantes aceptados en el Programa.

Pagaremos hasta $35,000 por cada jailbreak universal novedoso identificado. Solo estamos interesados en jailbreaks que revelen cantidades sustanciales de información dañina basada en nuestros criterios y discreción únicos. Otorgamos recompensas usando una escala móvil basada en una rúbrica de calificación interna que determina qué tan detalladas y precisas son las respuestas.

Este programa está enfocado en jailbreaks en nuestros Clasificadores Constitucionales. Para vulnerabilidades técnicas que potencialmente existen en nuestros Sistemas de Información como configuraciones incorrectas, CSRFs o falsificaciones de solicitudes entre sitios, ataques de escalación de privilegios, Inyección SQL, XSS y ataques de traversal de directorios, por favor consulte nuestra Política de Divulgación Responsable y envíe su reporte aquí.

Cómo Aplicar

Puede aplicar para unirse a nuestro Programa aquí. Revisamos las aplicaciones de manera continua. Si es aceptado, recibirá una invitación vía HackerOne. Si aún no tiene una cuenta de HackerOne, por favor cree una antes de aplicar al Programa para que podamos invitarlo directamente en la plataforma. Debe usar su alias de correo electrónico @wearehackerone.com para crear una cuenta de Anthropic Console/API.

Pautas de Divulgación y Obligaciones de Confidencialidad

Todos los participantes del Programa deben firmar un acuerdo de no divulgación para proteger la confidencialidad del Programa como condición para unirse. Puede divulgar públicamente:

La existencia del Programa de Recompensas por Errores de Seguridad de Modelos de Anthropic
Su participación como participante seleccionado en el Programa

No puede divulgar sin permiso expreso:

Cualquier jailbreak/vulnerabilidad (incluso las resueltas) fuera del Programa sin consentimiento expreso de Anthropic
El conjunto de preguntas de prueba
Detalles sobre los clasificadores y mitigaciones de seguridad
Información sobre los modelos que se están probando
Identidad de otros participantes
Cualquier otra información relacionada con el Programa, excepto como se permite expresamente arriba

Uso de Datos del Programa por parte de Anthropic

El Participante acepta que todos los datos enviados a Anthropic, incluyendo sus productos y servicios, en conexión con este Programa pueden ser usados, almacenados, compartidos y/o publicados por Anthropic indefinidamente para el avance de su investigación de seguridad, desarrollo de modelos y propósitos relacionados sin obligación adicional hacia el Participante.