Objectif

Nous croyons que les tests externes sont cruciaux pour construire un écosystème d'IA sûr. À mesure que les capacités des modèles progressent, les conséquences des jailbreaks pourraient devenir de plus en plus importantes. Ce Programme en cours s'appuie sur nos précédentes initiatives de bug bounty réussies avec plusieurs objectifs clés :

Identifier les jailbreaks universels dans nos systèmes déployés avec les protections ASL-3
Fournir une évaluation continue de l'efficacité de nos mesures de protection
Tester la capacité de nos systèmes de surveillance à détecter les vulnérabilités
Inciter l'utilisation d'un canal légitime central pour signaler les jailbreaks disponibles publiquement

Aperçu du Programme

Notre Programme de Bug Bounty pour la Sécurité des Modèles est géré via HackerOne. À travers ce Programme, nous cherchons à trouver des jailbreaks universels qui contournent notre système de Classificateurs Constitutionnels. Nous organisons également occasionnellement des programmes ciblés dans le cadre de notre Programme global pour tester la robustesse des classificateurs que nous espérons lancer à l'avenir.

Un jailbreak universel est une technique généralisée qui suscite de manière fiable des réponses violant les politiques d'un modèle de langage, indépendamment du prompt d'entrée. Contrairement aux jailbreaks étroits, qui dépendent des spécificités d'une question ou d'un contexte particulier, les jailbreaks universels fonctionnent sur une large gamme de prompts et de scénarios.

Il s'agit d'un Programme en cours. Une fois acceptés dans le Programme sur HackerOne, les participants peuvent soumettre des rapports de jailbreak à tout moment via ce Programme. Pour aider vos efforts de red-teaming, nous fournissons l'accès à un alias de modèle gratuit qui reflète le modèle et les classificateurs en direct sur notre modèle le plus récent et le plus avancé. Votre utilisation de cet alias de modèle gratuit doit être limitée à l'exécution d'activités de red-teaming autorisées.

Portée du Programme

Ce Programme s'intéresse principalement à la découverte de jailbreaks qui sont universels, en ce qu'ils peuvent révéler des informations nuisibles sur une large gamme de requêtes, et détaillés, en ce qu'ils révèlent des informations nuisibles très spécifiques liées aux menaces biologiques.

Pour souligner, nous nous intéressons aux jailbreaks qui extraient des informations qui répondent à un ensemble de questions biologiques nuisibles que nous partageons avec les participants acceptés dans le Programme.

Nous paierons jusqu'à 35 000 $ par jailbreak universel nouveau identifié. Nous ne nous intéressons qu'aux jailbreaks qui révèlent des quantités substantielles d'informations nuisibles selon nos seuls critères et à notre discrétion. Nous attribuons les primes en utilisant une échelle mobile basée sur une grille d'évaluation interne qui détermine à quel point les réponses sont détaillées et précises.

Ce programme est limité aux jailbreaks sur nos Classificateurs Constitutionnels. Pour les vulnérabilités techniques qui pourraient exister sur nos Systèmes d'Information telles que les mauvaises configurations, les CSRF ou falsifications de requêtes inter-sites, les attaques d'escalade de privilèges, l'injection SQL, XSS, et les attaques de traversée de répertoires, veuillez vous référer à notre Politique de Divulgation Responsable et soumettre votre rapport ici.

Comment Postuler

Vous pouvez postuler pour rejoindre notre Programme ici. Nous examinons les candidatures de manière continue. Si vous êtes accepté, vous recevrez une invitation via HackerOne. Si vous n'avez pas déjà un compte HackerOne, veuillez en créer un avant de postuler au Programme afin que nous puissions vous inviter directement sur la plateforme. Vous devez utiliser votre alias email @wearehackerone.com pour créer un compte Anthropic Console/API.

Directives de Divulgation et Obligations de Confidentialité

Tous les participants au Programme sont tenus de signer un accord de non-divulgation pour protéger la confidentialité du Programme comme condition pour rejoindre. Vous pouvez divulguer publiquement :

L'existence du Programme de Bug Bounty pour la Sécurité des Modèles d'Anthropic
Votre participation en tant que participant sélectionné dans le Programme

Vous ne pouvez pas divulguer sans permission expresse :

Tout jailbreak/vulnérabilité (même résolus) en dehors du Programme sans consentement exprès d'Anthropic
L'ensemble de questions de test
Les détails sur les classificateurs et les mesures de sécurité
Les informations sur les modèles testés
L'identité des autres participants
Toute autre information liée au Programme, sauf autorisation expresse ci-dessus

Utilisation par Anthropic des Données du Programme

Le Participant accepte que toutes les données soumises à Anthropic, y compris ses produits et services, en relation avec ce Programme puissent être utilisées, stockées, partagées et/ou publiées par Anthropic indéfiniment dans le cadre de sa recherche sur la sécurité, du développement de modèles, et à des fins connexes sans obligation supplémentaire envers le Participant.