Propósito
Acreditamos que testes externos são cruciais para construir um ecossistema de IA seguro. À medida que as capacidades dos modelos avançam, as consequências de jailbreaks podem se tornar cada vez mais significativas. Este Programa contínuo se baseia em nossas iniciativas anteriores bem-sucedidas de bug bounty com vários objetivos principais:
Identificar jailbreaks universais em nossos sistemas implantados com proteções ASL-3
Fornecer avaliação contínua da eficácia de nossas salvaguardas
Testar a capacidade de nossos sistemas de monitoramento de detectar vulnerabilidades
Incentivar o uso de um canal legítimo central para relatar jailbreaks publicamente disponíveis
Visão Geral do Programa
Nosso Programa de Bug Bounty de Segurança de Modelo é executado através do HackerOne. Através deste Programa, estamos interessados em encontrar jailbreaks universais que superem nosso sistema de Constitutional Classifiers. Também executamos ocasionalmente programas direcionados dentro de nosso Programa geral para testar a robustez de classificadores que esperamos lançar no futuro.
Um jailbreak universal é uma técnica generalizada que elicia de forma confiável respostas que violam políticas de um modelo de linguagem, independentemente do prompt de entrada. Ao contrário de jailbreaks específicos, que dependem das especificidades de uma pergunta ou contexto particular, jailbreaks universais funcionam em uma ampla gama de prompts e cenários.
Este é um Programa contínuo. Uma vez aceito no Programa no HackerOne, os participantes podem enviar relatórios de jailbreak a qualquer momento através deste Programa. Para ajudar com seus esforços de red-teaming, fornecemos acesso a um alias de modelo gratuito que reflete o modelo e classificadores ativos em nosso modelo mais recente e avançado. Seu uso deste alias de modelo gratuito deve ser limitado à execução de atividades autorizadas de red-teaming.
Escopo do Programa
Este Programa está principalmente interessado em descobrir jailbreaks que são universais, no sentido de que podem revelar informações prejudiciais em uma ampla gama de consultas, e detalhados, no sentido de que revelam informações prejudiciais altamente específicas relacionadas a ameaças biológicas.
Para enfatizar, estamos interessados em jailbreaks que extraem informações que respondem a um conjunto de perguntas biológicas prejudiciais que compartilhamos com participantes aceitos no Programa.
Pagaremos até $35.000 por jailbreak universal e inédito identificado. Estamos interessados apenas em jailbreaks que revelam quantidades substanciais de informações prejudiciais baseadas em nossos critérios e discrição exclusivos. Concedemos recompensas usando uma escala móvel baseada em uma rubrica de classificação interna que determina quão detalhadas e precisas são as respostas.
Este programa tem escopo limitado a jailbreaks em nossos Constitutional Classifiers. Para vulnerabilidades técnicas que potencialmente existem em nossos Sistemas de Informação, como configurações incorretas, CSRFs ou falsificações de solicitação entre sites, ataques de escalação de privilégios, Injeção SQL, XSS e ataques de travessia de diretório, consulte nossa Política de Divulgação Responsável e envie seu relatório aqui.
Como Se Candidatar
Você pode se candidatar para participar de nosso Programa aqui. Revisamos candidaturas de forma contínua. Se aceito, você receberá um convite via HackerOne. Se você ainda não tem uma conta HackerOne, crie uma antes de se candidatar ao Programa para que possamos convidá-lo diretamente na plataforma. Você deve usar seu alias de email @wearehackerone.com para criar uma conta Anthropic Console/API.
Diretrizes de Divulgação e Obrigações de Confidencialidade
Todos os participantes do Programa são obrigados a assinar um acordo de não divulgação para proteger a confidencialidade do Programa como condição para participar. Você pode divulgar publicamente:
A existência do Programa de Bug Bounty de Segurança de Modelo da Anthropic
Sua participação como participante selecionado no Programa
Você não pode divulgar sem permissão expressa:
Quaisquer jailbreaks/vulnerabilidades (mesmo os resolvidos) fora do Programa sem consentimento expresso da Anthropic
O conjunto de perguntas de teste
Detalhes sobre os classificadores e mitigações de segurança
Informações sobre os modelos sendo testados
Identidade de outros participantes
Qualquer outra informação relacionada ao Programa, exceto conforme expressamente permitido acima
Uso de Dados do Programa pela Anthropic
O Participante concorda que todos os dados enviados à Anthropic, incluindo seus produtos e serviços, em conexão com este Programa podem ser usados, armazenados, compartilhados e/ou publicados pela Anthropic indefinidamente para promover sua pesquisa de segurança, desenvolvimento de modelos e propósitos relacionados sem obrigação adicional ao Participante.