A segurança do usuário é fundamental para a missão da Anthropic de criar sistemas de IA confiáveis, interpretáveis e controláveis. À medida que lançamos novas formas para as pessoas interagirem com Claude, também esperamos ver novos tipos de danos potenciais se materializarem, seja através da geração de desinformação, conteúdo questionável, discurso de ódio ou outros usos indevidos. Estamos investindo ativamente e experimentando com recursos de segurança adicionais para complementar nossos esforços existentes de segurança do modelo e estamos trabalhando para fornecer ferramentas úteis para um público amplo, ao mesmo tempo em que fazemos o nosso melhor para mitigar danos. Lançar novos produtos em beta aberto nos permite experimentar, iterar e ouvir seu feedback. Aqui estão alguns dos recursos de segurança que introduzimos:
Modelos de detecção que sinalizam conteúdo potencialmente prejudicial com base em nossa Política de Uso.
Filtros de segurança em prompts, que podem bloquear respostas do modelo quando nossos modelos de detecção sinalizam conteúdo como prejudicial.
Filtros de segurança aprimorados, que nos permitem aumentar a sensibilidade de nossos modelos de detecção. Podemos aplicar temporariamente filtros de segurança aprimorados a usuários que violam repetidamente nossas políticas, e remover esses controles após um período sem violações ou com poucas violações.
Esses recursos não são à prova de falhas, e podemos cometer erros através de falsos positivos ou falsos negativos. Seu feedback sobre essas medidas e como as explicamos aos usuários desempenhará um papel fundamental em nos ajudar a melhorar esses sistemas de segurança, e encorajamos você a entrar em contato conosco em usersafety@anthropic.com com qualquer feedback que possa ter. Para saber mais, leia sobre nossas visões fundamentais sobre segurança de IA.