Nossa Abordagem à Segurança do Usuário

A segurança do usuário é fundamental para a missão da Anthropic de criar sistemas de IA confiáveis, interpretáveis e direcionáveis. À medida que lançamos novas formas de as pessoas interagirem com o Claude, também esperamos ver novos tipos de danos potenciais se materializarem, seja através da geração de desinformação, conteúdo censurável, discurso de ódio ou outros usos indevidos. Estamos investindo ativamente e experimentando recursos de segurança adicionais para complementar nossos esforços existentes de segurança do modelo e estamos trabalhando para fornecer ferramentas úteis a um público amplo, enquanto também fazemos o nosso melhor para mitigar danos. O lançamento de novos produtos em beta aberto nos permite experimentar, iterar e ouvir seu feedback. Aqui estão alguns dos recursos de segurança que introduzimos:

Modelos de detecção que sinalizam conteúdo potencialmente prejudicial com base em nossa Política de Uso.
Filtros de segurança em prompts, que podem bloquear respostas do modelo quando nossos modelos de detecção sinalizam conteúdo como prejudicial.
Filtros de segurança aprimorados, que nos permitem aumentar a sensibilidade de nossos modelos de detecção. Podemos aplicar temporariamente filtros de segurança aprimorados a usuários que violam repetidamente nossas políticas e remover esses controles após um período sem violações ou com poucas violações.

Esses recursos não são infalíveis, e podemos cometer erros por meio de falsos positivos ou falsos negativos. Seu feedback sobre essas medidas e como as explicamos aos usuários desempenhará um papel fundamental para nos ajudar a melhorar esses sistemas de segurança, e encorajamos você a entrar em contato conosco em usersafety@anthropic.com com qualquer feedback que possa ter. Para saber mais, leia sobre nossas visões fundamentais sobre segurança em IA.