Ir para conteúdo principal
Todas as coleçõesTonfiança e Segurança
Nossa Abordagem à Segurança do Usuário
Nossa Abordagem à Segurança do Usuário
Atualizado há mais de uma semana

A segurança do usuário é fundamental para a missão da Anthropic de criar sistemas de IA confiáveis, interpretáveis e direcionáveis. À medida que lançamos novas formas de as pessoas interagirem com o Claude, também esperamos ver novos tipos de danos potenciais se materializarem, seja através da geração de desinformação, conteúdo censurável, discurso de ódio ou outros usos indevidos. Estamos investindo ativamente e experimentando recursos de segurança adicionais para complementar nossos esforços existentes de segurança do modelo e estamos trabalhando para fornecer ferramentas úteis a um público amplo, enquanto também fazemos o nosso melhor para mitigar danos. O lançamento de novos produtos em beta aberto nos permite experimentar, iterar e ouvir seu feedback. Aqui estão alguns dos recursos de segurança que introduzimos:

  • Modelos de detecção que sinalizam conteúdo potencialmente prejudicial com base em nossa Política de Uso.

  • Filtros de segurança em prompts, que podem bloquear respostas do modelo quando nossos modelos de detecção sinalizam conteúdo como prejudicial.

  • Filtros de segurança aprimorados, que nos permitem aumentar a sensibilidade de nossos modelos de detecção. Podemos aplicar temporariamente filtros de segurança aprimorados a usuários que violam repetidamente nossas políticas e remover esses controles após um período sem violações ou com poucas violações.

Esses recursos não são infalíveis, e podemos cometer erros por meio de falsos positivos ou falsos negativos. Seu feedback sobre essas medidas e como as explicamos aos usuários desempenhará um papel fundamental para nos ajudar a melhorar esses sistemas de segurança, e encorajamos você a entrar em contato conosco em usersafety@anthropic.com com qualquer feedback que possa ter. Para saber mais, leia sobre nossas visões fundamentais sobre segurança em IA.

Isto respondeu à sua pergunta?