Ir para conteúdo principal

Ferramentas de Proteção da API

Atualizado esta semana

Seja você apenas iniciando o processo de configuração de salvaguardas para sua implantação de API do Claude, ou sua implantação já esteja em funcionamento, aqui estão algumas estratégias a considerar ao construir seu próprio programa de segurança de IA. Essas sugestões são projetadas para ajudá-lo a cumprir nossos Termos de Serviço e Política de Uso, que proíbem certos usos do Claude. O não cumprimento dos Termos e da Política de Uso pode resultar na suspensão ou rescisão do seu acesso aos serviços.

Salvaguardas Básicas

  • Armazene IDs vinculados a cada chamada de API, para que, se precisar identificar conteúdo específico que viole as políticas, você tenha a capacidade de encontrá-lo em seus sistemas.

  • Considere atribuir IDs aos usuários, o que pode ajudá-lo a rastrear indivíduos específicos que estão violando a AUP da Anthropic, permitindo ações mais direcionadas em casos de uso indevido.

    • A escolha de passar IDs para a Anthropic através da API é sua. Mas, se fornecidos, podemos identificar violações com mais precisão. Para ajudar a proteger a privacidade dos usuários finais, quaisquer IDs passados devem ser criptograficamente hash.

  • Considere exigir que o cliente se cadastre para uma conta em sua plataforma antes de utilizar o Claude

  • Certifique-se de que seus clientes entendam os usos permitidos

  • Avise, limite ou suspenda usuários que violem repetidamente os Termos de Serviço e a Política de Uso da Anthropic

Salvaguardas Intermediárias

  • Crie estruturas de personalização que restrinjam as interações do usuário final com o Claude a um conjunto limitado de prompts ou permitam apenas que o Claude revise um corpus de conhecimento específico que você já possui, o que diminuirá a capacidade dos usuários de se envolverem em comportamentos violativos.

  • Habilite filtros de segurança adicionais - ferramentas gratuitas de moderação em tempo real construídas pela Anthropic para ajudar a detectar prompts potencialmente prejudiciais e gerenciar ações em tempo real para reduzir danos

    • Para mais informações sobre como habilitar nossos filtros de segurança adicionais, entre em contato com usersafety@anthropic.com.

  • Para Clientes Bedrock:

    • Ative seu bucket S3 privado para armazenar prompts e conclusões para sua própria avaliação

Salvaguardas Avançadas

Salvaguardas Abrangentes

  • Configure um sistema interno de revisão humana para sinalizar prompts que são marcados pelo Claude (sendo usado para moderação de conteúdo) ou por uma API de moderação como prejudiciais, para que você possa intervir para restringir ou remover usuários com altas taxas de violação.

Isto respondeu à sua pergunta?