Quer você esteja apenas começando o processo de configuração de Confiança e Segurança para sua implantação de API do Claude, ou sua implantação já esteja em execução, aqui estão algumas estratégias a considerar ao construir seu próprio programa de segurança de IA.
Salvaguardas Básicas
Armazene IDs vinculados a cada chamada de API, para que, se precisar identificar conteúdo específico que viole as regras, você tenha a capacidade de encontrá-lo em seus sistemas.
Considere atribuir IDs aos usuários, o que pode ajudar você a rastrear indivíduos específicos que estão violando o AUP da Anthropic, permitindo ações mais direcionadas em casos de uso indevido.
A escolha de passar IDs para a Anthropic através da API cabe a você. Mas, se fornecidos, podemos identificar violações com mais precisão. Para ajudar a proteger a privacidade dos usuários finais, quaisquer IDs passados devem ser criptograficamente codificados.
Considere exigir que o cliente crie uma conta em sua plataforma antes de utilizar o Claude
Certifique-se de que seus clientes entendam os usos permitidos
Salvaguardas Intermediárias
Crie estruturas de personalização que restrinjam as interações do usuário final com o Claude a um conjunto limitado de prompts ou permitam que o Claude revise apenas um corpus de conhecimento específico que você já possui, o que diminuirá a capacidade dos usuários de se envolverem em comportamentos que violem as regras.
Ative filtros de segurança adicionais - ferramentas de moderação em tempo real gratuitas criadas pela Anthropic para ajudar a detectar prompts potencialmente prejudiciais e gerenciar ações em tempo real para reduzir danos
Para mais informações sobre como ativar nossos filtros de segurança adicionais, entre em contato com usersafety@anthropic.com.
Para Clientes do Bedrock:
Ative seu bucket S3 privado para armazenar prompts e respostas para sua própria avaliação
Salvaguardas Avançadas
Execute uma API de moderação contra todos os prompts do usuário final antes de serem enviados ao Claude para garantir que não sejam prejudiciais
Salvaguardas Abrangentes
Configure um sistema interno de revisão humana para sinalizar prompts que são marcados pelo Claude (sendo usado para moderação de conteúdo) ou por uma API de moderação como prejudiciais, para que você possa intervir para restringir ou remover usuários com altas taxas de violação.