Ya sea que esté comenzando el proceso de configurar Trust & Safety para su implementación de API de Claude, o que su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al construir su propio programa de seguridad de IA.
Salvaguardias básicas
Almacene los ID vinculados a cada llamada de API, para que si necesita identificar contenido específico que viole las normas, tenga la capacidad de encontrarlo en sus sistemas.
Considere asignar ID a los usuarios, lo que puede ayudarle a rastrear a individuos específicos que estén violando el AUP de Anthropic, permitiendo una acción más dirigida en casos de mal uso.
La decisión de pasar ID a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar las violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.
Considere requerir que el cliente se registre para una cuenta en su plataforma antes de utilizar Claude
Asegúrese de que sus clientes entiendan los usos permitidos
Salvaguardias intermedias
Cree marcos de personalización que restrinjan las interacciones del usuario final con Claude a un conjunto limitado de indicaciones o que solo permitan a Claude revisar un corpus de conocimiento específico que ya tenga, lo que disminuirá la capacidad de los usuarios de participar en comportamientos que violen las normas.
Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y gestionar acciones en tiempo real para reducir el daño
Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con usersafety@anthropic.com.
Para clientes de Bedrock:
Active su bucket S3 privado para almacenar indicaciones y respuestas para su propia evaluación
Salvaguardias avanzadas
Ejecute una API de moderación contra todas las indicaciones del usuario final antes de que se envíen a Claude para asegurarse de que no sean dañinas
Salvaguardias integrales
Configure un sistema de revisión humana interno para marcar las indicaciones que Claude (siendo utilizado para moderación de contenido) o una API de moderación señalen como dañinas, para que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.