Ya sea que estés comenzando el proceso de configurar salvaguardas para tu implementación de API de Claude, o tu implementación ya esté funcionando, aquí tienes algunas estrategias a considerar al construir tu propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarte a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de tu acceso a los servicios.
Salvaguardas Básicas
Almacena IDs vinculados con cada llamada de API, para que si necesitas identificar contenido específico que viole las políticas, tengas la capacidad de encontrarlo en tus sistemas.
Considera asignar IDs a los usuarios, lo cual puede ayudarte a rastrear individuos específicos que estén violando la Política de Uso Aceptable de Anthropic, permitiendo acciones más dirigidas en casos de mal uso.
La decisión de pasar IDs a Anthropic a través de la API depende de ti. Pero, si se proporcionan, podemos identificar violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.
Considera requerir que el cliente se registre para una cuenta en tu plataforma antes de utilizar Claude
Asegúrate de que tus clientes entiendan los usos permitidos
Advierte, limita o suspende a usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic
Salvaguardas Intermedias
Crea marcos de personalización que restrinjan las interacciones del usuario final con Claude a un conjunto limitado de prompts o que solo permitan a Claude revisar un corpus de conocimiento específico que ya tengas, lo cual disminuirá la capacidad de los usuarios de participar en comportamientos que violen las políticas.
Habilita filtros de seguridad adicionales - herramientas gratuitas de moderación en tiempo real construidas por Anthropic para ayudar a detectar prompts potencialmente dañinos y gestionar acciones en tiempo real para reducir el daño
Para más información sobre cómo habilitar nuestros filtros de seguridad adicionales, por favor contacta a usersafety@anthropic.com.
Para Clientes de Bedrock:
Activa tu bucket privado de S3 para almacenar prompts y completaciones para tu propia evaluación
Salvaguardas Avanzadas
Ejecuta una API de moderación contra todos los prompts de usuarios finales antes de que sean enviados a Claude para asegurar que no sean dañinos
Salvaguardas Integrales
Configura un sistema interno de revisión humana para marcar prompts que sean señalados por Claude (siendo usado para moderación de contenido) o una API de moderación como dañinos, para que puedas intervenir y restringir o remover usuarios con altas tasas de violación.