Ya sea que esté comenzando el proceso de configurar Trust & Safety para su implementación de API de Claude, o que su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al construir su propio programa de seguridad de IA.
Salvaguardias básicas
Almacene IDs vinculados a cada llamada de API, para que si necesita identificar contenido específico que viole las normas, tenga la capacidad de encontrarlo en sus sistemas.
Considere asignar IDs a los usuarios, lo que puede ayudarle a rastrear individuos específicos que estén violando el AUP de Anthropic, permitiendo una acción más dirigida en casos de mal uso.
La decisión de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar las violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.
Considere requerir que el cliente se registre para una cuenta en su plataforma antes de utilizar Claude
Asegúrese de que sus clientes entiendan los usos permitidos
Salvaguardias intermedias
Cree marcos de personalización que restrinjan las interacciones del usuario final con Claude a un conjunto limitado de indicaciones o solo permitan que Claude revise un corpus de conocimiento específico que ya tiene, lo que disminuirá la capacidad de los usuarios de participar en comportamientos que violen las normas.
Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y gestionar acciones en tiempo real para reducir el daño
Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con usersafety@anthropic.com.
Para clientes de Bedrock:
Active su bucket S3 privado para almacenar indicaciones y respuestas para su propia evaluación
Salvaguardias avanzadas
Ejecute una API de moderación contra todas las indicaciones de usuarios finales antes de que se envíen a Claude para asegurarse de que no sean dañinas
Salvaguardias integrales
Configure un sistema de revisión humana interno para marcar las indicaciones que Claude (siendo utilizado para moderación de contenido) o una API de moderación señalen como dañinas, para que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.