Ya sea que recién esté comenzando el proceso de configurar Trust & Safety para su implementación de API de Claude, o su implementación ya esté ejecutándose, aquí hay algunas estrategias a considerar cuando construya su propio programa de seguridad de IA.
Salvaguardas básicas
Almacene los ID vinculados con cada llamada API, para que si necesita identificar contenido violatorio específico, tenga la capacidad de encontrarlo en sus sistemas.
Considere asignar IDs a los usuarios, lo que puede ayudarlo a rastrear a personas específicas que están violando el AUP de Anthropic, lo que permite una acción más dirigida en casos de mal uso.
La elección de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar violaciones con más precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID pasado debe hash criptográfico.
Considere requerir que el cliente se registre para una cuenta en su plataforma antes de utilizar Claude.
Asegúrese de que sus clientes comprendan los usos permitidos.
Salvaguardas intermedias
Cree marcos de personalización que restrinjan las interacciones de los usuarios finales con Claude a un conjunto limitado de indicaciones o solo permitan que Claude revise un corpus de conocimiento específico que ya tiene, lo que disminuirá la capacidad de los usuarios para participar en comportamientos violatorios.
Habilite filtros de seguridad adicionales: herramientas de moderación en tiempo real gratuitas construidas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y administrar acciones en tiempo real para reducir el daño.
Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con usersafety@anthropic.com.
Para clientes de Bedrock:
Active su bucket S3 privado para almacenar indicaciones y finalizaciones para su propia evaluación.
Salvaguardas avanzadas
Ejecute una API de moderación contra todas las indicaciones de usuario final antes de enviarlas a Claude para garantizar que no sean dañinas.
Salvaguardas integrales
Configure un sistema de revisión humana interna para marcar indicaciones que Claude (que se utiliza para la moderación de contenido) o una API de moderación marcan como dañinas, para que pueda intervenir para restringir o eliminar usuarios con tasas de violación altas.