Ir al contenido principal

Herramientas de Salvaguardas de API

Actualizado esta semana

Ya sea que estés comenzando el proceso de configurar salvaguardas para tu implementación de API de Claude, o tu implementación ya esté funcionando, aquí tienes algunas estrategias a considerar al construir tu propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarte a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de tu acceso a los servicios.

Salvaguardas Básicas

  • Almacena IDs vinculados con cada llamada de API, para que si necesitas identificar contenido específico que viole las políticas, tengas la capacidad de encontrarlo en tus sistemas.

  • Considera asignar IDs a los usuarios, lo cual puede ayudarte a rastrear individuos específicos que estén violando la Política de Uso Aceptable de Anthropic, permitiendo acciones más dirigidas en casos de mal uso.

    • La decisión de pasar IDs a Anthropic a través de la API depende de ti. Pero, si se proporcionan, podemos identificar violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.

  • Considera requerir que el cliente se registre para una cuenta en tu plataforma antes de utilizar Claude

  • Asegúrate de que tus clientes entiendan los usos permitidos

  • Advierte, limita o suspende a usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic

Salvaguardas Intermedias

  • Crea marcos de personalización que restrinjan las interacciones del usuario final con Claude a un conjunto limitado de prompts o que solo permitan a Claude revisar un corpus de conocimiento específico que ya tengas, lo cual disminuirá la capacidad de los usuarios de participar en comportamientos que violen las políticas.

  • Habilita filtros de seguridad adicionales - herramientas gratuitas de moderación en tiempo real construidas por Anthropic para ayudar a detectar prompts potencialmente dañinos y gestionar acciones en tiempo real para reducir el daño

    • Para más información sobre cómo habilitar nuestros filtros de seguridad adicionales, por favor contacta a usersafety@anthropic.com.

  • Para Clientes de Bedrock:

    • Activa tu bucket privado de S3 para almacenar prompts y completaciones para tu propia evaluación

Salvaguardas Avanzadas

Salvaguardas Integrales

  • Configura un sistema interno de revisión humana para marcar prompts que sean señalados por Claude (siendo usado para moderación de contenido) o una API de moderación como dañinos, para que puedas intervenir y restringir o remover usuarios con altas tasas de violación.

¿Ha quedado contestada tu pregunta?