Ir al contenido principal
Todas las coleccionesConfianza y seguridad
Herramientas de Confianza y Seguridad para API
Herramientas de Confianza y Seguridad para API
Actualizado hace más de 3 semanas

Ya sea que esté comenzando el proceso de configurar Trust & Safety para su implementación de API de Claude, o que su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al construir su propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarlo a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de su acceso a los servicios.

Salvaguardias Básicas

  • Almacene IDs vinculados a cada llamada de API, para que si necesita identificar contenido específico que viole las normas, tenga la capacidad de encontrarlo en sus sistemas.

  • Considere asignar IDs a los usuarios, lo que puede ayudarlo a rastrear individuos específicos que estén violando la Política de Uso Aceptable de Anthropic, permitiendo una acción más dirigida en casos de mal uso.

    • La decisión de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar las violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.

  • Considere requerir que el cliente se registre para una cuenta en su plataforma antes de utilizar Claude

  • Asegúrese de que sus clientes entiendan los usos permitidos

  • Advierta, limite o suspenda a los usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic

Salvaguardias Intermedias

  • Cree marcos de personalización que restrinjan las interacciones del usuario final con Claude a un conjunto limitado de indicaciones o solo permitan que Claude revise un corpus de conocimiento específico que ya tiene, lo que disminuirá la capacidad de los usuarios de participar en comportamientos que violen las normas.

  • Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y gestionar acciones en tiempo real para reducir el daño

    • Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con usersafety@anthropic.com.

  • Para Clientes de Bedrock:

    • Active su bucket S3 privado para almacenar indicaciones y completaciones para su propia evaluación

Salvaguardias Avanzadas

Salvaguardias Integrales

  • Configure un sistema de revisión humana interno para marcar las indicaciones que Claude (siendo utilizado para moderación de contenido) o una API de moderación señalen como dañinas, para que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.

¿Ha quedado contestada tu pregunta?