Ir al contenido principal
Todas las coleccionesConfianza y seguridad
Herramientas de Confianza y Seguridad para API
Herramientas de Confianza y Seguridad para API
Actualizado hace más de 2 semanas

Ya sea que esté comenzando el proceso de configurar Trust & Safety para su implementación de API de Claude, o que su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al construir su propio programa de seguridad de IA.

Salvaguardias básicas

  • Almacene IDs vinculados a cada llamada de API, para que si necesita identificar contenido específico que viole las normas, tenga la capacidad de encontrarlo en sus sistemas.

  • Considere asignar IDs a los usuarios, lo que puede ayudarle a rastrear individuos específicos que estén violando el AUP de Anthropic, permitiendo una acción más dirigida en casos de mal uso.

    • La decisión de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar las violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.

  • Considere requerir que el cliente se registre para una cuenta en su plataforma antes de utilizar Claude

  • Asegúrese de que sus clientes entiendan los usos permitidos

Salvaguardias intermedias

  • Cree marcos de personalización que restrinjan las interacciones del usuario final con Claude a un conjunto limitado de indicaciones o solo permitan que Claude revise un corpus de conocimiento específico que ya tiene, lo que disminuirá la capacidad de los usuarios de participar en comportamientos que violen las normas.

  • Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y gestionar acciones en tiempo real para reducir el daño

    • Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con usersafety@anthropic.com.

  • Para clientes de Bedrock:

    • Active su bucket S3 privado para almacenar indicaciones y respuestas para su propia evaluación

Salvaguardias avanzadas

Salvaguardias integrales

  • Configure un sistema de revisión humana interno para marcar las indicaciones que Claude (siendo utilizado para moderación de contenido) o una API de moderación señalen como dañinas, para que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.

¿Ha quedado contestada tu pregunta?