Todas las colecciones
Confianza y seguridad
Herramientas de confianza y seguridad de API
Herramientas de confianza y seguridad de API
Actualizado hace más de una semana

Ya sea que recién esté comenzando el proceso de configurar Trust & Safety para su implementación de API de Claude, o su implementación ya esté ejecutándose, aquí hay algunas estrategias a considerar cuando construya su propio programa de seguridad de IA.

Salvaguardas básicas

  • Almacene los ID vinculados con cada llamada API, para que si necesita identificar contenido violatorio específico, tenga la capacidad de encontrarlo en sus sistemas.

  • Considere asignar IDs a los usuarios, lo que puede ayudarlo a rastrear a personas específicas que están violando el AUP de Anthropic, lo que permite una acción más dirigida en casos de mal uso.

    • La elección de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar violaciones con más precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID pasado debe hash criptográfico.

  • Considere requerir que el cliente se registre para una cuenta en su plataforma antes de utilizar Claude.

  • Asegúrese de que sus clientes comprendan los usos permitidos.

Salvaguardas intermedias

  • Cree marcos de personalización que restrinjan las interacciones de los usuarios finales con Claude a un conjunto limitado de indicaciones o solo permitan que Claude revise un corpus de conocimiento específico que ya tiene, lo que disminuirá la capacidad de los usuarios para participar en comportamientos violatorios.

  • Habilite filtros de seguridad adicionales: herramientas de moderación en tiempo real gratuitas construidas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y administrar acciones en tiempo real para reducir el daño.

    • Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con usersafety@anthropic.com.

  • Para clientes de Bedrock:

    • Active su bucket S3 privado para almacenar indicaciones y finalizaciones para su propia evaluación.

Salvaguardas avanzadas

Salvaguardas integrales

  • Configure un sistema de revisión humana interna para marcar indicaciones que Claude (que se utiliza para la moderación de contenido) o una API de moderación marcan como dañinas, para que pueda intervenir para restringir o eliminar usuarios con tasas de violación altas.

¿Ha quedado contestada tu pregunta?