Ir al contenido principal

Nuestro Enfoque hacia la Seguridad del Usuario

Actualizado esta semana

La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y dirigibles. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver que se materialicen nuevos tipos de daños potenciales, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras también hacemos nuestro mejor esfuerzo para mitigar el daño. Lanzar nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Aquí están algunas de las características de seguridad que hemos introducido:

  • Modelos de detección que marcan contenido potencialmente dañino basado en nuestra Política de Uso.

  • Filtros de seguridad en las indicaciones, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección marcan el contenido como dañino.

  • Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a usuarios que violan repetidamente nuestras políticas, y remover estos controles después de un período sin violaciones o con pocas violaciones.

Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo se las explicamos a los usuarios desempeñarán un papel clave en ayudarnos a mejorar estos sistemas de seguridad, y los alentamos a contactarnos en usersafety@anthropic.com con cualquier comentario que puedan tener. Para aprender más, lea sobre nuestras perspectivas fundamentales sobre la seguridad de la IA.

¿Ha quedado contestada tu pregunta?