Ir al contenido principal
Todas las coleccionesConfianza y seguridad
Nuestro Enfoque hacia la Seguridad del Usuario
Nuestro Enfoque hacia la Seguridad del Usuario
Actualizado hace más de 3 meses

La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y dirigibles. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver nuevos tipos de daños potenciales que se materialicen, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras hacemos nuestro mejor esfuerzo para mitigar el daño. El lanzamiento de nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Estas son algunas de las características de seguridad que hemos introducido:

  • Modelos de detección que marcan contenido potencialmente dañino basado en nuestra Política de Uso.

  • Filtros de seguridad en los prompts, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección marcan el contenido como dañino.

  • Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a los usuarios que violen repetidamente nuestras políticas, y eliminar estos controles después de un período sin violaciones o con pocas violaciones.

Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo las explicamos a los usuarios jugarán un papel clave para ayudarnos a mejorar estos sistemas de seguridad, y lo alentamos a que se comunique con nosotros en usersafety@anthropic.com con cualquier comentario que pueda tener. Para obtener más información, lea sobre nuestras opiniones fundamentales sobre la seguridad de la IA.

¿Ha quedado contestada tu pregunta?