Todas las colecciones
Confianza y seguridad
Nuestro enfoque para la seguridad del usuario
Nuestro enfoque para la seguridad del usuario
Actualizado hace más de una semana

La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y controlables. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver nuevos tipos de daños potenciales materializarse, ya sea a través de la generación de desinformación, contenido objetable, discursos de odio u otros malos usos. Estamos invirtiendo activamente en características adicionales de seguridad y experimentando con ellas para complementar nuestros esfuerzos existentes de seguridad del modelo, y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia y al mismo tiempo hacer nuestro mejor esfuerzo para mitigar el daño. Lanzar nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Estas son algunas de las características de seguridad que hemos introducido:

  • Modelos de detección que marcan contenido potencialmente dañino en función de nuestra Política de uso aceptable.

  • Filtros de seguridad en indicaciones, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección marcan el contenido como dañino.

  • Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a los usuarios que violen repetidamente nuestras políticas y eliminar estos controles después de un período sin violaciones o con pocas violaciones.

Estas características no son infalibles y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo las explicamos a los usuarios desempeñarán un papel clave para ayudarnos a mejorar estos sistemas de seguridad, y lo alentamos a comunicarse con nosotros en usersafety@anthropic.com con cualquier comentario que pueda tener. Para obtener más información, lea sobre nuestras opiniones fundamentales sobre la seguridad de la IA.

¿Ha quedado contestada tu pregunta?