La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y dirigibles. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver que se materialicen nuevos tipos de daños potenciales, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras también hacemos nuestro mejor esfuerzo para mitigar el daño. Lanzar nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Aquí están algunas de las características de seguridad que hemos introducido:
Modelos de detección que marcan contenido potencialmente dañino basado en nuestra Política de Uso.
Filtros de seguridad en las indicaciones, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección marcan el contenido como dañino.
Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a usuarios que violan repetidamente nuestras políticas, y remover estos controles después de un período sin violaciones o con pocas violaciones.
Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo se las explicamos a los usuarios desempeñarán un papel clave en ayudarnos a mejorar estos sistemas de seguridad, y los alentamos a contactarnos en usersafety@anthropic.com con cualquier comentario que puedan tener. Para aprender más, lea sobre nuestras perspectivas fundamentales sobre la seguridad de la IA.