La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y dirigibles. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver nuevos tipos de daños potenciales que se materialicen, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras hacemos nuestro mejor esfuerzo para mitigar el daño. El lanzamiento de nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Estas son algunas de las características de seguridad que hemos introducido:
Modelos de detección que marcan contenido potencialmente dañino basado en nuestra Política de Uso.
Filtros de seguridad en los prompts, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección marcan el contenido como dañino.
Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a los usuarios que violen repetidamente nuestras políticas, y eliminar estos controles después de un período sin violaciones o con pocas violaciones.
Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo las explicamos a los usuarios jugarán un papel clave para ayudarnos a mejorar estos sistemas de seguridad, y lo alentamos a que se comunique con nosotros en usersafety@anthropic.com con cualquier comentario que pueda tener. Para obtener más información, lea sobre nuestras opiniones fundamentales sobre la seguridad de la IA.