La sécurité des utilisateurs est au cœur de la mission d'Anthropic visant à créer des systèmes d'IA fiables, interprétables et pilotables. Alors que nous lançons de nouvelles façons pour les gens d'interagir avec Claude, nous nous attendons également à voir apparaître de nouveaux types de préjudices potentiels, que ce soit par la génération de désinformation, de contenu répréhensible, de discours haineux ou d'autres utilisations abusives. Nous investissons activement et expérimentons des fonctionnalités de sécurité supplémentaires pour compléter nos efforts existants en matière de sécurité des modèles, et nous travaillons à fournir des outils utiles à un large public tout en faisant de notre mieux pour atténuer les préjudices. Le lancement de nouveaux produits en version bêta ouverte nous permet d'expérimenter, d'itérer et d'entendre vos commentaires. Voici quelques-unes des fonctionnalités de sécurité que nous avons introduites :
Des modèles de détection qui signalent les contenus potentiellement nuisibles sur la base de notre Politique d'utilisation.
Des filtres de sécurité sur les invites, qui peuvent bloquer les réponses du modèle lorsque nos modèles de détection signalent un contenu comme nuisible.
Des filtres de sécurité renforcés, qui nous permettent d'augmenter la sensibilité de nos modèles de détection. Nous pouvons appliquer temporairement des filtres de sécurité renforcés aux utilisateurs qui enfreignent à plusieurs reprises nos politiques, et supprimer ces contrôles après une période sans ou avec peu de violations.
Ces fonctionnalités ne sont pas infaillibles, et nous pouvons commettre des erreurs par le biais de faux positifs ou de faux négatifs. Vos commentaires sur ces mesures et sur la façon dont nous les expliquons aux utilisateurs joueront un rôle clé pour nous aider à améliorer ces systèmes de sécurité, et nous vous encourageons à nous contacter à usersafety@anthropic.com avec tout commentaire que vous pourriez avoir. Pour en savoir plus, lisez nos points de vue fondamentaux sur la sécurité de l'IA.