Notre approche de la sécurité des utilisateurs

La sécurité des utilisateurs est au cœur de la mission d'Anthropic qui consiste à créer des systèmes d'IA fiables, interprétables et contrôlables. Alors que nous lançons de nouvelles façons pour les gens d'interagir avec Claude, nous nous attendons également à voir émerger de nouveaux types de préjudices potentiels, que ce soit par la génération de désinformation, de contenu répréhensible, de discours de haine ou d'autres mauvais usages. Nous investissons activement dans des fonctionnalités de sécurité supplémentaires et expérimentons avec celles-ci pour compléter nos efforts existants de sécurité des modèles, et nous travaillons à fournir des outils utiles à un large public tout en faisant de notre mieux pour atténuer les préjudices. Le lancement de nouveaux produits en version bêta ouverte nous permet d'expérimenter, d'itérer et d'entendre vos commentaires. Voici quelques-unes des fonctionnalités de sécurité que nous avons introduites :

Des modèles de détection qui signalent le contenu potentiellement nuisible basé sur notre Politique d'utilisation.
Des filtres de sécurité sur les invites, qui peuvent bloquer les réponses du modèle lorsque nos modèles de détection signalent le contenu comme nuisible.
Des filtres de sécurité renforcés, qui nous permettent d'augmenter la sensibilité de nos modèles de détection. Nous pouvons temporairement appliquer des filtres de sécurité renforcés aux utilisateurs qui violent de manière répétée nos politiques, et retirer ces contrôles après une période sans violations ou avec peu de violations.

Ces fonctionnalités ne sont pas infaillibles, et nous pouvons faire des erreurs par des faux positifs ou des faux négatifs. Vos commentaires sur ces mesures et la façon dont nous les expliquons aux utilisateurs joueront un rôle clé pour nous aider à améliorer ces systèmes de sécurité, et nous vous encourageons à nous contacter à usersafety@anthropic.com avec tous commentaires que vous pourriez avoir. Pour en savoir plus, lisez nos points de vue fondamentaux sur la sécurité de l'IA.