Toutes les collections
Confiance et sécurité
Notre approche de la sécurité des utilisateurs
Notre approche de la sécurité des utilisateurs
Mis à jour il y a plus d’une semaine

La sécurité des utilisateurs est au cœur de la mission d'Anthropic de créer des systèmes d'IA fiables, interprétables et pilotables. Alors que nous lançons de nouvelles façons pour les gens d'interagir avec Claude, nous nous attendons également à voir apparaître de nouveaux types de préjudices potentiels, que ce soit par la génération de désinformation, de contenu répréhensible, de discours haineux ou d'autres utilisations abusives. Nous investissons activement dans des fonctionnalités de sécurité supplémentaires pour compléter nos efforts existants en matière de sécurité des modèles et expérimentons avec celles-ci, et nous travaillons à fournir des outils utiles à un large public tout en faisant de notre mieux pour atténuer les préjudices. Le lancement de nouveaux produits en version bêta ouverte nous permet d'expérimenter, d'itérer et d'entendre vos commentaires. Voici quelques-unes des fonctionnalités de sécurité que nous avons introduites :

  • Des modèles de détection qui signalent les contenus potentiellement dangereux sur la base de notre Politique d'utilisation acceptable.

  • Des filtres de sécurité sur les invites, qui peuvent bloquer les réponses du modèle lorsque nos modèles de détection signalent un contenu dangereux.

  • Des filtres de sécurité améliorés, qui nous permettent d'augmenter la sensibilité de nos modèles de détection. Nous pouvons appliquer temporairement des filtres de sécurité améliorés aux utilisateurs qui enfreignent à plusieurs reprises nos politiques, et supprimer ces contrôles après une période sans violation ou avec peu de violations.

Ces fonctionnalités ne sont pas infaillibles, et nous pouvons commettre des erreurs à travers des faux positifs ou des faux négatifs. Vos commentaires sur ces mesures et sur la façon dont nous les expliquons aux utilisateurs joueront un rôle clé pour nous aider à améliorer ces systèmes de sécurité, et nous vous encourageons à nous contacter à usersafety@anthropic.com pour tout commentaire que vous pourriez avoir. Pour en savoir plus, lisez sur nos principes fondamentaux en matière de sécurité de l'IA.

Avez-vous trouvé la réponse à votre question ?