Est-ce qu'Anthropic collecte des données du web, et comment les propriétaires de sites peuvent-ils bloquer le robot d'indexation ?

Conformément aux normes de l'industrie, Anthropic utilise divers robots pour collecter des données du web public pour le développement de modèles, pour effectuer des recherches sur le web et pour récupérer du contenu web à la demande des utilisateurs. Anthropic utilise différents robots pour assurer la transparence et le choix des propriétaires de sites web. Vous trouverez ci-dessous des informations sur les trois robots qu'Anthropic utilise et comment définir les préférences de votre site pour permettre l'accès à ceux que vous souhaitez et limiter ceux que vous ne voulez pas.

Robot	Utilisation	Ce qui se passe lorsque vous le désactivez
ClaudeBot	ClaudeBot aide à améliorer l'utilité et la sécurité de nos modèles d'IA générative en collectant du contenu web qui pourrait potentiellement contribuer à leur formation.	Lorsqu'un site restreint l'accès à ClaudeBot, cela indique que les futurs contenus du site doivent être exclus de nos ensembles de données d'entraînement des modèles d'IA.
Claude-User	Claude-User soutient les utilisateurs de l'IA Claude. Lorsque des individus posent des questions à Claude, il peut accéder à des sites web en utilisant un agent Claude-User.	Claude-User permet aux propriétaires de sites de contrôler quels sites peuvent être accessibles via ces requêtes initiées par l'utilisateur. La désactivation de Claude-User sur votre site empêche notre système de récupérer votre contenu en réponse à une requête d'utilisateur, ce qui peut réduire la visibilité de votre site pour la recherche web dirigée par l'utilisateur.
Claude-SearchBot	Claude-SearchBot navigue sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs. Il analyse le contenu en ligne spécifiquement pour améliorer la pertinence et la précision des réponses de recherche.	La désactivation de Claude-SearchBot sur votre site empêche notre système d'indexer votre contenu pour l'optimisation de la recherche, ce qui peut réduire la visibilité et la précision de votre site dans les résultats de recherche des utilisateurs.

Dans le cadre de notre mission de construire des systèmes de pointe sûrs et fiables et de faire progresser le domaine du développement responsable de l'IA, nous partageons les principes selon lesquels nous collectons des données ainsi que les instructions pour se désinscrire de notre crawling à l'avenir :

Notre collecte de données doit être transparente. Anthropic utilise les robots décrits ci-dessus pour accéder au contenu web.
Notre crawling ne doit pas être intrusif ou perturbateur. Nous visons une perturbation minimale en réfléchissant à la fréquence à laquelle nous crawlons les mêmes domaines et en respectant le Crawl-delay lorsque c'est approprié.
Les robots d'Anthropic respectent les signaux "ne pas crawler" en honorant les directives standard de l'industrie dans le fichier robots.txt.
Les robots d'Anthropic respectent les technologies anti-contournement (par exemple, nous n'essaierons pas de contourner les CAPTCHAs pour les sites que nous crawlons.)

Pour limiter l'activité de crawling, nous prenons en charge l'extension non standard Crawl-delay du fichier robots.txt. Un exemple de ceci pourrait être :

User-agent: ClaudeBot

Crawl-delay: 1

Pour bloquer un robot sur l'ensemble de votre site web, ajoutez ceci au fichier robots.txt dans votre répertoire de premier niveau. Veuillez faire cela pour chaque sous-domaine que vous souhaitez exclure. Un exemple de ceci est :

User-agent: ClaudeBot

Disallow: /

Se désinscrire du crawling par les robots d'Anthropic nécessite de modifier le fichier robots.txt de la manière décrite ci-dessus. Les méthodes alternatives comme le blocage de l'adresse (ou des adresses) IP à partir desquelles les robots d'Anthropic opèrent peuvent ne pas fonctionner correctement ou garantir de manière persistante une désinscription, car cela entrave notre capacité à lire votre fichier robots.txt. De plus, nous ne publions pas actuellement de plages d'IP, car nous utilisons des IP publiques de fournisseurs de services. Cela pourrait changer à l'avenir.

Vous pouvez en apprendre davantage sur nos pratiques et engagements en matière de traitement des données sur notre Centre d'aide. Si vous avez d'autres questions, ou si vous pensez que nos robots pourraient dysfonctionner, veuillez contacter claudebot@anthropic.com. Veuillez nous contacter à partir d'un e-mail qui inclut le domaine au sujet duquel vous nous contactez, car il est autrement difficile de vérifier les signalements.