Passer au contenu principal

Anthropic explore-t-il les données du web, et comment les propriétaires de sites peuvent-ils bloquer le robot d'exploration ?

Mis à jour aujourd’hui

Conformément aux normes de l'industrie, Anthropic utilise une variété de robots pour collecter des données du web public pour le développement de modèles, pour effectuer des recherches sur le web, et pour récupérer du contenu web à la demande des utilisateurs. Anthropic utilise différents robots pour permettre la transparence et le choix des propriétaires de sites web. Ci-dessous se trouvent des informations sur les trois robots qu'Anthropic utilise et comment définir les préférences de votre site pour autoriser ceux que vous souhaitez voir accéder à votre contenu et limiter ceux que vous ne souhaitez pas.

Bot

Utilisation

Ce qui se passe quand vous le désactivez

ClaudeBot

ClaudeBot aide à améliorer l'utilité et la sécurité de nos modèles d'IA générative en collectant du contenu web qui pourrait potentiellement contribuer à leur entraînement.

Lorsqu'un site restreint l'accès de ClaudeBot, cela signale que les futurs contenus du site doivent être exclus de nos jeux de données d'entraînement de modèles d'IA.

Claude-User

Claude-User soutient les utilisateurs de Claude AI. Lorsque des individus posent des questions à Claude, il peut accéder aux sites web en utilisant un agent Claude-User.

Claude-User permet aux propriétaires de sites de contrôler quels sites peuvent être accessibles via ces demandes initiées par les utilisateurs. Désactiver Claude-User sur votre site empêche notre système de récupérer votre contenu en réponse à une requête utilisateur, ce qui peut réduire la visibilité de votre site pour les recherches web dirigées par les utilisateurs.

Claude-SearchBot

Claude-SearchBot navigue sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs. Il analyse le contenu en ligne spécifiquement pour améliorer la pertinence et la précision des réponses de recherche.

Désactiver Claude-SearchBot sur votre site empêche notre système d'indexer votre contenu pour l'optimisation de recherche, ce qui peut réduire la visibilité et la précision de votre site dans les résultats de recherche des utilisateurs.

Dans le cadre de notre mission de construire des systèmes de pointe sûrs et fiables et de faire progresser le domaine du développement d'IA responsable, nous partageons les principes selon lesquels nous collectons les données ainsi que les instructions sur comment se désinscrire de notre exploration à l'avenir :

  • Notre collecte de données doit être transparente. Anthropic utilise les Bots décrits ci-dessus pour accéder au contenu web.

  • Notre exploration ne doit pas être intrusive ou perturbatrice. Nous visons une perturbation minimale en étant réfléchis sur la rapidité avec laquelle nous explorons les mêmes domaines et en respectant Crawl-delay lorsque approprié.

  • Les Bots d'Anthropic respectent les signaux "ne pas explorer" en honorant les directives standard de l'industrie dans robots.txt.

  • Les Bots d'Anthropic respectent les technologies anti-contournement (par exemple, nous ne tenterons pas de contourner les CAPTCHAs pour les sites que nous explorons.)

Pour limiter l'activité d'exploration, nous supportons l'extension non-standard Crawl-delay de robots.txt. Un exemple de ceci pourrait être :

User-agent: ClaudeBot

Crawl-delay: 1

Pour bloquer un Bot de l'ensemble de votre site web, ajoutez ceci au fichier robots.txt dans votre répertoire de niveau supérieur. Veuillez faire ceci pour chaque sous-domaine dont vous souhaitez vous désinscrire. Un exemple de ceci est :

User-agent: ClaudeBot

Disallow: /

Se désinscrire de l'exploration par les Bots d'Anthropic nécessite de modifier le fichier robots.txt de la manière décrite ci-dessus. Des méthodes alternatives comme bloquer la ou les adresse(s) IP depuis lesquelles opèrent les Bots d'Anthropic peuvent ne pas fonctionner correctement ou garantir de manière persistante une désinscription, car cela entrave notre capacité à lire votre fichier robots.txt. De plus, nous ne publions actuellement pas les plages d'IP, car nous utilisons des IP publiques de fournisseurs de services. Ceci pourrait changer à l'avenir.

Vous pouvez en apprendre davantage sur nos pratiques et engagements de traitement des données dans notre Centre d'aide. Si vous avez d'autres questions, ou croyez que nos Bots pourraient mal fonctionner, veuillez nous contacter à claudebot@anthropic.com. Veuillez nous contacter depuis un email qui inclut le domaine au sujet duquel vous nous contactez, car il est autrement difficile de vérifier les rapports.

Avez-vous trouvé la réponse à votre question ?