Passer au contenu principal
Est-ce qu'Anthropic collecte des données du web, et comment les propriétaires de sites peuvent-ils bloquer le robot d'indexation ?
Mis à jour il y a plus d'un mois

Conformément aux normes de l'industrie, Anthropic utilise diverses sources de données pour le développement de modèles, telles que des données publiquement disponibles sur Internet collectées via un robot d'indexation. Dans le cadre de notre mission de construire des systèmes de pointe sûrs et fiables et de faire progresser le domaine du développement responsable de l'IA, nous partageons les principes selon lesquels nous collectons des données ainsi que des instructions sur la façon de refuser notre indexation à l'avenir :

  • Notre collecte de données doit être transparente. Le jeton d'agent utilisateur ClaudeBot identifie le robot d'indexation généraliste d'Anthropic.

  • Notre indexation ne doit pas être intrusive ni perturbatrice. Nous visons une perturbation minimale en réfléchissant à la fréquence à laquelle nous indexons les mêmes domaines et en respectant le Crawl-delay lorsque c'est approprié.

  • Le robot d'Anthropic respecte les signaux "ne pas indexer" en honorant les directives standard de l'industrie dans le fichier robots.txt, y compris toute interdiction pour l'agent utilisateur CCBot de Common Crawl.

  • Le robot d'Anthropic respecte les technologies anti-contournement (par exemple, nous n'essaierons pas de contourner les CAPTCHA pour les sites que nous indexons.)

Pour limiter l'activité d'indexation, nous prenons en charge l'extension non standard Crawl-delay du fichier robots.txt. Un exemple pourrait être :

User-agent: ClaudeBot

Crawl-delay: 1

Pour bloquer le robot sur l'ensemble de votre site web, ajoutez ceci au fichier robots.txt dans votre répertoire de premier niveau. Veuillez le faire pour chaque sous-domaine que vous souhaitez exclure.

User-agent: ClaudeBot

Disallow: /

Pour refuser d'être indexé par ClaudeBot, il faut modifier le fichier robots.txt de la manière indiquée ci-dessus. Les méthodes alternatives comme le blocage de l'adresse ou des adresses IP à partir desquelles ClaudeBot opère peuvent ne pas fonctionner correctement ou garantir de manière persistante un refus, car cela entrave notre capacité à lire votre fichier robots.txt. De plus, nous ne publions pas actuellement de plages d'IP, car nous utilisons des IP publiques de fournisseurs de services. Cela pourrait changer à l'avenir.

Vous pouvez en apprendre davantage sur nos pratiques et engagements en matière de gestion des données sur notre Centre d'aide. Si vous avez d'autres questions, ou si vous pensez que notre robot pourrait mal fonctionner, veuillez contacter claudebot@anthropic.com. Veuillez nous contacter à partir d'un e-mail qui inclut le domaine au sujet duquel vous nous contactez, car il est autrement difficile de vérifier les signalements.

Avez-vous trouvé la réponse à votre question ?