Ir para conteúdo principal
A Anthropic rastreia dados da web, e como os proprietários de sites podem bloquear o rastreador?
Atualizado há mais de 3 meses

De acordo com o padrão da indústria, a Anthropic utiliza uma variedade de fontes de dados para o desenvolvimento de modelos, como dados publicamente disponíveis na internet coletados por meio de um rastreador web. Como parte de nossa missão de construir sistemas de fronteira seguros e confiáveis e avançar o campo do desenvolvimento responsável de IA, estamos compartilhando os princípios pelos quais coletamos dados, bem como instruções sobre como optar por não participar de nossa coleta daqui para frente:

  • Nossa coleta de dados deve ser transparente. O Token de Agente de Usuário ClaudeBot identifica o rastreador web de propósito geral da Anthropic.

  • Nosso rastreamento não deve ser intrusivo ou disruptivo. Visamos uma perturbação mínima, sendo cuidadosos sobre a frequência com que rastreamos os mesmos domínios e respeitando o Crawl-delay quando apropriado.

  • O rastreador da Anthropic respeita os sinais de "não rastrear" honrando as diretivas padrão da indústria no robots.txt, incluindo quaisquer proibições para o Agente de Usuário CCBot do Common Crawl.

  • O rastreador da Anthropic respeita as tecnologias anti-contorno (por exemplo, não tentaremos contornar CAPTCHAs para os sites que rastreamos.)

Para limitar a atividade de rastreamento, suportamos a extensão não padrão Crawl-delay para o robots.txt. Um exemplo disso pode ser:

User-agent: ClaudeBot

Crawl-delay: 1

Para bloquear o rastreador de todo o seu site, adicione isto ao arquivo robots.txt em seu diretório de nível superior. Por favor, faça isso para cada subdomínio que você deseja excluir.

User-agent: ClaudeBot

Disallow: /

Optar por não ser rastreado pelo ClaudeBot requer modificar o arquivo robots.txt da maneira acima. Métodos alternativos, como bloquear endereço(s) IP de onde o ClaudeBot opera, podem não funcionar corretamente ou garantir persistentemente uma exclusão, pois isso impede nossa capacidade de ler seu arquivo robots.txt. Além disso, atualmente não publicamos faixas de IP, pois usamos IPs públicos de provedores de serviços. Isso pode mudar no futuro.

Você pode aprender mais sobre nossas práticas e compromissos de tratamento de dados em nossa Central de Ajuda. Se você tiver mais perguntas, ou acreditar que nosso rastreador possa estar funcionando mal, entre em contato com claudebot@anthropic.com. Por favor, entre em contato a partir de um e-mail que inclua o domínio sobre o qual você está nos contatando, pois caso contrário é difícil verificar os relatos.

Isto respondeu à sua pergunta?