A Anthropic rastreia dados da web, e como os proprietários de sites podem bloquear o rastreador?

De acordo com o padrão da indústria, a Anthropic utiliza uma variedade de robôs para coletar dados da web pública para o desenvolvimento de modelos, para pesquisar na web e para recuperar conteúdo da web sob a direção dos usuários. A Anthropic usa diferentes robôs para permitir transparência e escolha aos proprietários de sites. Abaixo estão informações sobre os três robôs que a Anthropic usa e como definir as preferências do seu site para permitir aqueles que você deseja que acessem seu conteúdo e limitar aqueles que você não deseja.

Bot	Uso	O que acontece quando você o desativa
ClaudeBot	O ClaudeBot ajuda a melhorar a utilidade e segurança dos nossos modelos de IA generativa coletando conteúdo da web que potencialmente pode contribuir para o seu treinamento.	Quando um site restringe o acesso do ClaudeBot, isso sinaliza que os materiais futuros do site devem ser excluídos dos nossos conjuntos de dados de treinamento de modelos de IA.
Claude-User	O Claude-User dá suporte aos usuários da IA Claude. Quando indivíduos fazem perguntas ao Claude, ele pode acessar sites usando um agente Claude-User.	O Claude-User permite que os proprietários de sites controlem quais sites podem ser acessados através dessas solicitações iniciadas pelo usuário. Desativar o Claude-User em seu site impede que nosso sistema recupere seu conteúdo em resposta a uma consulta do usuário, o que pode reduzir a visibilidade do seu site para pesquisas na web direcionadas pelo usuário.
Claude-SearchBot	O Claude-SearchBot navega na web para melhorar a qualidade dos resultados de pesquisa para os usuários. Ele analisa o conteúdo online especificamente para melhorar a relevância e precisão das respostas de pesquisa.	Desativar o Claude-SearchBot em seu site impede que nosso sistema indexe seu conteúdo para otimização de pesquisa, o que pode reduzir a visibilidade e precisão do seu site nos resultados de pesquisa do usuário.

Como parte de nossa missão de construir sistemas de fronteira seguros e confiáveis e avançar o campo do desenvolvimento responsável de IA, estamos compartilhando os princípios pelos quais coletamos dados, bem como instruções sobre como optar por não participar de nossa coleta daqui para frente:

Nossa coleta de dados deve ser transparente. A Anthropic usa os Bots descritos acima para acessar conteúdo da web.
Nossa coleta não deve ser intrusiva ou disruptiva. Visamos uma perturbação mínima, sendo cuidadosos sobre a rapidez com que coletamos os mesmos domínios e respeitando o Crawl-delay quando apropriado.
Os Bots da Anthropic respeitam os sinais de "não coletar" honrando as diretivas padrão da indústria no robots.txt.
Os Bots da Anthropic respeitam as tecnologias anti-contorno (por exemplo, não tentaremos contornar CAPTCHAs para os sites que coletamos.)

Para limitar a atividade de coleta, suportamos a extensão não padrão Crawl-delay para robots.txt. Um exemplo disso pode ser:

User-agent: ClaudeBot

Crawl-delay: 1

Para bloquear um Bot de todo o seu site, adicione isso ao arquivo robots.txt em seu diretório de nível superior. Por favor, faça isso para cada subdomínio que você deseja excluir. Um exemplo disso é:

User-agent: ClaudeBot

Disallow: /

Optar por não ser coletado pelos Bots da Anthropic requer modificar o arquivo robots.txt da maneira acima. Métodos alternativos, como bloquear endereço(s) IP de onde os Bots da Anthropic operam, podem não funcionar corretamente ou garantir persistentemente uma exclusão, pois isso impede nossa capacidade de ler seu arquivo robots.txt. Além disso, atualmente não publicamos faixas de IP, pois usamos IPs públicos de provedores de serviços. Isso pode mudar no futuro.

Você pode aprender mais sobre nossas práticas e compromissos de tratamento de dados em nossa Central de Ajuda. Se você tiver mais perguntas, ou acreditar que nossos Bots possam estar funcionando mal, entre em contato com claudebot@anthropic.com. Por favor, entre em contato a partir de um e-mail que inclua o domínio sobre o qual você está nos contatando, pois caso contrário é difícil verificar os relatórios.