Ir para conteúdo principal

A Anthropic coleta dados da web, e como os proprietários de sites podem bloquear o crawler?

Atualizado esta semana

Conforme o padrão da indústria, a Anthropic usa uma variedade de robôs para coletar dados da web pública para desenvolvimento de modelos, para pesquisar na web e para recuperar conteúdo web sob direção dos usuários. A Anthropic usa diferentes robôs para permitir transparência e escolha aos proprietários de sites. Abaixo estão informações sobre os três robôs que a Anthropic usa e como definir as preferências do seu site para permitir aqueles que você deseja que acessem seu conteúdo e limitar aqueles que você não deseja.

Bot

Uso

O que acontece quando você o desabilita

ClaudeBot

O ClaudeBot ajuda a melhorar a utilidade e segurança dos nossos modelos de IA generativa coletando conteúdo web que poderia potencialmente contribuir para o treinamento deles.

Quando um site restringe o acesso do ClaudeBot, isso sinaliza que os materiais futuros do site devem ser excluídos dos nossos conjuntos de dados de treinamento de modelos de IA.

Claude-User

O Claude-User oferece suporte aos usuários do Claude AI. Quando indivíduos fazem perguntas ao Claude, ele pode acessar sites usando um agente Claude-User.

O Claude-User permite que proprietários de sites controlem quais sites podem ser acessados através dessas solicitações iniciadas pelo usuário. Desabilitar o Claude-User no seu site impede que nosso sistema recupere seu conteúdo em resposta a uma consulta do usuário, o que pode reduzir a visibilidade do seu site para pesquisas web direcionadas pelo usuário.

Claude-SearchBot

O Claude-SearchBot navega na web para melhorar a qualidade dos resultados de pesquisa para os usuários. Ele analisa conteúdo online especificamente para melhorar a relevância e precisão das respostas de pesquisa.

Desabilitar o Claude-SearchBot no seu site impede que nosso sistema indexe seu conteúdo para otimização de pesquisa, o que pode reduzir a visibilidade e precisão do seu site nos resultados de pesquisa do usuário.

Como parte da nossa missão de construir sistemas de fronteira seguros e confiáveis e avançar o campo do desenvolvimento responsável de IA, estamos compartilhando os princípios pelos quais coletamos dados, bem como instruções sobre como optar por não participar do nosso rastreamento daqui para frente:

  • Nossa coleta de dados deve ser transparente. A Anthropic usa os Bots descritos acima para acessar conteúdo web.

  • Nosso rastreamento não deve ser intrusivo ou disruptivo. Visamos uma disrupção mínima sendo cuidadosos sobre a velocidade com que rastreamos os mesmos domínios e respeitando o Crawl-delay quando apropriado.

  • Os Bots da Anthropic respeitam sinais de "não rastrear" honrando diretrizes padrão da indústria no robots.txt.

  • Os Bots da Anthropic respeitam tecnologias anti-contorno (por exemplo, não tentaremos contornar CAPTCHAs para os sites que rastreamos.)

Para limitar a atividade de rastreamento, oferecemos suporte à extensão não-padrão Crawl-delay para robots.txt. Um exemplo disso pode ser:

User-agent: ClaudeBot

Crawl-delay: 1

Para bloquear um Bot de todo o seu site, adicione isso ao arquivo robots.txt no seu diretório de nível superior. Por favor, faça isso para cada subdomínio do qual você deseja optar por não participar. Um exemplo disso é:

User-agent: ClaudeBot

Disallow: /

Optar por não ser rastreado pelos Bots da Anthropic requer modificar o arquivo robots.txt da maneira descrita acima. Métodos alternativos como bloquear endereço(s) IP dos quais os Bots da Anthropic operam podem não funcionar corretamente ou garantir persistentemente uma exclusão, pois isso impede nossa capacidade de ler seu arquivo robots.txt. Além disso, atualmente não publicamos faixas de IP, pois usamos IPs públicos de provedores de serviços. Isso pode mudar no futuro.

Você pode aprender mais sobre nossas práticas e compromissos de tratamento de dados em nosso Centro de Ajuda. Se você tiver mais perguntas, ou acreditar que nossos Bots podem estar funcionando mal, entre em contato conosco em claudebot@anthropic.com. Por favor, entre em contato a partir de um email que inclua o domínio sobre o qual você está nos contatando, pois de outra forma é difícil verificar relatórios.

Isto respondeu à sua pergunta?