Anthropic

De acordo com o padrão da indústria, a Anthropic utiliza uma variedade de fontes de dados para o desenvolvimento de modelos, como dados publicamente disponíveis na internet coletados por meio de um rastreador web. Como parte de nossa missão de construir sistemas de fronteira seguros e confiáveis e avançar o campo do desenvolvimento responsável de IA, estamos compartilhando os princípios pelos quais coletamos dados, bem como instruções sobre como optar por não participar de nossa coleta daqui para frente:

Nossa coleta de dados deve ser transparente. O Token de Agente de Usuário ClaudeBot identifica o rastreador web de propósito geral da Anthropic.

Nosso rastreamento não deve ser intrusivo ou disruptivo. Visamos uma perturbação mínima, sendo cuidadosos sobre a rapidez com que rastreamos os mesmos domínios e respeitando o Crawl-delay quando apropriado.

O rastreador da Anthropic respeita os sinais de "não rastrear" honrando as diretivas padrão da indústria no robots.txt, incluindo quaisquer proibições para o Agente de Usuário <a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">CCBot do Common Crawl</a>.

O rastreador da Anthropic respeita as tecnologias anti-contorno (por exemplo, não tentaremos contornar CAPTCHAs para os sites que rastreamos.)

- Nossa coleta de dados deve ser transparente. O Token de Agente de Usuário ClaudeBot identifica o rastreador web de propósito geral da Anthropic.
- Nosso rastreamento não deve ser intrusivo ou disruptivo. Visamos uma perturbação mínima, sendo cuidadosos sobre a rapidez com que rastreamos os mesmos domínios e respeitando o Crawl-delay quando apropriado.
- O rastreador da Anthropic respeita os sinais de "não rastrear" honrando as diretivas padrão da indústria no robots.txt, incluindo quaisquer proibições para o Agente de Usuário <a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">CCBot do Common Crawl</a>.
- O rastreador da Anthropic respeita as tecnologias anti-contorno (por exemplo, não tentaremos contornar CAPTCHAs para os sites que rastreamos.)

Para limitar a atividade de rastreamento, suportamos a extensão não padrão Crawl-delay para robots.txt. Um exemplo disso pode ser:

Para bloquear o rastreador de todo o seu site, adicione isto ao arquivo robots.txt em seu diretório de nível superior. Por favor, faça isso para cada subdomínio que você deseja excluir.

Optar por não ser rastreado pelo ClaudeBot requer modificar o arquivo robots.txt da maneira acima. Métodos alternativos, como bloquear endereço(s) IP de onde o ClaudeBot opera, podem não funcionar corretamente ou garantir persistentemente uma exclusão, pois isso impede nossa capacidade de ler seu arquivo robots.txt. Além disso, atualmente não publicamos faixas de IP, pois usamos IPs públicos de provedores de serviços. Isso pode mudar no futuro.

Você pode saber mais sobre nossas práticas e compromissos de tratamento de dados em nosso <a href="https://support.anthropic.com/en/collections/4078534-privacy-legal">Centro de Ajuda</a>. Se você tiver mais perguntas, ou acreditar que nosso rastreador possa estar funcionando mal, entre em contato com <a href="mailto:claudebot@anthropic.com" rel="nofollow noopener noreferrer" target="_blank">claudebot@anthropic.com</a>. Por favor, entre em contato a partir de um e-mail que inclua o domínio sobre o qual você está nos contatando, pois caso contrário é difícil verificar os relatos.

A Anthropic rastreia dados da web, e como os proprietários de sites podem bloquear o rastreador?

Terms of Service - Consumer

Product

Research

Terms of Service - Commercial

Privacy Policy

Company

Usage Policy

News

Responsible Disclosure Policy

Careers

Compliance

Encontre respostas e obtenha ajuda da Assistência da Intercom e de Especialistas da Comunidade