Ir al contenido principal
¿Anthropic recopila datos de la web, y cómo pueden los propietarios de sitios bloquear el rastreador?
Actualizado hace más de 2 meses

De acuerdo con el estándar de la industria, Anthropic utiliza una variedad de fuentes de datos para el desarrollo de modelos, como datos disponibles públicamente en Internet recopilados a través de un rastreador web. Como parte de nuestra misión de construir sistemas de frontera seguros y confiables y avanzar en el campo del desarrollo responsable de IA, compartimos los principios mediante los cuales recopilamos datos, así como instrucciones sobre cómo optar por no participar en nuestro rastreo en el futuro:

  • Nuestra recopilación de datos debe ser transparente. El Token de Agente de Usuario ClaudeBot identifica el rastreador web de propósito general de Anthropic.

  • Nuestro rastreo no debe ser intrusivo ni disruptivo. Nuestro objetivo es causar una mínima interrupción siendo cuidadosos sobre la frecuencia con la que rastreamos los mismos dominios y respetando el Crawl-delay cuando sea apropiado.

  • El rastreador de Anthropic respeta las señales de "no rastrear" honrando las directivas estándar de la industria en robots.txt, incluyendo cualquier prohibición para el Agente de Usuario CCBot de Common Crawl.

  • El rastreador de Anthropic respeta las tecnologías anti-elusión (por ejemplo, no intentaremos eludir los CAPTCHAs de los sitios que rastreamos).

Para limitar la actividad de rastreo, admitimos la extensión no estándar Crawl-delay para robots.txt. Un ejemplo de esto podría ser:

User-agent: ClaudeBot

Crawl-delay: 1

Para bloquear el rastreador de todo su sitio web, agregue esto al archivo robots.txt en su directorio de nivel superior. Por favor, haga esto para cada subdominio del que desee optar por no participar.

User-agent: ClaudeBot

Disallow: /

Optar por no ser rastreado por ClaudeBot requiere modificar el archivo robots.txt de la manera descrita anteriormente. Los métodos alternativos, como bloquear la(s) dirección(es) IP desde las que opera ClaudeBot, pueden no funcionar correctamente o garantizar persistentemente la exclusión, ya que esto impide nuestra capacidad de leer su archivo robots.txt. Además, actualmente no publicamos rangos de IP, ya que utilizamos IP públicas de proveedores de servicios. Esto puede cambiar en el futuro.

Puede obtener más información sobre nuestras prácticas y compromisos de manejo de datos en nuestro Centro de Ayuda. Si tiene más preguntas o cree que nuestro rastreador puede estar funcionando mal, comuníquese con claudebot@anthropic.com. Por favor, comuníquese desde un correo electrónico que incluya el dominio sobre el que nos está contactando, ya que de lo contrario es difícil verificar los informes.

¿Ha quedado contestada tu pregunta?