Ir al contenido principal

¿Anthropic rastrea datos de la web, y cómo pueden los propietarios de sitios bloquear el rastreador?

Actualizado hoy

Según el estándar de la industria, Anthropic utiliza una variedad de robots para recopilar datos de la web pública para el desarrollo de modelos, para buscar en la web y para recuperar contenido web por indicación de los usuarios. Anthropic utiliza diferentes robots para permitir transparencia y elección a los propietarios de sitios web. A continuación se presenta información sobre los tres robots que utiliza Anthropic y cómo configurar las preferencias de su sitio para habilitar aquellos que desea que accedan a su contenido y limitar aquellos que no desea.

Bot

Uso

Qué sucede cuando lo deshabilita

ClaudeBot

ClaudeBot ayuda a mejorar la utilidad y seguridad de nuestros modelos de IA generativa mediante la recopilación de contenido web que podría contribuir potencialmente a su entrenamiento.

Cuando un sitio restringe el acceso de ClaudeBot, esto indica que los materiales futuros del sitio deben excluirse de nuestros conjuntos de datos de entrenamiento de modelos de IA.

Claude-User

Claude-User apoya a los usuarios de Claude AI. Cuando las personas hacen preguntas a Claude, puede acceder a sitios web utilizando un agente Claude-User.

Claude-User permite a los propietarios de sitios controlar qué sitios pueden ser accedidos a través de estas solicitudes iniciadas por usuarios. Deshabilitar Claude-User en su sitio impide que nuestro sistema recupere su contenido en respuesta a una consulta de usuario, lo que puede reducir la visibilidad de su sitio para búsquedas web dirigidas por usuarios.

Claude-SearchBot

Claude-SearchBot navega por la web para mejorar la calidad de los resultados de búsqueda para los usuarios. Analiza contenido en línea específicamente para mejorar la relevancia y precisión de las respuestas de búsqueda.

Deshabilitar Claude-SearchBot en su sitio impide que nuestro sistema indexe su contenido para optimización de búsqueda, lo que puede reducir la visibilidad y precisión de su sitio en los resultados de búsqueda de usuarios.

Como parte de nuestra misión de construir sistemas fronterizos seguros y confiables y avanzar en el campo del desarrollo responsable de IA, compartimos los principios por los cuales recopilamos datos así como instrucciones sobre cómo optar por no participar en nuestro rastreo en el futuro:

  • Nuestra recopilación de datos debe ser transparente. Anthropic utiliza los Bots descritos anteriormente para acceder al contenido web.

  • Nuestro rastreo no debe ser intrusivo o disruptivo. Buscamos una disrupción mínima siendo reflexivos sobre qué tan rápido rastreamos los mismos dominios y respetando Crawl-delay cuando sea apropiado.

  • Los Bots de Anthropic respetan las señales "no rastrear" honrando las directivas estándar de la industria en robots.txt.

  • Los Bots de Anthropic respetan las tecnologías anti-elusión (por ejemplo, no intentaremos eludir CAPTCHAs para los sitios que rastreamos.)

Para limitar la actividad de rastreo, apoyamos la extensión no estándar Crawl-delay para robots.txt. Un ejemplo de esto podría ser:

User-agent: ClaudeBot

Crawl-delay: 1

Para bloquear un Bot de todo su sitio web, agregue esto al archivo robots.txt en su directorio de nivel superior. Por favor haga esto para cada subdominio del cual desee optar por no participar. Un ejemplo de esto es:

User-agent: ClaudeBot

Disallow: /

Optar por no ser rastreado por los Bots de Anthropic requiere modificar el archivo robots.txt de la manera descrita anteriormente. Métodos alternativos como bloquear direcciones IP desde las cuales operan los Bots de Anthropic pueden no funcionar correctamente o garantizar persistentemente una exclusión, ya que hacerlo impide nuestra capacidad de leer su archivo robots.txt. Además, actualmente no publicamos rangos de IP, ya que utilizamos IPs públicas de proveedores de servicios. Esto puede cambiar en el futuro.

Puede obtener más información sobre nuestras prácticas y compromisos de manejo de datos en nuestro Centro de Ayuda. Si tiene más preguntas, o cree que nuestros Bots pueden estar funcionando mal, por favor comuníquese con claudebot@anthropic.com. Por favor comuníquese desde un correo electrónico que incluya el dominio sobre el cual nos está contactando, ya que de otra manera es difícil verificar los reportes.

¿Ha quedado contestada tu pregunta?