¿Anthropic recopila datos de la web, y cómo pueden los propietarios de sitios bloquear el rastreador?

De acuerdo con el estándar de la industria, Anthropic utiliza una variedad de robots para recopilar datos de la web pública para el desarrollo de modelos, para buscar en la web y para recuperar contenido web según las instrucciones de los usuarios. Anthropic utiliza diferentes robots para permitir la transparencia y elección de los propietarios de sitios web. A continuación se presenta información sobre los tres robots que utiliza Anthropic y cómo configurar las preferencias de su sitio para permitir aquellos que desea que accedan a su contenido y limitar aquellos que no desea.

Bot	Uso	Qué sucede cuando lo deshabilita
ClaudeBot	ClaudeBot ayuda a mejorar la utilidad y seguridad de nuestros modelos de IA generativa recopilando contenido web que potencialmente podría contribuir a su entrenamiento.	Cuando un sitio restringe el acceso a ClaudeBot, indica que los materiales futuros del sitio deben excluirse de nuestros conjuntos de datos de entrenamiento de modelos de IA.
Claude-User	Claude-User apoya a los usuarios de Claude AI. Cuando las personas hacen preguntas a Claude, puede acceder a sitios web utilizando un agente Claude-User.	Claude-User permite a los propietarios de sitios controlar qué sitios se pueden acceder a través de estas solicitudes iniciadas por el usuario. Deshabilitar Claude-User en su sitio evita que nuestro sistema recupere su contenido en respuesta a una consulta de usuario, lo que puede reducir la visibilidad de su sitio para la búsqueda web dirigida por el usuario.
Claude-SearchBot	Claude-SearchBot navega por la web para mejorar la calidad de los resultados de búsqueda para los usuarios. Analiza el contenido en línea específicamente para mejorar la relevancia y precisión de las respuestas de búsqueda.	Deshabilitar Claude-SearchBot en su sitio evita que nuestro sistema indexe su contenido para la optimización de búsqueda, lo que puede reducir la visibilidad y precisión de su sitio en los resultados de búsqueda del usuario.

Como parte de nuestra misión de construir sistemas de frontera seguros y confiables y avanzar en el campo del desarrollo responsable de IA, estamos compartiendo los principios por los cuales recopilamos datos, así como instrucciones sobre cómo optar por no participar en nuestro rastreo en el futuro:

Nuestra recopilación de datos debe ser transparente. Anthropic utiliza los Bots descritos anteriormente para acceder al contenido web.
Nuestro rastreo no debe ser intrusivo ni disruptivo. Buscamos una mínima interrupción siendo cuidadosos sobre la rapidez con la que rastreamos los mismos dominios y respetando el Crawl-delay cuando sea apropiado.
Los Bots de Anthropic respetan las señales de "no rastrear" honrando las directivas estándar de la industria en robots.txt.
Los Bots de Anthropic respetan las tecnologías anti-elusión (por ejemplo, no intentaremos eludir los CAPTCHAs de los sitios que rastreamos).

Para limitar la actividad de rastreo, admitimos la extensión no estándar Crawl-delay para robots.txt. Un ejemplo de esto podría ser:

User-agent: ClaudeBot

Crawl-delay: 1

Para bloquear un Bot de todo su sitio web, agregue esto al archivo robots.txt en su directorio de nivel superior. Haga esto para cada subdominio del que desee optar por no participar. Un ejemplo de esto es:

User-agent: ClaudeBot

Disallow: /

Optar por no ser rastreado por los Bots de Anthropic requiere modificar el archivo robots.txt de la manera descrita anteriormente. Los métodos alternativos, como bloquear la(s) dirección(es) IP desde las que operan los Bots de Anthropic, pueden no funcionar correctamente o garantizar persistentemente una exclusión, ya que esto impide nuestra capacidad de leer su archivo robots.txt. Además, actualmente no publicamos rangos de IP, ya que utilizamos IP públicas de proveedores de servicios. Esto puede cambiar en el futuro.

Puede obtener más información sobre nuestras prácticas y compromisos de manejo de datos en nuestro Centro de Ayuda. Si tiene más preguntas o cree que nuestros Bots pueden estar funcionando mal, comuníquese con claudebot@anthropic.com. Por favor, comuníquese desde un correo electrónico que incluya el dominio sobre el que nos está contactando, ya que de lo contrario es difícil verificar los informes.