Vai al contenuto principale

Anthropic effettua il crawling di dati dal web e come possono i proprietari di siti bloccare il crawler?

Aggiornato questa settimana

Come da standard del settore, Anthropic utilizza una varietà di robot per raccogliere dati dal web pubblico per lo sviluppo di modelli, per effettuare ricerche sul web e per recuperare contenuti web su richiesta degli utenti. Anthropic utilizza diversi robot per consentire trasparenza e scelta ai proprietari di siti web. Di seguito sono riportate informazioni sui tre robot che Anthropic utilizza e su come impostare le preferenze del tuo sito per abilitare quelli che desideri accedano ai tuoi contenuti e limitare quelli che non desideri.

Bot

Utilizzo

Cosa succede quando lo disabiliti

ClaudeBot

ClaudeBot aiuta a migliorare l'utilità e la sicurezza dei nostri modelli di IA generativa raccogliendo contenuti web che potrebbero potenzialmente contribuire al loro addestramento.

Quando un sito limita l'accesso a ClaudeBot, segnala che i materiali futuri del sito dovrebbero essere esclusi dai nostri dataset di addestramento dei modelli di IA.

Claude-User

Claude-User supporta gli utenti di Claude AI. Quando le persone fanno domande a Claude, potrebbe accedere ai siti web utilizzando un agente Claude-User.

Claude-User consente ai proprietari di siti di controllare quali siti possono essere accessibili attraverso queste richieste avviate dagli utenti. Disabilitare Claude-User sul tuo sito impedisce al nostro sistema di recuperare i tuoi contenuti in risposta a una query dell'utente, il che potrebbe ridurre la visibilità del tuo sito per le ricerche web dirette dall'utente.

Claude-SearchBot

Claude-SearchBot naviga il web per migliorare la qualità dei risultati di ricerca per gli utenti. Analizza i contenuti online specificamente per migliorare la rilevanza e l'accuratezza delle risposte di ricerca.

Disabilitare Claude-SearchBot sul tuo sito impedisce al nostro sistema di indicizzare i tuoi contenuti per l'ottimizzazione della ricerca, il che potrebbe ridurre la visibilità e l'accuratezza del tuo sito nei risultati di ricerca degli utenti.

Come parte della nostra missione di costruire sistemi di frontiera sicuri e affidabili e far progredire il campo dello sviluppo responsabile dell'IA, condividiamo i principi secondo cui raccogliamo i dati così come le istruzioni su come escludersi dal nostro crawling in futuro:

  • La nostra raccolta di dati dovrebbe essere trasparente. Anthropic utilizza i Bot descritti sopra per accedere ai contenuti web.

  • Il nostro crawling non dovrebbe essere intrusivo o dirompente. Miriamo a una disruzione minima essendo attenti alla velocità con cui effettuiamo il crawling degli stessi domini e rispettando il Crawl-delay dove appropriato.

  • I Bot di Anthropic rispettano i segnali "non effettuare crawling" onorando le direttive standard del settore in robots.txt.

  • I Bot di Anthropic rispettano le tecnologie anti-elusione (ad esempio, non tenteremo di aggirare i CAPTCHA per i siti di cui effettuiamo il crawling.)

Per limitare l'attività di crawling, supportiamo l'estensione non standard Crawl-delay per robots.txt. Un esempio di questo potrebbe essere:

User-agent: ClaudeBot

Crawl-delay: 1

Per bloccare un Bot dall'intero tuo sito web, aggiungi questo al file robots.txt nella tua directory di livello superiore. Ti preghiamo di farlo per ogni sottodominio da cui desideri escluderti. Un esempio di questo è:

User-agent: ClaudeBot

Disallow: /

Escludersi dall'essere sottoposti a crawling dai Bot di Anthropic richiede di modificare il file robots.txt nel modo sopra indicato. Metodi alternativi come bloccare gli indirizzi IP da cui operano i Bot di Anthropic potrebbero non funzionare correttamente o garantire persistentemente un'esclusione, poiché ciò impedisce la nostra capacità di leggere il tuo file robots.txt. Inoltre, attualmente non pubblichiamo intervalli di IP, poiché utilizziamo IP pubblici di fornitori di servizi. Questo potrebbe cambiare in futuro.

Puoi saperne di più sulle nostre pratiche e impegni di gestione dei dati nel nostro Centro Assistenza. Se hai ulteriori domande, o credi che i nostri Bot potrebbero non funzionare correttamente, ti preghiamo di contattare claudebot@anthropic.com. Ti preghiamo di contattarci da un'email che includa il dominio di cui ci stai contattando, poiché altrimenti è difficile verificare le segnalazioni.

Hai ricevuto la risposta alla tua domanda?