Anthropic raccoglie dati dal web, e come possono i proprietari dei siti bloccare il crawler?

Come da standard di settore, Anthropic utilizza una varietà di robot per raccogliere dati dal web pubblico per lo sviluppo di modelli, per effettuare ricerche sul web e per recuperare contenuti web su indicazione degli utenti. Anthropic utilizza diversi robot per garantire trasparenza e scelta ai proprietari dei siti web. Di seguito sono riportate informazioni sui tre robot utilizzati da Anthropic e su come impostare le preferenze del proprio sito per consentire l'accesso a quelli desiderati e limitare quelli indesiderati.

Bot	Utilizzo	Cosa succede quando lo disabiliti
ClaudeBot	ClaudeBot aiuta a migliorare l'utilità e la sicurezza dei nostri modelli di IA generativa raccogliendo contenuti web che potrebbero potenzialmente contribuire al loro addestramento.	Quando un sito limita l'accesso a ClaudeBot, segnala che i futuri materiali del sito dovrebbero essere esclusi dai nostri dataset di addestramento per modelli di IA.
Claude-User	Claude-User supporta gli utenti di Claude AI. Quando gli individui pongono domande a Claude, può accedere ai siti web utilizzando un agente Claude-User.	Claude-User consente ai proprietari dei siti di controllare quali siti possono essere accessibili attraverso queste richieste avviate dall'utente. Disabilitare Claude-User sul tuo sito impedisce al nostro sistema di recuperare i tuoi contenuti in risposta a una query dell'utente, il che potrebbe ridurre la visibilità del tuo sito per la ricerca web diretta dall'utente.
Claude-SearchBot	Claude-SearchBot naviga sul web per migliorare la qualità dei risultati di ricerca per gli utenti. Analizza i contenuti online specificamente per migliorare la rilevanza e l'accuratezza delle risposte di ricerca.	Disabilitare Claude-SearchBot sul tuo sito impedisce al nostro sistema di indicizzare i tuoi contenuti per l'ottimizzazione della ricerca, il che potrebbe ridurre la visibilità e l'accuratezza del tuo sito nei risultati di ricerca degli utenti.

Come parte della nostra missione di costruire sistemi di frontiera sicuri e affidabili e far progredire il campo dello sviluppo responsabile dell'IA, stiamo condividendo i principi con cui raccogliamo i dati e le istruzioni su come rinunciare al nostro crawling in futuro:

La nostra raccolta di dati dovrebbe essere trasparente. Anthropic utilizza i Bot descritti sopra per accedere ai contenuti web.
Il nostro crawling non dovrebbe essere intrusivo o dirompente. Miriamo a una minima interruzione essendo attenti a quanto velocemente facciamo il crawling degli stessi domini e rispettando il Crawl-delay quando appropriato.
I Bot di Anthropic rispettano i segnali "do not crawl" onorando le direttive standard del settore nel robots.txt.
I Bot di Anthropic rispettano le tecnologie anti-aggiramento (ad esempio, non tenteremo di aggirare i CAPTCHA per i siti di cui facciamo il crawling.)

Per limitare l'attività di crawling, supportiamo l'estensione non standard Crawl-delay per robots.txt. Un esempio di questo potrebbe essere:

User-agent: ClaudeBot

Crawl-delay: 1

Per bloccare un Bot dall'intero sito web, aggiungi questo al file robots.txt nella tua directory di primo livello. Si prega di farlo per ogni sottodominio da cui si desidera rinunciare. Un esempio di questo è:

User-agent: ClaudeBot

Disallow: /

La rinuncia al crawling da parte dei Bot di Anthropic richiede la modifica del file robots.txt nel modo sopra indicato. Metodi alternativi come il blocco dell'indirizzo/i IP da cui operano i Bot di Anthropic potrebbero non funzionare correttamente o garantire persistentemente una rinuncia, poiché ciò impedisce la nostra capacità di leggere il tuo file robots.txt. Inoltre, attualmente non pubblichiamo intervalli IP, poiché utilizziamo IP pubblici del fornitore di servizi. Questo potrebbe cambiare in futuro.

Puoi saperne di più sulle nostre pratiche e impegni di gestione dei dati nel nostro Centro Assistenza. Se hai ulteriori domande, o ritieni che i nostri Bot possano non funzionare correttamente, contatta claudebot@anthropic.com. Ti preghiamo di contattarci da un'email che includa il dominio per cui ci stai contattando, poiché altrimenti è difficile verificare le segnalazioni.