Vai al contenuto principale
Anthropic raccoglie dati dal web, e come possono i proprietari dei siti bloccare il crawler?
Aggiornato oltre 2 mesi fa

Come da standard di settore, Anthropic utilizza una varietà di fonti di dati per lo sviluppo dei modelli, come dati pubblicamente disponibili da internet raccolti tramite un web crawler. Come parte della nostra missione di costruire sistemi di frontiera sicuri e affidabili e far progredire il campo dello sviluppo responsabile dell'IA, stiamo condividendo i principi con cui raccogliamo i dati e le istruzioni su come disattivare il nostro crawling in futuro:

  • La nostra raccolta di dati dovrebbe essere trasparente. Lo User Agent Token ClaudeBot identifica il web crawler per uso generale di Anthropic.

  • Il nostro crawling non deve essere intrusivo o dirompente. Miriamo a una minima interruzione riflettendo attentamente sulla velocità con cui eseguiamo il crawling degli stessi domini e rispettando il Crawl-delay ove appropriato.

  • Il crawler di Anthropic rispetta i segnali "do not crawl" onorando le direttive standard del settore nel robots.txt, inclusi eventuali divieti per lo User Agent CCBot di Common Crawl.

  • Il crawler di Anthropic rispetta le tecnologie anti-aggiramento (ad esempio, non tenteremo di aggirare i CAPTCHA per i siti di cui facciamo il crawling.)

Per limitare l'attività di crawling, supportiamo l'estensione non standard Crawl-delay per robots.txt. Un esempio potrebbe essere:

User-agent: ClaudeBot

Crawl-delay: 1

Per bloccare il crawler dall'intero sito web, aggiungi questo al file robots.txt nella directory di primo livello. Si prega di farlo per ogni sottodominio da cui si desidera disattivare il crawling.

User-agent: ClaudeBot

Disallow: /

La disattivazione del crawling da parte di ClaudeBot richiede la modifica del file robots.txt nel modo sopra indicato. Metodi alternativi come il blocco dell'indirizzo/i IP da cui opera ClaudeBot potrebbero non funzionare correttamente o garantire in modo persistente una disattivazione, poiché ciò impedisce la nostra capacità di leggere il tuo file robots.txt. Inoltre, attualmente non pubblichiamo intervalli IP, poiché utilizziamo IP pubblici del fornitore di servizi. Questo potrebbe cambiare in futuro.

Puoi saperne di più sulle nostre pratiche e impegni relativi alla gestione dei dati nel nostro Centro assistenza. Se hai ulteriori domande o ritieni che il nostro crawler possa non funzionare correttamente, contatta claudebot@anthropic.com. Ti preghiamo di contattarci da un'email che includa il dominio per cui ci stai contattando, poiché altrimenti è difficile verificare le segnalazioni.

Hai ricevuto la risposta alla tua domanda?