Anthropic

Come da standard di settore, Anthropic utilizza una varietà di fonti di dati per lo sviluppo dei modelli, come dati pubblicamente disponibili da internet raccolti tramite un web crawler. Come parte della nostra missione di costruire sistemi di frontiera sicuri e affidabili e far progredire il campo dello sviluppo responsabile dell'IA, stiamo condividendo i principi con cui raccogliamo i dati e le istruzioni su come disattivare il nostro crawling in futuro:

La nostra raccolta di dati dovrebbe essere trasparente. Il token User Agent ClaudeBot identifica il web crawler per uso generale di Anthropic.

Il nostro crawling non deve essere intrusivo o dirompente. Miriamo a una minima interruzione riflettendo attentamente sulla velocità con cui eseguiamo il crawling degli stessi domini e rispettando il Crawl-delay ove appropriato.

Il crawler di Anthropic rispetta i segnali "do not crawl" onorando le direttive standard del settore nel file robots.txt, inclusi eventuali divieti per lo User Agent <a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">CCBot di Common Crawl</a>.

Il crawler di Anthropic rispetta le tecnologie anti-aggiramento (ad esempio, non tenteremo di aggirare i CAPTCHA per i siti di cui facciamo il crawling.)

- La nostra raccolta di dati dovrebbe essere trasparente. Il token User Agent ClaudeBot identifica il web crawler per uso generale di Anthropic.
- Il nostro crawling non deve essere intrusivo o dirompente. Miriamo a una minima interruzione riflettendo attentamente sulla velocità con cui eseguiamo il crawling degli stessi domini e rispettando il Crawl-delay ove appropriato.
- Il crawler di Anthropic rispetta i segnali "do not crawl" onorando le direttive standard del settore nel file robots.txt, inclusi eventuali divieti per lo User Agent <a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">CCBot di Common Crawl</a>.
- Il crawler di Anthropic rispetta le tecnologie anti-aggiramento (ad esempio, non tenteremo di aggirare i CAPTCHA per i siti di cui facciamo il crawling.)

Per limitare l'attività di crawling, supportiamo l'estensione non standard Crawl-delay per robots.txt. Un esempio potrebbe essere:

Per bloccare il crawler dall'intero sito web, aggiungi questo al file robots.txt nella directory di primo livello. Si prega di farlo per ogni sottodominio da cui si desidera disattivare il crawling.

La disattivazione del crawling da parte di ClaudeBot richiede la modifica del file robots.txt nel modo sopra indicato. Metodi alternativi come il blocco dell'indirizzo/i IP da cui opera ClaudeBot potrebbero non funzionare correttamente o garantire in modo persistente una disattivazione, poiché ciò impedisce la nostra capacità di leggere il tuo file robots.txt. Inoltre, attualmente non pubblichiamo intervalli IP, poiché utilizziamo IP pubblici del fornitore di servizi. Questo potrebbe cambiare in futuro.

Puoi saperne di più sulle nostre pratiche e impegni relativi alla gestione dei dati nel nostro <a href="https://support.anthropic.com/en/collections/4078534-privacy-legal">Centro assistenza</a>. Se hai ulteriori domande o ritieni che il nostro crawler possa non funzionare correttamente, contatta <a href="mailto:claudebot@anthropic.com" rel="nofollow noopener noreferrer" target="_blank">claudebot@anthropic.com</a>. Ti preghiamo di contattarci da un'email che includa il dominio per cui ci stai contattando, poiché altrimenti è difficile verificare le segnalazioni.

Anthropic raccoglie dati dal web, e come possono i proprietari dei siti bloccare il crawler?

Terms of Service - Consumer

Product

Research

Terms of Service - Commercial

Privacy Policy

Company

Usage Policy

News

Responsible Disclosure Policy

Careers

Compliance

Trova le risposte e ottieni aiuto dall'assistenza Intercom e dagli esperti della community