Lewati ke konten utama
Apakah Anthropic mengumpulkan data dari web, dan bagaimana pemilik situs dapat memblokir crawler tersebut?
Diperbarui lebih dari 2 minggu yang lalu

Sesuai dengan standar industri, Anthropic menggunakan berbagai sumber data untuk pengembangan model, seperti data yang tersedia untuk umum dari internet yang dikumpulkan melalui web crawler. Sebagai bagian dari misi kami untuk membangun sistem frontier yang aman dan andal serta memajukan bidang pengembangan AI yang bertanggung jawab, kami membagikan prinsip-prinsip yang kami gunakan dalam mengumpulkan data serta instruksi tentang cara memilih untuk tidak dirayapi (opt out) oleh crawler kami ke depannya:

  • Pengumpulan data kami harus transparan. Token User Agent ClaudeBot mengidentifikasi web crawler umum Anthropic.

  • Perayapan kami tidak boleh mengganggu atau merusak. Kami berusaha meminimalkan gangguan dengan berhati-hati tentang seberapa cepat kami merayapi domain yang sama dan menghormati Crawl-delay jika sesuai.

  • Crawler Anthropic menghormati sinyal "jangan merayap" dengan mematuhi arahan standar industri dalam robots.txt, termasuk larangan apa pun untuk User Agent CCBot Common Crawl.

  • Crawler Anthropic menghormati teknologi anti-pengelakan (misalnya, kami tidak akan mencoba melewati CAPTCHA untuk situs yang kami rayapi.)

Untuk membatasi aktivitas perayapan, kami mendukung ekstensi Crawl-delay non-standar untuk robots.txt. Contohnya mungkin seperti ini:

User-agent: ClaudeBot

Crawl-delay: 1

Untuk memblokir crawler dari seluruh situs web Anda, tambahkan ini ke file robots.txt di direktori tingkat atas Anda. Harap lakukan ini untuk setiap subdomain yang ingin Anda pilih untuk tidak dirayapi.

User-agent: ClaudeBot

Disallow: /

Memilih untuk tidak dirayapi oleh ClaudeBot memerlukan modifikasi file robots.txt dengan cara di atas. Metode alternatif seperti memblokir alamat IP dari mana ClaudeBot beroperasi mungkin tidak berfungsi dengan benar atau menjamin opt-out secara persisten, karena melakukannya menghambat kemampuan kami untuk membaca file robots.txt Anda. Selain itu, saat ini kami tidak mempublikasikan rentang IP, karena kami menggunakan IP publik penyedia layanan. Hal ini mungkin berubah di masa depan.

Anda dapat mempelajari lebih lanjut tentang praktik dan komitmen penanganan data kami di Pusat Bantuan kami. Jika Anda memiliki pertanyaan lebih lanjut, atau yakin bahwa crawler kami mungkin tidak berfungsi dengan baik, silakan hubungi claudebot@anthropic.com. Harap hubungi kami dari email yang mencakup domain yang Anda tanyakan, karena jika tidak, sulit untuk memverifikasi laporan.

Apakah pertanyaan Anda terjawab?