Apakah Anthropic mengumpulkan data dari web, dan bagaimana pemilik situs dapat memblokir crawler tersebut?

Sesuai dengan standar industri, Anthropic menggunakan berbagai robot untuk mengumpulkan data dari web publik untuk pengembangan model, untuk mencari web, dan untuk mengambil konten web sesuai arahan pengguna. Anthropic menggunakan robot yang berbeda untuk memungkinkan transparansi dan pilihan bagi pemilik situs web. Berikut adalah informasi tentang tiga robot yang digunakan Anthropic dan cara mengatur preferensi situs Anda untuk mengaktifkan robot yang Anda inginkan untuk mengakses konten Anda dan membatasi yang tidak Anda inginkan.

Bot	Penggunaan	Apa yang terjadi ketika Anda menonaktifkannya
ClaudeBot	ClaudeBot membantu meningkatkan kegunaan dan keamanan model AI generatif kami dengan mengumpulkan konten web yang berpotensi berkontribusi pada pelatihan mereka.	Ketika sebuah situs membatasi akses ClaudeBot, ini menandakan bahwa materi masa depan dari situs tersebut harus dikecualikan dari dataset pelatihan model AI kami.
Claude-User	Claude-User mendukung pengguna Claude AI. Ketika individu mengajukan pertanyaan kepada Claude, ia mungkin mengakses situs web menggunakan agen Claude-User.	Claude-User memungkinkan pemilik situs untuk mengontrol situs mana yang dapat diakses melalui permintaan yang diprakarsai pengguna ini. Menonaktifkan Claude-User di situs Anda mencegah sistem kami mengambil konten Anda sebagai respons terhadap kueri pengguna, yang mungkin mengurangi visibilitas situs Anda untuk pencarian web yang diarahkan pengguna.
Claude-SearchBot	Claude-SearchBot menjelajahi web untuk meningkatkan kualitas hasil pencarian bagi pengguna. Ia menganalisis konten online secara khusus untuk meningkatkan relevansi dan akurasi respons pencarian.	Menonaktifkan Claude-SearchBot di situs Anda mencegah sistem kami mengindeks konten Anda untuk optimasi pencarian, yang mungkin mengurangi visibilitas dan akurasi situs Anda dalam hasil pencarian pengguna.

Sebagai bagian dari misi kami untuk membangun sistem frontier yang aman dan andal serta memajukan bidang pengembangan AI yang bertanggung jawab, kami membagikan prinsip-prinsip yang kami gunakan dalam mengumpulkan data serta instruksi tentang cara memilih untuk tidak dirayapi ke depannya:

Pengumpulan data kami harus transparan. Anthropic menggunakan Bot yang dijelaskan di atas untuk mengakses konten web.
Perayapan kami tidak boleh mengganggu atau merusak. Kami bertujuan untuk meminimalkan gangguan dengan berhati-hati tentang seberapa cepat kami merayapi domain yang sama dan menghormati Crawl-delay jika sesuai.
Bot Anthropic menghormati sinyal "jangan merayap" dengan mematuhi arahan standar industri dalam robots.txt.
Bot Anthropic menghormati teknologi anti-pengelakan (misalnya, kami tidak akan mencoba melewati CAPTCHA untuk situs yang kami rayapi.)

Untuk membatasi aktivitas perayapan, kami mendukung ekstensi Crawl-delay non-standar untuk robots.txt. Contohnya mungkin seperti ini:

User-agent: ClaudeBot

Crawl-delay: 1

Untuk memblokir Bot dari seluruh situs web Anda, tambahkan ini ke file robots.txt di direktori tingkat atas Anda. Harap lakukan ini untuk setiap subdomain yang ingin Anda pilih untuk tidak diikutsertakan. Contohnya adalah:

User-agent: ClaudeBot

Disallow: /

Memilih untuk tidak dirayapi oleh Bot Anthropic memerlukan modifikasi file robots.txt dengan cara di atas. Metode alternatif seperti memblokir alamat IP dari mana Bot Anthropic beroperasi mungkin tidak berfungsi dengan benar atau secara persisten menjamin penolakan, karena hal ini menghambat kemampuan kami untuk membaca file robots.txt Anda. Selain itu, saat ini kami tidak mempublikasikan rentang IP, karena kami menggunakan IP publik penyedia layanan. Hal ini mungkin berubah di masa depan.

Anda dapat mempelajari lebih lanjut tentang praktik dan komitmen penanganan data kami di Pusat Bantuan kami. Jika Anda memiliki pertanyaan lebih lanjut, atau yakin bahwa Bot kami mungkin tidak berfungsi dengan baik, silakan hubungi claudebot@anthropic.com. Harap hubungi kami dari email yang menyertakan domain yang Anda hubungi kami tentangnya, karena jika tidak, sulit untuk memverifikasi laporan.