Lewati ke konten utama

Apakah Anthropic merayapi data dari web, dan bagaimana pemilik situs dapat memblokir perayap tersebut?

Diperbarui minggu ini

Sesuai dengan standar industri, Anthropic menggunakan berbagai robot untuk mengumpulkan data dari web publik untuk pengembangan model, untuk mencari di web, dan untuk mengambil konten web atas arahan pengguna. Anthropic menggunakan robot yang berbeda untuk memungkinkan transparansi dan pilihan bagi pemilik situs web. Di bawah ini adalah informasi tentang tiga robot yang digunakan Anthropic dan cara mengatur preferensi situs Anda untuk mengizinkan yang Anda inginkan mengakses konten Anda dan membatasi yang tidak Anda inginkan.

Bot

Penggunaan

Apa yang terjadi ketika Anda menonaktifkannya

ClaudeBot

ClaudeBot membantu meningkatkan kegunaan dan keamanan model AI generatif kami dengan mengumpulkan konten web yang berpotensi berkontribusi pada pelatihan mereka.

Ketika sebuah situs membatasi akses ClaudeBot, ini menandakan bahwa materi masa depan situs tersebut harus dikecualikan dari dataset pelatihan model AI kami.

Claude-User

Claude-User mendukung pengguna Claude AI. Ketika individu mengajukan pertanyaan kepada Claude, ia mungkin mengakses situs web menggunakan agen Claude-User.

Claude-User memungkinkan pemilik situs untuk mengontrol situs mana yang dapat diakses melalui permintaan yang diprakarsai pengguna ini. Menonaktifkan Claude-User di situs Anda mencegah sistem kami mengambil konten Anda sebagai respons terhadap kueri pengguna, yang dapat mengurangi visibilitas situs Anda untuk pencarian web yang diarahkan pengguna.

Claude-SearchBot

Claude-SearchBot menavigasi web untuk meningkatkan kualitas hasil pencarian bagi pengguna. Ia menganalisis konten online secara khusus untuk meningkatkan relevansi dan akurasi respons pencarian.

Menonaktifkan Claude-SearchBot di situs Anda mencegah sistem kami mengindeks konten Anda untuk optimisasi pencarian, yang dapat mengurangi visibilitas dan akurasi situs Anda dalam hasil pencarian pengguna.

Sebagai bagian dari misi kami untuk membangun sistem frontier yang aman dan andal serta memajukan bidang pengembangan AI yang bertanggung jawab, kami membagikan prinsip-prinsip yang kami gunakan untuk mengumpulkan data serta instruksi tentang cara untuk tidak ikut serta dalam crawling kami ke depannya:

  • Pengumpulan data kami harus transparan. Anthropic menggunakan Bot yang dijelaskan di atas untuk mengakses konten web.

  • Crawling kami tidak boleh mengganggu atau merusak. Kami bertujuan untuk gangguan minimal dengan berpikir matang tentang seberapa cepat kami melakukan crawl pada domain yang sama dan menghormati Crawl-delay jika sesuai.

  • Bot Anthropic menghormati sinyal "jangan crawl" dengan mematuhi arahan standar industri dalam robots.txt.

  • Bot Anthropic menghormati teknologi anti-pengelakan (misalnya, kami tidak akan mencoba melewati CAPTCHA untuk situs yang kami crawl.)

Untuk membatasi aktivitas crawling, kami mendukung ekstensi Crawl-delay non-standar untuk robots.txt. Contohnya mungkin seperti ini:

User-agent: ClaudeBot

Crawl-delay: 1

Untuk memblokir Bot dari seluruh situs web Anda, tambahkan ini ke file robots.txt di direktori tingkat atas Anda. Harap lakukan ini untuk setiap subdomain yang ingin Anda keluarkan. Contohnya adalah:

User-agent: ClaudeBot

Disallow: /

Memilih untuk tidak di-crawl oleh Bot Anthropic memerlukan modifikasi file robots.txt dengan cara di atas. Metode alternatif seperti memblokir alamat IP dari mana Bot Anthropic beroperasi mungkin tidak bekerja dengan benar atau secara persisten menjamin opt-out, karena hal tersebut menghambat kemampuan kami untuk membaca file robots.txt Anda. Selain itu, kami saat ini tidak mempublikasikan rentang IP, karena kami menggunakan IP publik penyedia layanan. Ini mungkin berubah di masa depan.

Anda dapat mempelajari lebih lanjut tentang praktik dan komitmen penanganan data kami di Pusat Bantuan kami. Jika Anda memiliki pertanyaan lebih lanjut, atau percaya bahwa Bot kami mungkin tidak berfungsi dengan baik, silakan hubungi claudebot@anthropic.com. Harap hubungi dari email yang menyertakan domain yang Anda tanyakan kepada kami, karena jika tidak, sulit untuk memverifikasi laporan.

Apakah pertanyaan Anda terjawab?