Tujuan

Kami percaya bahwa pengujian eksternal sangat penting untuk membangun ekosistem AI yang aman. Seiring dengan kemajuan kemampuan model, konsekuensi dari jailbreak dapat menjadi semakin signifikan. Program berkelanjutan ini dibangun berdasarkan inisiatif bug bounty sebelumnya yang sukses dengan beberapa tujuan utama:

Mengidentifikasi jailbreak universal dalam sistem yang telah kami deploy dengan perlindungan ASL-3
Memberikan penilaian berkelanjutan terhadap efektivitas perlindungan kami
Menguji kemampuan sistem monitoring kami untuk mendeteksi kerentanan
Memberikan insentif untuk penggunaan satu saluran sah terpusat untuk melaporkan jailbreak yang tersedia secara publik

Gambaran Program

Program Model Safety Bug Bounty kami dijalankan melalui HackerOne. Melalui Program ini, kami tertarik untuk menemukan jailbreak universal yang melampaui sistem Constitutional Classifiers kami. Kami juga sesekali menjalankan program yang ditargetkan dalam Program keseluruhan kami untuk menguji ketahanan classifier yang kami harapkan dapat diluncurkan di masa depan.

Jailbreak universal adalah teknik umum yang secara andal memunculkan respons yang melanggar kebijakan dari model bahasa, terlepas dari prompt input. Tidak seperti jailbreak sempit, yang bergantung pada spesifik pertanyaan atau konteks tertentu, jailbreak universal bekerja di berbagai prompt dan skenario.

Ini adalah Program berkelanjutan. Setelah diterima dalam Program di HackerOne, peserta dapat mengirimkan laporan jailbreak kapan saja melalui Program ini. Untuk membantu upaya red-teaming Anda, kami menyediakan akses ke alias model gratis yang mencerminkan model dan classifier yang aktif pada model terbaru dan paling canggih kami. Penggunaan alias model gratis ini harus dibatasi untuk melakukan aktivitas red-teaming yang diotorisasi.

Ruang Lingkup Program

Program ini terutama tertarik untuk menemukan jailbreak yang universal, dalam arti dapat mengungkap informasi berbahaya di berbagai query, dan detail, dalam arti mengungkap informasi berbahaya yang sangat spesifik terkait ancaman biologis.

Untuk menekankan, kami tertarik pada jailbreak yang mengekstrak informasi yang menjawab serangkaian pertanyaan biologis berbahaya yang kami bagikan dengan peserta yang diterima dalam Program.

Kami akan membayar hingga $35.000 per jailbreak universal baru yang diidentifikasi. Kami hanya tertarik pada jailbreak yang mengungkap sejumlah besar informasi berbahaya berdasarkan kriteria dan kebijaksanaan kami sendiri. Kami memberikan bounty menggunakan skala geser berdasarkan rubrik penilaian internal yang menentukan seberapa detail dan akurat responsnya.

Program ini dibatasi pada jailbreak pada Constitutional Classifiers kami. Untuk kerentanan teknis yang berpotensi ada pada Sistem Informasi kami seperti miskonfigurasi, CSRF atau cross site request forgeries, serangan privilege escalation, SQL Injection, XSS, dan serangan directory traversal, silakan merujuk ke Kebijakan Pengungkapan Bertanggung Jawab kami dan kirimkan laporan Anda di sini.

Cara Mendaftar

Anda dapat mendaftar untuk bergabung dengan Program kami di sini. Kami meninjau aplikasi secara berkelanjutan. Jika diterima, Anda akan menerima undangan melalui HackerOne. Jika Anda belum memiliki akun HackerOne, silakan buat satu sebelum mendaftar ke Program sehingga kami dapat mengundang Anda langsung di platform. Anda harus menggunakan alias email @wearehackerone.com untuk membuat akun Anthropic Console/API.

Pedoman Pengungkapan & Kewajiban Kerahasiaan

Semua peserta Program diwajibkan menandatangani perjanjian non-disclosure untuk melindungi kerahasiaan Program sebagai syarat untuk bergabung. Anda dapat mengungkapkan secara publik:

Keberadaan Program Model Safety Bug Bounty Anthropic
Partisipasi Anda sebagai peserta terpilih dalam Program

Anda tidak boleh mengungkapkan tanpa izin tegas:

Jailbreak/kerentanan apa pun (bahkan yang sudah diselesaikan) di luar Program tanpa persetujuan tegas dari Anthropic
Set pertanyaan pengujian
Detail tentang classifier dan mitigasi keamanan
Informasi tentang model yang sedang diuji
Identitas peserta lain
Informasi lain apa pun yang terkait dengan Program, kecuali yang secara tegas diizinkan di atas

Penggunaan Data dari Program oleh Anthropic

Peserta setuju bahwa semua data yang dikirimkan ke Anthropic, termasuk produk dan layanannya, sehubungan dengan Program ini dapat digunakan, disimpan, dibagikan, dan/atau dipublikasikan oleh Anthropic tanpa batas waktu untuk memajukan penelitian keamanan, pengembangan model, dan tujuan terkait tanpa kewajiban lebih lanjut kepada Peserta.