Pendekatan Kami terhadap Keamanan Pengguna

Keamanan pengguna adalah inti dari misi Anthropic untuk menciptakan sistem AI yang andal, dapat diinterpretasi, dan dapat dikendalikan. Saat kami meluncurkan cara-cara baru bagi orang untuk berinteraksi dengan Claude, kami juga mengharapkan akan muncul jenis-jenis potensi bahaya baru, baik melalui pembuatan misinformasi, konten yang tidak pantas, ujaran kebencian, atau penyalahgunaan lainnya. Kami secara aktif berinvestasi dan bereksperimen dengan fitur-fitur keamanan tambahan untuk melengkapi upaya keamanan model yang sudah ada dan bekerja untuk menyediakan alat-alat yang berguna kepada audiens yang luas sambil juga melakukan yang terbaik untuk mengurangi bahaya. Meluncurkan produk baru dalam beta terbuka memungkinkan kami untuk bereksperimen, melakukan iterasi, dan mendengar umpan balik Anda. Berikut adalah beberapa fitur keamanan yang telah kami perkenalkan:

Model deteksi yang menandai konten yang berpotensi berbahaya berdasarkan Kebijakan Penggunaan kami.
Filter keamanan pada prompt, yang dapat memblokir respons dari model ketika model deteksi kami menandai konten sebagai berbahaya.
Filter keamanan yang ditingkatkan, yang memungkinkan kami meningkatkan sensitivitas model deteksi kami. Kami dapat menerapkan filter keamanan yang ditingkatkan secara sementara kepada pengguna yang berulang kali melanggar kebijakan kami, dan menghapus kontrol ini setelah periode tanpa pelanggaran atau sedikit pelanggaran.

Fitur-fitur ini tidak sempurna, dan kami mungkin membuat kesalahan melalui positif palsu atau negatif palsu. Umpan balik Anda tentang langkah-langkah ini dan bagaimana kami menjelaskannya kepada pengguna akan memainkan peran kunci dalam membantu kami meningkatkan sistem keamanan ini, dan kami mendorong Anda untuk menghubungi kami di usersafety@anthropic.com dengan umpan balik apa pun yang mungkin Anda miliki. Untuk mempelajari lebih lanjut, baca tentang pandangan inti kami tentang keamanan AI.