Keselamatan pengguna adalah inti dari misi Anthropic untuk menciptakan sistem AI yang andal, dapat diinterpretasikan, dan dapat diarahkan. Seiring kami meluncurkan cara-cara baru bagi orang untuk berinteraksi dengan Claude, kami juga mengantisipasi munculnya jenis-jenis bahaya potensial baru, baik melalui pembuatan informasi yang menyesatkan, konten yang tidak pantas, ujaran kebencian atau penyalahgunaan lainnya. Kami secara aktif berinvestasi dan bereksperimen dengan fitur keamanan tambahan untuk melengkapi upaya keamanan model kami yang sudah ada dan bekerja untuk menyediakan alat yang bermanfaat kepada khalayak luas sambil juga berusaha sebaik mungkin untuk mengurangi bahaya. Meluncurkan produk baru dalam beta terbuka memungkinkan kami untuk bereksperimen, melakukan iterasi dan mendengar umpan balik Anda. Berikut adalah beberapa fitur keamanan yang telah kami perkenalkan:
Model deteksi yang menandai konten yang berpotensi berbahaya berdasarkan Kebijakan Penggunaan kami.
Filter keamanan pada prompt, yang dapat memblokir respons dari model ketika model deteksi kami menandai konten sebagai berbahaya.
Filter keamanan yang ditingkatkan, yang memungkinkan kami untuk meningkatkan sensitivitas model deteksi kami. Kami mungkin sementara menerapkan filter keamanan yang ditingkatkan kepada pengguna yang berulang kali melanggar kebijakan kami, dan menghapus kontrol ini setelah periode tanpa atau sedikit pelanggaran.
Fitur-fitur ini tidak sepenuhnya aman, dan kami mungkin membuat kesalahan melalui positif palsu atau negatif palsu. Umpan balik Anda tentang langkah-langkah ini dan bagaimana kami menjelaskannya kepada pengguna akan memainkan peran kunci dalam membantu kami meningkatkan sistem keamanan ini, dan kami mendorong Anda untuk menghubungi kami di usersafety@anthropic.com dengan umpan balik yang mungkin Anda miliki. Untuk mempelajari lebih lanjut, baca tentang pandangan inti kami tentang keamanan AI.