Semua Koleksi
Kepercayaan & Keamanan
Pendekatan Kami terhadap Keamanan Pengguna
Pendekatan Kami terhadap Keamanan Pengguna
Diperbarui lebih dari satu minggu yang lalu

Keselamatan pengguna adalah inti dari misi Anthropic untuk menciptakan sistem AI yang dapat diandalkan, dapat diinterpretasikan, dan dapat dikendalikan. Saat kami meluncurkan cara baru bagi orang untuk berinteraksi dengan Claude, kami juga mengharapkan untuk melihat jenis bahaya potensial baru muncul, baik melalui generasi informasi yang salah, konten yang menyinggung, ujaran kebencian atau penyalahgunaan lainnya. Kami secara aktif berinvestasi dalam dan bereksperimen dengan fitur keamanan tambahan untuk melengkapi upaya keamanan model yang ada dan bekerja untuk menyediakan alat yang berguna bagi audiens luas sekaligus berusaha memitigasi bahaya. Meluncurkan produk baru dalam beta terbuka memungkinkan kami bereksperimen, mengulang dan mendengarkan masukan Anda.

  • Model deteksi yang memberi tanda konten berpotensi berbahaya berdasarkan Kebijakan Penggunaan yang Dapat Diterima kami.

  • Filter keamanan pada prompt, yang dapat memblokir respons dari model ketika model deteksi kami memberi tanda konten sebagai berbahaya.

  • Filter keamanan yang ditingkatkan, yang memungkinkan kami untuk meningkatkan sensitivitas model deteksi kami. Kami dapat menerapkan filter keamanan yang ditingkatkan sementara kepada pengguna yang berulang kali melanggar kebijakan kami, dan menghapus kontrol ini setelah periode tanpa atau sedikit pelanggaran.

Fitur-fitur ini tidak bebas kesalahan, dan kami mungkin membuat kesalahan melalui positif palsu atau negatif palsu. Masukan Anda tentang langkah-langkah ini dan bagaimana kami menjelaskannya kepada pengguna akan memainkan peran kunci dalam membantu kami meningkatkan sistem keamanan ini, dan kami menyarankan Anda menghubungi kami di usersafety@anthropic.com dengan masukan apa pun yang mungkin Anda miliki. Untuk mempelajari lebih lanjut, baca tentang pandangan inti kami tentang keamanan AI.

Apakah pertanyaan Anda terjawab?