Lewati ke konten utama
Semua KoleksiKepercayaan & Keamanan
Alat Kepercayaan & Keamanan API
Alat Kepercayaan & Keamanan API
Diperbarui lebih dari satu minggu yang lalu

Baik Anda baru memulai proses menyiapkan Trust & Safety untuk penerapan API Claude, atau penerapan Anda sudah berjalan, berikut adalah beberapa strategi yang perlu dipertimbangkan saat membangun program keamanan AI Anda sendiri.

Perlindungan Dasar

  • Simpan ID yang terkait dengan setiap panggilan API, sehingga jika Anda perlu menunjukkan konten spesifik yang melanggar, Anda memiliki kemampuan untuk menemukannya dalam sistem Anda.

  • Pertimbangkan untuk menetapkan ID kepada pengguna, yang dapat membantu Anda melacak individu tertentu yang melanggar AUP Anthropic, memungkinkan tindakan yang lebih terarah dalam kasus penyalahgunaan.

    • Pilihan untuk meneruskan ID ke Anthropic melalui API terserah Anda. Namun, jika disediakan, kami dapat menunjukkan pelanggaran dengan lebih tepat. Untuk membantu melindungi privasi pengguna akhir, setiap ID yang diteruskan harus di-hash secara kriptografis.

  • Pertimbangkan untuk mewajibkan pelanggan mendaftar akun di platform Anda sebelum menggunakan Claude

  • Pastikan pelanggan Anda memahami penggunaan yang diizinkan

Perlindungan Menengah

  • Buat kerangka kustomisasi yang membatasi interaksi pengguna akhir dengan Claude pada serangkaian prompt terbatas atau hanya mengizinkan Claude untuk meninjau korpus pengetahuan spesifik yang sudah Anda miliki, yang akan mengurangi kemampuan pengguna untuk terlibat dalam perilaku yang melanggar.

  • Aktifkan filter keamanan tambahan - alat moderasi real-time gratis yang dibuat oleh Anthropic untuk membantu mendeteksi prompt yang berpotensi berbahaya dan mengelola tindakan real-time untuk mengurangi bahaya

    • Untuk informasi lebih lanjut tentang cara mengaktifkan filter keamanan tambahan kami, silakan hubungi usersafety@anthropic.com.

  • Untuk Pelanggan Bedrock:

    • Aktifkan bucket S3 pribadi Anda untuk menyimpan prompt dan penyelesaian untuk evaluasi Anda sendiri

Perlindungan Lanjutan

Perlindungan Komprehensif

  • Siapkan sistem peninjauan manusia internal untuk menandai prompt yang ditandai oleh Claude (yang digunakan untuk moderasi konten) atau API moderasi sebagai berbahaya sehingga Anda dapat melakukan intervensi untuk membatasi atau menghapus pengguna dengan tingkat pelanggaran tinggi.

Apakah pertanyaan Anda terjawab?