Vai al contenuto principale

Strumenti di Salvaguardia API

Aggiornato questa settimana

Che tu stia appena iniziando il processo di configurazione delle salvaguardie per la tua distribuzione API di Claude, o che la tua distribuzione sia già in funzione, ecco alcune strategie da considerare quando costruisci il tuo programma di sicurezza AI. Questi suggerimenti sono progettati per aiutarti a rispettare i nostri Termini di Servizio e la Politica di Utilizzo, che vietano certi usi di Claude. Il mancato rispetto dei Termini e della Politica di Utilizzo può comportare la sospensione o la cessazione del tuo accesso ai servizi.

Salvaguardie di Base

  • Memorizza gli ID collegati a ogni chiamata API, così se hai bisogno di individuare contenuti specifici che violano le regole hai la capacità di trovarli nei tuoi sistemi.

  • Considera l'assegnazione di ID agli utenti, che può aiutarti a tracciare individui specifici che stanno violando l'AUP di Anthropic, permettendo azioni più mirate in casi di uso improprio.

    • La scelta di passare gli ID ad Anthropic attraverso l'API spetta a te. Ma, se forniti, possiamo individuare le violazioni con maggiore precisione. Per aiutare a proteggere la privacy degli utenti finali, qualsiasi ID passato dovrebbe essere crittograficamente hashato.

  • Considera di richiedere ai clienti di registrarsi per un account sulla tua piattaforma prima di utilizzare Claude

  • Assicurati che i tuoi clienti comprendano gli usi consentiti

  • Avvisa, limita o sospendi gli utenti che violano ripetutamente i Termini di Servizio e la Politica di Utilizzo di Anthropic

Salvaguardie Intermedie

  • Crea framework di personalizzazione che limitano le interazioni degli utenti finali con Claude a un set limitato di prompt o permettono solo a Claude di rivedere un corpus di conoscenza specifico che hai già, il che diminuirà la capacità degli utenti di impegnarsi in comportamenti che violano le regole.

  • Abilita filtri di sicurezza aggiuntivi - strumenti di moderazione in tempo reale gratuiti costruiti da Anthropic per aiutare a rilevare prompt potenzialmente dannosi e gestire azioni in tempo reale per ridurre i danni

    • Per maggiori informazioni su come abilitare i nostri filtri di sicurezza aggiuntivi, contatta usersafety@anthropic.com.

  • Per i Clienti Bedrock:

    • Attiva il tuo bucket S3 privato per memorizzare prompt e completamenti per la tua valutazione

Salvaguardie Avanzate

Salvaguardie Comprensive

  • Configura un sistema interno di revisione umana per segnalare i prompt che sono marcati da Claude (utilizzato per la moderazione dei contenuti) o da un'API di moderazione come dannosi così puoi intervenire per limitare o rimuovere utenti con alti tassi di violazione.

Hai ricevuto la risposta alla tua domanda?