Che tu stia iniziando il processo di configurazione della Trust & Safety per la tua implementazione API di Claude, o che la tua implementazione sia già in funzione, ecco alcune strategie da considerare quando costruisci il tuo programma di sicurezza per l'IA.
Misure di sicurezza di base
Memorizza gli ID collegati a ogni chiamata API, in modo da poter individuare contenuti specifici che violano le regole nei tuoi sistemi, se necessario.
Considera l'assegnazione di ID agli utenti, che può aiutarti a tracciare individui specifici che violano l'AUP di Anthropic, consentendo azioni più mirate in casi di uso improprio.
La scelta di passare gli ID ad Anthropic attraverso l'API spetta a te. Ma, se forniti, possiamo individuare le violazioni con maggiore precisione. Per aiutare a proteggere la privacy degli utenti finali, tutti gli ID passati dovrebbero essere crittografati con hash.
Considera di richiedere al cliente di registrare un account sulla tua piattaforma prima di utilizzare Claude
Assicurati che i tuoi clienti comprendano gli usi consentiti
Misure di sicurezza intermedie
Crea framework di personalizzazione che limitino le interazioni degli utenti finali con Claude a un set limitato di prompt o consentano a Claude di esaminare solo un corpus di conoscenze specifico che hai già, il che diminuirà la capacità degli utenti di impegnarsi in comportamenti che violano le regole.
Abilita filtri di sicurezza aggiuntivi - strumenti di moderazione in tempo reale gratuiti creati da Anthropic per aiutare a rilevare prompt potenzialmente dannosi e gestire azioni in tempo reale per ridurre i danni
Per ulteriori informazioni su come abilitare i nostri filtri di sicurezza aggiuntivi, contatta usersafety@anthropic.com.
Per i clienti Bedrock:
Attiva il tuo bucket S3 privato per memorizzare prompt e completamenti per la tua valutazione
Misure di sicurezza avanzate
Esegui un'API di moderazione su tutti i prompt degli utenti finali prima che vengano inviati a Claude per assicurarti che non siano dannosi
Misure di sicurezza complete
Configura un sistema di revisione umana interno per segnalare i prompt che sono stati contrassegnati da Claude (utilizzato per la moderazione dei contenuti) o da un'API di moderazione come dannosi, in modo da poter intervenire per limitare o rimuovere gli utenti con alti tassi di violazione.