Che tu stia solo iniziando il processo di impostazione di Trust & Safety per la tua distribuzione API di Claude, o la tua distribuzione sia già in esecuzione, ecco alcune strategie da considerare quando si costruisce il proprio programma di sicurezza AI.
Salvaguardie di base
Archivia gli ID collegati a ciascuna chiamata API, in modo da poter individuare contenuti violativi specifici nei tuoi sistemi se necessario.
Prendi in considerazione l'assegnazione di ID agli utenti, che può aiutarti a tenere traccia di singoli individui che violano l'AUP di Anthropic, consentendo azioni più mirate in caso di abuso.
La scelta di passare gli ID ad Anthropic tramite l'API dipende da te. Ma, se forniti, possiamo individuare le violazioni con maggiore precisione. Per contribuire a proteggere la privacy degli utenti finali, eventuali ID passati dovrebbero essere crittografati con hash.
Prendi in considerazione la possibilità di richiedere al cliente di registrarsi per un account sulla tua piattaforma prima di utilizzare Claude
Assicurati che i tuoi clienti comprendano gli usi consentiti
Salvaguardie intermedie
Crea framework di personalizzazione che limitino le interazioni degli utenti finali con Claude a un set limitato di prompt o consentano solo a Claude di rivedere un corpus di conoscenze specifico che hai già, il che ridurrà la capacità degli utenti di impegnarsi in comportamenti violativi.
Abilita filtri di sicurezza aggiuntivi: strumenti di moderazione in tempo reale gratuiti costruiti da Anthropic per aiutare a rilevare potenziali prompt dannosi e gestire azioni in tempo reale per ridurre i danni
Per ulteriori informazioni su come abilitare i nostri filtri di sicurezza aggiuntivi, contatta usersafety@anthropic.com.
Per i clienti Bedrock:
Attiva il tuo bucket S3 privato per archiviare prompt e completamenti per la tua valutazione
Salvaguardie avanzate
Esegui un'API di moderazione su tutti i prompt dell'utente finale prima che vengano inviati a Claude per assicurarti che non siano dannosi
Salvaguardie complete
Imposta un sistema di revisione umano interno per contrassegnare i prompt che sono contrassegnati da Claude (utilizzato per la moderazione dei contenuti) o da un'API di moderazione come dannosi in modo da poter intervenire per limitare o rimuovere gli utenti con alti tassi di violazione.