Tutte le collezioni
Fiducia e sicurezza
Strumenti di fiducia e sicurezza API
Strumenti di fiducia e sicurezza API
Aggiornato oltre una settimana fa

Che tu stia solo iniziando il processo di impostazione di Trust & Safety per la tua distribuzione API di Claude, o la tua distribuzione sia già in esecuzione, ecco alcune strategie da considerare quando si costruisce il proprio programma di sicurezza AI.

Salvaguardie di base

  • Archivia gli ID collegati a ciascuna chiamata API, in modo da poter individuare contenuti violativi specifici nei tuoi sistemi se necessario.

  • Prendi in considerazione l'assegnazione di ID agli utenti, che può aiutarti a tenere traccia di singoli individui che violano l'AUP di Anthropic, consentendo azioni più mirate in ​​caso di abuso.

    • La scelta di passare gli ID ad Anthropic tramite l'API dipende da te. Ma, se forniti, possiamo individuare le violazioni con maggiore precisione. Per contribuire a proteggere la privacy degli utenti finali, eventuali ID passati dovrebbero essere crittografati con hash.

  • Prendi in considerazione la possibilità di richiedere al cliente di registrarsi per un account sulla tua piattaforma prima di utilizzare Claude

  • Assicurati che i tuoi clienti comprendano gli usi consentiti

Salvaguardie intermedie

  • Crea framework di personalizzazione che limitino le interazioni degli utenti finali con Claude a un set limitato di prompt o consentano solo a Claude di rivedere un corpus di conoscenze specifico che hai già, il che ridurrà la capacità degli utenti di impegnarsi in comportamenti violativi.

  • Abilita filtri di sicurezza aggiuntivi: strumenti di moderazione in tempo reale gratuiti costruiti da Anthropic per aiutare a rilevare potenziali prompt dannosi e gestire azioni in tempo reale per ridurre i danni

    • Per ulteriori informazioni su come abilitare i nostri filtri di sicurezza aggiuntivi, contatta usersafety@anthropic.com.

  • Per i clienti Bedrock:

    • Attiva il tuo bucket S3 privato per archiviare prompt e completamenti per la tua valutazione

Salvaguardie avanzate

Salvaguardie complete

  • Imposta un sistema di revisione umano interno per contrassegnare i prompt che sono contrassegnati da Claude (utilizzato per la moderazione dei contenuti) o da un'API di moderazione come dannosi in modo da poter intervenire per limitare o rimuovere gli utenti con alti tassi di violazione.

Hai ricevuto la risposta alla tua domanda?