Vai al contenuto principale
Tutte le collezioniFiducia e sicurezza
Strumenti di fiducia e sicurezza per le API
Strumenti di fiducia e sicurezza per le API
Aggiornato oltre 3 settimane fa

Che tu stia iniziando il processo di configurazione della Trust & Safety per la tua implementazione API di Claude, o che la tua implementazione sia già in funzione, ecco alcune strategie da considerare quando costruisci il tuo programma di sicurezza per l'IA.

Misure di sicurezza di base

  • Memorizza gli ID collegati a ogni chiamata API, in modo da poter individuare contenuti specifici che violano le regole nei tuoi sistemi, se necessario.

  • Considera l'assegnazione di ID agli utenti, che può aiutarti a tracciare individui specifici che violano l'AUP di Anthropic, consentendo azioni più mirate in casi di uso improprio.

    • La scelta di passare gli ID ad Anthropic attraverso l'API spetta a te. Ma, se forniti, possiamo individuare le violazioni con maggiore precisione. Per aiutare a proteggere la privacy degli utenti finali, tutti gli ID passati dovrebbero essere crittografati con hash.

  • Considera di richiedere ai clienti di registrare un account sulla tua piattaforma prima di utilizzare Claude

  • Assicurati che i tuoi clienti comprendano gli usi consentiti

Misure di sicurezza intermedie

  • Crea framework di personalizzazione che limitino le interazioni degli utenti finali con Claude a un set limitato di prompt o consentano a Claude di esaminare solo un corpus di conoscenze specifico che hai già, il che diminuirà la capacità degli utenti di impegnarsi in comportamenti che violano le regole.

  • Abilita filtri di sicurezza aggiuntivi - strumenti di moderazione in tempo reale gratuiti creati da Anthropic per aiutare a rilevare prompt potenzialmente dannosi e gestire azioni in tempo reale per ridurre i danni

    • Per ulteriori informazioni su come abilitare i nostri filtri di sicurezza aggiuntivi, contatta usersafety@anthropic.com.

  • Per i clienti Bedrock:

    • Attiva il tuo bucket S3 privato per memorizzare prompt e completamenti per la tua valutazione

Misure di sicurezza avanzate

Misure di sicurezza complete

  • Configura un sistema di revisione umana interno per segnalare i prompt che sono marcati da Claude (utilizzato per la moderazione dei contenuti) o da un'API di moderazione come dannosi, in modo da poter intervenire per limitare o rimuovere gli utenti con alti tassi di violazione.

Hai ricevuto la risposta alla tua domanda?