La sicurezza degli utenti è fondamentale per la missione di Anthropic di creare sistemi di IA affidabili, interpretabili e controllabili. Mentre lanciamo nuovi modi per le persone di interagire con Claude, ci aspettiamo anche di vedere emergere nuovi tipi di potenziali danni, sia attraverso la generazione di disinformazione, contenuti discutibili, incitamento all'odio o altri usi impropri. Stiamo investendo attivamente e sperimentando funzionalità di sicurezza aggiuntive per integrare i nostri attuali sforzi di sicurezza dei modelli e stiamo lavorando per fornire strumenti utili a un vasto pubblico, facendo al contempo del nostro meglio per mitigare i danni. Il lancio di nuovi prodotti in versione beta aperta ci permette di sperimentare, iterare e ascoltare il vostro feedback. Ecco alcune delle funzionalità di sicurezza che abbiamo introdotto:
Modelli di rilevamento che segnalano contenuti potenzialmente dannosi in base alla nostra Politica d'Uso.
Filtri di sicurezza sui prompt, che possono bloccare le risposte del modello quando i nostri modelli di rilevamento segnalano contenuti come dannosi.
Filtri di sicurezza avanzati, che ci permettono di aumentare la sensibilità dei nostri modelli di rilevamento. Possiamo applicare temporaneamente filtri di sicurezza avanzati agli utenti che violano ripetutamente le nostre politiche, e rimuovere questi controlli dopo un periodo di assenza o poche violazioni.
Queste funzionalità non sono infallibili e potremmo commettere errori attraverso falsi positivi o falsi negativi. Il vostro feedback su queste misure e su come le spieghiamo agli utenti giocherà un ruolo chiave nell'aiutarci a migliorare questi sistemi di sicurezza, e vi incoraggiamo a contattarci all'indirizzo usersafety@anthropic.com con qualsiasi feedback possiate avere. Per saperne di più, leggete le nostre opinioni fondamentali sulla sicurezza dell'IA.