La sicurezza degli utenti è fondamentale per la missione di Anthropic di creare sistemi di IA affidabili, interpretabili e controllabili. Mentre lanciamo nuovi modi per le persone di interagire con Claude, ci aspettiamo anche di vedere materializzarsi nuovi tipi di potenziali danni, sia attraverso la generazione di disinformazione, contenuti discutibili, discorsi d'odio o altri usi impropri. Stiamo investendo attivamente e sperimentando con funzionalità di sicurezza aggiuntive per integrare i nostri sforzi esistenti per la sicurezza del modello e stiamo lavorando per fornire strumenti utili a un vasto pubblico, facendo anche del nostro meglio per mitigare i danni. Il lancio di nuovi prodotti in beta aperta ci consente di sperimentare, iterare e sentire i vostri feedback. Ecco alcune delle funzionalità di sicurezza che abbiamo introdotto:
Modelli di rilevamento che segnalano contenuti potenzialmente dannosi basati sulla nostra Politica d'Uso.
Filtri di sicurezza sui prompt, che possono bloccare le risposte del modello quando i nostri modelli di rilevamento segnalano il contenuto come dannoso.
Filtri di sicurezza potenziati, che ci permettono di aumentare la sensibilità dei nostri modelli di rilevamento. Potremmo applicare temporaneamente filtri di sicurezza potenziati agli utenti che violano ripetutamente le nostre politiche, e rimuovere questi controlli dopo un periodo senza violazioni o con poche violazioni.
Queste funzionalità non sono infallibili, e potremmo commettere errori attraverso falsi positivi o falsi negativi. Il vostro feedback su queste misure e su come le spieghiamo agli utenti giocherà un ruolo chiave nell'aiutarci a migliorare questi sistemi di sicurezza, e vi incoraggiamo a contattarci a usersafety@anthropic.com con qualsiasi feedback possiate avere. Per saperne di più, leggete le nostre opinioni fondamentali sulla sicurezza dell'IA.