Tutte le collezioni
Fiducia e sicurezza
Il nostro approccio alla sicurezza degli utenti
Il nostro approccio alla sicurezza degli utenti
Aggiornato oltre una settimana fa

La sicurezza degli utenti è fondamentale per la missione di Anthropic di creare sistemi di intelligenza artificiale affidabili, interpretabili e controllabili. Con il lancio di nuovi modi per interagire con Claude, ci aspettiamo anche di vedere materializzarsi nuovi tipi di potenziali danni, sia attraverso la generazione di disinformazione, contenuti inaccettabili, discorsi di odio o altri usi impropri. Stiamo investendo attivamente in nuove funzionalità di sicurezza da affiancare ai nostri sforzi esistenti per la sicurezza del modello e stiamo sperimentando per fornire strumenti utili a un ampio pubblico, cercando al contempo di mitigare i danni. Il lancio di nuovi prodotti in beta aperta ci consente di sperimentare, iterare e ascoltare i vostri feedback. Ecco alcune delle funzionalità di sicurezza che abbiamo introdotto:

  • Modelli di rilevamento che segnalano contenuti potenzialmente dannosi sulla base della nostra Informativa sull'utilizzo accettabile.

  • Filtri di sicurezza sulle richieste, che possono bloccare le risposte del modello quando i nostri modelli di rilevamento segnalano contenuti dannosi.

  • Filtri di sicurezza avanzati, che ci consentono di aumentare la sensibilità dei nostri modelli di rilevamento. Possiamo applicare temporaneamente filtri di sicurezza avanzati agli utenti che violano ripetutamente le nostre politiche e rimuovere questi controlli dopo un periodo senza o con poche violazioni.

Queste funzionalità non sono infallibili e potremmo commettere errori attraverso falsi positivi o falsi negativi. Il vostro feedback su queste misure e sul modo in cui le spieghiamo agli utenti svolgerà un ruolo chiave nell'aiutarci a migliorare questi sistemi di sicurezza. Vi incoraggiamo a contattarci all'indirizzo usersafety@anthropic.com con eventuali commenti che potreste avere. Per saperne di più, leggi le nostre opinioni fondamentali sulla sicurezza dell'IA.

Hai ricevuto la risposta alla tua domanda?