Dai rifiuti netti ai completamenti sicuri: verso un addestramento sulla sicurezza orientato all’output
Introdotto in GPT‑5, il completamento sicuro è un metodo di addestramento che ottimizza l'utilità del modello rispettando i limiti di sicurezza. Rispetto a quello basato sul rifiuto, migliora la sicurezza e l'utilità, specialmente nei settori dual-use.
Se un utente chiede a ChatGPT qual è l’energia minima necessaria per accendere dei fuochi d’artificio, dovrebbe ricevere una risposta utile? L'utente potrebbe essere impegnato nei preparativi per i festeggiamenti del 4 luglio o in un progetto di ricerca per la scuola... oppure potrebbe costruire esplosivi. Di conseguenza, fornire una risposta utile potrebbe essere innocuo o dannoso a seconda dell’intento (apparente) dell’utente. Questo tipo di prompt è a doppio uso: una domanda con un intento poco chiaro, in cui le informazioni potrebbero essere utilizzate in modo lecito o malevolo. I problemi legati al doppio uso sono particolarmente diffusi in aree a rischio come la biologia e la sicurezza informatica.
In passato, modelli in produzione come ChatGPT si basavano su un addestramento alla sicurezza basato sul rifiuto: in base al prompt dell’utente, il modello doveva decidere se eseguire pienamente o rifiutare. Sebbene questo tipo di addestramento funzioni abbastanza bene per prompt palesemente dannosi, può avere difficoltà a gestire prompt a doppio uso come l’esempio dei fuochi d’artificio. In tal caso, un modello addestrato al rifiuto prende una decisione binaria basata sulla percezione del rischio del prompt: o esegue completamente (potenzialmente pericoloso se l’utente vuole utilizzare le informazioni in modo malevolo) o rifiuta dicendo “Mi dispiace, non posso aiutarti” (inutile se l’utente sta davvero cercando di organizzare il suo spettacolo pirotecnico).
Per GPT‑5, abbiamo introdotto una nuova forma di addestramento sulla sicurezza, i completamenti sicuri, che insegna al modello a fornire la risposta più utile ove possibile, pur rispettando i limiti di sicurezza. Riteniamo che questo approccio sia più sofisticato e consenta una migliore gestione delle domande a doppio uso.
Prompt
OpenAI o3 (addestramento al rifiuto)
GPT-5 (addestramento per completamenti sicuri)
Risposte di OpenAI o3 e GPT‑5 a un prompt a doppio uso ambiguo che chiede istruzioni per accendere dei fuochi d’artificio. o3, addestrato al rifiuto, interpreta l’intento in modo eccessivamente benevolo: valuta il prompt come lecito e quindi esegue pienamente la richiesta. Al contrario, GPT‑5, addestrato per completamenti sicuri, spiega perché non può eseguire pienamente la richiesta e fornisce quindi solo indicazioni generali invitando a consultare i manuali appropriati.
I completamenti sicuri incentrano l’addestramento sulla sicurezza dell’output di un modello, anziché stabilire un limite di rifiuto in base all’input dell’utente. Concretamente, questo approccio è implementato attraverso due parametri di addestramento:
- Vincolo di sicurezza: durante il post-addestramento, la ricompensa per i completamenti sicuri penalizza le risposte del modello che violano le nostre policy di sicurezza (con penalità più severe a seconda della gravità dell’infrazione).
- Massimizzazione dell’utilità: per le risposte sicure, il modello viene ricompensato in base alla sua utilità: direttamente, in base all’obiettivo dichiarato dall’utente, oppure indirettamente, fornendo un rifiuto informativo con alternative utili e sicure.
Abbiamo integrato i completamenti sicuri in GPT‑5 (sia nei modelli di ragionamento che in quelli di chat) e abbiamo scoperto che questo tipo di addestramento migliora sostanzialmente sia la sicurezza sia l’utilità rispetto a quello basato sul rifiuto. Per un confronto equo con OpenAI o3, riportiamo le prestazioni della modalità di pensiero GPT‑5 rispetto a o3. Nei confronti tra modelli in produzione e in esperimenti controllati, i completamenti sicuri si sono rivelati particolarmente efficaci nelle domande a doppio uso. Il seguente grafico mette a confronto il punteggio relativo alla sicurezza e il punteggio medio relativo all’utilità delle risposte sicure.
Sicurezza e utilità fornite da risposte sicure intenzionali (OpenAI o3 vs. modalità di pensiero GPT‑5, etichettata come gpt5-r). La modalità di pensiero GPT‑5 è più sicura e utile rispetto a OpenAI o3.
Evitando la logica binaria eseguire/rifiutare, l’addestramento per completamenti sicuri incoraggia i modelli ad adottare un approccio più prudente su contenuti potenzialmente pericolosi, anche quando forniscono una risposta. Nei nostri esperimenti, abbiamo osservato che quando i modelli addestrati per completamenti sicuri commettono un errore, i loro output non sicuri sono meno gravi rispetto a quelli dei modelli addestrati al rifiuto.
Analisi della gravità del danno per risposte non sicure (o3 vs. modalità di pensiero GPT‑5, etichettata come gpt5-r). La modalità di pensiero GPT‑5 commette errori meno gravi rispetto a o3.
Può essere facile sacrificare l’utilità a favore della sicurezza: un modello può risultare sicuro rifiutando qualsiasi richiesta. Ma vogliamo che i nostri modelli siano sia sicuri che utili. Una sfida fondamentale della ricerca è migliorare entrambi questi aspetti contemporaneamente. Per GPT‑4 abbiamo sviluppato il sistema di ricompense basate su regole come metodo per bilanciare utilità e sicurezza. Ora, per GPT‑5, i completamenti sicuri compiono un ulteriore passo avanti, sfruttando le crescenti capacità dell’IA per integrare in modo ancora più profondo questi due obiettivi. Riteniamo che l’attenzione alla sicurezza delle risposte del modello costituisca una solida base per affrontare la crescente complessità delle sfide di sicurezza all’orizzonte. Continueremo quindi su questa linea di ricerca, per insegnare al modello a comprendere meglio le situazioni complesse e a rispondere con maggiore attenzione e precisione.


