Vai al contenuto principale
OpenAI

5 settembre 2025

RicercaPubblicazione

Perché i modelli linguistici hanno allucinazioni

Immagine astratta con ampie sfumature di verde acqua, blu e lavanda, che si fondono diagonalmente attraverso la cornice in striature morbide e fluide.
Caricamento in corso...

Noi di OpenAI ci impegniamo al massimo per rendere i sistemi di intelligenza artificiale più utili e affidabili. Nonostante i modelli linguistici diventino sempre più efficienti, una questione rimane ostinatamente difficile da risolvere del tutto: le allucinazioni. Con questo termine ci riferiamo ai casi in cui un modello genera con sicurezza una risposta che non è vera. Il nostro nuovo documento di ricerca(si apre in una nuova finestra) suggerisce che i modelli linguistici producono allucinazioni perché le procedure standard di addestramento e valutazione premiano le ipotesi piuttosto che il riconoscimento dell’incertezza.

Anche ChatGPT ha delle allucinazioni. GPT‑5 ha un numero significativamente inferiore di allucinazioni, soprattutto quando ragiona, ma comunque continuano a verificarsi. Le allucinazioni rimangono una sfida cruciale per tutti i modelli linguistici di grandi dimensioni, ma stiamo lavorando intensamente per ridurle ulteriormente.

Cosa sono le allucinazioni?

Le allucinazioni generate dai modelli linguistici sono affermazioni plausibili ma false. Possono emergere in modo sorprendente, anche in caso di domande apparentemente semplici. Ad esempio, quando abbiamo chiesto a un chatbot molto diffuso il titolo della tesi di dottorato di Adam Tauman Kalai (autore di questo articolo), esso ha fornito con sicurezza tre risposte diverse, nessuna delle quali corretta. Quando abbiamo chiesto la sua data di nascita, ci ha fornito tre date diverse, tutte errate. 

Insegnare in funzione dei test

Le allucinazioni persistono in parte perché gli attuali metodi di valutazione forniscono incentivi sbagliati. Sebbene le valutazioni di per sé non causino direttamente allucinazioni, la maggior parte delle valutazioni misura le prestazioni del modello in modo tale da incoraggiare le supposizioni piuttosto che l’onestà riguardo all’incertezza.

Consideralo come un test a scelta multipla. Se non conosci la risposta ma provi a indovinare, potresti essere fortunato e indovinare. Se non indichi una risposta, invece, ottieni automaticamente uno zero. Analogamente, quando i modelli vengono valutati solo in base alla precisione, ovvero alla percentuale di domande a cui rispondono correttamente, essi sono indotti a tirare a indovinare piuttosto che dire “non lo so”.

Un altro esempio: supponiamo di chiedere a un modello linguistico la data di compleanno di qualcuno, ma che non la conosca. Se ipotizza “10 settembre”, ha una probabilità su 365 di indovinare. Se risponde “Non lo so”, ottiene zero punti. Su migliaia di domande di test, il modello basato sulle ipotesi finisce per ottenere risultati migliori nei punteggi rispetto a un modello accurato che ammette l’incertezza.

Per domande che prevedono un’unica “risposta corretta”, si possono considerare tre categorie di risposte: risposte accurate, errori e astensioni, quando il modello non azzarda una risposta. L’astensione fa parte dell’umiltà, uno dei valori fondamentali di OpenAI. La maggior parte dei quadri di valutazione assegna priorità e classifica i modelli in base alla precisione, ma gli errori sono considerati peggiori delle astensioni. Le nostre Specifiche del modello(si apre in una nuova finestra) stabiliscono che è meglio dichiarare l’incertezza o chiedere chiarimenti piuttosto che fornire informazioni sicure che potrebbero essere errate. 

Consideriamo un esempio concreto, ovvero la valutazione SimpleQA tratta dalla scheda di sistema GPT5(si apre in una nuova finestra).

Metrica

gpt-5-thinking-mini

OpenAI o4-mini

Tasso di astensione
(non viene fornita una risposta specifica) 

52%

1%

Tasso di accuratezza
(risposta corretta, più alto è meglio)

22%

24%

Tasso di errore
(risposta sbagliata, più basso è meglio)

26%

75%

Totale

100%

100%

In termini di accuratezza, il precedente modello OpenAI o4-mini offre prestazioni leggermente migliori. Tuttavia, il suo tasso di errore (cioè il tasso di allucinazioni) è significativamente più alto. Indovinare in modo strategico quando non si è sicuri migliora l’accuratezza, ma aumenta gli errori e le allucinazioni. 

Nel calcolare la media dei risultati di decine di valutazioni, la maggior parte dei benchmark prende in considerazione il parametro dell’accuratezza, ma ciò comporta una falsa dicotomia tra giusto e sbagliato. In valutazioni semplificate come SimpleQA, alcuni modelli raggiungono un’accuratezza vicina al 100% ed eliminano così le allucinazioni. Nelle valutazioni più impegnative e nell’uso reale, però, la precisione non arriva al 100% perché ci sono alcune domande a cui non si può rispondere per vari motivi, come la mancanza di informazioni, le capacità di ragionamento limitate dei modelli piccoli o le ambiguità che devono essere chiarite.

Ciononostante, i quadri di valutazione basati esclusivamente sull’accuratezza dominano le classifiche e le schede dei modelli, motivando gli sviluppatori a creare modelli che ipotizzano piuttosto che evitare di esprimersi. Questo è uno dei motivi per cui, anche se i modelli sono sempre più avanzati, possono ancora avere allucinazioni, fornendo con sicurezza risposte errate invece di riconoscere l’incertezza.

Un modo migliore per classificare le valutazioni

La soluzione è semplice. Penalizzare gli errori commessi a causa della sicurezza più di quanto si penalizzino quelli dovuti all’incertezza e dare un punteggio parziale per le dichiarazioni di incertezza appropriate. Questa idea non è nuova. Alcuni test standardizzati utilizzano da tempo versioni di penalizzazione per le risposte errate o crediti parziali per le domande lasciate in bianco, al fine di scoraggiare le risposte a date a caso. Diversi gruppi di ricerca hanno anche studiato valutazioni che tengono conto dell’incertezza e della calibrazione.

Il nostro punto di vista è diverso. Non è sufficiente aggiungere qualche nuovo test che tenga conto dell’incertezza. Le valutazioni basate sull’accuratezza, ampiamente utilizzate, devono essere aggiornate in modo che il loro punteggio scoraggi ogni tentativo di indovinare. Se i quadri di valutazione continuano a premiare le supposizioni fortunate, i modelli continueranno ad imparare a indovinare. La correzione dei quadri di valutazione può ampliare l’adozione delle tecniche di riduzione delle allucinazioni, sia quelle di nuova concezione che quelle derivanti da ricerche precedenti.

Le allucinazioni hanno origine dalla previsione della parola successiva

Abbiamo parlato del motivo per cui le allucinazioni sono così difficili da eliminare, ma da dove provengono queste inesattezze fattuali altamente specifiche? Dopotutto, i modelli preaddestrati di grandi dimensioni raramente presentano altri tipi di errori, come errori ortografici e parentesi non corrispondenti. La differenza risiede nel tipo di schemi presenti nei dati.

I modelli linguistici imparano inizialmente attraverso il pre-addestramento, un processo che consiste nel prevedere la parola successiva in enormi quantità di testo. A differenza dei tradizionali problemi di apprendimento automatico, non ci sono etichette “vero/falso” associate a ciascuna affermazione. Il modello vede solo esempi positivi di linguaggio fluente e deve approssimare la distribuzione complessiva. 

È ancora più difficile distinguere le affermazioni valide da quelle non valide quando non si hanno esempi contrassegnati come non validi. Ma anche con le etichette, alcuni errori sono inevitabili. Per capire il motivo, consideriamo un’analogia più semplice. Nel riconoscimento delle immagini, se milioni di foto di gatti e cani vengono etichettate come “gatto” o “cane”, gli algoritmi possono imparare a classificarle in modo affidabile. Ma immaginiamo invece di etichettare ogni foto dell’animale domestico in base alla sua data di nascita. Poiché le date di nascita sono essenzialmente casuali, questo compito produrrebbe sempre errori, indipendentemente da quanto sia avanzato l’algoritmo.

Lo stesso principio si applica al pre-addestramento. L’ortografia e le parentesi seguono schemi coerenti, quindi gli errori in questi ambiti scompaiono gradualmente. Ma fatti arbitrari a bassa frequenza, come il compleanno di un animale domestico, non possono essere previsti solo sulla base degli schemi e quindi portano ad allucinazioni. La nostra analisi spiega quali tipi di allucinazioni potrebbero derivare dalla previsione della parola successiva. Idealmente, le fasi successive al pre-addestramento dovrebbero eliminarle, ma ciò non è del tutto possibile per i motivi descritti nella sezione precedente. 

Conclusioni

Il nostro obiettivo è chiarire la natura delle allucinazioni attraverso l’analisi statistica e sfatare alcuni luoghi comuni:

  • Affermazione: le allucinazioni saranno eliminate migliorando la precisione, poiché un modello accurato al 100% non produce mai allucinazioni.

    Risultato:
    l’accuratezza non raggiungerà mai il 100% perché, indipendentemente dalle dimensioni del modello, dalle capacità di ricerca e di ragionamento, alcune domande del mondo reale sono intrinsecamente senza risposta. 
  • Affermazione: le allucinazioni sono inevitabili.

    Risultato:
    no, perché i modelli linguistici possono astenersi quando non sono sicuri.
  • Affermazione: per evitare le allucinazioni è necessario un grado di intelligenza che è possibile ottenere solo con modelli più grandi.

    Risultato:
    un modello piccolo può conoscere più facilmente i propri limiti. Se ad esempio gli viene chiesto di rispondere a una domanda in lingua Maori, un modello di piccole dimensioni che non conosce il Maori può semplicemente rispondere “non lo so”, mentre un modello che conosce un po' di Maori deve determinare il proprio grado di sicurezza. Come discusso nel documento, la “calibrazione” richiede un calcolo molto inferiore rispetto alla precisione.
  • Affermazione: Le allucinazioni sono un misterioso difetto nei modelli linguistici moderni.

    Risultato:
    comprendiamo i meccanismi statistici mediante i quali le allucinazioni insorgono e vengono premiate nelle valutazioni.
  • Affermazione: per misurare le allucinazioni, abbiamo solo bisogno di una buona valutazione delle stesse.

    Risultato:
    sono state pubblicate le valutazioni delle allucinazioni. Tuttavia, una buona valutazione delle allucinazioni ha scarso effetto rispetto alle centinaia di valutazioni tradizionali basate sull’accuratezza che penalizzano l’umiltà e premiano le supposizioni. Invece, tutte le metriche di valutazione primarie devono essere rielaborate per premiare le espressioni di incertezza.

I nostri ultimi modelli mostrano tassi di allucinazione più bassi e continuiamo a lavorare per ridurre ulteriormente i tassi di errori sicuri generati dai nostri modelli linguistici.

Collaboratori all'annuncio

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel e Johannes Heidecke