5 septembrie 2025

De ce halucinează modelele lingvistice

Imagine abstractă cu gradienturi ample de verde-albastru, albastru și lavandă, care se amestecă pe diagonala cadrului în linii ușoare și fluide.

Se încarcă…

La OpenAI, depunem eforturi mari pentru a face sistemele de inteligență artificială mai utile și mai fiabile. Chiar dacă modelele lingvistice devin tot mai performante, o provocare rămâne încă dificil de rezolvat: halucinațiile. Prin aceasta ne referim la cazuri în care un model generează cu încredere un răspuns care nu este adevărat. Noua noastră lucrare de cercetare⁠(se deschide într-o fereastră nouă) susține că modelele lingvistice halucinează deoarece procedurile standard de instruire și evaluare recompensează ghicitul în detrimentul recunoașterii incertitudinii.

Și ChatGPT halucinează. GPT‑5 are mult mai puține halucinații, mai ales când dezvoltă un raționament⁠, dar încă mai au loc. Halucinațiile rămân o provocare fundamentală pentru toate modelele lingvistice mari, dar depunem eforturi susținute pentru a le reduce și mai mult.

Ce sunt halucinațiile?

Halucinațiile sunt afirmații plauzibile, dar false, generate de modelele lingvistice. Pot apărea în moduri surprinzătoare, chiar și pentru întrebări aparent simple. De exemplu, când am întrebat un robot de chat utilizat pe scară largă despre titlul tezei de doctorat a lui Adam Tauman Kalai (unul dintre autorii acestei lucrări), acesta a produs cu încredere trei răspunsuri diferite — niciunul dintre ele nefiind corect. Când l-am întrebat despre ziua lui de naștere, ne-a dat trei date diferite, toate fiind greșite.

Predarea pentru testare

Halucinațiile persistă parțial deoarece metodele actuale de evaluare stabilesc stimulente greșite. Deși evaluările în sine nu provoacă direct halucinații, majoritatea evaluărilor măsoară performanța modelului într-un mod care încurajează mai degrabă presupunerea decât sinceritatea cu privire la incertitudine.

Să ne imaginăm că este un test grilă. Dacă nu știi răspunsul, dar încerci să ghicești, s-ar putea să ai noroc și să nimerești. Dacă îl lași necompletat, nu vei primi niciun punct. Tot așa, când modelele sunt evaluate doar în funcție de acuratețe, adică de procentul de întrebări la care răspund corect, sunt încurajate să ghicească răspunsul, în loc să spună „Nu știu”.

Încă un exemplu: să presupunem că unui model lingvistic i se cere data de naștere a unei persoane, dar nu o știe. Dacă ghicește „10 septembrie”, are o șansă de 1 din 365 să aibă dreptate. Dacă spune „Nu știu”, nu va primi niciun punct. După mii de întrebări de test, modelul care ghicește răspunsurile la întâmplare ajunge să pară mai bun pe tabela de scoruri decât un model prudent, care își recunoaște incertitudinea.

Pentru întrebările care au un singur „răspuns corect”, putem lua în considerare trei categorii de răspunsuri: răspunsuri corecte, erori și abțineri, în cazul cărora modelul nu riscă să ghicească. Abținerea face parte din modestie, una dintre valorile fundamentale ale OpenAI⁠. Majoritatea tabelelor de scoruri prioritizează și clasifică modelele pe baza acurateței, dar erorile sunt mai grave decât abținerile. Specificațiile noastre privind modelul⁠(se deschide într-o fereastră nouă) afirmă că este mai bine să indici incertitudinea sau să ceri clarificări decât să oferi informații sigure care ar putea fi incorecte.

Pentru un exemplu concret, să luăm evaluarea SimpleQA ca exemplu din Fișa de sistem a GPT5⁠(se deschide într-o fereastră nouă).

Metric	gpt-5-thinking-mini	OpenAI o4-mini
Rata de abținere (nu se oferă un răspuns concret)	52%	1%
Rata de acuratețe (răspuns corect, cu cât este mai mare, cu atât este mai bine)	22%	24%
Rata de eroare (răspuns greșit, cu cât este mai mică, cu atât este mai bine)	26%	75%
Total	100%	100%

În ceea ce privește acuratețea, modelul mai vechi OpenAI o4-mini are performanțe ușor mai bune. Cu toate acestea, rata sa de eroare (adică rata de halucinație) este semnificativ mai mare. Ghicitul strategic în situații de incertitudine îmbunătățește acuratețea, dar crește numărul de erori și halucinații.

La calcularea mediei rezultatelor obținute în urma a zeci de evaluări, majoritatea testelor de performanță elimină indicatorul de acuratețe, dar acest lucru duce la o falsă dihotomie între corect și incorect. În cazul evaluărilor simpliste, precum SimpleQA, unele modele ating o acuratețe de aproape 100%, eliminând astfel halucinațiile. Totuși, în cazul evaluărilor mai dificile și în utilizarea reală, acuratețea este limitată la sub 100%, deoarece există anumite întrebări ale căror răspunsuri nu pot fi determinate din diverse motive, cum ar fi informații indisponibile, abilități de gândire limitate ale modelelor mici sau ambiguități care trebuie clarificate.

Cu toate acestea, tabelele de scoruri bazate exclusiv pe acuratețe domină clasamentele și fișele de model, motivând dezvoltatorii să creeze modele care ghicesc în loc să se abțină. Acesta este unul dintre motivele pentru care, chiar dacă modelele devin tot mai avansate, ele pot încă să halucineze, oferind cu încredere răspunsuri greșite în loc să-și recunoască incertitudinea.

O modalitate mai bună de a nota evaluările

Există o soluție simplă. De a penaliza mai drastic erorile comise cu încredere decât incertitudinea și de a acorda puncte parțiale pentru exprimarea adecvată a incertitudinii. Această idee nu este nouă. Unele teste standardizate utilizează de mult timp versiuni de notare negativă pentru răspunsurile greșite sau acordarea de puncte parțiale pentru întrebările lăsate fără răspuns, pentru a descuraja ghicitul la întâmplare. De asemenea, câteva grupuri de cercetare au explorat evaluări care țin cont de incertitudine și calibrare.

Noi vedem lucrurile diferit. Nu este suficient să adăugăm câteva teste noi care să țină cont de incertitudine. Evaluările utilizate pe scară largă, bazate pe acuratețe, trebuie actualizate astfel încât punctajul lor să descurajeze ghicitul. Dacă tabelele principale de scoruri continuă să recompenseze ghicitul norocos, modelele vor continua să învețe să ghicească. Corectarea tabelelor de scoruri poate extinde adoptarea tehnicilor de reducere a halucinațiilor, atât a celor nou dezvoltate, cât și a celor din cercetările anterioare.

Modul în care halucinațiile își au originea în predicția următorului cuvânt

Am discutat despre motivul pentru care halucinațiile sunt dificil de eliminat, dar de unde provin aceste inexactități factuale extrem de specifice? La urma urmei, modelele mari pre-instruite nu prea produc alte tipuri de erori, cum ar fi greșeli de ortografie și paranteze care nu se potrivesc. Diferența se datorează tipurilor de modele existente în date.

Modelele lingvistice învață mai întâi prin pre-instruire, un proces de predicție a cuvântului următor dintr-un volum mare de text. Spre deosebire de problemele tradiționale de învățare automată, nu există etichete „adevărat/fals” atașate fiecărei afirmații. Modelul vede doar exemple pozitive de limbaj fluent și trebuie să aproximeze distribuția generală.

Este de două ori mai greu să distingi afirmațiile valide de cele nevalide atunci când nu ai exemple etichetate ca fiind nevalide. Dar chiar și cu etichete, unele erori sunt inevitabile. Pentru a înțelege de ce, să analizăm o analogie mai simplă. În recunoașterea imaginilor, dacă milioane de fotografii cu pisici și câini sunt etichetate ca „pisică” sau „câine”, algoritmii pot învăța să le clasifice în mod fiabil. Dar imaginează-ți că ai eticheta fiecare fotografie cu animalele de companie după data de naștere. Deoarece zilele de naștere sunt în esență aleatorii, această sarcină ar produce întotdeauna erori, indiferent de cât de avansat ar fi algoritmul.

Același principiu se aplică și în pre-instruire. Ortografia și parantezele urmează modele consecvente, astfel încât erorile de acolo dispar odată cu mărirea volumului. Dar informațiile arbitrare cu frecvență redusă, cum ar fi ziua de naștere a unui animal de companie, nu pot fi prevăzute doar pe baza unor modele și, prin urmare, duc la halucinații. Analiza noastră explică ce tipuri de halucinații pot apărea în urma predicției cuvântului următor. În mod ideal, etapele ulterioare pre-instruirii ar trebui să le elimine, dar acest lucru nu este pe deplin realizabil din motivele descrise în secțiunea anterioară.

Concluzii

Sperăm că perspectiva statistică din lucrarea noastră clarifică natura halucinațiilor și combate concepțiile greșite uzuale:

Afirmație: Halucinațiile vor fi eliminate prin îmbunătățirea acurateței, deoarece un model 100% precis nu va halucina niciodată.
Constatare: Acuratețea nu va ajunge niciodată la 100% deoarece, indiferent de dimensiunea modelului, de capacitățile de căutare și raționament, există întrebări concrete la care nu se poate răspunde, prin natura lor.
Afirmație: Halucinațiile sunt inevitabile.
Constatare: Nu sunt, deoarece modelele lingvistice se pot abține atunci când nu sunt sigure.
Afirmație: Evitarea halucinațiilor necesită un grad de inteligență care poate fi atins exclusiv cu modele mai mari.
Constatare: Îi poate fi mai ușor unui model mic să-și cunoască limitele. De exemplu, atunci când i se cere să răspundă la o întrebare despre maori, un model mic care nu cunoaște nicio limbă maori poate spune pur și simplu „Nu știu”, în timp ce un model care cunoaște o parte din limba maori trebuie să își determine încrederea. După cum am discutat în lucrare, a fi „calibrat” necesită mult mai puține calcule decât a fi precis.
Afirmație: Halucinațiile sunt o eroare misterioasă a modelelor lingvistice moderne.
Constatare: Înțelegem mecanismele statistice prin care halucinațiile apar și sunt recompensate în evaluări.
Afirmație: Pentru a măsura halucinațiile, avem nevoie doar de o evaluare eficientă a halucinațiilor.
Constatare: Au fost publicate evaluări ale halucinațiilor. Totuși, o evaluare eficientă a halucinațiilor are un efect redus în comparație cu sute de evaluări tradiționale bazate pe acuratețe, care penalizează modestia și recompensează ghicitul. În schimb, toți indicatorii de evaluare primari trebuie revizuiți pentru a recompensa exprimarea incertitudinii.

Modelele noastre cele mai recente au rate de halucinație mai mici și continuăm să depunem eforturi susținute pentru a reduce și mai mult ratele de erori generate cu încredere de modelele noastre lingvistice.

Contribuitori la anunț

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke

Continuă să citești

Vezi toate

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

Publicare1 aug. 2026

Cum ne-a triplat scorurile activarea a două setări în testul de performanță ARC-AGI-3

Cercetare29 iul. 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Companie29 iul. 2026