Aqbeż għall-kontenut prinċipali
OpenAI

5 ta’ Settembru 2025

RiċerkaPubblikazzjoni

Għaliex il-mudelli tal-lingwa jalluċinaw

Immaġni astratta bi gradjenti mifruxa ta’ teal, blu u lavanda, li jitħalltu djagonalment mal-qafas kollu f’faxex rotob u fluwidi.
Qed jillowdja…

F’OpenAI, qed naħdmu bis-sħiħ biex nagħmlu s-sistemi tal-IA aktar utli u affidabbli. Anke hekk kif il-mudelli tal-lingwa jsiru aktar kapaċi, sfida waħda tibqa’ diffiċli ħafna biex tissolva kompletament: l-alluċinazzjonijiet. B’dan nifhmu każijiet fejn mudell jiġġenera b’kunfidenza tweġiba li mhijiex vera. Il-karta ta’ riċerka l-ġdida(jinfetaħ f’tieqa ġdida) tagħna targumenta li l-mudelli tal-lingwa jalluċinaw għax il-proċeduri standard tat-taħriġ u tal-evalwazzjoni jippremjaw il-ħsieb bil-qtajja’ aktar milli r-rikonoxximent tal-inċertezza.

ChatGPT jalluċina wkoll. GPT‑5 għandu ferm inqas alluċinazzjonijiet speċjalment meta juża r-raġunament, iżda xorta jiġru. L-alluċinazzjonijiet jibqgħu sfida fundamentali għall-mudelli kbar kollha tal-lingwa, iżda qed naħdmu bis-sħiħ biex innaqqsuhom aktar.

X’inhuma l-alluċinazzjonijiet?

L-alluċinazzjonijiet huma dikjarazzjonijiet plawsibbli iżda foloz iġġenerati mill-mudelli tal-lingwa. Jistgħu jidhru b’modi sorprendenti, anke għal mistoqsijiet li jidhru pjuttost diretti. Pereżempju, meta staqsejna chatbot użat b’mod mifrux għat-titlu tad-dissertazzjoni tal-PhD ta’ Adam Tauman Kalai (wieħed mill-awturi ta’ din il-karta), ipproduċa b’kunfidenza tliet tweġibiet differenti—u l-ebda waħda minnhom ma kienet korretta. Meta staqsejnieh għad-data tat-twelid tiegħu, tana tliet dati differenti, u dawn ukoll kienu kollha żbaljati. 

Tgħallem biex tgħaddi mit-test

L-alluċinazzjonijiet jippersistu parzjalment għax il-metodi attwali ta’ evalwazzjoni joħolqu l-inċentivi żbaljati. Għalkemm l-evalwazzjonijiet infushom ma jikkawżawx alluċinazzjonijiet direttament, il-biċċa l-kbira tal-evalwazzjonijiet ikejlu l-prestazzjoni tal-mudell b’mod li jħeġġeġ il-qtajja’ aktar mill-onestà dwar l-inċertezza.

Aħseb fiha bħal test b’għażla multipla. Jekk ma tafx it-tweġiba iżda tagħmel qtajja’ selvaġġa, jista’ jinzerta u jkollok raġun. Li tħalliha vojta jiggarantixxi żero. Bl-istess mod, meta l-mudelli jiġu mmarkati biss fuq l-eżattezza, jiġifieri l-perċentwal tal-mistoqsijiet li jwieġbu eżatt tajjeb, huma jiġu mħeġġa jagħmlu qtajja’ flok jgħidu “Ma nafx.”

Bħala eżempju ieħor, ejja ngħidu li mudell tal-lingwa jiġi mistoqsi għad-data tat-twelid ta’ xi ħadd iżda ma jafhiex. Jekk jaqta’ “10 ta’ Settembru,” għandu ċans ta’ 1 minn 365 li jkun korrett. Li jgħid “Ma nafx” jiggarantixxi żero punti. Fuq eluf ta’ mistoqsijiet tat-test, il-mudell li jaqta’ jispiċċa jidher aħjar fuq il-klassifiki minn mudell kawt li jammetti l-inċertezza.

Għal mistoqsijiet fejn hemm “tweġiba tajba” waħda, wieħed jista’ jqis tliet kategoriji ta’ tweġibiet: tweġibiet preċiżi, żbalji, u astensjonijiet fejn il-mudell ma jazzardax jagħmel qtajja’. L-astensjoni hija parti mill-umiltà, wieħed mill-valuri ewlenin ta’ OpenAI. Il-biċċa l-kbira tal-klassifiki jagħtu prijorità u jikklassifikaw il-mudelli skont l-eżattezza, iżda l-iżbalji huma agħar mill-astensjonijiet. Il-Model Spec(jinfetaħ f’tieqa ġdida) tagħna tgħid li aħjar tindika l-inċertezza jew titlob kjarifika milli tipprovdi informazzjoni b’kunfidenza li tista’ tkun żbaljata. 

Għal eżempju konkret, ikkunsidra l-evalwazzjoni SimpleQA bħala eżempju mill-kard tas-sistema GPT5(jinfetaħ f’tieqa ġdida).

Metrika

gpt-5-thinking-mini

OpenAI o4-mini

Rata ta’ astensjoni
(ma tingħata l-ebda tweġiba speċifika) 

52%

1%

Rata ta’ eżattezza
(tweġiba tajba, iktar ma tkun għolja aħjar)

22%

24%

Rata ta’ żball
(tweġiba ħażina, iktar ma tkun baxxa aħjar)

26%

75%

Total

100%

100%

F’termini ta’ eżattezza, il-mudell OpenAI o4-mini l-aktar qadim jaħdem kemxejn aħjar. Madankollu, ir-rata tal-iżbalji tiegħu (jiġifieri, ir-rata ta’ alluċinazzjoni) hija ferm ogħla. Li taqta’ b’mod strateġiku meta tkun inċert itejjeb l-eżattezza iżda jżid l-iżbalji u l-alluċinazzjonijiet. 

Meta jiġu kkalkulati r-riżultati medji fuq għexieren ta’ evalwazzjonijiet, il-biċċa l-kbira tal-benchmarks jagħżlu l-metrika tal-eżattezza, iżda dan joħloq dikotomija falza bejn tajjeb u ħażin. Fuq evalwazzjonijiet sempliċi bħal SimpleQA, xi mudelli jilħqu kważi 100% eżattezza u b’hekk jeliminaw l-alluċinazzjonijiet. Madankollu, fuq evalwazzjonijiet aktar diffiċli u fl-użu reali, l-eżattezza tkun limitata għal inqas minn 100% għax hemm xi mistoqsijiet li t-tweġiba tagħhom ma tistax tiġi determinata għal diversi raġunijiet bħal informazzjoni mhux disponibbli, kapaċitajiet limitati ta’ ħsieb ta’ mudelli żgħar, jew ambigwitajiet li jeħtieġu kjarifika.

Minkejja dan, il-klassifiki bbażati biss fuq l-eżattezza jiddominaw il-leaderboards u l-iskedi -mudell, u dan jimmotiva lill-iżviluppaturi jibnu mudelli li jagħmlu qtajja’ aktar milli jżommu lura. Dik hija raġuni waħda għaliex, anke hekk kif il-mudelli jsiru aktar avvanzati, xorta jistgħu jalluċinaw, billi b’kunfidenza jagħtu tweġibiet żbaljati minflok jirrikonoxxu l-inċertezza.

Mod aħjar kif tingħata marka lill-evalwazzjonijiet

Hemm soluzzjoni diretta. Ikkastiga l-iżbalji kunfidenti aktar milli tikkastiga l-inċertezza, u agħti kreditu parzjali għal espressjonijiet xierqa ta’ inċertezza. Din l-idea mhijiex ġdida. Xi testijiet standardizzati ilhom jużaw verżjonijiet ta’ tnaqqis ta’ marki għal tweġibiet żbaljati jew kreditu parzjali għal meta mistoqsijiet jitħallew vojta biex jiskoraġġixxu l-qtajja’ għomja. Diversi gruppi ta’ riċerka esploraw ukoll evalwazzjonijiet li jqisu l-inċertezza u l-kalibrazzjoni.

Il-punt tagħna huwa differenti. Mhuwiex biżżejjed li żżid ftit testijiet ġodda konxji mill-inċertezza fil-ġenb. L-evalwazzjonijiet użati ħafna, ibbażati fuq l-eżattezza, għandhom jiġu aġġornati biex il-punteġġ tagħhom jiskoraġġixxi l-qtajja’. Jekk il-klassifiki ewlenin jibqgħu jippremjaw qtajja’ xxurtjati, il-mudelli jibqgħu jitgħallmu jaqtgħu. It-tiswija tal-klassifiki tista’ twessa’ l-adozzjoni ta’ tekniki għat-tnaqqis tal-alluċinazzjonijiet, kemm dawk żviluppati reċentement kif ukoll dawk minn riċerka preċedenti.

Kif l-alluċinazzjonijiet joriġinaw mit-tbassir tal-kelma li jmiss

Tkellimna dwar għaliex l-alluċinazzjonijiet huma tant diffiċli biex teħles minnhom, imma minn fejn jiġu dawn l-ineżattezzi fattwali speċifiċi ħafna? Wara kollox, mudelli kbar imħarrġa minn qabel rarament juru tipi oħra ta’ żbalji bħal żbalji ortografiċi u parentesi li ma jaqblux. Id-differenza għandha x’taqsam mat-tipi ta’ xejriet li hemm fid-data.

Il-mudelli tal-lingwa l-ewwel jitgħallmu permezz tal-pretraining, proċess ta’ tbassir tal-kelma li jmiss f’ammonti enormi ta’ test. B’differenza minn problemi tradizzjonali tat-tagħlim awtomatiku, ma hemmx tikketti ta’ “veru/falz” marbuta ma’ kull dikjarazzjoni. Il-mudell jara biss eżempji pożittivi ta’ lingwa fluwenti u jrid japprossima d-distribuzzjoni ġenerali. 

Huwa darbtejn diffiċli li tiddistingwi bejn dikjarazzjonijiet validi u invalidi meta ma jkollok l-ebda eżempju ttikkettat bħala invalidu. Iżda anke bit-tikketti, xi żbalji huma inevitabbli. Biex tifhem għaliex, ikkunsidra analoġija aktar sempliċi. Fir-rikonoxximent tal-immaġni, jekk miljuni ta’ ritratti ta’ qtates u klieb ikunu ttikkettati bħala “qattus” jew “kelb,” l-algoritmi jistgħu jitgħallmu jikklassifikawhom b’mod affidabbli. Iżda immaġina minflok li tittikketta kull ritratt ta’ annimal domestiku bid-data tat-twelid tal-annimal. Peress li d-dati tat-twelid huma essenzjalment każwali, dan il-kompitu dejjem jipproduċi żbalji, tkun kemm tkun avvanzata l-algoritmu.

L-istess prinċipju japplika fil-pretraining. L-ortografija u l-parentesi jsegwu xejriet konsistenti, għalhekk l-iżbalji hemmhekk jisparixxu bl-iskala. Iżda fatti arbitrarji u ta’ frekwenza baxxa, bħad-data tat-twelid ta’ annimal domestiku, ma jistgħux jiġu mbassra mix-xejriet biss u għalhekk iwasslu għal alluċinazzjonijiet. L-analiżi tagħna tispjega liema tipi ta’ alluċinazzjonijiet għandhom joriġinaw mit-tbassir tal-kelma li jmiss. Idealment, stadji oħra wara l-pretraining għandhom ineħħuhom, iżda dan ma jirnexxix kompletament għar-raġunijiet deskritti fit-taqsima preċedenti. 

Konklużjonijiet

Nittamaw li l-lenti statistika fil-karta tagħna tiċċara n-natura tal-alluċinazzjonijiet u tirribatti xi kunċetti żbaljati komuni:

  • Stqarrija: L-alluċinazzjonijiet se jiġu eliminati billi tittejjeb l-eżattezza għax mudell b’eżattezza ta’ 100% qatt ma jalluċina.
    Sejba:
    L-eżattezza qatt mhi se tilħaq 100% għax, irrispettivament mid-daqs tal-mudell, il-kapaċitajiet tat-tiftix u tar-raġunament, xi mistoqsijiet tad-dinja reali huma intrinsikament mingħajr tweġiba. 
  • Stqarrija: L-alluċinazzjonijiet huma inevitabbli.
    Sejba:
    Mhumiex, għax il-mudelli tal-lingwa jistgħu jastjenu meta jkunu inċerti.
  • Stqarrija: Biex tevita l-alluċinazzjonijiet hemm bżonn grad ta’ intelliġenza li jista’ jintlaħaq esklussivament b’mudelli akbar.
    Sejba:
    Jista’ jkun aktar faċli għal mudell żgħir li jkun jaf il-limiti tiegħu. Pereżempju, meta jiġi mistoqsi jwieġeb mistoqsija bil-Māori, mudell żgħir li ma jaf ebda Māori jista’ sempliċement jgħid “Ma nafx” filwaqt li mudell li jaf ftit Māori jrid jiddetermina l-livell ta’ kunfidenza tiegħu. Kif jiġi diskuss fil-karta, li tkun “ikkalibrat” jeħtieġ ħafna inqas komputazzjoni milli tkun preċiż.
  • Stqarrija: L-alluċinazzjonijiet huma glitch misterjuż fil-mudelli moderni tal-lingwa.
    Sejba:
    Nifhmu l-mekkaniżmi statistiċi li permezz tagħhom l-alluċinazzjonijiet jinqalgħu u jiġu ppremjati fl-evalwazzjonijiet.
  • Stqarrija: Biex inkejlu l-alluċinazzjonijiet, neħtieġu biss evalwazzjoni tajba tal-alluċinazzjonijiet.
    Sejba:
    Evalwazzjonijiet tal-alluċinazzjonijiet ġew ippubblikati. Madankollu, evalwazzjoni tajba tal-alluċinazzjonijiet għandha ftit effett kontra mijiet ta’ evalwazzjonijiet tradizzjonali bbażati fuq l-eżattezza li jikkastigaw l-umiltà u jippremjaw il-qtajja’. Minflok, il-metriċi kollha ewlenin tal-evalwazzjoni jeħtieġ li jinħadmu mill-ġdid biex jippremjaw l-espressjonijiet tal-inċertezza.

L-aħħar mudelli tagħna għandhom rati aktar baxxi ta’ alluċinazzjoni, u aħna nkomplu naħdmu bis-sħiħ biex innaqqsu aktar ir-rati ta’ żbalji kunfidenti prodotti mill-mudelli tal-lingwa tagħna.

Kontributuri tat-tħabbira

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, u Johannes Heidecke