
F’OpenAI, qed naħdmu bis-sħiħ biex nagħmlu s-sistemi tal-IA aktar utli u affidabbli. Anke hekk kif il-mudelli tal-lingwa jsiru aktar kapaċi, sfida waħda tibqa’ diffiċli ħafna biex tissolva kompletament: l-alluċinazzjonijiet. B’dan nifhmu każijiet fejn mudell jiġġenera b’kunfidenza tweġiba li mhijiex vera. Il-karta ta’ riċerka l-ġdida(jinfetaħ f’tieqa ġdida) tagħna targumenta li l-mudelli tal-lingwa jalluċinaw għax il-proċeduri standard tat-taħriġ u tal-evalwazzjoni jippremjaw il-ħsieb bil-qtajja’ aktar milli r-rikonoxximent tal-inċertezza.
ChatGPT jalluċina wkoll. GPT‑5 għandu ferm inqas alluċinazzjonijiet speċjalment meta juża r-raġunament, iżda xorta jiġru. L-alluċinazzjonijiet jibqgħu sfida fundamentali għall-mudelli kbar kollha tal-lingwa, iżda qed naħdmu bis-sħiħ biex innaqqsuhom aktar.
L-alluċinazzjonijiet huma dikjarazzjonijiet plawsibbli iżda foloz iġġenerati mill-mudelli tal-lingwa. Jistgħu jidhru b’modi sorprendenti, anke għal mistoqsijiet li jidhru pjuttost diretti. Pereżempju, meta staqsejna chatbot użat b’mod mifrux għat-titlu tad-dissertazzjoni tal-PhD ta’ Adam Tauman Kalai (wieħed mill-awturi ta’ din il-karta), ipproduċa b’kunfidenza tliet tweġibiet differenti—u l-ebda waħda minnhom ma kienet korretta. Meta staqsejnieh għad-data tat-twelid tiegħu, tana tliet dati differenti, u dawn ukoll kienu kollha żbaljati.
L-alluċinazzjonijiet jippersistu parzjalment għax il-metodi attwali ta’ evalwazzjoni joħolqu l-inċentivi żbaljati. Għalkemm l-evalwazzjonijiet infushom ma jikkawżawx alluċinazzjonijiet direttament, il-biċċa l-kbira tal-evalwazzjonijiet ikejlu l-prestazzjoni tal-mudell b’mod li jħeġġeġ il-qtajja’ aktar mill-onestà dwar l-inċertezza.
Aħseb fiha bħal test b’għażla multipla. Jekk ma tafx it-tweġiba iżda tagħmel qtajja’ selvaġġa, jista’ jinzerta u jkollok raġun. Li tħalliha vojta jiggarantixxi żero. Bl-istess mod, meta l-mudelli jiġu mmarkati biss fuq l-eżattezza, jiġifieri l-perċentwal tal-mistoqsijiet li jwieġbu eżatt tajjeb, huma jiġu mħeġġa jagħmlu qtajja’ flok jgħidu “Ma nafx.”
Bħala eżempju ieħor, ejja ngħidu li mudell tal-lingwa jiġi mistoqsi għad-data tat-twelid ta’ xi ħadd iżda ma jafhiex. Jekk jaqta’ “10 ta’ Settembru,” għandu ċans ta’ 1 minn 365 li jkun korrett. Li jgħid “Ma nafx” jiggarantixxi żero punti. Fuq eluf ta’ mistoqsijiet tat-test, il-mudell li jaqta’ jispiċċa jidher aħjar fuq il-klassifiki minn mudell kawt li jammetti l-inċertezza.
Għal mistoqsijiet fejn hemm “tweġiba tajba” waħda, wieħed jista’ jqis tliet kategoriji ta’ tweġibiet: tweġibiet preċiżi, żbalji, u astensjonijiet fejn il-mudell ma jazzardax jagħmel qtajja’. L-astensjoni hija parti mill-umiltà, wieħed mill-valuri ewlenin ta’ OpenAI. Il-biċċa l-kbira tal-klassifiki jagħtu prijorità u jikklassifikaw il-mudelli skont l-eżattezza, iżda l-iżbalji huma agħar mill-astensjonijiet. Il-Model Spec(jinfetaħ f’tieqa ġdida) tagħna tgħid li aħjar tindika l-inċertezza jew titlob kjarifika milli tipprovdi informazzjoni b’kunfidenza li tista’ tkun żbaljata.
Għal eżempju konkret, ikkunsidra l-evalwazzjoni SimpleQA bħala eżempju mill-kard tas-sistema GPT5(jinfetaħ f’tieqa ġdida).
Metrika | gpt-5-thinking-mini | OpenAI o4-mini |
Rata ta’ astensjoni | 52% | 1% |
Rata ta’ eżattezza | 22% | 24% |
Rata ta’ żball | 26% | 75% |
Total | 100% | 100% |
F’termini ta’ eżattezza, il-mudell OpenAI o4-mini l-aktar qadim jaħdem kemxejn aħjar. Madankollu, ir-rata tal-iżbalji tiegħu (jiġifieri, ir-rata ta’ alluċinazzjoni) hija ferm ogħla. Li taqta’ b’mod strateġiku meta tkun inċert itejjeb l-eżattezza iżda jżid l-iżbalji u l-alluċinazzjonijiet.
Meta jiġu kkalkulati r-riżultati medji fuq għexieren ta’ evalwazzjonijiet, il-biċċa l-kbira tal-benchmarks jagħżlu l-metrika tal-eżattezza, iżda dan joħloq dikotomija falza bejn tajjeb u ħażin. Fuq evalwazzjonijiet sempliċi bħal SimpleQA, xi mudelli jilħqu kważi 100% eżattezza u b’hekk jeliminaw l-alluċinazzjonijiet. Madankollu, fuq evalwazzjonijiet aktar diffiċli u fl-użu reali, l-eżattezza tkun limitata għal inqas minn 100% għax hemm xi mistoqsijiet li t-tweġiba tagħhom ma tistax tiġi determinata għal diversi raġunijiet bħal informazzjoni mhux disponibbli, kapaċitajiet limitati ta’ ħsieb ta’ mudelli żgħar, jew ambigwitajiet li jeħtieġu kjarifika.
Minkejja dan, il-klassifiki bbażati biss fuq l-eżattezza jiddominaw il-leaderboards u l-iskedi -mudell, u dan jimmotiva lill-iżviluppaturi jibnu mudelli li jagħmlu qtajja’ aktar milli jżommu lura. Dik hija raġuni waħda għaliex, anke hekk kif il-mudelli jsiru aktar avvanzati, xorta jistgħu jalluċinaw, billi b’kunfidenza jagħtu tweġibiet żbaljati minflok jirrikonoxxu l-inċertezza.
Hemm soluzzjoni diretta. Ikkastiga l-iżbalji kunfidenti aktar milli tikkastiga l-inċertezza, u agħti kreditu parzjali għal espressjonijiet xierqa ta’ inċertezza. Din l-idea mhijiex ġdida. Xi testijiet standardizzati ilhom jużaw verżjonijiet ta’ tnaqqis ta’ marki għal tweġibiet żbaljati jew kreditu parzjali għal meta mistoqsijiet jitħallew vojta biex jiskoraġġixxu l-qtajja’ għomja. Diversi gruppi ta’ riċerka esploraw ukoll evalwazzjonijiet li jqisu l-inċertezza u l-kalibrazzjoni.
Il-punt tagħna huwa differenti. Mhuwiex biżżejjed li żżid ftit testijiet ġodda konxji mill-inċertezza fil-ġenb. L-evalwazzjonijiet użati ħafna, ibbażati fuq l-eżattezza, għandhom jiġu aġġornati biex il-punteġġ tagħhom jiskoraġġixxi l-qtajja’. Jekk il-klassifiki ewlenin jibqgħu jippremjaw qtajja’ xxurtjati, il-mudelli jibqgħu jitgħallmu jaqtgħu. It-tiswija tal-klassifiki tista’ twessa’ l-adozzjoni ta’ tekniki għat-tnaqqis tal-alluċinazzjonijiet, kemm dawk żviluppati reċentement kif ukoll dawk minn riċerka preċedenti.
Tkellimna dwar għaliex l-alluċinazzjonijiet huma tant diffiċli biex teħles minnhom, imma minn fejn jiġu dawn l-ineżattezzi fattwali speċifiċi ħafna? Wara kollox, mudelli kbar imħarrġa minn qabel rarament juru tipi oħra ta’ żbalji bħal żbalji ortografiċi u parentesi li ma jaqblux. Id-differenza għandha x’taqsam mat-tipi ta’ xejriet li hemm fid-data.
Il-mudelli tal-lingwa l-ewwel jitgħallmu permezz tal-pretraining, proċess ta’ tbassir tal-kelma li jmiss f’ammonti enormi ta’ test. B’differenza minn problemi tradizzjonali tat-tagħlim awtomatiku, ma hemmx tikketti ta’ “veru/falz” marbuta ma’ kull dikjarazzjoni. Il-mudell jara biss eżempji pożittivi ta’ lingwa fluwenti u jrid japprossima d-distribuzzjoni ġenerali.
Huwa darbtejn diffiċli li tiddistingwi bejn dikjarazzjonijiet validi u invalidi meta ma jkollok l-ebda eżempju ttikkettat bħala invalidu. Iżda anke bit-tikketti, xi żbalji huma inevitabbli. Biex tifhem għaliex, ikkunsidra analoġija aktar sempliċi. Fir-rikonoxximent tal-immaġni, jekk miljuni ta’ ritratti ta’ qtates u klieb ikunu ttikkettati bħala “qattus” jew “kelb,” l-algoritmi jistgħu jitgħallmu jikklassifikawhom b’mod affidabbli. Iżda immaġina minflok li tittikketta kull ritratt ta’ annimal domestiku bid-data tat-twelid tal-annimal. Peress li d-dati tat-twelid huma essenzjalment każwali, dan il-kompitu dejjem jipproduċi żbalji, tkun kemm tkun avvanzata l-algoritmu.
L-istess prinċipju japplika fil-pretraining. L-ortografija u l-parentesi jsegwu xejriet konsistenti, għalhekk l-iżbalji hemmhekk jisparixxu bl-iskala. Iżda fatti arbitrarji u ta’ frekwenza baxxa, bħad-data tat-twelid ta’ annimal domestiku, ma jistgħux jiġu mbassra mix-xejriet biss u għalhekk iwasslu għal alluċinazzjonijiet. L-analiżi tagħna tispjega liema tipi ta’ alluċinazzjonijiet għandhom joriġinaw mit-tbassir tal-kelma li jmiss. Idealment, stadji oħra wara l-pretraining għandhom ineħħuhom, iżda dan ma jirnexxix kompletament għar-raġunijiet deskritti fit-taqsima preċedenti.
Nittamaw li l-lenti statistika fil-karta tagħna tiċċara n-natura tal-alluċinazzjonijiet u tirribatti xi kunċetti żbaljati komuni:
- Stqarrija: L-alluċinazzjonijiet se jiġu eliminati billi tittejjeb l-eżattezza għax mudell b’eżattezza ta’ 100% qatt ma jalluċina.
Sejba: L-eżattezza qatt mhi se tilħaq 100% għax, irrispettivament mid-daqs tal-mudell, il-kapaċitajiet tat-tiftix u tar-raġunament, xi mistoqsijiet tad-dinja reali huma intrinsikament mingħajr tweġiba. - Stqarrija: L-alluċinazzjonijiet huma inevitabbli.
Sejba: Mhumiex, għax il-mudelli tal-lingwa jistgħu jastjenu meta jkunu inċerti. - Stqarrija: Biex tevita l-alluċinazzjonijiet hemm bżonn grad ta’ intelliġenza li jista’ jintlaħaq esklussivament b’mudelli akbar.
Sejba: Jista’ jkun aktar faċli għal mudell żgħir li jkun jaf il-limiti tiegħu. Pereżempju, meta jiġi mistoqsi jwieġeb mistoqsija bil-Māori, mudell żgħir li ma jaf ebda Māori jista’ sempliċement jgħid “Ma nafx” filwaqt li mudell li jaf ftit Māori jrid jiddetermina l-livell ta’ kunfidenza tiegħu. Kif jiġi diskuss fil-karta, li tkun “ikkalibrat” jeħtieġ ħafna inqas komputazzjoni milli tkun preċiż. - Stqarrija: L-alluċinazzjonijiet huma glitch misterjuż fil-mudelli moderni tal-lingwa.
Sejba: Nifhmu l-mekkaniżmi statistiċi li permezz tagħhom l-alluċinazzjonijiet jinqalgħu u jiġu ppremjati fl-evalwazzjonijiet. - Stqarrija: Biex inkejlu l-alluċinazzjonijiet, neħtieġu biss evalwazzjoni tajba tal-alluċinazzjonijiet.
Sejba: Evalwazzjonijiet tal-alluċinazzjonijiet ġew ippubblikati. Madankollu, evalwazzjoni tajba tal-alluċinazzjonijiet għandha ftit effett kontra mijiet ta’ evalwazzjonijiet tradizzjonali bbażati fuq l-eżattezza li jikkastigaw l-umiltà u jippremjaw il-qtajja’. Minflok, il-metriċi kollha ewlenin tal-evalwazzjoni jeħtieġ li jinħadmu mill-ġdid biex jippremjaw l-espressjonijiet tal-inċertezza.
L-aħħar mudelli tagħna għandhom rati aktar baxxi ta’ alluċinazzjoni, u aħna nkomplu naħdmu bis-sħiħ biex innaqqsu aktar ir-rati ta’ żbalji kunfidenti prodotti mill-mudelli tal-lingwa tagħna.
Kontributuri tat-tħabbira
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, u Johannes Heidecke


