
Në OpenAI, po punojmë shumë për t'i bërë sistemet e AI më të dobishme dhe të besueshme. Edhe ndërsa modelet gjuhësore po bëhen më të afta, mbetet një sfidë mjaft e vështirë për t'u zgjidhur plotësisht: halucinacionet. Me këtë nënkuptojmë raste kur një model gjeneron me besim një përgjigje që nuk është e vërtetë. Punimi ynë i ri kërkimor(hapet në një dritare të re) argumenton se modelet gjuhësore halucinojnë sepse procedurat standarde të trajnimit dhe vlerësimit shpërblejnë hamendësimin në vend të pranimit të pasigurisë.
ChatGPT gjithashtu halucinon. GPT‑5 ka dukshëm më pak halucinacione veçanërisht kur arsyeton, por ato ende ndodhin. Halucinacionet mbeten një sfidë themelore për të gjitha modelet e mëdha gjuhësore por ne po punojmë shumë për t'i zvogëluar më tej.
Halucinacionet janë deklarata të besueshme, por të rreme të përftuara nga modelet gjuhësore. Ato mund të shfaqen në mënyra të papritura, madje edhe për pyetje që duken të thjeshta. Për shembull, kur e pyetëm një chatbot të përdorur gjerësisht për titullin e disertacionit të doktoraturës nga Adam Tauman Kalai (një autor i këtij punimi), ai me besim dha tre përgjigje të ndryshme - asnjëra prej tyre nuk ishte e saktë. Kur e pyetëm për ditëlindjen e tij, na dha tre data të ndryshme, të gjitha të gabuara.
Halucinacionet vazhdojnë pjesërisht sepse metodat aktuale të vlerësimit krijojnë stimuj të gabuar. Ndërsa vlerësimet vetë nuk shkaktojnë drejtpërdrejt halucinacione, shumica e vlerësimeve matin performancën e modelit në një mënyrë që inkurajon hamendjen në vend të sinqeritetit për pasigurinë.
Mendo për këtë si një test me zgjedhje të shumëfishta. Nëse nuk e di përgjigjen, por bën një hamendje të pabazë, mund të kesh fat dhe të kesh të drejtë. Lënia bosh garanton një zero. Në të njëjtën mënyrë, kur modelet vlerësohen vetëm për saktësinë, përqindjen e pyetjeve që i përgjigjen saktësisht, ato inkurajohen të hamendësojnë në vend që të thonë “Nuk e di”.
Si një shembull tjetër, supozojmë se një modeli gjuhësor i kërkohet ditëlindja e dikujt, por nuk e di. Nëse mendon “10 shtator”, ka një shans 1 në 365 për të qenë i saktë. Të thuash "nuk e di" të garanton zero pikë. Pas mijëra pyetjeve të testit, modeli i hamendësimit përfundon më mirë në tabelat e rezultateve sesa një model i kujdesshëm që e pranon pasigurinë.
Për pyetjet ku ka vetëm një “përgjigje të saktë”, mund të konsiderohen tre kategori përgjigjesh: përgjigje të sakta, gabime dhe abstenime, ku modeli nuk guxon të bëjë një hamendje. Abstenimi është pjesë e përulësisë, një nga vlerat thelbësore të OpenAI. Shumica e tabelave të rezultateve i japin përparësi dhe renditin modelet bazuar në saktësi, por gabimet janë më të këqija se abstenimet. Specifikimi modelit(hapet në një dritare të re) tonë thotë se është më mirë të tregosh pasiguri ose të kërkosh sqarim sesa të japësh informacion të sigurt që mund të jetë i pasaktë.
Për një shembull konkret, merr parasysh vlerësimin SimpleQA si një shembull nga Karta e Sistemit GPT5(hapet në një dritare të re).
Metër | gpt-5-thinking-mini | OpenAI o4-mini |
Shkalla e abstenimit | 52% | 1% |
Shkalla e saktësisë | 22% | 24% |
Shkalla e gabimit | 26% | 75% |
Totali | 100% | 100% |
Sa i përket saktësisë, modeli më i vjetër OpenAI o4-mini funksionon pak më mirë. Megjithatë, shkalla e gabimit (p.sh., shkalla e halucinacioneve) është dukshëm më e lartë. Të hamendësosh në mënyrë strategjike kur je i pasigurt përmirëson saktësinë, por rrit gabimet dhe halucinacionet.
Kur bëhet mesatarja e rezultateve në dhjetëra vlerësime, shumica e standardeve nxjerrin metrikën e saktësisë, por kjo përfshin një dikotomi të rreme midis të drejtës dhe të gabuarës. Në vlerësimet e thjeshta si SimpleQA, disa modele arrijnë saktësi afër 100% dhe kështu eliminojnë halucinacionet. Megjithatë, për vlerësime më sfiduese dhe në përdorim real, saktësia kufizohet nën 100% sepse ka disa pyetje, përgjigjja e të cilave nuk mund të përcaktohet për një sërë arsyesh, si informacioni i padisponueshëm, aftësitë e kufizuara të të menduarit të modeleve të vogla, ose paqartësitë që duhen sqaruar.
Sidoqoftë, tabelat e rezultateve të bazuara vetëm në saktësi dominojnë klasifikimet dhe kartat e modeleve, duke motivuar zhvilluesit të ndërtojnë modele që hamendësojnë në vend që të përmbahen. Kjo është një arsye se përse, edhe kur modelet bëhen më të avancuara, ato ende mund të halucinojnë, duke dhënë me besim përgjigje të gabuara në vend që të pranojnë pasigurinë.
Ekziston një zgjidhje e drejtpërdrejtë. Penalizim më i madh i gabimeve me vetëbesim sesa i pasigurisë dhe dhënie e meritave të pjesshme për shprehjet e përshtatshme të pasigurisë. Kjo ide nuk është e re. Disa teste të standardizuara prej kohësh përdorin versione të vlerësimit negativ për përgjigje të gabuara ose merita të pjesshme për lënien e pyetjeve bosh, për të dekurajuar hamendësimin e verbër. Disa grupe kërkimore kanë eksploruar gjithashtu vlerësimet që marrin parasysh pasigurinë dhe kalibrimin.
Qëndrimi ynë është i ndryshëm. Nuk mjafton të shtosh vetëm disa teste të reja që marrin parasysh pasigurinë. Vlerësimet e përdorura gjerësisht, të bazuara në saktësi, duhet të përditësohen që vlerësimi i tyre të mos inkurajojë hamendësimet. Nëse tabelat kryesore të rezultateve vazhdojnë të shpërblejnë hamendësimet me fat, modelet do të vazhdojnë të mësojnë të hamendësojnë. Rregullimi i tabelave të rezultateve mund të zgjerojë përvetësimin e teknikave për reduktimin e halucinacioneve, si të zhvilluara rishtazi, ashtu edhe të atyre nga kërkimet e mëparshme.
Kemi folur përse halucinacionet janë kaq të vështira për t'u eliminuar, por nga vijnë këto pasaktësi shumë specifike faktike në radhë të parë? Në fund të fundit, modelet e mëdha të para-trajnuara rrallëherë shfaqin lloje të tjera gabimesh, siç janë gabimet drejtshkrimore dhe kllapat e papërputhura. Dallimi ka të bëjë me llojet e organizimit të të dhënave.
Modelet gjuhësore fillimisht mësojnë përmes para-trajnimit, një proces i parashikimit të fjalës së radhës në sasi të mëdha teksti. Ndryshe nga problemet tradicionale të të mësuarit automatik, nuk ka etiketa “e vërtetë/e gabuar” të bashkangjitura në secilën deklaratë. Modeli sheh vetëm shembuj pozitivë të gjuhës së rrjedhshme dhe duhet të përafrojë shpërndarjen e përgjithshme.
Është dy herë më e vështirë të dallosh pohimet e vlefshme nga ato të pavlefshme kur nuk ke asnjë shembull të etiketuar si të pavlefshëm. Por edhe me etiketat, disa gabime janë të pashmangshme. Për të parë se përse, merr parasysh një analogji më të thjeshtë. Në njohjen e imazheve, nëse miliona fotografi të maceve dhe qenve etiketohen si “mace” ose “qen”, algoritmet mund të mësojnë t'i klasifikojnë ato në mënyrë të besueshme. Por imagjino sikur të etiketosh çdo foto të kafshës shtëpiake sipas ditëlindjes së saj. Meqenëse ditëlindjet janë në thelb të rastësishme, kjo detyrë do të prodhonte gjithmonë gabime, pavarësisht se sa i avancuar është algoritmi.
I njëjti parim zbatohet edhe në para-trajnim. Drejtshkrimi dhe kllapat ndjekin modele të qëndrueshme, kështu që gabimet atje zhduken me rritjen e shkallës së modelit. Por faktet arbitrare me frekuencë të ulët, si ditëlindja e një kafshe shtëpiake, nuk mund të parashikohen vetëm nga modelet dhe për këtë arsye çojnë në halucinacione. Analiza jonë shpjegon se cilat lloje halucinacionesh duhet të lindin nga parashikimi i fjalës së radhës. Në mënyrë ideale, fazat e mëtejshme pas trajnimit paraprak duhet t'i heqin ato, por kjo nuk është plotësisht e suksesshme për arsyet e përshkruara në seksionin e mëparshëm.
Shpresojmë që këndvështrimi statistikor në punimin tonë të sqarojë natyrën e halucinacioneve dhe shmangë keqkuptimet e zakonshme:
- Pohimi: Halucinacionet do të eliminohen duke përmirësuar saktësinë sepse një model 100% i saktë nuk ka kurrë halucinacione.
Gjetja: Saktësia nuk do të arrijë kurrë 100% sepse, pavarësisht nga madhësia e modelit, aftësitë e kërkimit dhe arsyetimit, disa pyetjeve të botës reale në thelb nuk mund t'u gjenden përgjigjet. - Pohimi: Halucinacionet janë të pashmangshme.
Gjetja: Nuk janë të tilla, sepse modelet gjuhësore mund të abstenojnë kur janë të pasigurta. - Pohimi: Shmangia e halucinacioneve kërkon një shkallë inteligjence që është e arritshme vetëm me modele më të mëdha.
Gjetja: Mund të jetë më e lehtë për një model të vogël të njohë kufijtë e tij. Për shembull, kur i kërkohet t'i përgjigjet një pyetjeje në gjuhën maori, një model i vogël që nuk njeh fare gjuhën maori mund të thotë thjesht “Nuk e di”, ndërsa një model që njeh pak maori duhet të përcaktojë nivelin e vetëbesimit të tij. Siç u diskutua në punim, të qenit “i kalibruar” kërkon shumë më pak llogaritje sesa të qenit i saktë. - Pohim: Halucinacionet janë një defekt misterioz në modelet moderne të modelit gjuhësor.
Gjetje: Ne i kuptojmë mekanizmat statistikorë përmes të cilëve lindin halucinacionet dhe shpërblehen në vlerësime. - Pohimi: Për të matur halucinacionet, na duhet vetëm një vlerësim i mirë për to.
Gjetja: Vlerësimet për halucinacionet janë publikuar. Megjithatë, një vlerësim i mirë i halucinacioneve ka pak efekt kundrejt qindra vlerësimeve tradicionale të bazuara në saktësi që ndëshkojnë përulësinë dhe shpërblejnë hamendësimin. Në vend të kësaj, të gjitha metrikat kryesore të vlerësimit duhet të ripërpunohen për të shpërblyer shprehjet e pasigurisë.
Modelet tona më të fundit kanë shkallë më të ulëta të halucinacioneve dhe ne vazhdojmë të punojmë shumë për të ulur më tej shkallën e gabimeve të bëra me vetëbesim të dhëna nga modeleve tona gjuhësore.
Kontribuesit e njoftimeve
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel dhe Johannes Heidecke


