
Töötame OpenAI-s usinalt selle nimel, et muuta tehisintellekti süsteemid kasulikumaks ja usaldusväärsemaks. Isegi keelemudelite võimekuse paranemisel on üks probleem endiselt raskesti lahendatav. Selleks on hallutsinatsioonid. Selle all mõtleme juhtumeid, kus mudel koostab enesekindlalt vastuse, mis ei ole tõene. Meie uus uurimistöö(avaneb uues aknas) näitab, et keelemudelid hallutsineerivad, kuna standardsed treenimis- ja hindamisprotseduurid soosivad arvamist ebakindluse tunnistamisele.
ChatGPT hallutsineerib samuti. GPT‑5‑l esineb oluliselt vähem hallutsinatsioone, eriti arutlemisel, kuid neid siiski esineb. Hallutsinatsioonid jäävad kõigi suurte keelemudelite jaoks põhiprobleemiks, kuid me pingutame kõvasti, et neid vähendada.
Hallutsinatsioonid on keelemudelite genereeritud usutavad, kuid valed väited. Need võivad ilmneda üllataval viisil isegi näiliselt lihtsate küsimuste puhul. Näiteks, kui me küsisime laialdaselt kasutatavalt vestlusrobotilt Adam Tauman Kalai (selle artikli autor) doktoritöö pealkirja, andis see enesekindlalt kolm erinevat vastust, millest ükski ei olnud õige. Kui me küsisime tema sünnipäeva, andis see kolm erinevat kuupäeva, mis kõik olid samuti valed.
Hallutsinatsioonid püsivad osaliselt seetõttu, et praegused hindamismeetodid loovad valesid stiimuleid. Kuigi hindamistestid ise ei põhjusta otseselt hallutsinatsioone, mõõdavad enamik neist mudeli toimivust viisil, mis soodustab pigem arvamist kui ausust ebakindluse suhtes.
Mõtle sellest kui valikvastustega testist. Kui sa vastust ei tea, aga pakud huupi, siis võib sul vedada ja õigus olla. Valiku tegemata jätmine tähendab nulli. Samamoodi, kui mudeleid hinnatakse ainult täpsuse järgi, st protsendi järgi, kui palju küsimusi nad täpselt õigesti vastavad, julgustatakse neid pigem arvama kui ütlema „Ma ei tea”.
Teise näitena, oletame, et keelemudelilt küsitakse kellegi sünnipäeva, kuid ta ei tea seda. Kui see arvab „10. september”, on tõenäosus õigesti arvata 1:365. „Ma ei tea“ ütlemine garanteerib null punkti. Tuhandete testiküsimuste puhul näeb arvamismudel tulemustabelites parem välja kui ebakindlust tunnistav ettevaatlik mudel.
Küsimuste puhul, kus on ainult üks „õige vastus”, võib kaaluda kolme vastuste kategooriat: täpsed vastused, vead ja vastamisest hoidumine, kui mudel ei julge arvata. Vastamisest hoidumine on osa alandlikkusest, mis on üks OpenAI põhiväärtustest. Enamik tulemustabeleid seab mudeleid tähtsuse järjekorda ja järjestab neid täpsuse alusel, kusjuures vead on halvemad kui vastamisest hoidumised. Meie mudeli spetsifikatsioon(avaneb uues aknas) ütleb, et parem on ebakindlust näidata või selgitust küsida, kui anda kindlat teavet, mis võib olla vale.
Konkreetse näitena vaatleme GPT5 süsteemikaardi(avaneb uues aknas) SimpleQA hindamistesti.
Mõõdik | gpt-5-thinking-mini | OpenAI o4-mini |
Vastamisest hoidumise määr | 52% | 1% |
Täpsusmäär | 22% | 24% |
Vigade määr | 26% | 75% |
Kokku | 100% | 100% |
Täpsuse poolest töötab vanem OpenAI o4-mini mudel veidi paremini. Siiski on selle veamäär (ehk hallutsinatsioonide määr) märkimisväärselt kõrgem. Strateegiline arvamine ebakindluse korral parandab täpsust, kuid suurendab vigade ja hallutsinatsioonide hulka.
Kümnete hindamiste tulemuste keskmistamisel võtavad enamik võrdlusaluseid arvesse täpsuse mõõdikut, kuid see toob kaasa vale dihhotoomia õige ja vale vahel. Lihtsate hindamistestide puhul, nagu SimpleQA, saavutavad mõned mudelid peaaegu 100% täpsuse ja kõrvaldavad seeläbi hallutsinatsioonid. Siiski, keerukamate hindamistestide puhul ja reaalses kasutuses jääb täpsus alla 100%, kuna on küsimusi, millele ei saa vastust kindlaks määrata mitmesugustel põhjustel, näiteks kättesaamatu teave, väikeste mudelite piiratud mõtlemisvõime või selgitamist vajavad ebaselgused.
Siiski domineerivad edetabelites ja mudelikaartidel täpsusele keskenduvad tulemustabelid, motiveerides arendajaid looma mudeleid, mis pigem arvavad kui hoiduvad vastamast. See on üks põhjus, miks isegi mudelite arenedes võivad nad ikkagi hallutsinatsioone kogeda, andes enesekindlalt valesid vastuseid, selle asemel et ebakindlust tunnistada.
On olemas lihtne lahendus. Karista enesekindlate vigade eest rohkem kui ebakindluse eest ning tunnusta veidi ebakindluse sobiva väljendamise eest. See idee ei ole uus. Mõned standardiseeritud testid on pikka aega kasutanud valede vastuste eest negatiivse hinde andmist või osalise punkti andmist küsimuste tühjaks jätmise eest, et vältida pimesi arvamist. Mitmed uurimisrühmad on samuti uurinud hindamisteste, mis arvestavad ebakindlust ja kalibreerimist.
Meie seisukoht on erinev. Paari uue ebakindlust arvestava testi lisamisest ei piisa. Laialdaselt kasutatavaid täpsuspõhiseid hindamisteste tuleb ajakohastada, et nende punktisüsteem ei soodustaks arvamist. Kui peamised tulemustabelid jätkavad edukate arvamiste eest punktide andmist, õpivad mudelid jätkuvalt arvama. Tulemustabelite parandamine võib laiendada hallutsinatsioone vähendavate tehnikate kasutuselevõttu, nii uute kui ka varasemate uuringute tulemusel välja töötatud tehnikate puhul.
Oleme rääkinud sellest, miks hallutsinatsioonidest on nii raske lahti saada, aga kust need väga spetsiifilised faktilised ebatäpsused üldse tulevad? Lõppude lõpuks esineb suurtes eeltreenitud mudelites harva muud tüüpi vigu, nagu õigekirja- ja sulgude paigutusvead. Erinevus seisneb selles, milliseid mustreid andmetes leidub.
Keelemudelid õpivad esmalt eeltreenimise kaudu, mis on protsess, mille käigus ennustatakse tohutus tekstimahus järgmine sõna. Erinevalt traditsioonilistest masinõppeprobleemidest ei ole iga väite juures „tõene/väär” silte. Mudel näeb ainult ladusa keele positiivseid näiteid ja peab ligikaudselt hindama üldist jaotust.
Kehtivate ja kehtetute väidete eristamine on kahekordselt raske, kui pole ühtegi vääraks märgitud näidet. Kuid isegi siltidega on mõned vead vältimatud. Selle mõistmiseks tuleks kaaluda lihtsamat analoogiat. Pildituvastuses, kui miljoneid kassi- ja koerafotosid märgistatakse „kassi” või „koera” sildiga, saavad algoritmid õppida neid usaldusväärselt klassifitseerima. Aga kujuta ette, et märgistad iga lemmiklooma foto hoopis lemmiklooma sünnipäeva järgi. Kuna sünnipäevad on sisuliselt juhuslikud, tekiks selle ülesande lahendamisel alati vead, ükskõik kui arenenud algoritm ka poleks.
Sama põhimõte kehtib ka eeltreeningu puhul. Õigekiri ja sulud järgivad ühtseid mustreid, seega kaovad sealsed vead skaleerimisel. Kuid suvalisi harva korduvaid fakte, nagu lemmiklooma sünnipäev, ei saa ennustada ainult mustrite põhjal ja seetõttu võivad need viia hallutsinatsioonideni. Meie analüüs selgitab, millised hallutsinatsioonid võivad tekkida järgmise sõna ennustamisest. Ideaalsel juhul peaksid täiendavad etapid pärast eeltreeningut need eemaldama, kuid see ei ole eelnevas osas kirjeldatud põhjustel täielikult edukas.
Loodame, et meie artikli statistiline vaatenurk selgitab hallutsinatsioonide olemust ja lükkab tagasi levinud väärarusaamad.
- Väide – Hallutsinatsioonid kõrvaldatakse täpsuse parandamisega, sest 100% täpne mudel ei hallutsineeri kunagi. Järeldus – Täpsus ei ole kunagi 100%, sest olenemata mudeli suurusest, otsingu- ja arutlusvõimest pole mõnedele reaalse maailma küsimustele võimalik vastata.
- Väide – Hallutsinatsioonid on vältimatud.
Järeldus – Need ei ole, sest keelemudelid võivad ebakindluse korral vastamisest hoiduda. - Väide – Hallutsinatsioonide vältimine nõuab teatud intelligentsust, mida on võimalik saavutada ainult suuremate mudelitega.
Järeldus – Väikese mudeli puhul võib olla lihtsam oma piire tunnetada. Näiteks, kui palutakse vastata maoorikeelsele küsimusele, võib väike mudel, kes ei tunne maoori keelt, lihtsalt öelda „ma ei tea”, samas kui mudel, kes tunneb veidi maoori keelt, peab oma enesekindlust hindama. Nagu artiklis arutletud, nõuab „kalibreeritus” palju vähem arvutusvõimsust kui täpsus. - Väide – Hallutsinatsioonid on tänapäeva keelemudelites salapärane tõrge.
Järeldus – Me mõistame statistilisi mehhanisme, mille kaudu hallutsinatsioonid tekivad ja mille eest neid hindamistestides tasustatakse. - Väide – Hallutsinatsioonide mõõtmiseks on vaja vaid head hallutsinatsioonide hindamistesti.
Järeldus – Hallutsinatsioonide hindamisteste on avaldatud. Hea hallutsinatsioonide hindamistest ei avalda aga suurt mõju sadadele traditsioonilistele täpsuspõhistele hindamistestidele, mis karistavad alandlikkust ja tasustavad arvamist. Selle asemel tuleb kõik esmased hindamismõõdikud ümber töötada, et tasustada ebakindluse väljendusi.
Meie uusimatel mudelitel on madalamad hallutsinatsioonimäärad ning pingutame jätkuvalt, et veelgi vähendada meie keelemudelite väljundis esinevate enesekindlate vigade määra.
Teadaande autorid
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


