Prečo jazykové modely halucinujú

V spoločnosti OpenAI usilovne pracujeme na tom, aby boli systémy umelej inteligencie užitočnejšie a spoľahlivejšie. Aj keď sú jazykové modely čoraz schopnejšie, jedna výzva zostáva stále ťažko riešiteľná: halucinácie. Týmto výrazom máme na mysli prípady, keď model s istotou vygeneruje odpoveď, ktorá nie je pravdivá. Náš nový výskumný článok(otvorí sa v novom okne) tvrdí, že jazykové modely halucinujú, pretože štandardné tréningové a hodnotiace postupy radšej hádajú, než by uznali, že si nie sú isté.
ChatGPT tiež halucinuje. GPT‑5 má výrazne menej halucinácií najmä pri myslení, ale stále sú prítomné. Halucinácie sú stále hlavnou výzvou pre všetky veľké jazykové modely, ale usilovne pracujeme na ich ďalšom obmedzovaní.
Halucinácie sú vierohodné, ale nepravdivé tvrdenia generované jazykovými modelmi. Môžu sa prejavovať prekvapivo, dokonca aj pri zdanlivo jednoduchých otázkach. Keď sme sa napríklad opýtali bežne používaného chatbota na názov dizertačnej práce Adama Taumana Kalaia (autora tohto článku), s istotou nám poskytol tri rôzne odpovede – a ani jedna nebola správna. Keď sme sa opýtali na jeho narodeniny, uviedol tri rôzne dátumy, pričom všetky boli nesprávne.
Halucinácie pretrvávajú čiastočne preto, že súčasné metódy hodnotenia stanovujú nesprávne stimuly. Hoci samotné hodnotenia priamo nespôsobujú halucinácie, väčšina hodnotení meria výkonnosť modelu spôsobom, ktorý podporuje skôr hádanie než úprimnosť v prípade neistoty.
Predstavte si to ako test s výberom z viacerých možností. Ak nepoznáte odpoveď, ale skúsite si tipnúť, možno sa vám pošťastí a budete mať pravdu. Ak nič nevyberiete, zaručene dostanete nula bodov. Rovnakým spôsobom platí, že keď sú modely hodnotené iba na základe presnosti, teda percenta otázok, na ktoré odpovedia úplne správne, sú povzbudzované k tomu, aby hádali, namiesto toho, aby povedali „neviem“.
Ako ďalší príklad predpokladajme, že jazykový model dostane otázku o niekoho narodeninách, ale nevie, na aký dátum pripadajú. Ak si tipne „10. september“, má šancu 1 ku 365, že bude odpoveď správna. Ak povie „neviem“, nedostane žiadne body. Pri tisícoch testových otázok sa model hádania na výsledkových tabuľkách javí lepšie ako opatrný model, ktorý pripúšťa neistotu.
Pri otázkach, kde existuje jedna „správna odpoveď“, možno zvážiť tri kategórie odpovedí: presné odpovede, chyby a zdržanie sa, keď model neriskuje odhad. Zdržanie sa patrí k pokore, jednej zo základných hodnôt spoločnosti OpenAI. Väčšina hodnotiacich tabuliek prioritizuje a hodnotí modely na základe presnosti, ale chyby sú horšie ako zdržanie sa. Naša špecifikácia modelu(otvorí sa v novom okne) uvádza, že je lepšie naznačiť neistotu alebo požiadať o objasnenie než poskytovať sebaisté informácie, ktoré môžu byť nesprávne.
Ako konkrétny príklad zvážte hodnotenie SimpleQA ako príklad z karty systému GPT5(otvorí sa v novom okne).
Metrika | gpt-5-thinking-mini | OpenAI o4-mini |
Miera zdržania sa | 52 % | 1 % |
Miera presnosti | 22 % | 24 % |
Miera chybovosti | 26 % | 75% |
Spolu | 100 % | 100 % |
Čo sa týka presnosti, starší model OpenAI o4-mini vykazuje o niečo lepší výkon. Jeho chybovosť (t. j. miera halucinácií) je však výrazne vyššia. Strategické hádanie, keď si nie je istý, zlepšuje presnosť, ale zvyšuje počet chýb a halucinácií.
Pri spriemerovaní výsledkov naprieč desiatkami hodnotení väčšina referenčných nástrojov vyberá metriku presnosti, ale to so sebou prináša falošnú dichotómiu medzi správnym a nesprávnym. Na zjednodušených hodnoteniach, ako je SimpleQA, niektoré modely dosahujú takmer 100 % presnosť a tým eliminujú halucinácie. Pri náročnejších hodnoteniach a pri reálnom používaní je však presnosť obmedzená pod 100 %, pretože existujú niektoré otázky, na ktoré z rôznych dôvodov nie je možné nájsť odpoveď, ako sú nedostupné informácie, obmedzené schopnosti myslenia malých modelov alebo nejasnosti, ktoré je potrebné objasniť.
Napriek tomu v rebríčkoch a na kartách modelov dominujú výsledkové tabuľky len za presnosť, čo motivuje vývojárov k tomu, aby vytvárali modely, ktoré skôr hádajú, než by boli zdržanlivé. To je jeden z dôvodov, prečo platí, že aj keď sú modely čoraz pokročilejšie, stále môžu halucinovať a sebaisto poskytovať nesprávne odpovede namiesto toho, aby priznali neistotu.
Existuje jednoduché riešenie. Sebaisté chyby penalizujte viac ako neistotu a za vhodné vyjadrenie neistoty priznajte čiastočný kredit. Táto myšlienka nie je nová. Niektoré štandardizované testy už dlho používajú verzie negatívneho známkovania za nesprávne odpovede alebo čiastočné body za ponechanie prázdnych otázok, aby odradili od slepého hádania. Niekoľko výskumných skupín tiež skúmalo hodnotenia, ktoré zohľadňujú neistotu a kalibráciu.
My máme iný názor. Nestačí pridať len niekoľko nových testov, ktoré mimochodom zohľadňujú neistotu. Bežne používané hodnotenia založené na presnosti je potrebné aktualizovať tak, aby ich bodovanie odrádzalo od hádania. Ak budú hlavné výsledkové tabuľky naďalej odmeňovať šťastné tipy, modely sa budú naďalej učiť hádať. Oprava výsledkových tabuliek môže rozšíriť mieru osvojenia techník na zníženie halucinácií, a to tak novovyvinutých, ako aj tých z predchádzajúceho výskumu.
Hovorili sme o tom, prečo je také ťažké zbaviť sa halucinácií, ale odkiaľ pochádzajú tieto veľmi špecifické faktické nepresnosti? Koniec koncov, veľké predtrénované modely zriedka vykazujú iné druhy chýb, ako napríklad pravopisné chyby či nesprávne zátvorky. Rozdiel je v tom, aké typy vzorov sa nachádzajú v údajoch.
Jazykové modely sa najprv učia prostredníctvom predtrénovania, čo je proces predpovedania ďalšieho slova v obrovskom množstve textu. Na rozdiel od tradičných problémov strojového učenia nie sú ku každému výroku priradené označenia „pravda/nepravda“. Model vidí iba pozitívne príklady plynulého jazyka a musí sa priblížiť celkovému rozdeleniu.
Je dvojnásobne ťažké rozlíšiť platné tvrdenia od neplatných, keď nemáte žiadne príklady označené ako neplatné. Ale aj s označeniami sú niektoré chyby nevyhnutné. Aby ste pochopili prečo, predstavte si jednoduchšiu analógiu. Ak sú pri rozpoznávaní obrázkov milióny fotografií mačiek a psov označené ako „mačka“ alebo „pes“, algoritmy sa ich môžu naučiť spoľahlivo klasifikovať. Predstavte si však, že namiesto toho označíte každú fotografiu domáceho zvieraťa dátumom jeho narodenia. Keďže narodeniny sú v podstate náhodné, táto úloha by vždy produkovala chyby, bez ohľadu na to, aký pokročilý je algoritmus.
Rovnaký princíp platí aj pri predtrénovaní. Pravopis a zátvorky sa riadia konzistentnými vzormi, takže chyby v nich s rozsahom miznú. Avšak ľubovoľné nízkofrekvenčné fakty, ako napríklad narodeniny domáceho zvieraťa, nemožno predpovedať len na základe vzorcov, a preto vedú k halucináciám. Naša analýza vysvetľuje, aké druhy halucinácií by mali vzniknúť z predikcie ďalšieho slova. Ideálne by ich mali odstrániť ďalšie fázy po predtréningu, ale z dôvodov opísaných v predchádzajúcej časti to nie je úplne úspešné.
Dúfame, že štatistický pohľad v našom článku objasní podstatu halucinácií a vyvráti bežné mylné predstavy:
- Tvrdenie: Halucinácie sa eliminujú zlepšením presnosti, pretože 100 % presný model nikdy nehalucinuje.
Zistenie: Presnosť nikdy nedosiahne 100 %, pretože bez ohľadu na veľkosť modelu, vyhľadávacie a logické schopnosti sú niektoré otázky z reálneho sveta už zo svojej podstaty nezodpovedateľné. - Tvrdenie: Halucinácie sú nevyhnutné.
Zistenie: Nie sú, pretože jazykové modely sa môžu zdržať, keď si nie sú isté. - Tvrdenie: Vyhýbanie sa halucináciám si vyžaduje určitý stupeň inteligencie, ktorý je dosiahnuteľný výlučne s väčšími modelmi.
Zistenie: Pre malý model môže byť ľahšie poznať svoje limity. Keď je napríklad malý model, ktorý nepozná maorčinu, požiadaný o odpoveď na otázku v maorčine, môže jednoducho povedať „neviem“, zatiaľ čo model, ktorý maorčinu pozná, musí určiť svoju mieru istoty. Ako sa uvádza v článku, byť „kalibrovaný“ si vyžaduje oveľa menej výpočtov ako byť presný. - Tvrdenie: Halucinácie sú záhadnou chybou v moderných jazykových modeloch.
Zistenie: Rozumieme štatistickým mechanizmom, prostredníctvom ktorých halucinácie vznikajú a sú odmeňované pri hodnoteniach. - Tvrdenie: Na meranie halucinácií potrebujeme len dobré hodnotenie halucinácií.
Zistenie: Hodnotenia halucinácií boli publikované. Dobré hodnotenie halucinácií však má malý vplyv proti stovkám tradičných hodnotení založených na presnosti, ktoré trestajú pokoru a odmeňujú hádanie. Namiesto toho je potrebné prepracovať všetky primárne hodnotiace metriky, aby odmeňovali prejavy neistoty.
Naše najnovšie modely majú nižšiu mieru halucinácií a ďalej usilovne pracujeme na tom, aby sme znížili mieru sebaistých chýb vo výstupe našich jazykových modelov.
Prispievatelia do oznámenia
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel a Johannes Heidecke


