Miért hallucinálnak a nyelvi modellek?

Az OpenAI-nál keményen dolgozunk azon, hogy az AI-rendszereket hasznosabbá és megbízhatóbbá tegyük. Még akkor is, amikor a nyelvi modellek egyre fejlettebbé válnak, egy kihívás továbbra is makacsul nehéz marad teljesen megoldani: a hallucinációk. Ezzel azokat az eseteket értjük, amikor egy modell magabiztosan generálással állít elő egy nem igaz választ. Új kutatási tanulmányunk(új ablakban nyílik meg) azt állítja, hogy a nyelvi modellek hallucinálnak, mert a szokásos betanítási és értékelési eljárások a találgatást jutalmazzák a bizonytalanság elismerése helyett.
A ChatGPT is hallucinál. A GPT‑5 jelentősen kevesebb hallucinációt produkál különösen érvelés közben, de ezek még mindig előfordulnak. A hallucinációk továbbra is alapvető kihívást jelentenek minden nagy nyelvi modell számára, de keményen dolgozunk a további csökkentésükön.
A hallucinációk hihető, de hamis állítások, amelyeket a nyelvi modellek generálás révén hoznak létre. Meglepő módon jelenhetnek meg, még látszólag egyértelmű kérdések esetén is. Például, amikor megkérdeztünk egy széles körben használt chatbotot Adam Tauman Kalai (a cikk egyik szerzője) PhD disszertációjának címéről, magabiztosan három különböző választ adott – egyik sem volt helyes. Amikor megkérdeztük a születésnapját, három különböző dátumot adott meg, mindegyik tévesen.
A hallucinációk részben azért maradnak fenn, mert a jelenlegi értékelési módszerek rossz ösztönzőket teremtenek. Bár maguk az értékelések nem okoznak közvetlenül hallucinációkat, a legtöbb értékelés a modell teljesítményét úgy méri, hogy az inkább a találgatásra ösztönöz, mintsem a bizonytalansággal kapcsolatos őszinteségre.
Úgy kell elképzelni, mint egy feleletválasztós tesztet. Ha nem tudod a választ, de vaktában tippelsz, lehet, hogy szerencséd lesz, és igazad lesz. Ha üresen hagyod, garantált a nulla pont. Ugyanígy, amikor a modelleket csak a pontosság, vagyis a pontosan eltalált kérdések százalékos aránya alapján értékelik, arra ösztönzik őket, hogy találgassanak, ahelyett, hogy azt mondják: „Nem tudom.”
Egy másik példaként tegyük fel, hogy megkérdeznek egy nyelvi modellt valakinek a születésnapjáról, de az nem tudja. Ha a „szeptember 10-ét” tippeli, akkor 1 az esélye a 365-ből, hogy eltalálja. A „nem tudom” válasz nulla pontot garantál. Több ezer tesztkérdés után a találgatós modell jobban szerepel az eredménytáblákon, mint egy óvatos modell, amely elismeri a bizonytalanságot.
Azoknál a kérdéseknél, ahol egyetlen „helyes válasz” van, három válaszkategóriát lehet figyelembe venni: pontos válaszok, hibák és tartózkodások, ahol a modell nem kockáztat találgatással. A tartózkodás az bizonytalanság beismerésének része, amely az OpenAI egyik alapértéke. A legtöbb eredménytábla a pontosság alapján rangsorolja a modelleket, de a hibák rosszabbak, mint a tartózkodások. A Model Spec(új ablakban nyílik meg) kimondja, hogy jobb jelezni a bizonytalanságot vagy pontosítást kérni, mint magabiztos, esetleg téves információt közölni.
Konkrét példaként vegyük a SimpleQA eval példát a GPT5 rendszerkártyából(új ablakban nyílik meg).
Mérték | gpt-5-thinking-mini | OpenAI o4-mini |
Tartózkodási arány | 52% | 1% |
Pontossági arány | 22% | 24% |
Hibaarány | 26% | 75%-kal |
Összesen | 100% | 100% |
A pontosság szempontjából a régebbi OpenAI o4-mini modell kissé jobban teljesít. Azonban a hibaszázaléka (vagyis a hallucinációk aránya) jelentősen magasabb. A bizonytalan helyzetekben történő stratégiai találgatás javítja a pontosságot, de növeli a hibák és a valótlanságok számát.
Amikor több tucat értékelés eredményeit átlagoljuk, a legtöbb benchmark a pontossági mutatót emeli ki, de ez hamis dichotómiát eredményez a helyes és a helytelen között. Az olyan egyszerűsített értékeléseken, mint a SimpleQA, néhány modell közel 100%-os pontosságot ér el, és így kiküszöböli a valótlanságokat. Azonban a nagyobb kihívást jelentő értékeléseknél és a valós használat során a pontosság 100% alatt marad, mivel vannak olyan kérdések, amelyekre a válasz nem határozható meg különféle indoklások miatt, mint például az elérhető információk hiánya, a kis modellek korlátozott gondolkodási képességei vagy a tisztázandó kétértelműségek.
Ennek ellenére a csak pontosságot mérő eredményjelzők uralják a ranglistákat és a modellkártyákat, ösztönözve a fejlesztőket, hogy inkább találgató modelleket építsenek, mintsem hogy visszafogottságát tanúsítsanak. Ez az egyik oka annak, hogy még a modellek fejlettebbé válásával is képesek hallucinálni, magabiztosan téves válaszokat adva ahelyett, hogy elismernék a bizonytalanságot.
Van egy egyszerű megoldás. A magabiztos hibákat jobban büntesd, mint a bizonytalanságot, és a bizonytalanság megfelelő kifejezéséért adj részpontot. Ez az ötlet nem új. Néhány szabványosított teszt régóta alkalmazza a rossz válaszokért járó negatív pontozás vagy az üresen hagyott kérdésekért járó részleges kredit különböző változatait, hogy elkerüljék a vak találgatást. Számos kutatócsoport is vizsgálta azokat az értékeléseket, amelyek figyelembe veszik a bizonytalanságot és a kalibrációt.
A mi álláspontunk más. Nem elég csak néhány új, a bizonytalanságot figyelembe vevő tesztet hozzáadni. A széles körben használt, pontosságon alapuló értékeléseket frissíteni kell, hogy a pontozásuk elriassza a találgatást. Ha a fő eredménytáblák továbbra is jutalmazzák a szerencsés találgatásokat, a modellek továbbra is találgatni fognak tanulni. Az eredménytáblák javítása szélesítheti a hallucinációcsökkentő technikák alkalmazását, legyenek azok újak vagy korábbi kutatásokból származók.
Már beszéltünk arról, hogy miért olyan nehéz megszabadulni a hallucinációktól, de honnan származnak ezek a rendkívül specifikus tényszerű pontatlanságok? Végül is a nagy, előre betanított modellek ritkán mutatnak más típusú hibákat, mint például helyesírási hibákat és nem megfelelő zárójeleket. A különbség abban rejlik, hogy milyen mintázatok vannak az adatokban.
A nyelvi modellek először előtanítás során tanulnak, ami egy olyan folyamat, amelynek során hatalmas mennyiségű szövegből megjósolják a következő szót. A hagyományos gépi tanulási problémákkal ellentétben az egyes állításokhoz nincsenek „igaz/hamis” címkék. A modell csak a folyékony nyelvhasználat pozitív példáit látja, és meg kell közelítenie a teljes eloszlást.
Kétszer olyan nehéz megkülönböztetni az érvényes állításokat az érvénytelenektől, ha nincsenek példáid, amelyek érvénytelenként vannak megjelölve. De még a címkék mellett is elkerülhetetlenek bizonyos hibák. Hogy lásd, miért, nézzünk egy egyszerűbb analógiát. A képfelismerésnél, ha több millió macska- és kutyaképet „macska” vagy „kutya” címkével látnak el, az algoritmusok megbízhatóan megtanulhatják osztályozni őket. De képzeld el, hogy ehelyett minden háziállat fotóját a születésnapja szerint címkéznéd fel. Mivel a születésnapok lényegében véletlenszerűek, ez a feladat mindig hibákat eredményezne, függetlenül attól, hogy mennyire fejlett az algoritmus.
Ugyanez az elv érvényes az előtanítás során is. A helyesírás és a zárójelek következetes mintákat követnek, így az ottani hibák a skálázással eltűnnek. De az önkényes, alacsony gyakoriságú tények, mint például egy háziállat születésnapja, nem jósolhatók meg pusztán minták alapján, és ezért hallucinációkhoz vezethetnek. Elemzésünk megmagyarázza, hogy milyen hallucinációk merülhetnek fel a következő szó előrejelzéséből. Ideális esetben az előtanítás utáni további szakaszoknak el kellene végezniük az eltávolítást, de ez az előző szakaszban leírt okok miatt nem teljesen sikeres.
Reméljük, hogy tanulmányunk statisztikai nézőpontja tisztázza a hallucinációk természetét, és visszaszorítja a gyakori tévhiteket:
- Állítás: A hallucinációk kiküszöbölhetők a pontosság javításával, mivel egy 100%-os pontosságú modell soha nem hallucinál.
Megállapítás: A pontosság soha nem érheti el a 100%-ot, mert a modell méretétől, a keresési és érvelési képességektől függetlenül, néhány valós kérdés eleve megválaszolhatatlan. - Állítás: A hallucinációk elkerülhetetlenek.
Megállapítás: Nem, mert a nyelvi modellek tartózkodhatnak, ha bizonytalanok. - Állítás: A hallucinációk elkerülése olyan intelligenciaszintet igényel, amely kizárólag nagyobb modellekkel érhető el.
Megállapítás: Egy kisebb modell könnyebben felismerheti a saját korlátait. Például, amikor egy maori kérdésre választ kell adni, egy kis modell, amely nem ismer maorit, egyszerűen azt mondhatja: "Nem tudom", míg egy olyan modell, amely ismer némi maorit, meg kell határoznia a magabiztosságát. Ahogy a cikkben tárgyaltuk, a „kalibráltnak lenni” sokkal kevesebb számítást igényel, mint pontosnak lenni. - Állítás: A hallucinációk rejtélyes hibák a modern nyelvi modellekben.
Eredmény: Megértjük azokat a statisztikai mechanizmusokat, amelyek révén a hallucinációk létrejönnek és az értékelések során jutalmazásra kerülnek. - Állítás: A hallucinációk méréséhez csak egy jó hallucinációs értékelésre van szükségünk.
Megállapítás: Hallucinációs értékeléseket tettek közzé. Azonban egy jó hallucinációs értékelés kevés hatással bír a több száz hagyományos, pontosságra épülő értékeléssel szemben, amelyek büntetik az óvatosságot, és jutalmazzák a találgatást. Ehelyett az összes elsődleges értékelési mutatót át kell dolgozni, hogy a bizonytalanság kifejezését jutalmazzák.
Legújabb modelljeink alacsonyabb hallucinációs arányt mutatnak, és továbbra is keményen dolgozunk azon, hogy tovább csökkentsük a nyelvi modelljeink kimenete által okozott magabiztos hibák arányát.
Bejelentés készítésében közreműködők
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel és Johannes Heidecke


