2025. szeptember 5.

Miért hallucinálnak a nyelvi modellek?

Absztrakt kép kékeszöld, kék és levendula színátmeneteivel, amelyek átlósan simulnak a képkockába lágy, áramló csíkokban.

Betöltés…

Az OpenAI-nál keményen dolgozunk azon, hogy az AI-rendszereket hasznosabbá és megbízhatóbbá tegyük. Még akkor is, amikor a nyelvi modellek egyre fejlettebbé válnak, egy kihívás továbbra is makacsul nehéz marad teljesen megoldani: a hallucinációk. Ezzel azokat az eseteket értjük, amikor egy modell magabiztosan generálással állít elő egy nem igaz választ. Új kutatási tanulmányunk⁠(új ablakban nyílik meg) azt állítja, hogy a nyelvi modellek hallucinálnak, mert a szokásos betanítási és értékelési eljárások a találgatást jutalmazzák a bizonytalanság elismerése helyett.

A ChatGPT is hallucinál. A GPT‑5 jelentősen kevesebb hallucinációt produkál különösen érvelés közben⁠, de ezek még mindig előfordulnak. A hallucinációk továbbra is alapvető kihívást jelentenek minden nagy nyelvi modell számára, de keményen dolgozunk a további csökkentésükön.

Mik a hallucinációk?

A hallucinációk hihető, de hamis állítások, amelyeket a nyelvi modellek generálás révén hoznak létre. Meglepő módon jelenhetnek meg, még látszólag egyértelmű kérdések esetén is. Például, amikor megkérdeztünk egy széles körben használt chatbotot Adam Tauman Kalai (a cikk egyik szerzője) PhD disszertációjának címéről, magabiztosan három különböző választ adott – egyik sem volt helyes. Amikor megkérdeztük a születésnapját, három különböző dátumot adott meg, mindegyik tévesen.

A tesztre való tanítás

A hallucinációk részben azért maradnak fenn, mert a jelenlegi értékelési módszerek rossz ösztönzőket teremtenek. Bár maguk az értékelések nem okoznak közvetlenül hallucinációkat, a legtöbb értékelés a modell teljesítményét úgy méri, hogy az inkább a találgatásra ösztönöz, mintsem a bizonytalansággal kapcsolatos őszinteségre.

Úgy kell elképzelni, mint egy feleletválasztós tesztet. Ha nem tudod a választ, de vaktában tippelsz, lehet, hogy szerencséd lesz, és igazad lesz. Ha üresen hagyod, garantált a nulla pont. Ugyanígy, amikor a modelleket csak a pontosság, vagyis a pontosan eltalált kérdések százalékos aránya alapján értékelik, arra ösztönzik őket, hogy találgassanak, ahelyett, hogy azt mondják: „Nem tudom.”

Egy másik példaként tegyük fel, hogy megkérdeznek egy nyelvi modellt valakinek a születésnapjáról, de az nem tudja. Ha a „szeptember 10-ét” tippeli, akkor 1 az esélye a 365-ből, hogy eltalálja. A „nem tudom” válasz nulla pontot garantál. Több ezer tesztkérdés után a találgatós modell jobban szerepel az eredménytáblákon, mint egy óvatos modell, amely elismeri a bizonytalanságot.

Azoknál a kérdéseknél, ahol egyetlen „helyes válasz” van, három válaszkategóriát lehet figyelembe venni: pontos válaszok, hibák és tartózkodások, ahol a modell nem kockáztat találgatással. A tartózkodás az bizonytalanság beismerésének része, amely az OpenAI egyik alapértéke⁠. A legtöbb eredménytábla a pontosság alapján rangsorolja a modelleket, de a hibák rosszabbak, mint a tartózkodások. A Model Spec⁠(új ablakban nyílik meg) kimondja, hogy jobb jelezni a bizonytalanságot vagy pontosítást kérni, mint magabiztos, esetleg téves információt közölni.

Konkrét példaként vegyük a SimpleQA eval példát a GPT5 rendszerkártyából⁠(új ablakban nyílik meg).

Mérték	gpt-5-thinking-mini	OpenAI o4-mini
Tartózkodási arány (nincs konkrét válasz megadva)	52%	1%
Pontossági arány (helyes válasz, minél magasabb, annál jobb)	22%	24%
Hibaarány (rossz válasz, minél alacsonyabb, annál jobb)	26%	75%-kal
Összesen	100%	100%

A pontosság szempontjából a régebbi OpenAI o4-mini modell kissé jobban teljesít. Azonban a hibaszázaléka (vagyis a hallucinációk aránya) jelentősen magasabb. A bizonytalan helyzetekben történő stratégiai találgatás javítja a pontosságot, de növeli a hibák és a valótlanságok számát.

Amikor több tucat értékelés eredményeit átlagoljuk, a legtöbb benchmark a pontossági mutatót emeli ki, de ez hamis dichotómiát eredményez a helyes és a helytelen között. Az olyan egyszerűsített értékeléseken, mint a SimpleQA, néhány modell közel 100%-os pontosságot ér el, és így kiküszöböli a valótlanságokat. Azonban a nagyobb kihívást jelentő értékeléseknél és a valós használat során a pontosság 100% alatt marad, mivel vannak olyan kérdések, amelyekre a válasz nem határozható meg különféle indoklások miatt, mint például az elérhető információk hiánya, a kis modellek korlátozott gondolkodási képességei vagy a tisztázandó kétértelműségek.

Ennek ellenére a csak pontosságot mérő eredményjelzők uralják a ranglistákat és a modellkártyákat, ösztönözve a fejlesztőket, hogy inkább találgató modelleket építsenek, mintsem hogy visszafogottságát tanúsítsanak. Ez az egyik oka annak, hogy még a modellek fejlettebbé válásával is képesek hallucinálni, magabiztosan téves válaszokat adva ahelyett, hogy elismernék a bizonytalanságot.

Egy jobb módszer az értékelések osztályozására

Van egy egyszerű megoldás. A magabiztos hibákat jobban büntesd, mint a bizonytalanságot, és a bizonytalanság megfelelő kifejezéséért adj részpontot. Ez az ötlet nem új. Néhány szabványosított teszt régóta alkalmazza a rossz válaszokért járó negatív pontozás vagy az üresen hagyott kérdésekért járó részleges kredit különböző változatait, hogy elkerüljék a vak találgatást. Számos kutatócsoport is vizsgálta azokat az értékeléseket, amelyek figyelembe veszik a bizonytalanságot és a kalibrációt.

A mi álláspontunk más. Nem elég csak néhány új, a bizonytalanságot figyelembe vevő tesztet hozzáadni. A széles körben használt, pontosságon alapuló értékeléseket frissíteni kell, hogy a pontozásuk elriassza a találgatást. Ha a fő eredménytáblák továbbra is jutalmazzák a szerencsés találgatásokat, a modellek továbbra is találgatni fognak tanulni. Az eredménytáblák javítása szélesítheti a hallucinációcsökkentő technikák alkalmazását, legyenek azok újak vagy korábbi kutatásokból származók.

Hogyan keletkeznek a hallucinációk a következő szó előrejelzéséből?

Már beszéltünk arról, hogy miért olyan nehéz megszabadulni a hallucinációktól, de honnan származnak ezek a rendkívül specifikus tényszerű pontatlanságok? Végül is a nagy, előre betanított modellek ritkán mutatnak más típusú hibákat, mint például helyesírási hibákat és nem megfelelő zárójeleket. A különbség abban rejlik, hogy milyen mintázatok vannak az adatokban.

A nyelvi modellek először előtanítás során tanulnak, ami egy olyan folyamat, amelynek során hatalmas mennyiségű szövegből megjósolják a következő szót. A hagyományos gépi tanulási problémákkal ellentétben az egyes állításokhoz nincsenek „igaz/hamis” címkék. A modell csak a folyékony nyelvhasználat pozitív példáit látja, és meg kell közelítenie a teljes eloszlást.

Kétszer olyan nehéz megkülönböztetni az érvényes állításokat az érvénytelenektől, ha nincsenek példáid, amelyek érvénytelenként vannak megjelölve. De még a címkék mellett is elkerülhetetlenek bizonyos hibák. Hogy lásd, miért, nézzünk egy egyszerűbb analógiát. A képfelismerésnél, ha több millió macska- és kutyaképet „macska” vagy „kutya” címkével látnak el, az algoritmusok megbízhatóan megtanulhatják osztályozni őket. De képzeld el, hogy ehelyett minden háziállat fotóját a születésnapja szerint címkéznéd fel. Mivel a születésnapok lényegében véletlenszerűek, ez a feladat mindig hibákat eredményezne, függetlenül attól, hogy mennyire fejlett az algoritmus.

Ugyanez az elv érvényes az előtanítás során is. A helyesírás és a zárójelek következetes mintákat követnek, így az ottani hibák a skálázással eltűnnek. De az önkényes, alacsony gyakoriságú tények, mint például egy háziállat születésnapja, nem jósolhatók meg pusztán minták alapján, és ezért hallucinációkhoz vezethetnek. Elemzésünk megmagyarázza, hogy milyen hallucinációk merülhetnek fel a következő szó előrejelzéséből. Ideális esetben az előtanítás utáni további szakaszoknak el kellene végezniük az eltávolítást, de ez az előző szakaszban leírt okok miatt nem teljesen sikeres.

Következtetések

Reméljük, hogy tanulmányunk statisztikai nézőpontja tisztázza a hallucinációk természetét, és visszaszorítja a gyakori tévhiteket:

Állítás: A hallucinációk kiküszöbölhetők a pontosság javításával, mivel egy 100%-os pontosságú modell soha nem hallucinál.
Megállapítás: A pontosság soha nem érheti el a 100%-ot, mert a modell méretétől, a keresési és érvelési képességektől függetlenül, néhány valós kérdés eleve megválaszolhatatlan.
Állítás: A hallucinációk elkerülhetetlenek.
Megállapítás: Nem, mert a nyelvi modellek tartózkodhatnak, ha bizonytalanok.
Állítás: A hallucinációk elkerülése olyan intelligenciaszintet igényel, amely kizárólag nagyobb modellekkel érhető el.
Megállapítás: Egy kisebb modell könnyebben felismerheti a saját korlátait. Például, amikor egy maori kérdésre választ kell adni, egy kis modell, amely nem ismer maorit, egyszerűen azt mondhatja: "Nem tudom", míg egy olyan modell, amely ismer némi maorit, meg kell határoznia a magabiztosságát. Ahogy a cikkben tárgyaltuk, a „kalibráltnak lenni” sokkal kevesebb számítást igényel, mint pontosnak lenni.
Állítás: A hallucinációk rejtélyes hibák a modern nyelvi modellekben.
Eredmény: Megértjük azokat a statisztikai mechanizmusokat, amelyek révén a hallucinációk létrejönnek és az értékelések során jutalmazásra kerülnek.
Állítás: A hallucinációk méréséhez csak egy jó hallucinációs értékelésre van szükségünk.
Megállapítás: Hallucinációs értékeléseket tettek közzé. Azonban egy jó hallucinációs értékelés kevés hatással bír a több száz hagyományos, pontosságra épülő értékeléssel szemben, amelyek büntetik az óvatosságot, és jutalmazzák a találgatást. Ehelyett az összes elsődleges értékelési mutatót át kell dolgozni, hogy a bizonytalanság kifejezését jutalmazzák.

Legújabb modelljeink alacsonyabb hallucinációs arányt mutatnak, és továbbra is keményen dolgozunk azon, hogy tovább csökkentsük a nyelvi modelljeink kimenete által okozott magabiztos hibák arányát.

Bejelentés készítésében közreműködők

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel és Johannes Heidecke

Olvass tovább

Összes megtekintése

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

Publikáció2026. aug. 1.

Két beállítással megháromszoroztuk pontszámunkat az ARC-AGI-3 teljesítményteszten

Kutatások2026. júl. 29.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Vállalat2026. júl. 29.