2025. gada 5. septembris

Kāpēc valodas modeļi halucinē

Abstraktais attēls ar plašiem zilganzaļās, zilās un lavandas krāsas gradientiem, kas maigās, plūstošās svītrās pa diagonāli šķērso kadru.

Notiek ielāde…

Uzņēmumā OpenAI mēs rūpīgi strādājam, lai mākslīgā intelekta sistēmas kļūtu noderīgākas un uzticamākas. Pat tad, kad valodas modeļi kļūst arvien spējīgāki, joprojām ir grūti pilnībā atrisināt vienu problēmu — halucinācijas. Ar to mēs domājam gadījumus, kad modelis pārliecinoši ģenerē atbildi, kas nav patiesa. Mūsu jaunais pētījums⁠(atveras jaunā logā) rāda, ka valodas modeļi halucinē, jo standarta apmācības un novērtēšanas procedūras veicina minēšanu, nevis neskaidrības atzīšanu.

ChatGPT arī mēdz halucinēt. GPT‑5 ir ievērojami mazāk halucināciju, jo īpaši argumentējot,⁠ tomēr tās rodas. Halucinācijas joprojām ir būtisks izaicinājums visiem lielajiem valodas modeļiem, taču mēs rūpīgi strādājam, lai tās turpinātu samazināt.

Kas ir halucinācijas?

Halucinācijas ir ticami, bet nepatiesi apgalvojumi, ko ģenerē valodas modeļi. Tie var parādīties pārsteidzošos veidos, pat šķietami vienkāršos jautājumos. Piemēram, kad plaši izmantotam tērzēšanas robotam uzdevām Adam Tauman Kalai (šī raksta autors) doktora disertācijas nosaukumu, tas pārliecinoši sniedza trīs dažādas atbildes, tomēr neviena no tām nebija pareiza. Kad mēs jautājām viņa dzimšanas dienu, tika norādīti trīs dažādi datumi, turklāt visi bija nepareizi.

Mācīšana, lai sagatavotos testam

Halucinācijas saglabājas daļēji tāpēc, ka pašreizējās novērtēšanas metodes nosaka nepareizus stimulus. Lai gan novērtējumi paši par sevi tiešā veidā nerada halucinācijas, vairums novērtējumu izvērtē modeļa veiktspēju veidā, kas veicina minējumus, nevis godīgumu attiecībā uz nenoteiktību.

Padomājiet par to kā par testu ar atbilžu variantiem. Ja jūs nezināt atbildi, bet uzminat, jums var paveikties un jums var būt taisnība. Ja to atstāj tukšu, tiek iegūta nulle. Tāpat arī tad, ja modeļi tiek vērtēti tikai pēc precizitātes, proti, cik procenti jautājumu ir atbildēti pareizi, viņi tiek mudināti minēt, nevis teikt "es nezinu".

Kā vēl vienu piemēru pieņemsim, ka valodas modelim tiek jautāts par kāda cilvēka dzimšanas dienu, bet viņš to nezina. Ja tas min "10. septembri", pastāv 1 iespēja pret 365, ka tā būs taisnība. Atbilde “Es nezinu” garantē nulli punktu. Tūkstošiem testu jautājumu laikā minēšanas modelis galu galā rezultātu tabulās izskatās labāk nekā precīzs modelis, kas pieļauj nenoteiktību.

Attiecībā uz jautājumiem, kuros ir viena "pareizā atbilde", varat aplūkot trīs atbilžu kategorijas: precīzas atbildes, kļūdas un atturēšanās, ja modelis neriskē minēt. Atturēšanās ir daļa no taktiskuma, kas ir viena no OpenAI pamatvērtībām⁠. Lielākajā daļā rezultātu tabulu modeļi tiek sarindoti pēc precizitātes, bet kļūdas ir sliktākas nekā atturēšanās. Mūsu parauga specifikācijā⁠(atveras jaunā logā) ir teikts, ka labāk ir norādīt uz neskaidrībām vai lūgt paskaidrojumus, nevis sniegt pārliecinošu informāciju, kas var būt nepareiza.

Kā konkrētu piemēru aplūkojiet GPT5 sistēmas kartes⁠(atveras jaunā logā) SimpleQA eval piemēru.

Metrika	gpt-5-thinking-mini	OpenAI o4-mini
Atturēšanās koeficients (nav sniegta konkrēta atbilde)	52%	1%
Precizitātes rādītājs (pareizā atbilde, jo augstāks, jo labāk)	22%	24%
Kļūdu īpatsvars (nepareiza atbilde, jo zemāks, jo labāk)	26%	75%
Kopā	100%	100%

Precizitātes ziņā vecākais OpenAI o4-mini modelis darbojas nedaudz labāk. Tomēr tā kļūdu īpatsvars (t.i., halucināciju īpatsvars) ir ievērojami lielāks. Stratēģiska minēšana, kad nav pārliecības, uzlabo precizitāti, bet palielina kļūdu un halucināciju skaitu.

Aprēķinot vidējos rezultātus starp desmitiem novērtējumu, lielākā daļa etalonu uzrāda precizitātes rādītāju, taču tas rada nepareizu dihotomiju starp pareizo un nepareizo. Vienkāršotos novērtējumos, piemēram, SimpleQA, daži modeļi sasniedz gandrīz 100% precizitāti un tādējādi novērš halucinācijas. Tomēr sarežģītākos novērtējumos un reālajā lietošanā precizitāte nepārsniedz 100%, jo ir daži jautājumi, uz kuriem atbildi nevar noteikt dažādu iemeslu dēļ, piemēram, nepieejamas informācijas, mazo modeļu ierobežotu domāšanas spēju vai neskaidrību dēļ, kuras ir jānoskaidro.

Tomēr rezultātu tabulās un modeļu kartēs dominē tikai precizitātes rādītāji, kas motivē izstrādātājus veidot modeļus, kuri drīzāk min, nevis aiztur atbildi. Tas ir viens no iemesliem, kādēļ pat tad, kad modeļi kļūst arvien progresīvāki, tie joprojām var halucinēt, pārliecinoši sniedzot nepareizas atbildes, nevis atzīstot nenoteiktību.

Labāks veids, kā vērtēt novērtējumus

Pastāv vienkāršs risinājums. Sodiet par pārliecības kļūdām vairāk nekā par nenoteiktību un daļēji ieskaitiet atbilstošas nenoteiktības izpausmes. Šī ideja nav jauna. Dažos standartizētajos testos jau sen tiek izmantotas negatīvas atzīmes par nepareizām atbildēm vai daļēja punktu piešķiršana par tukšu jautājumu atstāšanu, lai atturētu no "aklas" minēšanas. Vairākas pētniecības grupas ir pētījušas arī novērtējumus, kuros ņemta vērā nenoteiktība un kalibrēšana.

Mūsu viedoklis ir atšķirīgs. Nepietiek pievienot dažus jaunus testus, kur ņemta vērā nenoteiktība. Plaši izmantotie, uz precizitāti balstītie vērtējumi ir jāatjaunina tā, lai to vērtējums atturētu no minēšanas. Ja galvenajās rezultātu tabulās arī turpmāk tiks apbalvoti laimīgie minējumi, modeļi turpinās mācīties minēt. Rezultātu tabulu fiksēšana var paplašināt halucināciju mazināšanas metožu — gan jaunizstrādāto, gan iepriekšējos pētījumos izmantoto — ieviešanu.

Kā halucinācijas rodas no nākamā vārda paredzēšanas

Mēs esam runājuši par to, kāpēc ir tik grūti atbrīvoties no halucinācijām, bet no kurienes vispār rodas šīs ļoti specifiskās faktu neprecizitātes? Galu galā, lielos iepriekš apmācītos modeļos reti sastopamas cita veida kļūdas, piemēram, pareizrakstības kļūdas un nesakritības iekavās. Atšķirība ir saistīta ar to, kādi modeļi ir atrodami datos.

Valodas modeļi vispirms mācās, izmantojot iepriekšējo apmācību, kas ir nākamā vārda paredzēšanas process milzīgā teksta apjomā. Atšķirībā no tradicionālajām mašīnmācīšanās problēmām katram apgalvojumam nav pievienotas birkas "patiess/nepatiess". Modelis redz tikai pozitīvus tekošas valodas piemērus, un tam ir jātuvina kopējais sadalījums.

Ir divtik grūti atšķirt derīgus apgalvojumus no nederīgiem, ja nav neviena piemēra, kas būtu atzīmēts kā nederīgs. Taču pat ar birkām dažas kļūdas ir neizbēgamas. Lai saprastu, kāpēc, aplūkojiet vienkāršāku analoģiju. Attēlu atpazīšanā, ja miljoniem kaķu un suņu fotoattēlu tiek apzīmēti kā "kaķis" vai "suns", algoritmi var iemācīties tos ticami klasificēt. Bet iedomājieties, ka tā vietā katru lolojumdzīvnieka fotoattēlu apzīmējat ar mājdzīvnieka dzimšanas dienu. Tā kā dzimšanas dienas būtībā ir nejaušas, šis uzdevums vienmēr radītu kļūdas, lai cik pilnīgs būtu algoritms.

Tas pats princips attiecas arī uz pirmapmācību. Rakstība un iekavas ņem vērā konsekventus šablonus, tāpēc kļūdas tur izzūd, palielinoties mērogam. Taču patvaļīgi mazfrekvences fakti, piemēram, mājdzīvnieka dzimšanas diena, nav paredzami, pamatojoties tikai uz modeļiem, un tāpēc izraisa halucinācijas. Mūsu analīze izskaidro, kādi halucināciju veidi varētu rasties no nākamā vārda prognozēšanas. Ideālā gadījumā turpmākajos posmos pēc pirmapmācības tie būtu jānovērš, taču tas nav pilnībā izdevies iepriekšējā sadaļā aprakstīto iemeslu dēļ.

Secinājumi

Mēs ceram, ka mūsu rakstā izmantotais statistiskais objektīvs izskaidro halucināciju būtību un novērš izplatītos maldīgos priekšstatus.

Apgalvojums. Halucinācijas tiks novērstas, uzlabojot precizitāti, jo 100% precīzs modelis nekad nehalucinē.
Secinājums. Precizitāte nekad nesasniegs 100%, jo neatkarīgi no modeļa lieluma, meklēšanas un spriešanas spējām, daži reālās pasaules jautājumi pēc būtības ir neatbildami.
Apgalvojums. Halucinācijas ir neizbēgamas.
Secinājums. Tās nav, jo valodas modeļi var atturēties, ja tie ir neskaidri.
Apgalvojums. Lai izvairītos no halucinācijām, ir nepieciešama zināma inteliģences pakāpe, kas ir sasniedzama tikai ar lielākiem modeļiem.
Secinājums. Mazam modelim var būt vieglāk apzināties savas robežas. Piemēram, ja mazam modelim, kas nezina maoru valodu, tiek uzdots atbildēt uz maoru valodas jautājumu, viņš var vienkārši atbildēt "nezinu", bet modelim, kas nedaudz zina maoru valodu, ir jānovērtē sava pārliecība. Kā minēts dokumentā, "kalibrēšana" prasa daudz mazāk aprēķinu nekā precizitāte.
Apgalvojums. Halucinācijas ir noslēpumaina kļūme mūsdienu valodu modeļos.
Secinājums. Mēs saprotam statistiskos mehānismus, ar kuru palīdzību halucinācijas rodas un tiek atalgotas vērtējumos.
Apgalvojums. Lai izmērītu halucinācijas, mums vienkārši nepieciešams labs halucināciju novērtējums.
Secinājums. Halucināciju novērtējumi ir publicēti. Tomēr labam halucināciju novērtējumam ir maza ietekme salīdzinājumā ar simtiem tradicionālo uz precizitāti balstītu novērtējumu, kas soda pazemību un atbalsta minējumus. Tā vietā ir jāpārstrādā visi galvenie vērtēšanas rādītāji, lai novērtētu nenoteiktības izpausmes.

Mūsu jaunākajos modeļos ir zemāks halucināciju īpatsvars, un mēs turpinām apņēmīgi strādāt, lai vēl vairāk samazinātu mūsu valodas modeļu radīto pārliecinošo kļūdu īpatsvaru.

Paziņojuma autori

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel un Johannes Heidecke

Turpināt lasīt

Skatīt visu

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

Publikācija2026. g. 1. aug.

Kā divu iestatījumu ieslēgšana trīskāršoja mūsu rezultātu ARC-AGI-3 etalonā

Izpēte2026. g. 29. jūl.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Uzņēmums2026. g. 29. jūl.