Preskočite na glavno vsebino
OpenAI

5. september 2025

RaziskaveObjava

Zakaj jezikovni modeli halucinirajo

Abstraktna slika s prelivajočimi se gradienti v barvah zelenomodre, modre in sivke, ki se diagonalno prelivajo čez okvir v mehkih, tekočih linijah.
Nalaganje …

Pri OpenAI si močno prizadevamo, da bi bili sistemi umetne inteligence bolj uporabni in zanesljivi. Čeprav jezikovni modeli postajajo vse bolj zmogljivi, ostaja en izziv trmasto težko rešljiv: halucinacije. S tem mislimo primere, ko model samozavestno ustvari odgovor, ki ni resničen. Naš novi raziskovalni članek(odpre se v novem oknu) trdi, da jezikovni modeli halucinirajo, ker standardni postopki usposabljanja in ocenjevanja nagrajujejo ugibanje namesto priznavanja negotovosti.

ChatGPT prav tako halucinira. GPT‑5 ima bistveno manj halucinacij še posebej pri sklepanju, vendar se še vedno pojavljajo. Halucinacije ostajajo temeljni izziv za vse velike jezikovne modele, vendar si močno prizadevamo, da bi jih še dodatno zmanjšali.

Kaj so halucinacije?

Halucinacije so verjetne, vendar napačne izjave, ki jih ustvarjajo jezikovni modeli. Lahko se pojavijo na presenetljive načine, tudi pri na videz preprostih vprašanjih. Na primer, ko smo pogosto uporabljenega klepetalnega robota vprašali za naslov doktorske disertacije Adama Taumana Kalaija (avtorja tega članka), je samozavestno podal tri različne odgovore – nobeden od njih ni bil pravilen. Ko smo vprašali za njegov rojstni dan, je navedel tri različne datume, prav tako vse napačne. 

Poučevanje za test

Halucinacije vztrajajo deloma zato, ker trenutne metode ocenjevanja postavljajo napačne spodbude. Čeprav sama vrednotenja neposredno ne povzročajo halucinacij, večina vrednotenj meri delovanje modela na način, ki spodbuja ugibanje namesto iskrenosti glede negotovosti.

O tem razmišljajte kot o testu z več izbirami. Če ne poznate odgovora, vendar poskusite ugibati, boste morda imeli srečo in imeli prav. Če pustite prazno, je zagotovljena ničla. Na enak način, ko se modeli ocenjujejo le glede na natančnost, to je odstotek vprašanj, na katera odgovorijo popolnoma pravilno, se jih spodbuja k ugibanju, namesto da bi rekli »ne vem«.

Še en primer, predpostavimo, da je jezikovni model vprašan za rojstni dan nekoga, vendar ga ne pozna. Če ugane »10. september«, ima 1 proti 365 možnosti, da bo odgovor pravilen. Če rečete »ne vem«, vam to zagotavlja nič točk. Pri tisočih testnih vprašanjih se model ugibanja na lestvicah rezultatov izkaže za boljšega kot previden model, ki priznava negotovost.

Pri vprašanjih, kjer obstaja en sam »pravilen odgovor«, lahko upoštevamo tri kategorije odgovorov: točne odgovore, napake in vzdržanost, kjer model ne tvega ugibanja. Vzdržanost je del ponižnosti, ene od temeljnih vrednot OpenAI. Večina tabel rezultatov daje prednost in razvršča modele glede na natančnost, vendar so napake hujše od vzdržanih odločitev. Naša specifikacija modela(odpre se v novem oknu) navaja, da je bolje navesti negotovost ali zahtevati pojasnilo, kot pa posredovati samozavestne informacije, ki so lahko napačne. 

Za konkreten primer si oglejte SimpleQA eval kot primer iz sistemske kartice GPT5(odpre se v novem oknu).

Metrika

gpt-5-thinking-mini

OpenAI o4-mini

Stopnja vzdržanosti
(ni podanega specifičnega odgovora) 

52 %

1 %

Stopnja natančnosti
(pravilen odgovor, višje je bolje)

22 %

24 %

Stopnja napak
(napačen odgovor, nižja je boljša)

26 %

75 %

Skupno

100 %

100 %

Kar zadeva natančnost, starejši model OpenAI o4-mini deluje nekoliko bolje. Vendar je stopnja napak (tj. stopnja halucinacij) bistveno višja. Strateško ugibanje, ko ste negotovi, izboljša natančnost, vendar poveča število napak in halucinacij. 

Pri povprečenju rezultatov čez več deset vrednotenj večina primerjalnih testov izpostavi metriko natančnosti, vendar to pomeni lažno dihotomijo med pravilnim in napačnim. Pri poenostavljenih ocenah, kot je SimpleQA, nekateri modeli dosegajo skoraj 100-odstotno natančnost in s tem odpravljajo halucinacije. Vendar pa je pri zahtevnejših ocenah in v resnični uporabi natančnost omejena na manj kot 100 %, ker obstajajo nekatera vprašanja, na katera ni mogoče odgovoriti zaradi različnih utemeljitev, kot so nedostopne informacije, omejene miselne sposobnosti majhnih modelov ali dvoumnosti, ki jih je treba razjasniti.

Kljub temu na lestvicah najboljših in modelnih karticah prevladujejo lestvice rezultatov, ki temeljijo le na natančnosti, kar razvijalce spodbuja k gradnji modelov, ki ugibajo in se ne držijo nazaj z odgovori. To je eden od Utemeljitev, zakaj lahko modeli, tudi ko postajajo bolj napredni, še vedno halucinirajo in samozavestno dajejo napačne odgovore, namesto da bi priznali negotovost.

Boljši način ocenjevanja vrednotenj

Obstaja enostavna rešitev. Samozavestne napake kaznujte bolj kot negotovost, in delno priznajte ustrezne izraze negotovosti. Ta ideja ni nova. Nekateri standardizirani testi že dolgo uporabljajo različice negativnega ocenjevanja za napačne odgovore ali delne točke za puščanje vprašanj praznih, da bi odvrnili od slepega ugibanja. Več raziskovalnih skupin je prav tako raziskalo vrednotenja, ki upoštevajo negotovost in umerjanje.

Naša zamisel je drugačna. Ni dovolj, da dodate nekaj novih testov, ki se zavedajo negotovosti ob strani. Široko uporabljena vrednotenja, ki temeljijo na natančnosti, je treba posodobiti, da njihovo točkovanje odvrača od ugibanja. Če bodo glavne preglednice še naprej nagrajevale srečna ugibanja, se bodo modeli še naprej učili ugibati. Popravljanje tabel z rezultati lahko razširi uporabo tehnik zmanjševanja halucinacij, tako na novo razvitih kot tistih iz prejšnjih raziskav.

Kako halucinacije izvirajo iz napovedovanja naslednje besede

Pogovarjali smo se o tem, zakaj se je halucinacij tako težko znebiti, toda od kod sploh izvirajo te zelo specifične dejanske netočnosti? Navsezadnje veliki prednaučeni modeli redko kažejo druge vrste napak, kot so pravopisne napake in neusklajeni oklepaji. Razlika je povezana s tem, kakšne vrste vzorcev so v podatkih.

Jezikovni modeli se najprej učijo s predučenjem, kar je postopek napovedovanja naslednje besede v velikih količinah besedila. Za razliko od tradicionalnih problemov strojnega učenja ni oznak »res/nires«, ki bi bile pripisane vsaki izjavi. Model vidi samo pozitivne primere tekočega jezika in se mora približati splošni porazdelitvi. 

Dvakrat težje je ločiti veljavne izjave od neveljavnih, kadar nimate nobenih primerov, označenih kot neveljavnih. Toda tudi z oznakami so nekatere napake neizogibne. Da bi razumeli zakaj je tako, razmislite o preprostejši analogiji. Pri prepoznavanju slik, če je milijone fotografij mačk in psov označenih kot »mačka« ali »pes«, se algoritmi lahko naučijo zanesljivo razvrščati. Vendar si predstavljajte, da bi namesto tega vsako fotografijo hišnega ljubljenčka označili z njegovim rojstnim dnevom. Ker so rojstni dnevi v bistvu naključni, bi ta naloga vedno povzročala napake, ne glede na to, kako napreden je algoritem.

Enako načelo velja tudi pri predhodnem učenju. Črkovanje in oklepaji sledijo doslednim vzorcem, zato napake tam izginejo s povečanim obsegom. Toda poljubnih nizkofrekvenčnih dejstev, kot je rojstni dan hišnega ljubljenčka, ni mogoče napovedati zgolj iz vzorcev, zato vodijo do halucinacij. Naša analiza pojasnjuje, katere vrste halucinacij bi morale izhajati iz napovedovanja naslednje besede. V idealnem primeru bi jih morale odstraniti nadaljnje faze po predhodnem učenju, vendar to zaradi utemeljitev, opisanih v prejšnjem razdelku, ni povsem uspešno. 

Zaključki

Upamo, da bo statistični pogled v našem članku pojasnil naravo halucinacij in odvrnil pogoste zmote:

  • Trditev: Halucinacije bodo odpravljene z izboljšanjem natančnosti, ker 100-odstotno natančen model nikoli ne halucinira.
    Ugotovitev:
    Natančnost nikoli ne bo dosegla 100 %, ker ne glede na velikost modela, zmožnosti iskanja in sklepanja, nekatera vprašanja iz resničnega sveta sama po sebi nimajo odgovora. 
  • Trditev: Halucinacije so neizogibne.
    Ugotovitev:
    Niso, ker se lahko jezikovni modeli vzdržijo, kadar so negotovi.
  • Trditev: Izogibanje halucinacijam zahteva določeno stopnjo inteligence, ki jo je mogoče doseči izključno z večjimi modeli.
    Ugotovitev:
    Majhnemu modelu je lahko lažje poznati svoje omejitve. Na primer, ko je majhen model, ki ne pozna maorskega jezika, vprašan, naj odgovori na vprašanje v maorščini, lahko preprosto reče »Ne vem«, medtem ko mora model, ki pozna nekaj maorskega jezika, določiti svojo stopnjo samozavesti. Kot je razloženo v članku, biti »umerjen« zahteva veliko manj računanja kot biti natančen.
  • Trditev: Halucinacije so skrivnostna napaka v sodobnih jezikovnih modelih.
    Ugotovitev:
    Razumemo statistične mehanizme, prek katerih halucinacije nastanejo in so nagrajene v vrednotenjih.
  • Trditev: Za merjenje halucinacij potrebujemo le dobro oceno halucinacij.
    Ugotovitev:
    Objavljena so bila vrednotenja halucinacij. Vendar pa dobra ocena halucinacije nima velikega učinka proti stotinam tradicionalnih ocen, ki temeljijo na natančnosti, kaznujejo ponižnost in nagrajujejo ugibanje. Namesto tega je treba vse primarne metrike vrednotenja preoblikovati, da nagradijo izraze negotovosti.

Naši najnovejši modeli imajo nižje stopnje halucinacij, in še naprej si prizadevamo dodatno zmanjšati stopnje samozavestnih napak, ki jih povzročajo naši jezikovni modeli.

Avtorji objav

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel in Johannes Heidecke