5. септембар 2025.

Zašto jezički modeli haluciniraju

Apstraktna slika sa širokim gradijentima tirkizne, plave i boje lavande, koji se dijagonalno prelivaju preko kadra u mekim, tečnim potezima.

Учитавање…

U OpenAI-ju naporno radimo na tome da AI sistemi budu korisniji i pouzdaniji. Iako jezički modeli postaju sve sposobniji, jedan izazov i dalje je uporno teško u potpunosti rešiti: halucinacije. Pod tim mislimo na slučajeve u kojima модел samouvereno generiše odgovor koji nije tačan. Naš novi istraživački rad⁠(отвара се у новом прозору) tvrdi da jezički modeli haluciniraju zato što standardni postupci obuke i evaluacije nagrađuju nagađanje umesto priznavanja neizvesnosti.

ChatGPT takođe halucinira. GPT‑5 ima značajno manje halucinacija, naročito kada je reč o rezonovanju⁠, ali se one i dalje javljaju. Halucinacije ostaju osnovni izazov za sve velike jezičke modele, ali naporno radimo na tome da ih dodatno smanjimo.

Šta su halucinacije?

Halucinacije su uverljive, ali netačne tvrdnje koje generišu jezički modeli. Mogu se pojaviti na iznenađujuće načine, čak i kod naizgled jednostavnih pitanja. Na primer, kada smo široko korišćeni četbot pitali za naslov doktorske disertacije Adama Taumana Kalaija (jednog od autora ovog rada), on je samouvereno ponudio tri različita odgovora — nijedan nije bio tačan. Kada smo ga pitali za datum njegovog rođenja, dao je tri različita datuma, od kojih su svi takođe bili pogrešni.

Podučavanje za test

Halucinacije delimično opstaju zato što trenutne metode evaluacije postavljaju pogrešne podsticaje. Iako evaluacije same po sebi ne izazivaju direktno halucinacije, većina evaluacija meri učinak modela na način koji podstiče nagađanje umesto iskrenosti u pogledu neizvesnosti.

Zamislite to kao test sa višestrukim izborom. Ako ne znate odgovor, ali nasumično nagađate, možda ćete imati sreće i pogoditi. Ako ostavite prazno, sigurno dobijate nulu. Na isti način, kada se modeli ocenjuju samo po tačnosti, odnosno procentu pitanja na koja daju potpuno tačan odgovor, podstiču se da nagađaju umesto da kažu „Ne znam“.

Kao još jedan primer, pretpostavimo da se od jezičkog modela traži nečiji datum rođenja, ali ga ne zna. Ako pogodi „10. septembar“, ima šansu 1 prema 365 da bude u pravu. Reći „Ne znam“ garantuje nula poena. Kroz hiljade test pitanja, model koji nagađa na kraju izgleda bolje na rang-listama od opreznog modela koji priznaje neizvesnost.

Za pitanja na koja postoji jedan „tačan odgovor“, mogu se razmotriti tri kategorije odgovora: tačni odgovori, greške i uzdržavanje, kada model ne pokušava da nagađa. Uzdržavanje je deo poniznosti, jedne od osnovnih vrednosti OpenAI-ja⁠. Većina rang-lista daje prioritet modelima i rangira ih na osnovu tačnosti, ali greške su gore od uzdržavanja. Naše specifikacije modela⁠(отвара се у новом прозору) navode da je bolje ukazati na neizvesnost ili zatražiti pojašnjenje nego pružiti samouverene informacije koje mogu biti netačne.

Za konkretan primer, pogledajmo SimpleQA evaluaciju kao primer iz GPT5 sistemske kartice⁠(отвара се у новом прозору).

Metrika	gpt-5-thinking-mini	OpenAI o4-mini
Stopa uzdržavanja (ne daje se konkretan odgovor)	52%	1%
Stopa tačnosti (tačan odgovor, više je bolje)	22%	24%
Stopa greške (pogrešan odgovor, manje je bolje)	26%	75%
Ukupno	100%	100%

Što se tiče tačnosti, stariji OpenAI o4-mini model pokazuje se nešto bolje. Međutim, njegova stopa grešaka (odnosno stopa halucinacija) značajno je viša. Strateško nagađanje kada je model nesiguran poboljšava tačnost, ali povećava broj grešaka i halucinacija.

Kada se prosečno sagledaju rezultati iz više desetina evaluacija, većina merila ističe metriku tačnosti, ali to podrazumeva lažnu dihotomiju između tačnog i pogrešnog. Kod jednostavnih evaluacija poput SimpleQA neki modeli dostižu skoro 100% tačnosti i time eliminišu halucinacije. Međutim, kod zahtevnijih evaluacija i u stvarnoj upotrebi, tačnost je ograničena na manje od 100% zato što postoje pitanja čiji odgovor ne može da se utvrdi iz različitih razloga, kao što su nedostupne informacije, ograničene sposobnosti razmišljanja malih modela ili dvosmislenosti koje je potrebno razjasniti.

Ipak, rang-liste zasnovane samo na tačnosti dominiraju među liderbordima i karticama modela, podstičući programere da prave modele koji nagađaju umesto da se suzdrže. To je jedan od razloga zašto modeli, čak i kada postaju napredniji, i dalje mogu da haluciniraju, samouvereno dajući pogrešne odgovore umesto da priznaju neizvesnost.

Bolji način ocenjivanja evaluacija

Postoji jednostavno rešenje. Samouverene greške treba kažnjavati više nego neizvesnost, a za primereno iskazivanje neizvesnosti treba dodeliti delimične poene. Ova ideja nije nova. Neki standardizovani testovi već dugo koriste oblike negativnog bodovanja za pogrešne odgovore ili delimične poene za ostavljanje pitanja bez odgovora kako bi obeshrabrili naslepo nagađanje. Nekoliko istraživačkih grupa takođe je proučavalo evaluacije koje uzimaju u obzir neizvesnost i kalibraciju.

Naša poenta je drugačija. Nije dovoljno sa strane dodati nekoliko novih testova koji uzimaju u obzir neizvesnost. Široko korišćene evaluacije zasnovane na tačnosti moraju se ažurirati tako da njihovo bodovanje obeshrabruje nagađanje. Ako glavne rang-liste nastave da nagrađuju srećna pogađanja, modeli će nastaviti da uče da nagađaju. Popravljanje rang-lista može proširiti usvajanje tehnika za smanjenje halucinacija, kako novorazvijenih tako i onih iz ranijih istraživanja.

Kako halucinacije nastaju iz predviđanja sledeće reči

Govorili smo o tome zašto je halucinacije tako teško ukloniti, ali odakle uopšte potiču ove vrlo specifične činjenične netačnosti? Na kraju krajeva, veliki unapred obučeni modeli retko pokazuju druge vrste grešaka, kao što su pravopisne greške i neusklađene zagrade. Razlika je povezana s tim kakve vrste obrazaca postoje u podacima.

Jezički modeli prvo uče kroz prethodnu obuku, proces predviđanja sledeće reči u ogromnim količinama teksta. Za razliku od tradicionalnih problema mašinskog učenja, uz svaku tvrdnju ne postoje oznake „tačno/netačno“. Model vidi samo pozitivne primere tečnog jezika i mora da aproksimira ukupnu raspodelu.

Dvostruko je teško razlikovati validne tvrdnje od nevalidnih kada nemate nijedan primer označen kao nevalidan. Ali čak i sa oznakama, neke greške su neizbežne. Da bismo videli zašto, razmotrimo jednostavniju analogiju. U prepoznavanju slika, ako su milioni fotografija mačaka i pasa označeni kao „mačka“ ili „pas“, algoritmi mogu naučiti da ih pouzdano klasifikuju. Ali zamislite da se svaka fotografija kućnog ljubimca označava datumom njegovog rođenja. Pošto su rođendani suštinski nasumični, ovaj zadatak bi uvek dovodio do grešaka, bez obzira na to koliko je algoritam napredan.

Isti princip važi i u prethodnoj obuci. Pravopis i zagrade prate dosledne obrasce, pa greške tu nestaju sa skalom. Ali proizvoljne činjenice niske učestalosti, poput datuma rođenja kućnog ljubimca, ne mogu se predvideti samo iz obrazaca i zato dovode do halucinacija. Naša analiza objašnjava koje vrste halucinacija treba da proizlaze iz predviđanja sledeće reči. U idealnom slučaju, dalje faze nakon prethodne obuke trebalo bi da ih uklone, ali to nije u potpunosti uspešno iz razloga opisanih u prethodnom odeljku.

Zaključci

Nadamo se da statistička perspektiva u našem radu razjašnjava prirodu halucinacija i suprotstavlja se uobičajenim zabludama:

Tvrdnja: Halucinacije će biti eliminisane poboljšanjem tačnosti, jer model sa 100% tačnosti nikada ne halucinira.
Nalaz: Tačnost nikada neće dostići 100%, jer su, bez obzira na veličinu modela, mogućnosti pretrage i rezonovanja, neka pitanja iz stvarnog sveta inherentno bez odgovora.
Tvrdnja: Halucinacije su neizbežne.
Nalaz: Nisu, zato što jezički modeli mogu da se uzdrže kada su nesigurni.
Tvrdnja: Izbegavanje halucinacija zahteva stepen inteligencije koji je moguće postići isključivo većim modelima.
Nalaz: Malom modelu može biti lakše da zna svoja ograničenja. Na primer, kada se od njega traži da odgovori na pitanje na maorskom jeziku, mali model koji ne zna maorski može jednostavno da kaže „Ne znam“, dok model koji zna nešto maorskog mora da proceni svoje poverenje. Kao što je objašnjeno u radu, biti „kalibrisan“ zahteva mnogo manje računanja nego biti tačan.
Tvrdnja: Halucinacije su misteriozni kvar u modernim jezičkim modelima.
Nalaz: Razumemo statističke mehanizme kroz koje halucinacije nastaju i bivaju nagrađene u evaluacijama.
Tvrdnja: Da bismo merili halucinacije, potreban nam je samo dobar test halucinacija.
Nalaz: Evaluacije halucinacija su objavljene. Međutim, dobra evaluacija halucinacija ima mali efekat naspram stotina tradicionalnih evaluacija zasnovanih na tačnosti koje kažnjavaju poniznost i nagrađuju nagađanje. Umesto toga, sve primarne metrike evaluacije moraju se preraditi tako da nagrađuju iskazivanje neizvesnosti.

Naši najnoviji modeli imaju niže stope halucinacija i nastavljamo naporno da radimo na daljem smanjenju stope samouverenih grešaka koje naši jezički modeli daju kao izlaz.

Autori objave

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel и Johannes Heidecke

Наставите са читањем

Прикажи све

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

Публикација1. авг 2026.

Како су два подешавања утростручила наше резултате на мерилу ARC-AGI-3

Истраживање29. јул 2026.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Компанија29. јул 2026.