Zašto jezički modeli haluciniraju

U OpenAI-u naporno radimo na tome da AI sisteme učinimo korisnijim i pouzdanijim. Čak i kako modeli jezika postaju sposobniji, jedan izazov i dalje ostaje izuzetno težak za potpuno rješavanje: halucinacije. Pod tim mislimo na slučajeve kada model samouvjereno generira odgovor koji nije istinit. Naš novi istraživački rad(otvara se u novom prozoru) tvrdi da jezički modeli haluciniraju jer standardne procedure obuke i evaluacije nagrađuju nagađanje umjesto priznavanja neizvjesnosti.
ChatGPT također halucinira. GPT‑5 ima znatno manje halucinacija posebno pri rezonovanju, ali se i dalje javljaju. Halucinacije ostaju temeljni izazov za sve velike jezičke modele, ali naporno radimo na njihovom daljnjem smanjenju.
Halucinacije su uvjerljive, ali netačne izjave generirane jezičkim modelima. Oni se mogu pojaviti na iznenađujuće načine, čak i kod naizgled jednostavnih pitanja. Na primjer, kada smo pitali široko korištenog chatbota za naslov doktorske disertacije Adama Taumana Kalaija (autora ovog rada), on je samouvjereno dao tri različita odgovora—nijedan od njih nije bio tačan. Kada smo pitali za njegov rođendan, dobili smo tri različita datuma, također sva pogrešna.
Halucinacije djelomično opstaju jer trenutne metode procjene postavljaju pogrešne poticaje. Iako same evaluacije ne uzrokuju direktno halucinacije, većina evaluacija mjeri performanse modela na način koji potiče nagađanje, a ne iskrenost u vezi s neizvjesnošću.
Razmislite o tome kao o testu s višestrukim izborom. Ako ne znate odgovor, ali se odlučite za nasumično nagađanje, možda ćete imati sreće i biti u pravu. Ostavljanje praznim garantuje nulu. Na isti način, kada se modeli ocjenjuju samo na osnovu tačnosti, postotka pitanja na koja tačno odgovore, podstiču se da nagađaju umjesto da kažu „Ne znam“.
Kao još jedan primjer, pretpostavimo da je jezički model upitan za nečiji rođendan, ali ne zna. Ako pogodi „10. septembar“, ima šansu od 1 prema 365 da bude u pravu. Reći „Ne znam“ garantuje nula bodova. Tokom hiljada testnih pitanja, model nagađanja na kraju izgleda bolje na tabelama rezultata nego pažljivi model koji priznaje nesigurnost.
Za pitanja gdje postoji samo jedan „tačan odgovor“, mogu se razmotriti tri kategorije odgovora: tačni odgovori, greške i uzdržavanje, gdje model ne riskira nagađanje. Suzdržavanje je dio poniznosti, jedne od osnovnih vrijednosti OpenAI-a. Većina tabela rezultata daje prioritet i rangira modele na osnovu tačnosti, ali greške su gore od suzdržavanja. Naš Model Spec(otvara se u novom prozoru) navodi da je bolje ukazati na nesigurnost ili tražiti pojašnjenje nego pružiti samouvjerene informacije koje mogu biti netačne.
Za konkretan primjer, razmotrite SimpleQA eval kao primjer iz GPT5 sistemske kartice(otvara se u novom prozoru).
Metrika | gpt-5-thinking-mini | OpenAI o4-mini |
Stopa apstinencije | 52% | 1% |
Stopa tačnosti | 22% | 24% |
Stopa grešaka | 26% | 75% |
Ukupno | 100% | 100% |
Što se tiče tačnosti, stariji model OpenAI o4-mini postiže nešto bolje rezultate. Međutim, stopa grešaka (tj. stopa halucinacija) je značajno viša. Strateško pogađanje kada ste nesigurni poboljšava tačnost, ali povećava greške i halucinacije.
Prilikom usrednjavanja rezultata na desetke evaluacija, većina mjerila izdvaja metriku točnosti, ali to podrazumijeva lažnu dihotomiju između ispravnog i pogrešnog. Na pojednostavljenim evaluacijama kao što je SimpleQA, neki modeli postižu gotovo 100% tačnosti i time eliminišu halucinacije. Međutim, kod zahtjevnijih evaluacija i u stvarnoj upotrebi, tačnost je ograničena ispod 100% jer postoje neka pitanja na koja se odgovor ne može utvrditi iz različitih razloga, kao što su nedostupne informacije, ograničene sposobnosti rezonovanja malih modela ili nejasnoće koje treba razjasniti.
Ipak, ljestvice rezultata koje se zasnivaju samo na tačnosti dominiraju rang listama i karticama modela, motivirajući programere da grade modele koji nagađaju, umjesto da se drže nazad. To je jedan od razloga zašto, čak i kada modeli postaju napredniji, oni i dalje mogu halucinirati, samouvjereno dajući pogrešne odgovore umjesto da priznaju nesigurnost.
Postoji jednostavno rješenje. Više kažnjavajte greške uzrokovane samopouzdanjem nego greške uzrokovane nesigurnošću, i dajte djelimične zasluge za odgovarajuće izražavanje nesigurnosti. Ova ideja nije nova. Neki standardizirani testovi već dugo koriste verzije negativnog ocjenjivanja za pogrešne odgovore ili djelomične bodove za ostavljanje pitanja praznima kako bi se obeshrabrilo nagađanje naslijepo. Nekoliko istraživačkih grupa također je istražilo evaluacije koje prave račun za neizvjesnost i kalibraciju.
Naša poenta je drugačija. Nije dovoljno dodati nekoliko novih testova svjesnih neizvjesnosti sa strane. Široko korištene evaluacije zasnovane na tačnosti potrebno je ažurirati kako bi njihovo bodovanje obeshrabrilo nagađanje. Ako glavne table sa rezultatima nastave nagrađivati sretna pogađanja, modeli će nastaviti učiti pogađati. Popravka tablica rezultata može proširiti primjenu tehnika za smanjenje halucinacija, kako novorazvijenih, tako i onih iz prethodnih istraživanja.
Razgovarali smo o tome zašto je tako teško riješiti se halucinacija, ali odakle dolaze ove vrlo specifične činjenične netačnosti? Uostalom, veliki prethodno obučeni modeli rijetko pokazuju druge vrste grešaka kao što su pravopisne greške i neusklađene zagrade. Razlika se odnosi na vrste obrazaca koji postoje u podacima.
Jezički modeli prvo uče kroz preobuku, proces predviđanja sljedeće riječi u ogromnim količinama teksta. Za razliku od tradicionalnih problema mašinskog učenja, ne postoje oznake „tačno/netačno“ pridružene svakoj izjavi. Model vidi samo pozitivne primjere tečnog jezika i mora približno odrediti ukupnu distribuciju.
Dvostruko je teško razlikovati valjane izjave od nevažećih kada nemate nijedan primjer označen kao nevažeći. Ali čak i s oznakama, neke greške su neizbježne. Da bismo razumjeli zašto, razmotrimo jednostavniju analogiju. U prepoznavanju slika, ako se milioni fotografija mačaka i pasa označe kao „mačka“ ili „pas“, algoritmi mogu naučiti da ih pouzdano klasificiraju. Ali zamislite umjesto toga da svaku fotografiju kućnog ljubimca označite prema rođendanu kućnog ljubimca. Budući da su rođendani u suštini nasumični, ovaj zadatak bi uvijek proizvodio greške, bez obzira na to koliko je algoritam napredan.
Isti princip se primjenjuje i u pretreningu. Pravopis i zagrade slijede dosljedne obrasce, tako da greške u njima nestaju s povećanjem obima. Međutim, proizvoljne niskofrekventne činjenice, poput rođendana kućnog ljubimca, ne mogu se predvidjeti samo na osnovu obrazaca i stoga dovode do halucinacija. Naša analiza objašnjava koje vrste halucinacija bi trebale nastati iz predviđanja sljedeće riječi. Idealno bi bilo da ih daljnje faze nakon predtreninga uklone, ali to nije u potpunosti uspješno iz razloga opisanih u prethodnom odjeljku.
Nadamo se da će statistička perspektiva u našem radu razjasniti prirodu halucinacija i gurnuti nazad uobičajene zablude:
- Tvrdnja: Halucinacije će biti eliminisane poboljšanjem tačnosti jer 100% tačan model nikada ne halucinira.
Nalaz: Tačnost nikada neće dostići 100% jer, bez obzira na veličinu modela, mogućnosti pretraživanja i rezonovanja, neka pitanja iz stvarnog svijeta su inherentno neodgovorljiva. - Tvrdnja: Halucinacije su neizbježne.
Nalaz: Nisu, jer jezički modeli mogu se suzdržati kada su nesigurni. - Tvrdnja: Izbjegavanje halucinacija zahtijeva određeni nivo inteligencije koji je moguće postići samo s većim modelima.
Nalaz: Malom modelu može biti jednostavnije prepoznati svoje granice. Na primjer, kada se od modela zatraži da odgovori na pitanje na maorskom jeziku, mali model koji ne poznaje maorski može jednostavno reći „Ne znam“, dok model koji poznaje nešto maorskog mora utvrditi svoju samopouzdanost. Kao što je navedeno u radu, biti „kalibriran“ zahtijeva mnogo manje računanja nego biti tačan. - Tvrdnja: Halucinacije su misteriozni propust u modernim jezičkim modelima.
Nalaz: Razumijemo statističke mehanizme putem kojih halucinacije nastaju i bivaju nagrađene u evaluacijama. - Tvrdnja: Da bismo izmjerili halucinacije, potrebna nam je samo dobra procjena halucinacija.
Nalaz: Procjene procjena halucinacija su objavljene. Međutim, dobra evaluacija halucinacija ima mali učinak u odnosu na stotine tradicionalnih evaluacija zasnovanih na tačnosti koje kažnjavaju skromnost i nagrađuju nagađanje. Umjesto toga, sve primarne metrike evaluacije potrebno je preraditi kako bi se nagradili izrazi nesigurnosti.
Naši najnoviji modeli imaju niže stope halucinacija, i nastavi naporno raditi na daljnjem smanjenju stopa sigurnih grešaka u izlazu naših jezičkih modela.
Saradnici za najave
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel i Johannes Heidecke


