
U OpenAI-u naporno radimo na tome da AI sustave učinimo korisnijima i pouzdanijima. Čak i kada jezični modeli postaju sposobniji, jedan izazov ostaje tvrdoglavo teško u potpunosti riješiti: tzv. 'halucinacije'. Pod time mislimo na slučajeve u kojima model s povjerenjem smišlja odgovor koji nije istinit. Naš novi istraživački rad(otvara se u novom prozoru) tvrdi da jezični modeli haluciniraju jer standardni postupci obuke i procjene nagrađuju pogađanje umjesto priznavanja nesigurnosti.
ChatGPT također halucinira. GPT‑5 ima znatno manje halucinacija, osobito pri zaključivanju, ali se i dalje događaju. Halucinacije ostaju temeljni izazov za sve velike jezične modele, ali mi naporno radimo na njihovom daljnjem smanjenju.
Halucinacije su uvjerljive, ali netočne izjave koje smišljaju jezični modeli. Oni se mogu pojaviti na iznenađujuće načine, čak i kod naizgled jednostavnih pitanja. Primjerice, kada smo pitali široko korištenog chatbota za naslov doktorske disertacije Adama Taumana Kalaija (autora ovog rada), on je samouvjereno dao tri različita odgovora — nijedan od njih nije bio točan. Kada smo pitali za njegov rođendan, dobili smo tri različita datuma, također sva tri pogrešna.
Halucinacije djelomično traju jer trenutne metode procjene postavljaju pogrešne poticaje. Iako same procjene ne uzrokuju izravno halucinacije, većina procjena mjeri performanse modela na način koji potiče nagađanje umjesto iskrenosti o nesigurnosti.
Razmišljajte o tome kao test s višestrukim izborom. Ako ne znate odgovor, ali se odlučite za nasumično nagađanje, možda ćete imati sreće i biti u pravu. Ostavljanje praznog odgovora jamči nulu. Na isti način, kada se modeli ocjenjuju samo prema točnosti, postotku pitanja na koja točno odgovore, potiče ih se da nagađaju umjesto da kažu „Ne znam“.
Kao još jedan primjer, pretpostavimo da je jezični model upitan za nečiji rođendan, ali ne zna. Ako pokuša s „10. rujna“, ima 1 prema 365 šansu da bude u pravu. Reći „ne znam“ jamči nula bodova. Tijekom tisuća testnih pitanja, model nagađanja na kraju izgleda bolje na ljestvicama rezultata nego pažljivi model koji priznaje nesigurnost.
Za pitanja gdje postoji samo jedan „točan odgovor“, mogu se razmotriti tri kategorije odgovora: točni odgovori, pogreške i suzdržani odgovori kada model ne riskira nagađanje. Suzdržavanje je dio poniznosti, jedne od temeljnih vrijednosti OpenAI-a. Većina tablica rezultata daje prednost i rangira modele prema točnosti, ali pogreške su gore od suzdržavanja. Naša specifikacija modela(otvara se u novom prozoru) navodi da je bolje naznačiti nesigurnost ili zatražiti pojašnjenje nego pružiti samouvjerene informacije koje mogu biti netočne.
Za konkretan primjer, razmotrite SimpleQA eval kao primjer iz GPT5 sistemske kartice(otvara se u novom prozoru).
Pokazatelj | gpt-5-razmišljanje-mini | OpenAI o4-mini |
Stopa suzdržavanja | 52 % | 1 % |
Stopa točnosti | 22 % | 24 % |
Stopa pogrešaka | 26 % | 75 % |
Ukupno | 100 % | 100 % |
Što se tiče točnosti, stariji model OpenAI o4-mini ima nešto bolje performanse. Međutim, stopa pogrešaka (tj. stopa halucinacija) je znatno viša. Strateško pogađanje kada ste nesigurni poboljšava točnost, ali i povećava pogreške i halucinacije.
Prilikom utvrđivanja prosjeka rezultata kroz desetke evaluacija, većina mjerila izdvaja metriku točnosti, ali to podrazumijeva lažnu dihotomiju između ispravnog i pogrešnog. Na pojednostavljenim procjenama poput SimpleQA, neki modeli postižu gotovo 100 % točnosti i time eliminiraju halucinacije. Međutim, kod zahtjevnijih evaluacija i u stvarnoj upotrebi, točnost je ograničena ispod 100% jer postoje neka pitanja na koja se odgovor ne može utvrditi iz različitih razloga, kao što su nedostupne informacije, ograničene sposobnosti razmišljanja malih modela ili nejasnoće koje treba razjasniti.
Unatoč tome, ljestvice koje se temelje isključivo na točnosti dominiraju ljestvicama najboljih rezultata i karticama modela, potičući razvojne inženjere da izrađuju modele koji nagađaju umjesto da se suzdržavaju. To je jedan od razloga zašto, čak i kada modeli postaju napredniji, oni i dalje mogu halucinirati, samouvjereno dajući pogrešne odgovore umjesto da priznaju nesigurnost.
Postoji jednostavno rješenje. Više kažnjavajte pogreške uzrokovane prevelikim samopouzdanjem nego što kažnjavate nesigurnost, i dodijelite djelomične bodove za prikladne izraze nesigurnosti. Ova ideja nije nova. Neki standardizirani testovi već dugo koriste negativno ocjenjivanje za netočne odgovore ili djelomične bodove za ostavljanje pitanja praznima kako bi se obeshrabrilo nagađanje na slijepo. Nekoliko istraživačkih skupina također je istražilo procjene koje uzimaju u obzir nesigurnost i kalibraciju.
Naša je poanta drugačija. Nije dovoljno dodati nekoliko novih testova koji su svjesni nesigurnosti sa strane. Široko korištene evaluacije temeljene na točnosti potrebno je ažurirati kako bi njihovo bodovanje obeshrabrilo nagađanje. Ako glavne tablice rezultata nastave nagrađivati sretna pogađanja, modeli će nastaviti učiti pogađati. Popravljanje tablica rezultata može proširiti primjenu tehnika za smanjenje halucinacija, kako novorazvijenih, tako i onih iz prethodnih istraživanja.
Razgovarali smo o tome zašto se halucinacija tako teško riješiti, ali odakle uopće dolaze te vrlo specifične činjenične netočnosti? Uostalom, veliki prethodno obučeni modeli rijetko pokazuju druge vrste pogrešaka, kao što su pravopisne pogreške i neusklađene zagrade. Razlika se odnosi na vrste obrazaca koji postoje u podacima.
Jezični modeli prvo uče kroz predobuku, postupak predviđanja sljedeće riječi u velikim količinama teksta. Za razliku od tradicionalnih problema strojnog učenja, ne postoje oznake 'točno/netočno' pridružene svakoj tvrdnji. Model vidi samo pozitivne primjere tečnog jezika i mora približno odrediti ukupnu raspodjelu.
Dvostruko je teže razlikovati važeće izjave od nevažećih kada nemate nijedan primjer označen kao nevažeći. Ali čak i s oznakama, neke su pogreške neizbježne. Da biste shvatili zašto, razmotrite jednostavniju analogiju. U prepoznavanju slika, ako se milijuni fotografija mačaka i pasa označe kao 'mačka' ili 'pas', algoritmi mogu naučiti pouzdano ih klasificirati. Ali zamislite umjesto toga označavanje svake fotografije kućnog ljubimca prema rođendanu ljubimca. Budući da su rođendani u biti slučajni, ovaj zadatak bi uvijek proizvodio pogreške, bez obzira na to koliko je algoritam napredan.
Isti princip vrijedi i u predobuci. Pravopis i zagrade slijede dosljedne obrasce, pa pogreške u njima nestaju s povećanjem opsega. Međutim, proizvoljne manje učestalih činjenica, poput rođendana kućnog ljubimca, ne mogu se predvidjeti samo iz obrazaca i stoga dovode do halucinacija. Naša analiza objašnjava koje vrste halucinacija bi trebale proizaći iz predviđanja sljedeće riječi. Idealno bi bilo da ih daljnje faze nakon predobuke uklone, ali to nije u potpunosti uspješno iz razloga opisanih u prethodnom odjeljku.
Nadamo se da će statistička točka gledišta u našem radu razjasniti prirodu halucinacija i smanjiti uobičajene zablude:
- Tvrdnja: halucinacije će se eliminirati poboljšanjem točnosti jer 100 % točan model nikada ne halucinira.
Nalaz: točnost nikada neće doseći 100 % jer, bez obzira na veličinu modela, mogućnosti pretraživanja i zaključivanja, na neka pitanja se iz stvarnog svijeta inherentno ne može odgovoriti. - Tvrdnja: halucinacije su neizbježne.
Nalaz: nisu, jer se jezični modeli mogu suzdržati kada su nesigurni. - Tvrdnja: izbjegavanje halucinacija zahtijeva stupanj inteligencije koji je moguće postići samo s većim modelima.
Nalaz: malom modelu može biti lakše prepoznati svoje granice. Primjerice, kada se zatraži da odgovori na pitanje na jeziku Māori, mali model koji ne poznaje Māori jednostavno može reći "Ne znam", dok model koji poznaje nešto Māori jezika mora odrediti svoju razinu pouzdanosti. Kao što je spomenuto u radu, biti 'kalibriran' zahtijeva mnogo manje računanja nego biti točan. - Tvrdnja: halucinacije su misteriozna greška u modernim jezičnim modelima.
Nalaz: razumijemo statističke mehanizme kroz koje halucinacije nastaju i bivaju nagrađene u procjenama. - Tvrdnja: za mjerenje halucinacija potrebna nam je samo dobra procjena halucinacija.
Nalaz: evalsi halucinacija su objavljeni. Međutim, dobra procjena halucinacija ima mali učinak protiv stotina tradicionalnih procjena temeljenih na točnosti koje kažnjavaju skromnost i nagrađuju nagađanje. Umjesto toga, sve primarne metrike evaluacije potrebno je preraditi kako bi se nagradili izrazi nesigurnosti.
Naši najnoviji modeli imaju niže stope halucinacija i nastavljamo naporno raditi na daljnjem smanjenju stopa sigurnih pogrešaka u odgovorima naših jezičnih modela.
Suradnici u objavama
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel i Johannes Heidecke


