
Hos OpenAI jobber vi hardt for å gjøre AI-systemer nyttigere og mer pålitelige. Selv når språkmodeller blir mer funksjonelle, forblir én utfordring veldig vanskelig å løse fullt ut: hallusinasjoner. Med dette mener vi forekomster der en modell genererer et svar som ikke er sant. Den nye forskningsartikkelen(åpnes i et nytt vindu) vår argumenterer at språkmodeller hallusinerer fordi standardprosedyrer for opplæring og evalueringer belønner gjetting fremfor å bekrefte usikkerhet.
ChatGPT hallusinerer også GPT‑5 har betydelig færre hallusinasjoner, spesielt under resonnering, men de oppstår fremdeles. Hallusinasjoner forblir en grunnleggende utfordring for alle store språkmodeller, men vi jobber hardt for å redusere dem videre.
Hallusinasjoner er plausible, men falske uttalelser generert av språkmodeller. De kan dukke opp på overraskende måter, selv for tilsynelatende enkle spørsmål. Da vi for eksempel spurte en ofte brukt chatbot om tittelen til doktoravhandlingen av Adam Tauman Kalai (en forfatter i denne avhandlingen), ga den selvsikkert tre forskjellige svar – ingen av dem var riktige. Da vi spurte om fødselsdatoen hans, ga den tre forskjellige datoer, som også alle var feil.
Hallusinasjoner blir delvis værende fordi gjeldende evalueringsmetoder setter feil insentiver. Selv om evalueringene i seg selv ikke forårsaker hallusinasjoner direkte, måler de fleste evalueringer modellytelse på en måte som oppmuntrer til gjetting i stedet for å være ærlig om usikkerhet.
Tenk på det som en flervalgsprøve. Hvis du ikke vet svaret, men gjetter tilfeldig, kan du være heldig og få rett. Hvis du lar det være tomt, garanteres du null poeng. På den samme måten, når modeller bare blir vurdert for nøyaktighet og prosentandelen av spørsmål de får helt riktig, blir de oppmuntret til å gjette i stedet for å si «Jeg vet ikke».
Som et annet eksempel kan du tenke deg at en språkmodell blir spurt om fødselsdatoen til noen, men ikke vet den. Hvis den gjetter «10. september», har den 1 til 365 sjanse til å få det riktig. Ved å si «Jeg vet ikke» garanteres den null poeng. Over tusenvis av testspørsmål ser modellen som gjetter, bedre ut på poenglister enn en forsiktig modell som innrømmer usikkerhet.
For spørsmål der det er ett «riktig svar», kan man anse tre kategorier av svar: nøyaktige svar, feil og unnlatelse fra å svare der modellen ikke gjetter. Unnlatelse er en del av ydmykhet, en av kjerneverdiene til OpenAI. De fleste poenglister prioriterer og rangerer modeller basert på nøyaktighet, men feil er verre enn unnlatelser. Modellspesifikasjonen(åpnes i et nytt vindu) vår sier at det er bedre å indikere usikkerhet eller be om oppklaring enn å gi selvsikker informasjon som kan være feil.
For et konkret eksempel kan du se på SimpleQA-evalueringen som et eksempel fra systemkortet for GPT5(åpnes i et nytt vindu).
Måleverdi | gpt-5-thinking-mini | OpenAI o4-mini |
Unnlatelsesrate
| 52 % | 1 % |
Nøyaktighetsrate
| 22 % | 24 % |
Feilrate
| 26 % | 75 % |
Totalt | 100 % | 100 % |
Med tanke på nøyaktighet presterer den eldre OpenAI o4-mini-modellen litt bedre. Men feilraten (dvs. raten for hallusinasjon) er betydelig høyere. Strategisk gjetting når modellen er usikker, forbedrer nøyaktighet, men øker feil og hallusinasjoner.
Når man tar gjennomsnitt av resultater fra titalls evalueringer, tar de fleste referansemålinger bort målingen av nøyaktighet, men dette medfører en falsk motsetning mellom rett og feil. På veldig enkle evalueringer som SimpleQA oppnår noen modeller nesten 100 % og eliminerer dermed hallusinasjoner. Men i mer utfordrende evalueringer og i faktisk bruk, er nøyaktighet begrenset under 100 %, siden det er noen spørsmål svaret ikke kan fastslås for, av en rekke grunner som utilgjengelig informasjon, begrensede tenkefunksjonaliteter i små modeller eller tvetydigheter som må oppklares.
Likevel dominerer poenglister med bare nøyaktighet i lederlister og modellkort, noe som motiverer utviklere til å bygge modeller som gjetter i stedet for å holde igjen. Det er en grunn til at selv om modeller blir mer avanserte, kan de fremdeles hallusinere og gi feil svar i stedet for å bekrefte usikkerhet.
Det finnes en enkel løsning. Straff selvsikre feil mer enn du straffer usikkerhet, og gi delvis kreditt for passende uttrykk av usikkerhet. Denne ideen er ikke ny. Noen standardiserte tester har lenge brukt versjoner av negativ poenggivning for feil svar eller delvis kreditt for å la spørsmål være tomme, for å forhindre blind gjetting. Flere forskningsgrupper har også utforsket evalueringer som tar hensyn til usikkerhet og kalibrering.
Poenget vårt er annerledes. Det er ikke nok å legge til noen få tester som er oppmerksom på usikkerhet. De bredt brukte nøyaktighetsbaserte evalueringene må oppdateres, slik at poengsummene forhindrer gjetting. Hvis de største poenglistene fortsetter å belønne heldig gjetting, kommer modeller til å fortsette å gjette. Å fikse poenglistene kan gjøre bruk av teknikker for reduksjon av hallusinasjon vanligere, både nylig utviklede teknikker og de fra tidligere forskning.
Vi har snakket om hvorfor hallusinasjoner er så vanskelige å bli kvitt, men hvor kommer disse veldig spesifikke faktaunøyaktighetene fra i utgangspunktet? Tross alt har alle store forhåndsopplærte modeller sjeldent andre typer feil som stavefeil eller parenteser som ikke matcher. Forskjellen er i hva slags mønstre det er i dataene.
Språkmodeller lærer først via forhåndsopplæring, en prosess der den forutser det neste ordet i enorme mengder tekst. I motsetning til tradisjonelle maskinlæringsproblemer, er det ingen merker for «sann/usann» knyttet til hver uttalelse. Modellen ser bare positive eksempler på flytende språk og må anslå den generelle distribusjonen.
Det er dobbelt så vanskelig å skille gyldige uttalelser fra ugyldige uttalelser når du ikke har noen eksempler merket som ugyldige. Men selv med merker er noen feil uunngåelige. For å se hvorfor kan du vurdere en enklere analogi. I bildegjenkjennelse, hvis flere millioner bilder av katter og hunder merkes som «katt» eller «hund», kan algoritmer klassifisere dem pålitelig. Men tenk deg i stedet å merke hvert bilde av et kjæledyr etter fødselsdatoen til kjæledyret. Siden fødselsdatoer i bunn og grunn er tilfeldige, kommer denne oppgaven alltid til å gi feil, uansett hvor avansert algoritmen er.
Det samme prinsippet gjelder innen forhåndsopplæring. Staving og parenteser følger konsekvente mønstre, så feil der forsvinner i større skala. Men tilfeldige fakta med lav hyppighet, for eksempel fødselsdatoen til et kjæledyr, kan ikke forutses fra bare mønstre og fører derfor til hallusinasjoner. Analysene våre forklarer hvilke typer hallusinasjoner som skal oppstå fra forutsigelse av neste ord. Ideelt sett skal senere trinn etter forhåndsopplæring fjerne dem, men dette er ikke helt vellykket av årsaker som beskrives i den tidligere delen.
Vi håper at den statistiske linsen i avhandlingen tydeliggjør naturen av hallusinasjoner og motvirker vanlige misforståelser:
- Påstand: Hallusinasjoner blir fjernet ved å forbedre nøyaktighet, fordi en 100 % nøyaktig modell aldri hallusinerer.
Funn: Nøyaktighet kommer aldri til å nå 100 %, fordi, uavhengig av modellstørrelse, søk og resonneringsfunksjonalitet, er noen spørsmål i seg selv umulige å svare på. - Påstand: Hallusinasjoner er uunngåelige.
Funn: De er ikke det, fordi språkmodeller kan avstå når de er usikre. - Påstand: Å unngå hallusinasjoner krever en intelligensgrad som bare kan oppnås med større modeller.
Funn: Det kan være enklere for en liten modell å vite grensene sine. Når en liten modell for eksempel blir bedt om å svare på et spørsmål på maori, og den ikke kan noe maori, kan den bare si «jeg vet ikke», mens en modell som kan litt maori må fastslå hvor sikker den er. Som diskutert i avhandlingen krever det mye mindre datakraft å bli «kalibrert» enn å være nøyaktig. - Påstand: Hallusinasjoner er en mystisk feil i moderne språkmodeller.
Funn: Vi forstår de statistiske mekanismene som gjør at hallusinasjoner oppstår og belønnes i evalueringer. - Påstand: For å måle hallusinasjoner trenger vi bare en god evaluering av hallusinasjoner.
Funn: Evalueringer av hallusinasjoner er blitt publisert. Men en god evaluering av hallusinasjoner har liten effekt mot hundrevis av tradisjonelle nøyaktighetsbaserte evalueringer som straffer ydmykhet og belønner gjetting. I stedet må alle de primære evalueringsmålingene omarbeides for å belønne uttrykk av usikkerhet.
De siste modellene våre har lavere rater av hallusinasjoner, og vi fortsetter å jobbe hardt for å videre redusere ratene av selvsikre feil som gis av språkmodellene våre.
Bidragsytere til kunngjøring
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel og Johannes Heidecke


