
Vi på OpenAI jobbar hårt för att göra AI-system mer användbara och tillförlitliga. Språkmodellernas allt bättre förmågor till trots är det ett problem som varit svårt att få bukt med: hallucinationer. Med detta menas tillfällen då en modell självsäkert genererar ett svar som inte är korrekt. Enligt vår nya forskningsartikel(öppnas i ett nytt fönster) hallucinerar språkmodeller på grund av att vanlig träning och utvärdering föredrar gissningar framför medgivande av osäkerhet.
ChatGPT hallucinerar också. GPT‑5 har betydligt färre hallucinationer, särskilt vid resonemang, men de förekommer fortfarande. Hallucinationer förblir ett grundläggande problem för stora språkmodeller, men vi jobbar hårt för att minska förekomsten av dem.
Hallucinationer är till synes möjliga men felaktiga påståenden som genereras av språkmodeller. De kan dyka upp på oväntade platser, även när det gäller frågor som verkar enkla. När vi exempelvis frågade en populär dialogrobot om titeln på en doktorsavhandling av Adam Tauman Kalai (en av den här artikelns medförfattare) gav den självsäkert tre olika svar – alla fel. När vi frågade om hans födelsedag gav den tre olika datum, även de felaktiga.
Förekomsten av hallucinationer beror delvis på att dagens utvärderingsmetoder ger fel incitament. Utvärderingarna som sådana orsakar inte direkt hallucinationer, men för det mesta mäter de modellernas resultat på ett sätt som uppmuntrar gissningar snarare än uppriktighet när det kommer till osäkerhet.
Tänk på det som ett test med flera svarsalternativ. Om du inte vet svaret utan bara gissar kan du ändå ha tur och få rätt. Om du inte ger något svar alls får du garanterat noll poäng. På samma sätt är det med modeller som endast betygsätts baserat på precision, det vill säga antalet frågor de svarar exakt rätt på. De uppmuntras att gissa istället för att medge att de inte vet svaret.
För att ta ett annat exempel, anta att en språkmodell blir ombedd att ange någons födelsedatum, men inte vet svaret. Om den gissar på ”10 september” har den 1/365 chans att få rätt. Men om den svarar ”Jag vet inte” får den garanterat noll poäng. Efter tusentals testfrågor kommer en modell som gissar att ha fått fler poäng än en försiktig modell som medger när den är osäker.
Vid frågor som har ett enda ”korrekt svar” kan svaren delas in i tre kategorier: korrekta svar, felaktigheter och avståenden där modellen inte vågar gissa. Att avstå handlar om ödmjukhet, en av OpenAI:s centrala värderingar. På de flesta poängtavlor prioriteras och rangordnas modeller baserat på precision, men felaktigheter är i själva verket värre än att avstå. Enligt våra modellspecifikationer(öppnas i ett nytt fönster) är det bättre att medge osäkerhet eller be om ett förtydligande än att självsäkert ange information som kan vara felaktig.
Ett exempel från GPT‑5:s systemkort(öppnas i ett nytt fönster) är SimpleQA utv.
Metrik | gpt-5-thinking-mini | OpenAI o4-mini |
Avståendefrekvens
| 52 % | 1 % |
Precisionsfrekvens
| 22 % | 24 % |
Felfrekvens
| 26 % | 75 % |
Totalt | 100 % | 100 % |
Den gamla modellen OpenAI o4-mini presterar något bättre vad gäller precision. Dess felfrekvens (dvs. frekvens av hallucinationer) är dock betydligt högre. Strategiskt gissande vid osäkerhet förbättrar precisionen, men ökar antalet felaktigheter och hallucinationer.
Med de flesta riktmärken baseras genomsnittliga resultat från dussintals utvärderingar på precisionsnyckeltalet, men därmed upprättas en falsk dikotomi mellan rätt och fel. Vid enkla utvärderingar som SimpleQA uppnår vissa modeller nästan 100 % precision och tycks därmed ha eliminerat hallucinationer. I mer komplexa utvärderingar och vid verklig användning uppnås dock aldrig 100 % precision, eftersom svaren på vissa frågor av olika orsaker inte kan fastställas, till exempel vid avsaknad av information, små modellers begränsade tankeförmåga eller ambivalenta frågor som behöver förtydligas.
Poängtavlor som uteslutande fokuserar på precision är dock de mest använda för rankningar och modellkort, vilket motiverar utvecklare att skapa modeller som gissar snarare än håller inne med svaret. Det är en av anledningarna till att de alltmer avancerade modellerna fortfarande hallucinerar, det vill säga ger fel svar hellre än att medge osäkerhet.
Det finns ett enkelt sätt att åtgärda detta. Bestraffa självsäkert angivna felaktigheter mer strikt än du bestraffar osäkerhet, och visa en aning uppskattning för lämpliga medgivanden av osäkerhet. Det här är inte någon ny idé. Vissa standardiserade tester har under lång tid använt olika versioner av negativ betygsättning vid felaktiga svar eller delat ut delvisa poäng för svar som lämnats tomma, vilket kan avskräcka från blinda gissningar. Många forskningsgrupper har undersökt utvärderingar som tar osäkerhet och kalibrering med i beräkningen.
Vi fokuserar på något annat. Det räcker inte att vid sidan av lägga till några nya test som tar hänsyn till osäkerhet. De populära, precisionsbaserade utvärderingarna måste uppdateras så att deras betygsättning avskräcker från gissningar. Om de främsta poängtavlorna fortsätter att belöna tursamma gissningar kommer modeller fortsätta att lära sig gissa. Om poängtavlorna åtgärdas kanske fler tekniker för att minska antalet hallucinationer anammas, både nyutvecklade och de som tidigare forskning tagit fram.
Vi har redan tagit upp frågan varför det är så svårt att bli av med hallucinationer, men var kommer dessa högst specifika faktafel ursprungligen ifrån? Stora förhandstränade modeller begår trots allt sällan andra typer av misstag, till exempel stavfel eller felmatchade parenteser. Skillnaden ligger i vilka slags mönster som data omfattar.
Språkmodeller lär sig initialt genom förhandsträning, som går ut på att förutsäga nästkommande ord i enorma mängder text. Till skillnad från hur traditionell maskininlärning fungerar finns här inga sant/falskt-etiketter kopplade till varje påstående. Modellen ser bara positiva exempel på flytande språkbruk och försöker matcha den övergripande distributionen.
Det är dubbelt så svårt att skilja korrekta från inkorrekta svar om man inte har några märkta exempel på vad som är inkorrekt. Men även med etiketter förekommer det oundvikligen vissa fel. Fundera över den här analogin för att förstå varför så är fallet. Inom bildigenkänning kan algoritmer lära sig att på tillförlitligt sätt kategorisera katter och hundar om de har tillgång till miljontals foton på katter och hundar med etiketterna ”katt” och ”hund”. Men tänk dig istället att varje foto är märkt med djurets födelsedag. Födelsedagar är av naturen slumpmässiga, så den här uppgiften skulle alltid leda till felaktigheter, oavsett hur avancerad algoritmen är.
Samma princip gäller i förhandsträning. Stavning och parenteser följer regelbundna mönster, så i de fallen elimineras felaktigheter när skalan når en viss storlek. Slumpmässiga fakta som dyker upp sällan, som ett husdjurs födelsedag, kan däremot inte förutsägas enbart utifrån mönster, och leder därför till hallucinationer. I vår analys förklaras vilka slags hallucinationer som kan uppstå på grund av förutsägelser av nästa ord. Helst borde sådana felaktigheter elimineras genom ytterligare steg efter förhandsträningen, men det fungerar inte alltid av anledningar som beskrevs i det föregående avsnittet.
Vi hoppas att artikelns statistiska perspektiv tydliggör hallucinationernas natur och löser några vanligt förekommande missförstånd:
- Påstående: Hallucinationer kan elimineras genom att förbättra precisionen, eftersom modeller med 100 % precision aldrig hallucinerar.
Resultat: Precisionen kommer aldrig att nå 100 %, oavsett modellens storlek eller förmåga till sökning och resonemang, eftersom vissa frågor i den verkliga världen helt enkelt inte går att besvara. - Påstående: Hallucinationer kan inte undvikas.
Resultat: Det stämmer inte, eftersom språkmodeller kan avstå från att svara när de är osäkra. - Påstående: För att undvika hallucinationer krävs en grad av intelligens som endast kan uppnås med större modeller.
Resultat: Det kan vara lättare för små modeller att inse sina begränsningar. Om en liten modell som inte kan maori till exempel blir ombedd att besvara en fråga om maori, kan den helt enkelt svara ”Jag vet inte”, men en modell som kan lite maori måste överväga hur självsäker den känner sig. Som framgår av artikeln krävs mycket mindre beräkningskapacitet för att vara ”kalibrerad” än för att svara med precision. - Påstående: Hallucinationer är mystisk defekt i moderna språkmodeller.
Resultat: Vi förstår de statistiska mekanismer som ligger bakom hallucinationer och hur de belönas i utvärderingarna. - Påstående: Vi behöver bara en bra hallucinationsutvärdering för att kunna mäta hallucinationer.
Resultat: Hallucinationsutvärderingar har publicerats. En bra hallucinationsutvärdering har dock liten effekt bland hundratals traditionella, precisionsbaserade utvärderingar som bestraffar ödmjukhet och belönas gissningar. Istället måste alla de primära utvärderingsnyckeltalen omarbetas så att medgivanden av osäkerhet belönas.
Våra senaste modeller har lägre frekvens av hallucinationer och vi fortsätter arbeta hårt för att minska antalet självsäkert angivna felaktigheter som våra språkmodeller genererar.
Meddelandets deltagare.
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


