
Hos OpenAI bestræber vi os på at gøre AI-systemer mere nyttige og pålidelige. Selv om sprogmodeller bliver mere funktionelle, så er der stadig en udfordring, der er svær at løse helt: hallucinationer. Med dette mener vi tilfælde, hvor en model genererer et svar, der ikke er sandt. Vores nye forskningsartikel(åbner i et nyt vindue) hævder, at sprogmodeller hallucinerer, fordi standardprocedurer for træning og evaluering belønner gætteri fremfor at anerkende usikkerhed.
ChatGPT hallucinerer også. GPT‑5 har væsentligt færre hallucinationer, særligt ved avanceret tænkning, men de forekommer stadig. Hallucinationer forbliver en grundlæggende udfordring for alle store sprogmodeller, men vi arbejder hårdt på at reducere dem yderligere.
Hallucinationer er sandsynlige, men falske, udtalelser genereret af sprogmodeller. De kan forekomme på overraskende vis, selv ved umiddelbart simple spørgsmål. Da vi f.eks. spurgte en hyppigt brugt chatbot om titlen på PhD-afhandlingen af Adam Tauman Kalai (en medforfatter af denne artikel), producerede den på overbevisende vis tre forskellige svar – men ingen af dem var korrekte. Og da vi spurgte om hans fødselsdag, gav den også tre forskellige datoer, som også alle var forkerte.
Hallucinationer vedbliver delvist, fordi aktuelle evalueringsmetoder angiver de forkerte incitamenter. Selvom evalueringer i sig selv ikke direkte forårsager hallucinationer, så måler de fleste evalueringer modelydeevne på en måde, der opfordrer til gætteri i stedet for ærlighed omkring usikkerhed.
Tænk på det som en test med flere valgmuligheder. Hvis du ikke kender svaret, men kommer med et vildt gæt, så er du måske heldig og svarer rigtigt. Hvis du ikke svarer, får du med garanti 0 point. Sådan er det også, når modeller bedømmes på nøjagtighed med procentdelen af spørgsmål, de svarer rigtigt på. Så opfordres de til at gætte i stedet for at sige "Det ved jeg ikke".
Lad os tage et andet eksempel og antage, at en sprogmodel bliver spurgt om nogens fødselsdag, men ikke kender svaret. Hvis den gætter "10. september", har den 1 chance ud af 365 for at gætte rigtigt. Hvis den siger "Det ved jeg ikke", får den med garanti 0 point. Med tusindvis af testspørgsmål ender gættemodellen med at se bedre ud på ranglisten end en påpasselig model, der indrømmer usikkerhed.
For spørgsmål, hvor der er ét rigtigt "korrekt svar", kan man overveje tre svarkategorier: nøjagtige svar, fejl og undladelse, hvor modellen ikke tør gætte. Undladelse er en del af ydmyghed, som er én af OpenAI's kerneværdier. De fleste ranglister prioriterer og rangerer modeller baseret på nøjagtighed, men fejl er værre end undladelse. Vores Model Spec(åbner i et nyt vindue) angiver, at det er bedre at angive usikkerhed eller bede om afklaring end at give selvsikre oplysninger, der kan være forkerte.
For et konkret eksempel kan du tænke på SimpleQA eval som et eksempel fra GPT5-systemkortet(åbner i et nyt vindue).
Metrisk | gpt-5-thinking-mini | OpenAI o4-mini |
Undladelsesrate
| 52 % | 1 % |
Nøjagtighedsrate
| 22 % | 24 % |
Fejlrate
| 26 % | 75 % |
I alt | 100 % | 100 % |
Hvad angår bedre nøjagtighed, klarerede den ældre OpenAI o4-mini sig noget bedre. Dens fejlrate (dvs. raten for hallucination) er dog væsentligt højere. Strategisk gætteri, når modellen er usikker, forbedrer nøjagtigheden, men øger antallet af fejl og hallucinationer.
Tager man gennemsnittet af resultater fra dusinvis af evalueringer, fjerner de fleste benchmarks nøjagtighedsmålingen, men dette medfører en falsk modsætning mellem rigtigt og forkert. På simple evalueringer som f.eks. SimpleQA opnår nogle modeller næsten 100 % nøjagtighed og eliminerer dermed hallucinationer. På mere udfordrende evalueringer og i faktisk brug er nøjagtighed dog begrænset under 100 %, fordi der er nogle spørgsmål, hvis svar ikke kan fastslås af en række forskellige årsager, f.eks. utilgængelige oplysninger, begrænsede tænkefunktionaliteter i små modeller eller tvetydigheder, der skal klarlægges.
Ikke desto mindre dominerer pointlister kun for præcision ranglister og modelkort og motiverer udviklere til at bygge modeller, der gætter i stedet for at holde igen. Det er én årsag til, at modeller, selv om de bliver mere avancerede, stadig kan hallucinere og på overbevisende vis give forkerte svar i stedet for at anerkende usikkerhed.
Der er en enkel løsning. Straf selvsikre fejl mere end du straffer usikkerhed, og giv delvis kredit for passende udtryk af usikkerhed. Denne idé er ikke ny. Visse standardiserede tests har længe brugt versioner med negativ pointgivning for forkerte svar eller delvis kredit for at lade spørgsmål være tomme for at forhindre blindt gætteri. Adskillige researchgrupper har også udforsket evalueringer, der tager hensyn til usikkerhed og kalibrering.
Vores point er anderledes. Det er ikke nok blot at tilføje nogle få tests, som er opmærksomme på usikkerhed. De nøjagtighedsbaserede evalueringer, der bruges i vidt omfang, skal opdateres, således at deres pointgivning forhindrer gætteri. Hvis de primære scorekort fortsætter med at belønne heldige gæt, vil modeller fortsætte med at lære at gætte. Rettelse af scorekort kan øge implementeringen af teknikker til reduktion af hallucination – både dem, der er udviklet for nylig, og dem fra tidligere research.
Vi har talt om, hvorfor hallucinationer er så svære at komme af med, men hvor kommer disse yderst specifikke faktuelle unøjagtigheder egentlig fra? Trods alt har store forhåndstrænede modeller sjældent andre typer fejl som f.eks. stavefejl eller parenteser, der ikke matcher. Forskellen har at gøre med, hvilken slags mønstre der er i dataene.
Sprogmodeller lærer først gennem forhåndstræning, som er en proces, der består i at forudsige det næste ord i store tekstmængder. I modsætning til traditionelle maskinlæringsproblemer er der ingen "sand/falsk"-etiketter tilknyttet hvert enkelt udsgn. Modellen ser kun positive eksempler på flydende sprog og skal anslå den generelle distribution.
Det er dobbelt så svært at adskille gyldige udsagn fra ugyldige, når man ikke har nogen eksempler mærket som ugyldige. Men selv med etiketter er visse fejl uundgåelige. For at se hvorfor, kan du overveje en simpel analogi. I billedgenkendelse kan algoritmer, hvis millioner af billeder af katte og hunde er mærket som "kat" eller "hund", lære at klassificere dem pålideligt. Men forestil dig i stedet at skulle etikettere hvert enkelt kæledyrsbillede efter kæledyrets fødselsdag. Eftersom fødselsdage i bund og grund er tilfældige, vil denne opgave altid producere fejl, uanset hvor avanceret algoritmen er.
Det samme princip gælder for forhåndstræning. Stavning og parenteser følger konsekvente mønstre, så fejl i det vil forsvinde i større skala. Men tilfældige fakta med lav hyppighed, f.eks. et kæledyrs fødselsdag, kan ikke forudsiges fra mønstre alene og kan derfor føre til hallucinationer. Vores analyse forklarer, hvilke slags hallucinationer der bør opstå fra forudsigelse af næste ord. Ideelt set skal yderligere trin efter forhåndstræning fjerne dem, men dette er ikke helt vellykket af årsager, der er beskrevet i det forrige afsnit.
Vi håber, at det statistiske perspektiv i vores artikel tydeliggør naturen af hallucinationer og modvirker almindelige misforståelser:
- Påstand: Hallucinationer vil blive elimineret ved at forbedre nøjagtighed, fordi en model, der er 100 % nøjagtig, aldrig vil hallucinere.
Resultat: Nøjagtighed vil aldrig nå 100 %, for uanset modellens størrelse, søge- og ræsonneringsfunktionalitet, er nogen spørgsmål i sig selv umulige at besvare. - Påstand: Hallucinationer er uundgåelige.
Resultat: Det er de ikke, fordi sprogmodeller kan undlade at svare, når der er usikkerhed. - Påstand: At undgå hallucinationer kræver en grad af intelligens, som udelukkende kan opnås med større modeller.
Resultat: Det kan være nemmere for en lille model at kende sine grænser. Hvis en lille model f.eks. bliver bedt om at besvare et spørgsmål på maori, og den ikke kan maori, kan den blot sige "Det ved jeg ikke", hvorimod en model, der kan noget maori, skal fastslå, hvor sikker den er. Som gennemgået i artiklen kræver det at være "kalibreret" meget mindre beregning end at være nøjagtig. - Påstand: Hallucinationer er et mystisk problem i moderne sprogmodeller.
Resultat: Vi forstår de statistiske mekanismer, gennem hvilke hallucinationer opstår og belønnes i evalueringer. - Påstand: For at måle hallucinationer behøver vi blot en god hallucinationsevaluering.
Resultat: Hallucinationsevalueringer er blevet offentliggjort. En god hallucinationsevaluering har dog ikke megen effekt mod hundredvis af traditionelle nøjagtighedsbaserede evalueringer, der straffer ydmyghed og belønner gætteri. I stedet skal alle de primære evalueringsmålinger ændres for at belønne udtryk af usikkerhed.
Vores seneste modeller har lavere hallucinationsrater, og vi fortsætter med at arbejde hårdt for at reducere raterne af selvsikre fejl, der gives af vores sprogmodeller, yderligere.
Bidragsydere til meddelelse
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel og Johannes Heidecke


