5 september 2025

Waarom taalmodellen hallucineren

Abstract beeld met vloeiende kleurverlopen van blauwgroen, blauw en lavendel, die diagonaal over het beeld lopen in zachte, vloeiende strepen.

Bezig met laden...

Bij OpenAI zetten we ons volledig in om AI-systemen nuttiger en betrouwbaarder te maken. Zelfs nu taalmodellen steeds beter worden, blijft één hardnekkige uitdaging moeilijk op te lossen: hallucinaties. Hiermee bedoelen we gevallen waarin een model met zekerheid een antwoord genereert dat niet waar is. Ons nieuwe onderzoekspaper⁠(opent in een nieuw venster) stelt dat taalmodellen hallucineren omdat standaard trainings- en evaluatieprocedures het raden belonen in plaats van onzekerheid te erkennen.

ChatGPT hallucineert ook. GPT‑5 heeft aanzienlijk minder hallucinaties, vooral bij het redeneren⁠, maar ze komen nog steeds voor. Hallucinaties blijven een fundamentele uitdaging voor alle grote taalmodellen, maar we werken er hard aan om ze verder te verminderen.

Wat zijn hallucinaties?

Hallucinaties zijn aannemelijke maar valse uitspraken die door taalmodellen worden gegenereerd. Ze kunnen op verrassende manieren opduiken, zelfs bij ogenschijnlijk eenvoudige vragen. Toen we bijvoorbeeld een veelgebruikte chatbot vroegen naar de titel van het proefschrift van Adam Tauman Kalai (een van de auteurs van dit artikel), gaf deze zelfverzekerd drie verschillende antwoorden, die geen van alle correct waren. Toen we naar zijn geboortedatum vroegen, gaf de chatbot drie verschillende datums, die allemaal fout waren.

Leren gericht op toetsen

Hallucinaties blijven bestaan, deels omdat de huidige evaluatiemethoden verkeerde prikkels geven. Hoewel evaluaties op zich niet direct hallucinaties veroorzaken, meten de meeste evaluaties de prestaties van modellen op een manier die gissen aanmoedigt in plaats van eerlijk te zijn over onzekerheid.

Zie het als een meerkeuzetoets. Als je het antwoord niet weet, maar een wilde gok doet, heb je misschien geluk en geef je het goede antwoord. Niet antwoorden staat gelijk aan een fout antwoord. Op dezelfde manier worden modellen, wanneer ze alleen worden beoordeeld op nauwkeurigheid (het percentage vragen dat ze helemaal goed hebben), aangemoedigd om te gokken in plaats van te zeggen dat ze het niet weten.

Een ander voorbeeld: stel dat een taalmodel wordt gevraagd naar iemands verjaardag, maar dat het antwoord niet weet. Als het ‘10 september’ raadt, heeft het een kans van 1 op 365 om gelijk te hebben. Maar het antwoord ‘Ik weet het niet’ zeggen staat gelijk aan nul punten. Bij duizenden testvragen komt het gokmodel uiteindelijk beter uit de bus op scorekaarten dan een zorgvuldig model dat onzekerheid toegeeft.

Voor vragen waarvoor er één ‘juist antwoord’ is, kan men drie categorieën antwoorden onderscheiden: juiste antwoorden, fouten en onthoudingen waarbij het model geen gok waagt. Onthouding is een onderdeel van nederigheid, een van de kernwaarden van OpenAI⁠. De meeste scorekaarten rangschikken modellen op basis van nauwkeurigheid, maar fouten zijn erger dan onthoudingen. Onze modelspecificatie⁠(opent in een nieuw venster) stelt dat het beter is om onzekerheid aan te geven of om opheldering te vragen dan om zelfverzekerd informatie te verstrekken die mogelijk onjuist is.

Als concreet voorbeeld kun je de SimpleQA-evaluatie uit de GPT5-systeemkaart⁠(opent in een nieuw venster) overwegen.

Metrisch	gpt-5-thinking-mini	OpenAI o4-mini
Onthoudingspercentage (er wordt geen specifiek antwoord gegeven)	52%	1%
Nauwkeurigheidspercentage (juist antwoord, hoger is beter)	22%	24%
Foutpercentage (verkeerd antwoord, lager is beter)	26%	75%
In totaal	100%	100%

Wat betreft nauwkeurigheid presteert het oudere OpenAI o4-mini-model iets beter. Het foutpercentage (het percentage hallucinaties) is echter aanzienlijk hoger. Strategisch gissen bij onzekerheid verbetert de nauwkeurigheid, maar verhoogt het aantal fouten en hallucinaties.

Bij het berekenen van het gemiddelde van tientallen evaluaties, gebruiken de meeste benchmarks de nauwkeurigheidsmaatstaf. Maar dit leidt tot een valse tweedeling tussen goed en fout. Bij simplistische evaluaties zoals SimpleQA behalen sommige modellen een nauwkeurigheid van bijna 100% en elimineren daarmee hallucinaties. Bij meer uitdagende evaluaties en in de praktijk ligt de nauwkeurigheid echter onder de 100%, omdat er vragen zijn waarvan het antwoord om verschillende redenen niet kan worden bepaald, zoals niet-beschikbare informatie, een beperkt denkvermogen van kleine modellen of onduidelijkheden die moeten worden opgehelderd.

Niettemin domineren scorekaarten die alleen op nauwkeurigheid zijn gebaseerd de ranglijsten en modelkaarten, wat ontwikkelaars motiveert om modellen te bouwen die gissen in plaats van terughoudend te zijn. Dat is een van de redenen waarom modellen, zelfs als ze steeds geavanceerder worden, nog steeds kunnen hallucineren en zelfverzekerd verkeerde antwoorden geven in plaats van onzekerheid te erkennen.

Een betere manier om evaluaties te beoordelen

Er is een eenvoudige oplossing. Straf zelfverzekerdheidsfouten zwaarder dan onzekerheid, en geef gedeeltelijke punten voor gepaste uitingen van onzekerheid. Dit idee is niet nieuw. Sommige gestandaardiseerde tests maken al lang gebruik van negatieve beoordeling voor foute antwoorden of gedeeltelijke punten voor het openlaten van vragen om blind gokken te ontmoedigen. Verschillende onderzoeksgroepen hebben ook evaluaties onderzocht die rekening houden met onzekerheid en kalibratie.

Wij hebben een andere kijk op de zaak. Het is niet voldoende om hier en daar een paar nieuwe onzekerheidsbewuste tests toe te voegen. De veelgebruikte, op nauwkeurigheid gebaseerde evaluaties moeten worden bijgewerkt, zodat hun scores gissen ontmoedigen. Als de hoofdscorekaarten gelukkige gissingen blijven belonen, zullen modellen blijven leren om te gissen. Het herzien van scorekaarten kan het gebruik van technieken voor het verminderen van hallucinaties verbreden. Denk hierbij aan zowel nieuw ontwikkelde technieken als technieken uit eerder onderzoek.

Hoe hallucinaties ontstaan uit het voorspellen van het volgende woord

We hebben het gehad over waarom het zo moeilijk is om van hallucinaties af te komen. Maar waar komen deze zeer specifieke feitelijke onjuistheden eigenlijk vandaan? Grote vooraf getrainde modellen vertonen immers zelden andere soorten fouten, zoals spelfouten en verkeerd geplaatste haakjes. Het verschil heeft te maken met wat voor soort patronen er in de gegevens zitten.

Taalmodellen leren eerst door middel van pretraining. Dat is een proces waarbij het volgende woord in enorme hoeveelheden tekst wordt voorspeld. In tegenstelling tot traditionele machine learning-problemen zijn er geen ‘waar/niet waar’-labels aan elke uitspraak gekoppeld. Het model ziet alleen positieve voorbeelden van vloeiende taal en moet de algemene verdeling benaderen.

Het is dubbel zo moeilijk om geldige uitspraken van ongeldige te onderscheiden als je geen voorbeelden hebt die als ongeldig zijn gelabeld. Maar zelfs met labels zijn sommige fouten onvermijdelijk. Om te begrijpen waarom, kunnen we een eenvoudigere analogie bekijken. Bij beeldherkenning kunnen algoritmen leren om miljoenen foto's van katten en honden betrouwbaar te classificeren als ‘kat’ of ‘hond’. Maar stel je eens voor dat elke foto van een huisdier wordt gelabeld op de geboortedatum van het huisdier. Aangezien verjaardagen in wezen willekeurig zijn, zou deze taak altijd fouten opleveren, hoe geavanceerd het algoritme ook is.

Hetzelfde principe geldt voor de pretraining. Spelling en haakjes volgen consistente patronen, dus fouten hierin verdwijnen met schaalvergroting. Maar willekeurige laagfrequente feiten, zoals de verjaardag van een huisdier, kan niet alleen op basis van patronen worden voorspeld. Dit leidt daarom tot hallucinaties. Onze analyse legt uit welke soorten hallucinaties zouden moeten voortkomen uit het voorspellen van het volgende woord. Idealiter zouden verdere fasen na de pretraining deze moeten verwijderen, maar dit is niet volledig succesvol om redenen die in het vorige hoofdstuk zijn beschreven.

Conclusies

We hopen dat de statistische invalshoek in ons artikel de aard van hallucinaties verduidelijkt en veelvoorkomende misvattingen weerlegt:

Claim: Hallucinaties worden geëlimineerd door de nauwkeurigheid te verbeteren, omdat een 100% nauwkeurig model nooit hallucineert.

Bevinding: De nauwkeurigheid zal nooit 100% bedragen omdat, ongeacht de omvang van het model en de zoek- en redeneercapaciteiten, sommige vragen uit de echte wereld inherent niet beantwoord kunnen worden.
Claim: Hallucinaties zijn onvermijdelijk.

Bevinding: Dat is niet het geval, omdat taalmodellen zich kunnen onthouden van het geven van een antwoord wanneer ze onzeker zijn.
Claim: Het vermijden van hallucinaties vereist een mate van intelligentie die uitsluitend haalbaar is met grotere modellen.

Bevinding: Het kan gemakkelijker zijn voor een klein model om zijn grenzen te kennen. Wanneer bijvoorbeeld een vraag in het Maori moet worden beantwoord, kan een klein model dat geen Maori kent eenvoudigweg zeggen ‘Ik weet het niet’, terwijl een model dat enige kennis van het Maori heeft zijn zekerheid moet bepalen. Zoals in de paper wordt besproken, vereist ‘gekalibreerd’ zijn veel minder rekenkracht dan nauwkeurig zijn.
Claim: Hallucinaties zijn een mysterieuze storing in moderne taalmodellen.

Bevinding: We begrijpen de statistische mechanismen waardoor hallucinaties ontstaan en worden beloond in evaluaties.
Claim: Om hallucinaties te meten, hebben we alleen een goede hallucinatie-evaluatie nodig.

Bevinding: Er zijn hallucinatie-evaluaties gepubliceerd. Een goede hallucinatie-evaluatie heeft echter weinig effect tegen honderden traditionele, op nauwkeurigheid gebaseerde evaluaties die bescheidenheid bestraffen en gissen belonen. In plaats daarvan moeten alle primaire evaluatiemaatstaven worden herzien om uitingen van onzekerheid te belonen.

Onze nieuwste modellen hebben een lager percentage hallucinaties. We blijven hard werken om het percentage zelfverzekerdheidsfouten dat door onze taalmodellen wordt gegenereerd verder te verminderen.

Deelnemers aan aankondiging

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke

Andere interessante artikelen

Alles weergeven

GPT-Red: zelfverbetering voor robuustheid ontsluiten

Veiligheid15 jul 2026

Signaal en ruis scheiden in programmeerevaluaties

Onderzoek8 jul 2026

Introductie van GeneBench-Pro

Onderzoek30 jun 2026