Zum Hauptinhalt springen
OpenAI
Laden …

Bei OpenAI arbeiten wir intensiv daran, KI-Systeme nützlicher und zuverlässiger zu machen. Auch wenn Sprachmodelle immer leistungsfähiger werden, bleibt eine Herausforderung besonders hartnäckig: Halluzinationen. Damit meinen wir Fälle, in denen ein Modell selbstbewusst eine Antwort generiert, die nicht stimmt. In unserer neuen Forschungsarbeit(wird in einem neuen Fenster geöffnet) argumentieren wir, dass Sprachmodelle halluzinieren, weil Standardverfahren beim Training und bei der Evaluierung das Raten belohnen – und nicht das Eingeständnis von Unsicherheit.

Auch ChatGPT halluziniert. GPT‑5 halluziniert deutlich seltener – insbesondere beim Reasoning –, doch ganz vermeiden lässt es sich noch nicht. Halluzinationen bleiben eine grundlegende Herausforderung für alle großen Sprachmodelle, aber wir arbeiten intensiv daran, sie weiter zu verringern.

Was sind Halluzinationen?

Halluzinationen sind plausibel klingende, aber falsche Aussagen, die von Sprachmodellen generiert werden. Sie können auf überraschende Weise auftreten – selbst bei scheinbar einfachen Fragen. Als wir zum Beispiel einen weit verbreiteten Chatbot nach dem Titel der Doktorarbeit von Adam Tauman Kalai (einem Mitautor dieser Arbeit) fragten, lieferte er selbstbewusst drei verschiedene Antworten – und keine davon war richtig. Als wir nach seinem Geburtstag fragten, nannte er drei verschiedene Daten – ebenfalls alle falsch. 

Lernen auf den Test hin

Halluzinationen bestehen zum Teil fort, weil aktuelle Evaluierungsmethoden die falschen Anreize setzen. Zwar verursachen Evaluierungen Halluzinationen nicht direkt, doch die meisten messen die Modellleistung so, dass sie zum Raten anregen – statt zur ehrlichen Angabe von Unsicherheit.

Stell dir das wie einen Multiple-Choice-Test vor. Wenn du die Antwort nicht weißt und einfach rätst, hast du vielleicht Glück und liegst richtig. Lässt du die Frage leer, gibt es garantiert null Punkte. Genauso gilt: Wenn Modelle nur nach Genauigkeit bewertet werden – also nach dem Prozentsatz der exakt richtigen Antworten –, werden sie zum Raten ermutigt, statt „Ich weiß es nicht“ zu sagen.

Ein weiteres Beispiel: Angenommen, ein Sprachmodell wird nach dem Geburtstag einer Person gefragt, kennt die Antwort aber nicht. Wenn es „10. September“ rät, liegt die Trefferchance bei 1 zu 365. „Ich weiß es nicht“ zu sagen, bringt garantiert null Punkte. Über Tausende von Testfragen hinweg schneidet ein ratendes Modell auf den Punktetafeln besser ab als ein vorsichtiges Modell, das Unsicherheit eingesteht.

Bei Fragen mit nur einer „richtigen Antwort“ lassen sich drei Arten von Antworten unterscheiden: korrekte Antworten, Fehler und Enthaltungen, bei denen das Modell keine Vermutung äußert. Sich zu enthalten ist ein Ausdruck von Demut – einem der Kernwerte von OpenAI. Die meisten Punktetafeln priorisieren und bewerten Modelle nach Genauigkeit, doch Fehler sind schlimmer als Enthaltungen. Unsere Model Spec(wird in einem neuen Fenster geöffnet) legt fest, dass es besser ist, Unsicherheit zu kennzeichnen oder um Klarstellung zu bitten, als selbstbewusst Informationen zu geben, die falsch sein könnten. 

Ein konkretes Beispiel ist die SimpleQA-Evaluierung, wie sie in der GPT5-Systemkarte(wird in einem neuen Fenster geöffnet) aufgeführt ist.

Metrisch

gpt-5-thinking-mini

OpenAI o4-mini

Enthaltungsrate
(keine konkrete Antwort gegeben) 

52 %

1 %

Genauigkeitsrate
(richtige Antwort, höher ist besser)

22 %

24 %

Fehlerrate
(falsche Antwort, niedriger ist besser)

26 %

75 %

Total

100 %

100 %

Hinsichtlich der Genauigkeit schneidet das ältere OpenAI-Modell o4-mini leicht besser ab. Seine Fehlerrate (das heißt die Halluzinationsrate) ist jedoch deutlich höher. Strategisches Raten bei Unsicherheit verbessert zwar die Genauigkeit, erhöht aber Fehler und Halluzinationen. 

Werden Ergebnisse über Dutzende von Evaluierungen gemittelt, greifen die meisten Benchmarks auf die Genauigkeitsmetrik zurück – doch das erzeugt eine falsche Zweiteilung zwischen richtig und falsch. Bei einfachen Evaluierungen wie SimpleQA erreichen manche Modelle nahezu 100 % Genauigkeit und beseitigen damit Halluzinationen. Bei schwierigeren Evaluierungen und in der praktischen Anwendung bleibt die Genauigkeit jedoch unter 100 %, weil es Fragen gibt, deren Antwort aus unterschiedlichen Gründen nicht eindeutig bestimmbar ist, etwa wegen fehlender Informationen, begrenzter Denkfähigkeiten kleiner Modelle oder Mehrdeutigkeiten, die geklärt werden müssen.

Dennoch dominieren genauigkeitsbasierte Punktetafeln die Leaderboards und Model Cards und motivieren Entwickler, Modelle zu bauen, die raten statt sich zurückzuhalten. Das ist ein Grund dafür, dass Modelle auch bei zunehmender Leistungsfähigkeit weiter halluzinieren. Sie geben selbstbewusst falsche Antworten, statt Unsicherheit einzugestehen.

Ein besserer Ansatz zur Bewertung von Evaluierungen

Es gibt eine einfache Lösung. Bestrafe selbstbewusste Fehler stärker als Unsicherheit, und gib teilweise Anerkennung für angemessene Hinweise auf Unsicherheit. Diese Idee ist nicht neu. Manche standardisierte Tests nutzen schon lange Varianten des Malus-Prinzips für falsche Antworten oder Teilpunkte für offengelassene Fragen, um blindes Raten zu vermeiden. Auch mehrere Forschungsgruppen haben Evaluierungen untersucht, die Unsicherheit und Kalibrierung berücksichtigen.

Unser Punkt ist ein anderer. Es reicht nicht, einfach ein paar neue, unsicherheitsbewusste Tests nebenbei hinzuzufügen. Die weit verbreiteten, genauigkeitsbasierten Evaluierungen müssen so angepasst werden, dass ihre Bewertung vom Raten abhält. Wenn die wichtigsten Punktetafeln weiter Glückstreffer belohnen, werden Modelle auch weiter lernen zu raten. Eine Anpassung der Punktetafeln kann die Verbreitung von Methoden zur Reduzierung von Halluzinationen fördern, sowohl neue Entwicklungen als auch aus früherer Forschung.

Wie Halluzinationen aus der Vorhersage des nächsten Wortes entstehen

Wir haben darüber gesprochen, warum Halluzinationen so schwer zu beseitigen sind. Aber woher kommen diese hochspezifischen sachlichen Fehler eigentlich? Schließlich zeigen große vortrainierte Modelle nur selten andere Arten von Fehlern, etwa Rechtschreibfehler oder nicht passende Klammern. Der Unterschied hängt damit zusammen, welche Muster in den Daten vorhanden sind.

Sprachmodelle lernen zunächst durch Pretraining – einen Prozess, bei dem sie in riesigen Textmengen das nächste Wort vorhersagen. Anders als bei klassischen Machine-Learning-Problemen gibt es hier keine „wahr/falsch“-Labels für jede Aussage. Das Modell sieht nur positive Beispiele für flüssige Sprache und muss die Gesamtdistribution annähern. 

Es ist doppelt schwer, gültige von ungültigen Aussagen zu unterscheiden, wenn es keinerlei als ungültig gekennzeichnete Beispiele gibt. Doch selbst mit Labels sind einige Fehler unvermeidlich. Um das zu verdeutlichen, hilft eine einfachere Analogie. In der Bilderkennung können Algorithmen zuverlässig lernen, Katzen und Hunde zu klassifizieren, wenn Millionen von Fotos als „Katze“ oder „Hund“ gekennzeichnet sind. Stell dir stattdessen vor, jedes Haustierfoto würde mit dem Geburtstag des Tiers gekennzeichnet. Da Geburtstage im Wesentlichen zufällig sind, würde diese Aufgabe immer Fehler erzeugen, ganz gleich, wie fortgeschritten der Algorithmus ist.

Dasselbe Prinzip gilt auch für das Pretraining. Rechtschreibung und Klammern folgen konsistenten Mustern – daher verschwinden Fehler in diesen Bereichen mit zunehmendem Umfang. Beliebige, seltene Fakten – etwa der Geburtstag eines Haustiers – lassen sich jedoch nicht allein aus Mustern vorhersagen und führen daher zu Halluzinationen. Unsere Analyse erklärt, welche Arten von Halluzinationen aus der Vorhersage des nächsten Wortes entstehen können. Idealerweise sollten spätere Phasen nach dem Pretraining diese Halluzinationen beseitigen, doch das gelingt nicht vollständig, aus den im vorherigen Abschnitt beschriebenen Gründen. 

Fazit

Wir hoffen, dass die statistische Perspektive in unserer Arbeit die Natur von Halluzinationen verdeutlicht und gängigen Missverständnissen entgegentritt:

  • Behauptung: Halluzinationen werden durch höhere Genauigkeit verschwinden, weil ein Modell mit 100 % Genauigkeit nie halluziniert.

    Ergebnis:
    Die Genauigkeit wird nie 100 % erreichen, weil manche Fragen aus der realen Welt, unabhängig von Modellgröße, Such- oder Reasoning-Fähigkeiten, grundsätzlich unbeantwortbar sind. 
  • Behauptung: Halluzinationen sind unvermeidlich.

    Ergebnis:
    Das stimmt nicht: Sprachmodelle können sich enthalten, wenn sie unsicher sind.
  • Behauptung: Das Vermeiden von Halluzinationen erfordert ein Maß an Intelligenz, das ausschließlich mit größeren Modellen erreichbar ist.

    Ergebnis:
    Für ein kleines Modell kann es sogar leichter sein, seine Grenzen zu kennen. Fragt man zum Beispiel nach einer Frage auf Māori, kann ein kleines Modell ohne Māori-Kenntnisse einfach „Ich weiß es nicht“ sagen, während ein Modell mit einigen Māori-Kenntnissen seine Sicherheit einschätzen muss. Wie in der Arbeit beschrieben, erfordert „kalibriert“ zu sein deutlich weniger Rechenaufwand als genau zu sein.
  • Behauptung: Halluzinationen sind ein rätselhafter Defekt moderner Sprachmodelle.

    Ergebnis:
    Wir verstehen die statistischen Mechanismen, durch die Halluzinationen entstehen und in Evaluierungen belohnt werden.
  • Behauptung: Um Halluzinationen zu messen, brauchen wir nur eine gute Halluzinations-Evaluierung.

    Ergebnis:
    Halluzinations-Evaluierungen sind bereits veröffentlicht worden. Eine gute Halluzinations-Evaluierung hat jedoch wenig Wirkung gegenüber Hunderten traditioneller, genauigkeitsbasierter Evaluierungen, die Demut bestrafen und Raten belohnen. Stattdessen müssen alle zentralen Evaluierungsmetriken so überarbeitet werden, dass sie Hinweise auf Unsicherheit belohnen.

Unsere neuesten Modelle haben geringere Halluzinationsraten, und wir arbeiten intensiv daran, die Zahl selbstbewusster Fehler unserer Sprachmodelle weiter zu senken.

Beitragende zur Ankündigung

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel und Johannes Heidecke