
W OpenAI ciężko pracujemy nad tym, aby systemy AI były bardziej przydatne i niezawodne. Chociaż modele językowe są coraz zdolniejsze, jeden problem pozostaje trudny do całkowitego rozwiązania: halucynacje. Mamy na myśli sytuacje, w których model z przekonaniem generuje odpowiedź, która rozmija się z prawdą. W naszej nowej pracy badawczej(otwiera nowe okno) argumentujemy, że modele językowe halucynują, ponieważ standardowe procedury treningu i oceny premiują zgadywanie zamiast przyznania się do niepewności.
ChatGPT również halucynuje. Model GPT‑5 halucynuje w znacznie mniejszym stopniu, zwłaszcza podczas rozumowania, ale nadal się to zdarza. Halucynacje pozostają podstawowym wyzwaniem dla wszystkich dużych modeli językowych. Jednak ciężko pracujemy nad ich eliminowaniem.
Halucynacje to wyglądające wiarygodnie, ale z gruntu fałszywe stwierdzenia generowane przez modele językowe. Ich występowanie jest zaskakujące, potrafią się pojawić nawet w przypadku pozornie prostych pytań. Gdy na przykład zapytaliśmy powszechnie używanego chatbota o tytuł pracy doktorskiej Adama Taumana Kalai (autora niniejszej pracy), chatbot z przekonaniem podał trzy różne odpowiedzi – żadna z nich nie była prawidłowa. Gdy zapytaliśmy o datę jego urodzin, chatbot podał trzy różne daty, z których także żadna nie była poprawna.
Halucynacje nadal występują po części dlatego, że obecne metody oceny ustalają niewłaściwe zachęty. Chociaż same oceny nie powodują bezpośrednio halucynacji, większość z nich mierzy działanie modelu w sposób, który zachęca do zgadywania, a nie do uczciwego przyznania się do niewiedzy.
Można to przyrównać do rozwiązywania testu wielokrotnego wyboru. Jeśli nie znamy odpowiedzi, ale postanowimy zgadywać, możemy mieć szczęście i trafić w prawidłową odpowiedź. Brak odpowiedzi to zero punktów. Także gdy modele są oceniane wyłącznie na podstawie dokładności, czyli procentu poprawnie udzielonych odpowiedzi, stanowi to zachęto do zgadywania, a nie do udzielenia odpowiedzi „nie wiem”.
Inny przykład. Załóżmy, że model językowy otrzyma pytanie o czyjąś datę urodzin, ale nie zna odpowiedzi. Jeśli będzie zgadywał i odpowie „10 września”, ma 1 szansę na 365, że udzieli prawidłowej odpowiedzi. Odpowiedź „nie wiem” oznacza zero punktów. Po tysiącach pytań testowych model zgadujący wypada lepiej w tabelach wyników niż model ostrożny, który przyznaje się do niepewności.
W przypadku pytań z jedną „prawidłową odpowiedzią” można rozważyć trzy kategorie odpowiedzi: odpowiedzi prawidłowe, błędne odpowiedzi i wstrzymanie się od odpowiedzi, w przypadku których model nie ryzykuje, zgadując. Wstrzymanie się od odpowiedzi to pokora, jedna z podstawowych wartości OpenAI. W przypadku większości tabel wyników modele są nagradzane i klasyfikowane na podstawie dokładności, ale błędne odpowiedzi są gorsze niż wstrzymanie się od odpowiedzi. W naszej specyfikacji modelu(otwiera nowe okno) określono, że lepiej jest poinformować o niepewności lub poprosić o wyjaśnienie niż podawać z przekonaniem informacje, które mogą być nieprawidłowe.
Konkretnym przykładem jest ocena SimpleQA z karty systemu GPT5(otwiera nowe okno).
Miernik | gpt-5-thinking-mini | OpenAI o4-mini |
Wskaźnik wstrzymania się od odpowiedzi
| 52% | 1% |
Wskaźnik dokładności
| 22% | 24% |
Wskaźnik błędnych odpowiedzi
| 26% | 75% |
Łącznie | 100% | 100% |
Pod względem dokładności starszy model OpenAI o4-mini osiąga nieco lepszy wynik. Jednak jego wskaźnik błędów (tj. wskaźnik halucynacji) jest znacznie wyższy. Strategiczne zgadywanie w przypadku braku pewności poprawia dokładność, ale zwiększa liczbę błędów i halucynacji.
W przypadku uśredniania wyników z dziesiątek ocen większość testów porównawczych podkreśla miernik dokładności, ale wiąże się to z błędną sprzecznością między prawidłowymi i nieprawidłowymi odpowiedziami. W przypadku uproszczonych ocen, takich jak SimpleQA, niektóre modele osiągają niemal 100% dokładności, eliminując w ten sposób halucynacje. Jednak w przypadku bardziej wymagających ocen i stosowania w warunkach rzeczywistych dokładność nie osiąga 100% ze względu na pytania, na które z różnych powodów nie można udzielić odpowiedzi, ponieważ na przykład informacje są niedostępne, możliwości myślenia małych modeli są ograniczone lub istnieją niejednoznaczności wymagające wyjaśnienia.
Niemniej jednak tabele wyników uwzględniające tylko dokładność dominują w rankingach i kartach modeli, motywując programistów do tworzenia modeli, które raczej zgadują niż powstrzymują się od odpowiedzi. To jeden z powodów, dla których nawet coraz bardziej zaawansowane modele nadal mogą halucynować, udzielając z przekonaniem błędnych odpowiedzi zamiast przyznać się do niepewności.
Istnieje proste rozwiązanie. Udzielanie błędnych odpowiedzi z przekonaniem musi być mocniej karane niż niepewność, należy też częściowo punktować odpowiednie wyrażenie niepewności. Nie jest to nowy pomysł. Niektóre standardowe testy od dawna stosują wersje negatywnej oceny za błędne odpowiedzi lub częściowe punkty za pozostawienie pytań bez odpowiedzi, aby zniechęcić do zgadywania. Kilka grup badawczych zbadało również oceny uwzględniające brak pewności i kalibrację.
Nasze podejście jest inne. Nie wystarczy dodać kilka nowych testów uwzględniających niepewność. Powszechnie stosowane oceny oparte na dokładności muszą zostać zmodernizowane, aby ich punktacja zniechęcała do zgadywania. Jeśli główne tabele wyników będą wciąż nagradzać szczęśliwe trafienia, modele nadal będą uczyć się zgadywania. Poprawienie tabel wyników może zwiększyć popularność technik ograniczających halucynacje, zarówno nowo opracowanych, jak i tych pochodzących z wcześniejszych badań.
Omówiliśmy już, dlaczego halucynacje są tak trudne do wyeliminowania. Jaka jest jednak przyczyna powstawania tak specyficznych niezgodności z faktami? Przecież duże, wytrenowane modele rzadko popełniają inne rodzaje błędów, takich jak błędy ortograficzne czy nieprawidłowe użycie nawiasów. Różnica wynika z rodzaju wzorców, jakie występują wśród danych.
Modele językowe najpierw uczą się podczas wstępnego treningu, który polega na przewidywaniu następnego słowa w ogromnych ilościach tekstu. W przeciwieństwie do tradycyjnych problemów w uczeniu maszynowym poszczególne stwierdzenia nie mają przypisanej etykiety „prawda/fałsz”. Model widzi tylko pozytywne przykłady płynnego języka i musi oszacować ogólny rozkład.
Gdy nie ma żadnych przykładów oznaczonych jako nieprawidłowe, szczególnie trudno jest odróżnić prawidłowe stwierdzenia od nieprawidłowych. Jednak nawet przy użyciu etykiet niektóre błędy są nieuniknione. Aby zrozumieć dlaczego, rozważmy prostszą analogię. Jeśli w przypadku rozpoznawania obrazów miliony zdjęć kotów i psów zostaną oznaczone jako „kot” lub „pies”, algorytmy mogą nauczyć się je niezawodnie klasyfikować. Wyobraźmy sobie jednak, że zamiast tego każde zdjęcie zwierzęcia ma zostać oznaczone datą jego urodzin. Ponieważ daty urodzin mają charakter losowy, zadanie to zawsze będzie powodowało błędy, niezależnie od stopnia zaawansowania algorytmu.
Ta sama zasada obowiązuje przy wstępnym treningu. Pisownia i nawiasy mają stałe wzorce, dlatego błędy w tych obszarach znikają przy dużej ilości danych. Jednak losowych faktów o niskiej częstotliwości, takich jak urodziny zwierzęcia domowego, nie da się przewidzieć wyłącznie na podstawie wzorców, a to prowadzi do halucynacji. Nasza analiza wyjaśnia, jakie rodzaje halucynacji powinny występować w przypadku przewidywania następnego słowa. W idealnym przypadku kolejne etapy po wstępnym treningu powinny je eliminować, ale nie jest to w pełni możliwe z powodów opisanych powyżej.
Mamy nadzieję, że spojrzenie statystyczne przedstawione w naszej pracy wyjaśnia istotę halucynacji i obala powszechne błędne przekonania:
- Twierdzenie: Halucynacje zostaną wyeliminowane poprzez poprawę dokładności, ponieważ model o 100% dokładności nigdy nie halucynuje.
Ustalenie: Dokładność nigdy nie będzie wynosiła 100%, ponieważ niezależnie od wielkości modelu, zdolności wyszukiwania i rozumowania, na niektóre pytania dotyczące świata rzeczywistego nie ma odpowiedzi. - Twierdzenie: Halucynacje są nieuniknione.
Ustalenie: Nie są, ponieważ modele językowe mogą powstrzymać się od odpowiedzi w razie braku pewności. - Twierdzenie: Uniknięcie halucynacji wymaga stopnia inteligencji, który można osiągnąć wyłącznie w przypadku większych modeli.
Ustalenie: Mały model może łatwiej poznać swoje ograniczenia. Gdy na przykład mały model zostanie poproszony o odpowiedź na pytanie dotyczące języka maoryskiego, którego nie zna, może po prostu powiedzieć „nie wiem”, a model znający nieco język maoryski musi określić swój poziom pewności. Jak omówiono w pracy, właściwa „kalibracja” wymaga znacznie mniej obliczeń niż osiągnięcie pełnej dokładności. - Twierdzenie: Halucynacje to niewyjaśniony błąd we współczesnych modelach językowych.
Ustalenie: Rozumiemy statystyczne mechanizmy powstawania halucynacji i ich nagradzania w ocenach. - Twierdzenie: Do pomiaru halucynacji potrzebujemy jedynie dobrej oceny halucynacji.
Ustalenie: Oceny halucynacji zostały opublikowane. Jednak dobra ocena halucynacji ma niewielki wpływ w porównaniu z setkami tradycyjnych ocen opartych na dokładności, które karzą pokorę i nagradzają zgadywanie. Wszystkie podstawowe mierniki oceny muszą zostać przerobione, aby nagradzały wyrażanie braku pewności.
Nasze najnowsze modele charakteryzują się niższym wskaźnikiem halucynacji. Stale ciężko pracujemy nad dalszym ograniczeniem sytuacji, w których nasze modele językowe z przekonaniem udzielają błędnych odpowiedzi.
Autorzy ogłoszenia
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel i Johannes Heidecke


