
V OpenAI usilovně pracujeme na tom, aby systémy umělé inteligence byly užitečnější a spolehlivější. I když se jazykové modely stávají stále schopnějšími, jeden problém zůstává velmi obtížné zcela vyřešit: halucinace. Tím myslíme případy, kdy model s jistotou vytvoří odpověď, která není pravdivá. Naše nová výzkumná práce(otevře se v novém okně) tvrdí, že jazykové modely halucinují, protože standardní postupy trénování a hodnocení upřednostňují hádání před uznáním nejistoty.
ChatGPT také halucinuje. GPT‑5 má výrazně méně halucinací, zejména při odůvodňování, ale stále k nim dochází. Halucinace zůstávají zásadní výzvou pro všechny velké jazykové modely, ale usilovně pracujeme na jejich dalším snižování.
Halucinace jsou věrohodné, ale nepravdivé výroky vytvořené jazykovými modely. Mohou se objevit překvapivými způsoby, dokonce i u zdánlivě jednoduchých otázek. Například když jsme požádali široce používaného chatbota o název disertační práce Adama Taumana Kalaie (autora tohoto článku), s jistotou nám poskytl tři různé odpovědi – žádná z nich nebyla správná. Když jsme se zeptali na jeho datum narození, uvedl tři různá data a všechna byla špatně.
Halucinace přetrvávají částečně proto, že současné metody hodnocení nastavují špatnou motivaci. Ačkoli samotná hodnocení přímo nezpůsobují halucinace, většina hodnocení měří výkon modelu způsobem, který podporuje hádání namísto upřímnosti ohledně nejistoty.
Představ si to jako test s výběrem z různých možností. Pokud neznáš odpověď a jen tipuješ, můžete mít štěstí a trefit se. Když neuvedeš žádnou odpověď, bude to určitě špatně. Stejně tak, když jsou modely hodnoceny pouze podle přesnosti, tedy procenta otázek, na které odpovídají naprosto správně, jsou povzbuzovány k hádání, místo aby řekly „nevím“.
Jako další příklad si představme, že je jazykový model dotázán na něčí narozeniny, ale neví, kdy jsou. Pokud zkusí „10. září“, má šanci 1 ku 365, že bude mít pravdu. Říct „nevím“ zaručuje nula bodů. Po tisících testových otázkách nakonec hádající model vypadá na výsledkových tabulích lépe než pečlivý model, který připouští nejistotu.
U otázek, kde existuje jediná „správná odpověď“, lze zvážit tři kategorie odpovědí: přesné odpovědi, chyby a neuvedení odpovědi, kdy model neriskuje hádání. Neuvedení odpovědi je součástí pokory, jedné ze základních hodnot OpenAI. Většina hodnotících systému upřednostňuje a řadí modely na základě přesnosti, ale chyby jsou horší než neuvedení odpovědi. Naše specifikace modelu(otevře se v novém okně) uvádí, že je lepší uvést nejistotu nebo požádat o vysvětlení než sebevědomě uvádět informace, které mohou být nesprávné.
Konkrétní příklad může být hodnocení SimpleQA jako příklad ze systémové karty GPT5(otevře se v novém okně).
Metrika | gpt-5-thinking-mini | OpenAI o4-mini |
Míra neuvedení odpovědi | 52 % | 1 % |
Míra přesnosti | 22 % | 24 % |
Míra chyb | 26 % | 75 % |
Celkem | 100 % | 100 % |
Pokud jde o přesnost, starší model OpenAI o4-mini si vede o něco lépe. Jeho chybovost (tj. míra halucinací) je však výrazně vyšší. Strategické hádání při nejistotě zvyšuje přesnost, ale zvyšuje také počet chyb a halucinací.
Při průměrování výsledků napříč desítkami hodnocení většina benchmarků vybírá metriku přesnosti, ale to s sebou nese falešnou dichotomii mezi správným a špatným. V jednoduchých hodnoceních, jako je SimpleQA, některé modely dosahují téměř 100% přesnosti a tím eliminují halucinace. Nicméně při náročnějších hodnoceních a v reálném použití je přesnost omezena na méně než 100 %, protože existují otázky, na které z různých důvodů nelze odpovědět, jako je nedostupnost informací, omezené modely nebo nejasnosti, které je třeba objasnit.
Tabulky zaměřené pouze na přesnost však dominují žebříčkům a modelovým kartám, což motivuje vývojáře k vytváření modelů, které více hádají, než aby se držely zpět. To je jeden z důvodů, proč i když se modely stávají pokročilejšími, mohou stále halucinovat a sebejistě dávat špatné odpovědi, místo aby uznaly nejistotu.
Existuje jednoduché řešení. Penalizovat sebevědomě uváděné chyby více než nejistotu a za vhodné vyjádření nejistoty udělovat částečné uznání. Tento nápad není nový. Některé standardizované testy již dlouho používají verze negativního hodnocení za špatné odpovědi nebo částečné uznání za ponechání otázek bez odpovědi, aby odradily od hádání naslepo. Několik výzkumných skupin také prozkoumalo hodnocení, která zohledňují nejistotu a kalibraci.
Nám jde o něco jiného Nestačí jen přidat pár nových testů, které berou v úvahu nejistotu. Široce používané metody hodnocení založené na přesnosti je třeba aktualizovat, aby jejich hodnocení odrazovalo od hádání. Pokud budou hlavní hodnoticí systémy i nadále odměňovat šťastné trefy, modely se budou i nadále učit hádat. Oprava hodnoticích systémů může rozšířit zavádění technik redukce halucinací, a to jak nově vyvinutých, tak i těch z předchozího výzkumu.
Mluvili jsme o tom, proč je tak těžké se zbavit halucinací, ale odkud se tyto velmi specifické faktické nepřesnosti vlastně berou? Koneckonců, velké předtrénované modely jen zřídka vykazují jiné druhy chyb, jako jsou pravopisné chyby a nesprávně spárované závorky. Rozdíl souvisí s tím, jaké druhy vzorů jsou v datech.
Jazykové modely se nejprve učí prostřednictvím předtrénování, což je proces předpovídání dalšího slova ve velkém množství textu. Na rozdíl od tradičních problémů strojového učení nejsou ke každému tvrzení přiřazeny žádné štítky „pravda/nepravda“. Model vidí pouze pozitivní příklady plynného jazyka a musí přibližně určit celkové rozdělení.
Je dvojnásob těžké rozlišit platná tvrzení od neplatných, když nemáš žádné příklady označené jako neplatné. Ale i s takovým označením jsou některé chyby nevyhnutelné. K pochopení proč použijeme jednodušší analogii. Pokud jsou při rozpoznávání obrázků miliony fotografií koček a psů označeny jako „kočka“ nebo „pes“, algoritmy se mohou naučit je spolehlivě klasifikovat. Ale představ si, že by místo toho každá fotka zvířete byla popsána jeho narozeninami. Protože narozeniny jsou v podstatě náhodné, tento úkol by vždy produkoval chyby, bez ohledu na to, jak pokročilý algoritmus je.
Stejný princip platí i při předtrénování. Pravopis a závorky se řídí konzistentními vzory, takže chyby v nich mizí s rostoucí škálou. Avšak libovolná nízkofrekvenční fakta, jako jsou narozeniny domácího mazlíčka, nelze předpovědět pouze na základě vzorců, a proto vedou k halucinacím. Naše analýza vysvětluje, jaké druhy halucinací by měly vznikat z předpovědi dalšího slova. V ideálním případě by je měly odstranit další fáze po předtrénování, ale to není z důvodů popsaných v předchozí části zcela spolehlivé.
Doufáme, že statistický pohled v našem článku objasní povahu halucinací a zpochybní běžné mylné představy.
- Tvrzení: Halucinace budou odstraněny zlepšením přesnosti, protože 100% přesný model nikdy nehalucinuje.
Zjištění: Přesnost nikdy nedosáhne 100 %, protože bez ohledu na velikost modelu, vyhledávací a logické schopnosti, některé otázky reálného světa jsou ze své podstaty nezodpověditelné. - Tvrzení: Halucinace jsou nevyhnutelné.
Zjištění: Nejsou, protože jazykové modely mohou neodpovědět, když si nejsou jisté. - Tvrzení: Vyhýbání se halucinacím vyžaduje určitý stupeň inteligence, kterého lze dosáhnout výhradně u větších modelů.
Zjištění: Pro malý model může být snazší znát své limity. Například když je model požádán, aby odpověděl na otázku v maorštině, malý model, který neumí maorsky, může jednoduše říci „Nevím“, zatímco model, který maorsky trochu umí, musí určit svou míru jistoty. Jak je uvedeno v článku, „kalibrace“ vyžaduje mnohem méně výpočtů než přesnost. - Tvrzení: Halucinace jsou záhadnou chybou v moderních jazykových modelech.
Zjištění: Chápeme statistické mechanismy, kterými halucinace vznikají a jsou odměňovány při hodnoceních. - Tvrzení: K měření halucinací potřebujeme jen dobré hodnocení halucinací.
Zjištění: Hodnocení halucinací byla publikována. Dobré hodnocení halucinací má však jen malý vliv proti stovkám tradičních hodnocení založených na přesnosti, která penalizují pokoru a odměňují hádání. Místo toho je potřeba přepracovat všechny primární hodnotící metriky, aby odměňovaly projevy nejistoty.
Naše nejnovější modely mají nižší míru halucinací a nadále usilovně pracujeme na dalším snižování míry sebevědomě uváděných chyb, které produkují naše jazykové modely.
Autoři oznámení
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


