Зошто халуцинираат јазичнитe модели

Во OpenAI, работиме напорно за да ги направиме системите со вештачка интелигенција покорисни и подоверливи. Иако јазични модели стануваат сè поспособни, еден предизвик останува тврдоглаво тежок за целосно решавање: халуцинации. Со ова мислиме на случаи каде моделот самоуверено генерира одговор што не е точен. Нашиот нов истражувачки труд(се отвора во нов прозорец) тврди дека јазичните модели халуцинираат затоа што стандардните процедури за обука и евалуација го наградуваат нагаѓањето наместо признавањето на несигурноста.
ChatGPT исто така халуцинира. GPT‑5 има значително помалку халуцинации особено при расудување, но тие сепак се јавуваат. Халуцинациите остануваат основен предизвик за сите големи јазични модели, но ние работиме напорно за нивно понатамошно намалување.
Халуцинациите се уверливи, но лажни тврдења генерирани од јазични модели. Можат да се појават на изненадувачки начини, дури и за навидум едноставни прашања. На пример, кога прашавме еден нашироко користен четбот за насловот на докторската дисертација на Адам Тауман Калаи (автор на овој труд), тој самоуверено даде три различни одговори — ниту еден од нив не беше точен. Кога го прашавме за неговиот роденден, ни даде три различни датуми, сите исто така погрешни.
Халуцинациите делумно опстојуваат затоа што сегашните методи на евалуација поставуваат погрешни поттици. Иако самите евалуации директно не предизвикуваат халуцинации, повеќето евалуации ја мерат изведбата на моделот на начин што охрабрува нагаѓање, наместо искреност во врска со несигурноста.
Замисли го тоа како за тест со повеќе можни одговори. Ако не го знаеш одговорот, а нагаѓаш на слепо, можеби ќе имаш среќа и ќе имаш право. Оставањето празно гарантира нула. На ист начин, кога моделите се оценуваат само според точноста, процентот на прашања што ги одговараат точно, се охрабруваат да нагаѓаат наместо да кажат „Не знам“.
Како друг пример, да претпоставиме дека од јазичен модел е побаран нечиј датум на раѓање, но тој не го знае. Ако нагаѓајќи избере „10 септември“, има 1-на-365 шанса да биде во право. Ако кажеш „не знам“, тоа ти гарантира нула поени. По илјадници тест прашања, моделот со нагаѓање на крајот изгледа подобро на таблите со резултати отколку внимателниот модел кој признава несигурност.
За прашања каде што постои само еден „точен одговор“, може да се разгледаат три категории на одговори: точни одговори, грешки и воздржаности каде што моделот не се осмелува да нагаѓа. Воздржувањето е дел од понизноста, една од основните вредности на OpenAI. Повеќето табели за резултати ги приоритизираат и рангираат моделите според точноста, но грешките се полоши од воздржувањата. Нашата Model Spec(се отвора во нов прозорец) наведува дека е подобро да се укаже на несигурноста или да се побара појаснување отколку да се дадат сигурни информации што може да бидат неточни.
За конкретен пример, разгледај го SimpleQA eval како пример од GPT5 System Card(се отвора во нов прозорец).
Показател | gpt-5-thinking-mini | OpenAI o4-mini |
Стапка на воздржување | 52% | 1% |
Стапка на точност | 22% | 24% |
Стапка на грешки | 26% | 75% |
Вкупно | 100% | 100% |
Во однос на точноста, постариот модел OpenAI o4-mini има малку подобри перформанси. Сепак, нејзината стапка на грешки (т.е. стапка на халуцинации) е значително повисока. Стратешкото нагаѓање при несигурност ја подобрува точноста, но ги зголемува грешките и халуцинациите.
При пресметување на просекот од резултатите од дузини евалуации, повеќето референтни вредности ја издвојуваат метриката на точност, но тоа подразбира лажна дихотомија помеѓу точното и неточното. При поедноставни евалуации како SimpleQA, некои модели постигнуваат речиси 100% точност и со тоа ги елиминираат халуцинациите. Сепак, при потешки евалуации и во реална употреба, точноста е ограничена под 100% бидејќи постојат некои прашања чиишто одговори не можат да се утврдат од различни причини, како што се недостапни информации, ограничени способности за размислување на малите модели или двосмислености што треба да се разјаснат.
Сепак, табелите со резултати базирани само на точност доминираат на лидерските табели и картичките на модели, мотивирајќи ги развивачите на софтвер да создаваат модели што нагаѓаат, наместо да се воздржуваат. Тоа е една од причините зошто, дури и кога моделите се понапредни, тие сè уште можат да халуцинираат, самоуверено давајќи погрешни одговори наместо да признаат несигурност.
Постои едноставно решение. Казнувај ги сигурните грешки повеќе отколку што ја казнуваш несигурноста и давај делумно признание за соодветните изрази на несигурност. Оваа идеја не е нова. Некои стандардизирани тестови долго време користат верзии на негативно оценување за погрешни одговори или делумен кредит за оставање празни прашања за да се обесхрабри слепото нагаѓање. Неколку истражувачки групи исто така истражија евалуации коишто ги земаат предвид несигурноста и калибрацијата.
Нашиот пристап е поинаков. Не е доволно на страна да се додадат само неколку нови тестови што ја земаат предвид несигурноста. Нашироко користените евалуации засновани на точност треба да се ажурираат за нивното бодување да го обесхрабри нагаѓањето. Ако главните табели со резултати продолжат да ги наградуваат среќните нагаѓања, моделите ќе продолжат да учат да нагаѓаат. Поправањето на таблите со резултати може да го прошири усвојувањето на техниките за намалување на халуцинации, како новоразвиените, така и оние од претходните истражувања.
Разговаравме за тоа зошто халуцинациите се многу тешки за отстранување, но од каде воопшто потекнуваат овие многу конкретни фактички неточности? Најпосле, големите претходно обучени модели ретко покажуваат други видови грешки, како што се правописни грешки и несовпаѓање на заградите. Разликата е поврзана со тоа какви шеми има во податоците.
Јазичните модели прво учат преку предобука, процес на предвидување на следниот збор во огромни количини текст. За разлика од традиционалните проблеми со машинско учење, нема прикачено етикети „точно/неточно“ на секоја изјава. Моделот гледа само позитивни примери на течен јазик и мора да приближно да ја процени целокупната распределба.
Двојно е потешко да се разликуваат валидни искази од невалидни искази кога немаш примери означени како невалидни. Но, дури и со етикетите, некои грешки се неизбежни. За да видиш зошто, разгледај поедноставна аналогија. Во препознавањето на слики, ако милиони фотографии од мачки и кучиња се означени како „мачка“ или „куче“, алгоритмите можат да научат да ги класифицираат со сигурност. Но, замисли наместо тоа да ја означиш секоја фотографија од миленичето според неговиот роденден. Бидејќи родендените се во суштина случајни, оваа задача секогаш би произведувала грешки, без разлика колку е напреден алгоритмот.
Истиот принцип важи и за предобуката. Правописот и заградите следат конзистентни шеми, па грешките таму исчезнуваат со скалирање. Но произволни факти со ниска фреквенција, како роденденот на домашно милениче, не можат да се предвидат само од шеми и затоа водат до халуцинации. Нашата анализа објаснува кои видови халуцинации треба да произлезат од предвидувањето на следниот збор. Идеално, понатамошните фази по предобуката треба да ги отстранува, но тоа не е целосно успешно поради причините опишани во претходниот дел.
Се надеваме дека статистичката перспектива во нашиот труд ја разјаснува природата на халуцинациите и ги сузбива вообичаените заблуди.
- Тврдење: Халуцинациите ќе бидат елиминирани со подобрување на точноста бидејќи 100% точен модел никогаш не халуцинира.
Наод: Точноста никогаш нема да достигне 100% бидејќи, без оглед на големината на моделот, можностите за пребарување и расудување, некои прашања од реалниот свет се по природа неодговорливи. - Тврдење: Халуцинациите се неизбежни.
Наод: Не се, бидејќи јазичните модели можат да се воздржат кога се несигурни. - Тврдење: Избегнувањето на халуцинации бара степен на интелигенција што е исклучиво остварлив со поголемите модели.
Наод: На мал модел може да му биде полесно да ги знае своите граници. На пример, кога ќе биде замолен да одговори на прашање на маорски, мал модел кој не знае маорски може едноставно да каже „Не знам“, додека модел кој знае малку маорски мора да ја утврди својата сигурност. Како што е дискутирано во трудот, да се биде „калибриран“ бара многу помалку пресметки отколку да се биде точен. - Тврдење: Халуцинациите се мистериозен дефект во современите јазични модели.
Наод: Ги разбираме статистичките механизми преку коишто се појавуваат халуцинациите и се наградуваат во евалуациите. - Тврдење: За да ги измериме халуцинациите, ни треба само добра евалуација на халуцинации.
Наод: Објавени се евалуации на халуцинации. Сепак, добра евалуација на халуцинации има мал ефект во споредба со стотиците традиционални евалуации базирани на точност коишто ја казнуваат понизноста и го наградуваат нагаѓањето. Наместо тоа, сите примарни метрики за евалуација треба да се преработат за да го наградуваат изразувањето несигурност.
Нашите најнови модели имаат пониски стапки на халуцинации, и продолжуваме да работиме напорно на понатамошно намалување на стапките на сигурни грешки како резултат од нашите јазични модели.
Соработници за објави
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel и Johannes Heidecke


