
В OpenAI работим усилено, за да направим системите с ИИ по-полезни и надеждни. Дори когато езиковите модели стават все по-способни, едно предизвикателство остава упорито трудно за пълно разрешаване: халюцинациите. Под това разбираме случаи, в които моделът уверено генерира отговор, който не е верен. Нашият нов научен труд(отваря се в нов прозорец) доказва, че езиковите модели халюцинират, защото стандартните процедури за обучение и оценка възнаграждават предположенията пред признаването на несигурността.
ChatGPT също халюцинира. GPT‑5 има значително по-малко халюцинации особено при разсъждаване, но те все пак се случват. Халюцинациите остават основно предизвикателство за всички големи езикови модели, но ние работим усилено, за да ги намалим още повече.
Халюцинациите са правдоподобни, но неверни твърдения, генерирани от езикови модели. Те могат да се появят по изненадващ начин, дори при привидно прости въпроси. Например, когато попитахме един широко използван чатбот за заглавието на докторската дисертация на Адам Тауман Калай (автор на тази статия), той уверено даде три различни отговора – нито един от тях не беше верен. Когато попитахме за рождения му ден, той даде три различни дати, също всички грешни.
Халюцинациите продължават отчасти, защото настоящите методи за оценка създават неправилни стимули. Въпреки че самите оценки не предизвикват пряко халюцинации, повечето оценки измерват ефективността на модела по начин, който насърчава по-скоро гадаенето, отколкото честността по отношение на несигурността.
Помислете за това като за тест с избор между няколко отговора. Ако не знаете отговора, но се опитате да предположите, може да имате късмет и да се окажете прави. Оставянето на полето празно гарантира нула. По същия начин, когато моделите се оценяват само по точността, т.е. по процента на въпросите, които са отговорили точно, те се насърчават да гадаят, вместо да казват „Не знам“.
Друг пример: да предположим, че езиковият модел е попитан за рождения ден на някого, който не знае. Ако познае „10 септември“, шансът да е верен е 1 към 365. Казването „Не знам“ гарантира нула точки. При хиляди тестови въпроси моделът за гадаене в крайна сметка изглежда по-добре на таблата, отколкото внимателен модел, който признава несигурността.
За въпроси, при които има само един „верен отговор“, могат да се разгледат три категории отговори: точни отговори, грешки и въздържания, когато моделът не прави предположение. Въздържанието е част от смирението, една от основните ценности на OpenAI. Повечето табла определят приоритетите и класират моделите въз основа на точността, но грешките са по-лоши от въздържането. Нашата спецификация на модела(отваря се в нов прозорец) посочва, че е по-добре да се изрази несигурност или да се поиска разяснение, отколкото да се предостави уверена информация, която може да е невярна.
За конкретен пример, разгледайте оценката на SimpleQA като пример от картата на системата на GPT5(отваря се в нов прозорец).
Показател | gpt-5-thinking-mini | OpenAI o4-mini |
Процент на въздържане | 52% | 1% |
Процент на точност | 22% | 24% |
Процент на грешки | 26% | 75% |
Общо | 100% | 100% |
По отношение на точността по-старият модел на OpenAI o4-mini се представя малко по-добре. Въпреки това, процентът на грешките (т.е. процентът на халюцинациите) е значително по-висок. Стратегическото предполагане при несигурност подобрява точността, но увеличава грешките и халюцинациите.
Когато се осредняват резултатите от десетки оценки, повечето еталони извличат показателя за точност, но това създава фалшива дихотомия между правилно и грешно. При опростени оценки като SimpleQA, някои модели постигат почти 100% точност и по този начин елиминират халюцинациите. Въпреки това при по-сложни оценки и при реална употреба точността е ограничена под 100%, тъй като има някои въпроси, чийто отговор не може да бъде определен по различни причини, като например липса на информация, ограничени мисловни способности на малките модели или неясноти, които трябва да бъдат изяснени.
Въпреки това класациите с резултати само за точност преобладават в класациите и картите с модели, което мотивира разработчиците да създават модели, които по-скоро предполагат, отколкото да се въздържат. Това е една от причините, поради които дори с усъвършенстването на моделите те все още могат да халюцинират, като уверено дават грешни отговори, вместо да признаят несигурността.
Има лесно решение. Наказвайте грешките, свързани с увереност, повече, отколкото с несигурност, и давайте частични точки за подходящо изразяване на несигурност. Тази идея не е нова. Някои стандартизирани тестове отдавна използват версии на отрицателно оценяване за грешни отговори или частично оценяване за оставяне на въпроси празни, за да се обезкуражи сляпото гадаене. Няколко изследователски групи също така са изследвали оценки, които отчитат несигурността и калибрирането.
Нашата гледна точка е различна. Не е достатъчно да се добавят няколко нови теста, съобразени с неопределеността. Широко използваните оценявания, основани на точността, трябва да бъдат актуализирани, така че оценяването им да не насърчава гадаенето. Ако главните табла продължават да възнаграждават щастливите предположения, моделите ще продължат да се учат да предполагат. Фиксирането на таблата може да разшири възприемането на техники за намаляване на халюцинациите, както новоразработени, така и такива, които са резултат от предишни изследвания.
Говорихме за това защо е толкова трудно да се отървем от халюцинациите, но откъде изобщо идват тези много специфични фактически неточности? В края на краищата големите предварително обучени модели рядко показват други видове грешки, като например правописни грешки и несъответстващи скоби. Разликата е свързана с това какви видове шаблони съществуват в данните.
Езиковите модели първо се учат чрез предварително обучение, процес на предсказване на следващата дума в огромни количества текст. За разлика от традиционните задачи за машинно обучение, няма етикети „вярно/невярно“, прикрепени към всяко твърдение. Моделът вижда само положителни примери за свободен език и трябва да се доближи до общото разпределение.
Двойно по-трудно е да се разграничат валидни твърдения от невалидни, когато нямате примери, обозначени като невалидни. Но дори и с етикети, някои грешки са неизбежни. За да разберете защо, обмислете една по-проста аналогия. При разпознаването на изображения, ако милиони снимки на котки и кучета са етикетирани като „котка“ или „куче“, алгоритмите могат да се научат да ги класифицират надеждно. Но си представете вместо това да обозначите всяка снимка на домашен любимец с датата на рождения му ден. Тъй като рождените дни са по същество случайни, тази задача винаги би произвеждала грешки, независимо колко усъвършенстван е алгоритъмът.
Същият принцип важи и при предварителното обучение. Правописът и скобите следват последователни модели, така че грешките там изчезват с увеличаването на мащаба. Но произволни нискочестотни факти, като рождения ден на домашен любимец, не могат да бъдат предсказани само от модели и следователно водят до халюцинации. Нашият анализ обяснява какви видове халюцинации трябва да възникнат при предсказване на напредващата дума. Идеално би било по-нататъшните етапи след предварителното обучение да ги премахват, но това не е напълно успешно по причини, описани в предишния раздел.
Надяваме се, че статистическият поглед в нашата статия ще изясни естеството на халюцинациите и ще отблъсне назад често срещаните погрешни схващания:
- Твърдение: Халюцинациите ще бъдат елиминирани чрез подобряване на точността, защото 100% точен модел никога не халюцинира.
Констатация: Точността никога няма да достигне 100%, защото, независимо от размера на модела, възможностите за търсене и разсъждение, някои въпроси от реалния свят са по своята същност неотговорими. - Твърдение: Халюцинациите са неизбежни.
Констатация: Не са, защото езиковите модели могат да се въздържат при несигурност. - Твърдение: Избягването на халюцинации изисква степен на интелигентност, която е постижима единствено с по-големи модели.
Констатация: За един малък модел може да е по-лесно да познава своите граници. Например, когато бъде помолен да отговори на въпрос на маорски език, малък модел, който не знае маорски, може просто да каже „Не знам“, докато модел, който знае малко маорски, трябва да определи своята увереност. Както е посочено в статията, „калибрирането” изисква много по-малко изчисления, отколкото точността. - Твърдение: Халюцинациите са мистериозен дефект в съвременните езикови модели.
Констатация: Ние разбираме статистическите механизми, чрез които възникват халюцинациите и се възнаграждават при оценките. - Твърдение: За да измерваме халюцинациите, просто се нуждаем от добър анализ на халюцинации.
Констатация: Публикувани са оценки на халюцинации. Въпреки това доброто оценяване на халюцинации има малък ефект срещу стотици традиционни оценки, базирани на точността, които наказват смирението и възнаграждават гадаенето. Вместо това всички основни показатели за оценка трябва да бъдат преработени, за да възнаградят изразите на несигурност.
Нашите последни модели имат по-ниски нива на халюцинации и продължаваме да работим усилено, за да намалим още повече нивата на уверени грешки в изхода на нашите езикови модели.
Сътрудници по обявлението
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel и Johannes Heidecke


