5 сентября 2025 г.

Почему языковые модели испытывают галлюцинации

Абстрактное изображение с плавными градиентами сине-зеленого, синего и лавандового цветов, которые диагонально перетекают по рамке в мягкие, плавные полосы.

Загрузка…

В OpenAI мы усердно работаем, чтобы сделать системы искусственного интеллекта более полезными и надежными. Даже по мере того как языковые модели становятся более совершенными, одна проблема остаётся упорно сложной для полного решения: галлюцинации. Под этим мы имеем в виду случаи, когда модель уверенно формирует неверный ответ. В нашей новой научной публикации⁠(открывается в новом окне) утверждается, что языковые модели подвержены галлюцинациям, поскольку стандартные процедуры обучения и оценки поощряют догадки вместо признания неопределённости.

ChatGPT тоже галлюцинирует. У GPT‑5 галлюцинации встречаются значительно реже особенно при рассуждениях⁠, но они все равно случаются. Галлюцинации остаются основной проблемой для всех крупных языковых моделей, но мы усердно работаем над тем, чтобы уменьшить их.

Что такое галлюцинации?

Галлюцинации — это правдоподобные, но ложные утверждения, формируемые языковыми моделями. Они могут проявляться неожиданным образом, даже в, казалось бы, простых вопросах. Например, когда мы спросили широко используемого чат-бота о названии докторской диссертации Адама Таумана Калаи (автора этой публикации), он уверенно выдал три разных ответа — ни один из них не был верным. Когда мы спросили его о дате рождения, он дал три разные даты, и все они были неверными.

Обучение ради прохождения теста

Галлюцинации сохраняются частично из-за того, что современные методы оценки создают неверные стимулы. Хотя сами оценки напрямую не вызывают галлюцинации, большинство оценок измеряют производительность модели таким образом, чтобы поощрять догадки, а не честность в отношении неопределённости.

Представьте это как тест с выбором из нескольких вариантов. Если вы не знаете ответа, но решите сделать смелую догадку, возможно, вам повезет, и вы окажетесь правы. Если оставить поле пустым, вы гарантированно получите ноль. Точно так же, когда модели оцениваются только по точности, то есть по проценту вопросов, на которые они отвечают абсолютно правильно, их поощряют делать предположения, а не говорить «Я не знаю».

В качестве другого примера предположим, что языковую модель спрашивают о чьём-то дне рождения, но она не знает. Если она угадает «10 сентября», вероятность того, что она будет права, составляет 1 из 365. Фраза «Я не знаю» гарантирует ноль баллов. По результатам тысяч тестовых вопросов модель, которая угадывает, в итоге выглядит лучше в таблицах результатов, чем осторожная модель, признающая неопределённость.

Для вопросов, где существует один «правильный ответ», можно выделить три категории ответов: точные ответы, ошибки и воздержания от ответа, когда модель не решается делать предположения. Умение воздержаться от ответа — проявление интеллектуальной скромности, одной из основных ценностей OpenAI⁠. Большинство таблиц результатов расставляют приоритеты и ранжируют модели на основе точности, но ошибки хуже, чем воздержание от ответа. В нашей спецификации модели⁠(открывается в новом окне) указано, что лучше указать на неопределённость или попросить разъяснений, чем предоставить уверенную информацию, которая может быть неверной.

В качестве конкретного примера рассмотрим оценку SimpleQA из системной карты GPT5⁠(открывается в новом окне).

Метрика	gpt-5-thinking-mini	OpenAI o4-mini
Частота воздержаний от ответа (конкретный ответ не дан)	52 %	1 %
Частота точности (правильный ответ, чем выше, тем лучше)	22 %	24 %
Частота ошибок (неправильный ответ, чем меньше, тем лучше)	26 %	75 %
Итого	100 %	100 %

С точки зрения точности, старая модель OpenAI o4-mini показывает немного лучшие результаты. Однако частота ошибок (то есть частота галлюцинаций) значительно выше. Стратегическое угадывание в условиях неопределённости улучшает точность, но увеличивает количество ошибок и галлюцинаций.

При усреднении результатов по десяткам оценок, большинство бенчмарков выделяют метрику точности, но это создает ложную дихотомию между правильным и неправильным. На простых оценках, таких как SimpleQA, некоторые модели достигают почти 100% точности и тем самым устраняют галлюцинации. Однако при более сложных оценках и в реальном использовании точность ограничивается ниже 100%, поскольку существуют вопросы, на которые невозможно ответить по разным причинам, таким как недоступная информация, ограниченные мыслительные способности малых моделей или неоднозначности, требующие уточнения.

Тем не менее, таблицы результатов, основанные исключительно на точности, доминируют в рейтингах и карточках моделей, побуждая разработчиков создавать модели, которые делают предположения, а не воздерживаются от ответов. Это одна из причин, почему, даже когда модели становятся более продвинутыми, они всё равно могут выдавать галлюцинации, уверенно давая неправильные ответы вместо того, чтобы признавать неопределённость.

Более взвешенная система оценивания моделей

Существует простое решение. Наказывайте уверенные ошибки строже, чем неопределённость, и давайте частичный зачёт за уместные проявления неопределённости. Эта идея не нова. Некоторые стандартизированные тесты уже давно применяют системы отрицательного балла за неправильные ответы или частичного зачёта за оставленные без ответа вопросы, чтобы предотвратить слепое угадывание. Несколько исследовательских групп также изучали оценки, учитывающие неопределённость и калибровку.

Наша точка зрения отличается. Недостаточно просто добавить несколько новых тестов, учитывающих неопределённость, в качестве дополнения. Широко используемые оценки, основанные на точности, необходимо обновить, чтобы их оценивание не поощряло угадывание. Если основные таблицы результатов продолжат награждать удачные догадки, модели будут продолжать учиться угадывать. Исправление таблиц результатов может расширить внедрение методов снижения галлюцинаций, как новых, так и разработанных в ходе предыдущих исследований.

Как галлюцинации возникают из-за предсказания следующего слова

Мы уже обсуждали, почему от галлюцинаций так трудно избавиться, но откуда изначально берутся эти крайне специфические фактические неточности? Ведь крупные предобученные модели редко допускают другие типы ошибок — например, орфографические ошибки или ошибки в расстановке скобок. Разница заключается в том, какие типы паттернов присутствуют в данных.

Языковые модели сначала обучаются через предобучение — процесс предсказания следующего слова в огромных объемах текста. В отличие от традиционных задач машинного обучения, к каждому утверждению не прикреплены ярлыки «истина/ложь». Модель видит только положительные примеры естественного, грамотного языка и должна приблизительно соответствовать общему распределению.

Вдвойне сложнее отличить действительные утверждения от недействительных, когда у вас нет примеров, помеченных как недействительные. Но даже с метками некоторые ошибки неизбежны. Чтобы понять, почему, рассмотрите более простую аналогию. В распознавании изображений, когда миллионы фотографий кошек и собак помечены как «кошка» или «собака», алгоритмы могут научиться надёжно их классифицировать. Но представьте, что вместо этого вы бы подписали каждую фотографию питомца по дате его рождения. Поскольку дни рождения по своей сути случайны, эта задача всегда будет приводить к ошибкам, независимо от того, насколько продвинут алгоритм.

Тот же принцип применяется при предобучении. Орфография и круглые скобки следуют единым паттернам, поэтому ошибки в них исчезают по мере увеличения масштаба. Однако произвольные низкочастотные факты, такие как день рождения домашнего животного, невозможно предсказать только на основе паттернов, и поэтому они приводят к галлюцинациям. Наш анализ объясняет, какие виды галлюцинаций могут возникнуть при предсказании следующего слова. В идеале последующие этапы после предобучения должны их устранять, но это удается не полностью по причинам, описанным в предыдущем разделе.

Выводы

Мы надеемся, что статистический подход в нашей научной статье прояснит природу галлюцинаций и поможет развеять распространенные заблуждения:

Утверждение: Галлюцинации будут устранены за счёт повышения точности, так как 100% точная модель никогда не галлюцинирует.
Полученные данные: Точность никогда не достигнет 100%, так как, независимо от размера модели, её возможностей поиска и рассуждений, некоторые вопросы реального мира изначально не имеют ответа.
Утверждение: Галлюцинации неизбежны.
Полученные данные: Это не так, поскольку языковые модели могут воздерживаться от ответа, когда они не уверены.
Утверждение: Избежание галлюцинаций требует уровня интеллекта, который достижим исключительно с более крупными моделями.
Полученные данные: Для небольшой модели может быть проще осознать свои ограничения. Например, если попросить ответить на вопрос на языке маори, небольшая модель, которая не знает маори, может просто сказать: «Я не знаю», тогда как модель, которая знает немного маори, должна определить свою уверенность. Как обсуждалось в нашей научной статье, быть «калиброванным» требует гораздо меньше вычислений, чем быть точным.
Утверждение: Галлюцинации — это загадочный сбой в современных языковых моделях.
Полученные данные: Мы понимаем статистические механизмы, посредством которых галлюцинации возникают и получают высокие оценки.
Утверждение: Чтобы измерить галлюцинации, нам просто нужна хорошая оценка галлюцинаций.
Полученные данные: Оценки галлюцинаций уже опубликованы. Однако даже хорошая оценка галлюцинаций почти не меняет картину на фоне сотен традиционных оценок, основанных на точности, которые штрафуют модели за признание неопределённости и поощряют угадывание. Вместо этого все основные оценочные метрики нужно переработать так, чтобы они поощряли уместные проявления неопределённости.

Наши последние модели реже выдают галлюцинации, и мы продолжаем усердно работать над тем, чтобы ещё больше снизить частоту уверенных ошибок в их ответах.

Соавторы анонса

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke

Читать далее

Просмотреть все

GPT-Red: самоулучшение ради устойчивости

Безопасность15 июл. 2026 г.

Отделяя сигнал от шума в оценках кода

Исследования8 июл. 2026 г.

Представляем GeneBench-Pro

Исследования30 июн. 2026 г.