
У компанії OpenAI ми безперервно працюємо над тим, щоб зробити системи штучного інтелекту більш корисними та надійними. Навіть коли мовні моделі стають все більш потужними, одну проблему вперто не вдається повністю вирішити: галюцинації, або ж спотворення фактів. Під цим ми маємо на увазі випадки, коли модель впевнено створює відповідь, яка не є правдивою. У нашій новій дослідницькій роботі(відкривається у новому вікні) стверджується, що мовні моделі допускають такі помилки, оскільки стандартні процедури навчання та оцінювання заохочують вгадування замість визнання невизначеності.
ChatGPT також може спотворювати факти. GPT‑5 має значно менше галюцинацій, особливо під час аргументації, але вони все одно трапляються. Галюцинації залишаються фундаментальною проблемою для всіх великих мовних моделей, але ми наполегливо працюємо над їх подальшим зменшенням.
Галюцинації — це правдоподібні, але хибні твердження, створені мовними моделями. Вони можуть з'являтися несподівано, навіть для, здавалося б, простих запитань. Наприклад, коли ми запитали широко використовуваного чатбота про назву дисертації Адама Таумана Калая (автора цієї статті), він впевнено дав три різні відповіді — і жодна з них не була правильною. Коли ми запитали про його день народження, було вказано три різні дати, і всі вони були неправильні.
Галюцинації зберігаються частково через те, що сучасні методи оцінювання створюють неправильні стимули. Хоча самі оцінювання безпосередньо не викликають галюцинацій, більшість оцінювань вимірюють ефективність моделі так, щоб заохочувати здогадки, а не чесність щодо невизначеності.
Уявіть собі це як тест з вибором відповідей. Якщо ви не знаєте відповіді на те чи інше питання, але зробите сміливу здогадку, можливо, вам пощастить і ви вгадаєте. Якщо ж не відповідати на питання взагалі, балів не отримаєте. Так само, коли моделі оцінюють лише за точністю, відсотком питань, на які вони відповідають точно, їх заохочують здогадуватися, а не казати напряму: «Я не знаю відповіді».
Як ще один приклад, припустімо, що мовну модель запитують про чийсь день народження, але вона не знає. Якщо вона вгадає «10 вересня», то має 1 з 365 шансів бути правою. Сказати «Я не знаю» гарантує нуль балів. Протягом тисяч тестових питань модель вгадування зрештою за результатами виглядає краще, ніж ретельно продумана модель, яка визнає існування невизначеності.
Для питань, де є одна «правильна відповідь», можна розглянути три категорії відповідей: точні відповіді, помилки та утримання, коли модель не ризикує робити припущення. Утримання є частиною смиренності, однієї з основних цінностей OpenAI. Більшість таблиць оцінок надають пріоритет і ранжують моделі на основі точності, але помилки гірші за утримання. У нашій специфікації моделі(відкривається у новому вікні) зазначено, що краще вказати на невизначеність або попросити роз'яснень, ніж упевнено надавати інформацію, яка може бути невірною.
Для конкретного прикладу розглянемо SimpleQA eval як приклад із GPT5 System Card(відкривається у новому вікні).
Метрика | gpt-5-thinking-mini | OpenAI o4-mini |
Коефіцієнт утримання | 52% | 1% |
Рівень точності | 22% | 24% |
Рівень помилок | 26% | 75% |
Загалом | 100% | 100% |
Щодо точності, старіша модель OpenAI o4-mini працює трохи краще. Однак частота помилок (тобто частота галюцинацій) є значно вищою. Стратегічне вгадування в умовах невизначеності підвищує точність, але збільшує кількість помилок і галюцинацій.
При усередненні результатів із десятків оцінок більшість бенчмарків виділяють метрику точності, але це створює хибну дихотомію між правильним і неправильним. На простих оцінках, таких як SimpleQA, деякі моделі досягають майже 100% точності, тим самим усуваючи галюцинації. Однак у більш складних оцінках і в реальному використанні точність обмежена нижче 100%, оскільки є питання, на які неможливо визначити відповідь з різних причин, таких як недоступність інформації, обмежені можливості мислення малих моделей або неоднозначності, які потребують уточнення.
Втім, показники, засновані лише на точності, домінують у таблицях лідерів і картках моделей, мотивуючи розробників створювати моделі, які вгадують, а не утримуються від відповіді. Це одна з причин, чому навіть коли моделі стають більш досконалими, вони все ще можуть галюцинувати, упевнено надаючи неправильні відповіді замість визнання невизначеності.
Існує просте рішення: карати за впевнені помилки більше, ніж за невизначеність, і надавати часткове визнання за доречні прояви невизначеності. Ця ідея не нова. Деякі стандартизовані тести вже давно використовують варіанти негативного оцінювання за неправильні відповіді або часткове зарахування за залишені без відповіді питання, щоб запобігти спробам сліпого вгадування. Кілька дослідницьких груп також ознайомилися з оцінками, що враховують невизначеність і калібрування.
Наша точка зору відрізняється. Недостатньо просто додати кілька нових тестів з урахуванням невизначеності. Широко використовувані оцінки на основі точності потребують оновлення, щоб їхня оцінка не заохочувала здогадки. Якщо основні оцінки продовжуватимуть винагороджувати вдалі здогадки, моделі продовжуватимуть навчатися вгадувати. Виправлення таких оцінок може розширити застосування методів зменшення галюцинацій, як нещодавно розроблених, так і тих, що були отримані в попередніх дослідженнях.
Ми вже обговорили, чому галюцинацій так важко позбутися; але звідки взагалі з'являються ці дуже специфічні фактичні неточності? Зрештою, великі попередньо навчені моделі рідко демонструють інші види помилок, такі як орфографічні помилки та невідповідні дужки. Різниця полягає в тому, які типи шаблонів є в даних.
Мовні моделі спочатку навчаються через попереднє навчання — процес передбачення наступного слова у величезній кількості тексту. На відміну від традиційних задач машинного навчання, до кожного твердження не додаються мітки «true/false». Модель бачить лише позитивні приклади вільної мови та повинна наближатися до загального розподілу.
Удвічі важче відрізнити дійсні твердження від недійсних, коли у вас немає жодних прикладів, позначених як недійсні. Але навіть із такими деякі помилки просто неминучі. Щоб зрозуміти, чому, розгляньмо простішу аналогію. У розпізнаванні зображень, якщо мільйони фотографій котів і собак позначені як «кіт» або «собака», алгоритми можуть навчитися надійно їх класифікувати. Але уявіть собі, що натомість ви позначаєте кожне фото улюбленця за його днем народження. Оскільки дні народження по суті випадкові, це завдання завжди призводило б до помилок, незалежно від того, наскільки просунутий алгоритм.
Той самий принцип застосовується і під час попереднього навчання. Орфографія та дужки дотримуються послідовних шаблонів, тому помилки там зникають зі збільшенням масштабу. Але довільні низькочастотні факти, такі як день народження домашньої тварини, не можна передбачити лише за закономірностями, і тому вони призводять до галюцинацій. Наш аналіз пояснює, які типи галюцинацій можуть виникати при прогнозуванні наступного слова. В ідеалі подальші етапи після попереднього навчання повинні їх вилучити, але це не завжди вдається з причин, описаних у попередньому розділі.
Ми сподіваємося, що статистичний підхід у нашій статті прояснить природу галюцинацій і спростує поширені хибні уявлення:
- Твердження: Галюцинації будуть усунуті шляхом покращення точності, оскільки 100% точна модель ніколи не галюцинує.
Спростування: Точність ніколи не досягне 100%, оскільки, незалежно від розміру моделі, можливостей пошуку та міркувань, деякі реальні питання за своєю суттю не мають відповіді. - Твердження: Галюцинації неминучі.
Спростування: Ні, оскільки мовні моделі можуть просто утримуватися від відповіді у разі невизначеності. - Твердження: Уникнення галюцинацій вимагає певного рівня інтелекту, який можна досягти виключно з більшими моделями.
Спростування: Маленькій моделі легше знати свої межі. Наприклад, коли модель просять відповісти на питання мовою маорі, маленька модель, яка не знає маорі, може просто сказати «Я не знаю», тоді як модель, яка трохи знає маорі, має визначити свою впевненість. Як обговорюється в статті, «калібрування» вимагає значно менше обчислень, ніж точність. - Твердження: Галюцинації — це загадковий збій у сучасних мовних моделях.
Спростування: Ми розуміємо статистичні механізми, через які галюцинації виникають та винагороджуються в оцінках. - Твердження: Щоб виміряти галюцинації, нам просто потрібна хороша оцінка галюцинацій.
Спростування: Оцінки галюцинацій були опубліковані. Однак хороша оцінка галюцинацій має мало ефекту проти сотень традиційних оцінок на основі точності, які карають за смиренність і винагороджують вгадування. Замість цього, всі основні метрики оцінки повинні бути перероблені, щоб заохочувати вираження невизначеності.
Наші останні моделі мають нижчий рівень галюцинацій, і ми продовжуємо наполегливо працювати над подальшим зниженням частоти впевнених помилок у виводі наших мовних моделей.
Учасники
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


