Негізгі мазмұнға өту
OpenAI

2025 ж. 5 қыркүйек

ЗерттеуЖарияланым

Тілдік модельдер неге галлюцинация жасайды

Кадр бойымен диагональ бағытта жұмсақ, ағынды жолақтар болып үйлескен көгілдір-жасыл, көк және лаванда реңктері бар абстрактілі сурет.
Жүктелуде…

OpenAI-де біз AI жүйелерін пайдалырақ әрі сенімдірек ету үшін көп жұмыс істеп жатырмыз. Тілдік модельдер қабілетті бола түскенімен, толық шешу өте қиын болып тұрған бір мәселе әлі бар: галлюцинациялар. Мұнымен біз модель сенімді түрде шындыққа сай келмейтін жауап тудыратын жағдайларды айтамыз. Біздің жаңа зерттеу мақаламыз(жаңа терезеде ашылады) тілдік модельдердің галлюцинация жасауының себебі стандартты оқыту мен бағалау рәсімдері белгісіздікті мойындағаннан гөрі жорамалдауды көбірек марапаттайтынында деп тұжырымдайды.

ChatGPT те галлюцинация жасайды. GPT‑5‑те галлюцинациялар айтарлықтай аз, әсіресе ой қорыту кезінде, бірақ олар әлі де болады. Галлюцинациялар барлық ірі тілдік модельдер үшін іргелі мәселе болып қала береді, бірақ біз оларды одан әрі азайту үшін көп жұмыс істеп жатырмыз.

Галлюцинациялар деген не?

Галлюцинациялар — тілдік модельдер тудыратын нанымды, бірақ жалған тұжырымдар. Олар тіпті қарапайым көрінетін сұрақтардың өзінде күтпеген түрде көрінуі мүмкін. Мысалы, біз кең қолданылатын чатботтан Адам Тауман Калайдың (осы мақаланың авторларының бірі) PhD диссертациясының атауын сұрағанда, ол сенімді түрде үш түрлі жауап берді — олардың ешқайсысы дұрыс болмады. Туған күнін сұрағанда да, ол үш түрлі күнді айтты, олардың бәрі де қате болды. 

Тест үшін оқыту

Галлюцинациялар ішінара қазіргі бағалау әдістері қате ынталандырулар қоятындықтан сақталады. Бағалаулардың өзі галлюцинацияларды тікелей тудырмаса да, олардың көбі модель жұмысын белгісіздік туралы адал болуға емес, жорамалдауға ынталандыратын тәсілмен өлшейді.

Мұны көп таңдауы бар тест сияқты елестетіңіз. Егер жауабын білмесеңіз, бірақ кездейсоқ болжап көрсеңіз, жолыңыз болып, дұрыс табуыңыз мүмкін. Бос қалдыру нөл алуға кепіл болады. Сол сияқты, модельдер тек дәлдік бойынша, яғни сұрақтардың нақты қанша пайызына дәл жауап бергенімен ғана бағаланса, олар «Білмеймін» деудің орнына жорамалдауға ынталандырылады.

Тағы бір мысал ретінде, тілдік модельден біреудің туған күні сұралды делік, бірақ ол оны білмейді. Егер ол «10 қыркүйек» деп болжаса, оның дұрыс болу ықтималдығы 365-тен 1. «Білмеймін» деу нөл ұпайға кепіл болады. Мыңдаған тест сұрағы бойынша жорамалдаушы модель ұпай кестелерінде белгісіздігін мойындайтын ұқыпты модельден жақсырақ болып көрінеді.

Бір ғана «дұрыс жауап» бар сұрақтар үшін жауаптарды үш санатқа бөлуге болады: дәл жауаптар, қателер және модель жорамалдауға бармайтын қалыс қалулар. Қалыс қалу — кішіпейілділіктің бір бөлігі, ал ол OpenAI-дың негізгі құндылықтарының бірі. Ұпай кестелерінің көбі модельдерге басымдық беріп, оларды дәлдікке қарай ранжирлейді, бірақ қателер қалыс қалудан жаман. Біздің Model Spec(жаңа терезеде ашылады) құжатымыз сеніммен, бірақ қате болуы мүмкін ақпарат беруден гөрі белгісіздікті көрсету немесе нақтылау сұрау жақсырақ екенін айтады. 

Нақты мысал үшін SimpleQA бағалауын GPT5 жүйе картасындағы(жаңа терезеде ашылады) мысал ретінде қарастырайық.

Метрика

gpt-5-thinking-mini

OpenAI o4-mini

Қалыс қалу деңгейі
(нақты жауап берілмейді) 

52%

1%

Дәлдік деңгейі
(дұрыс жауап, жоғары болғаны жақсы)

22%

24%

Қате деңгейі
(қате жауап, төмен болғаны жақсы)

26%

75%

Барлығы

100%

100%

Дәлдік тұрғысынан алғанда, ескілеу OpenAI o4-mini моделі сәл жақсырақ нәтиже көрсетеді. Алайда оның қате деңгейі (яғни галлюцинация деңгейі) айтарлықтай жоғары. Белгісіз кезде стратегиялық түрде жорамалдау дәлдікті арттырады, бірақ қателер мен галлюцинацияларды көбейтеді. 

Ондаған бағалау бойынша нәтижелерді орташа есептегенде, бенчмарктердің көбі дәлдік метрикасын ғана бөліп алады, бірақ бұл дұрыс пен қате арасында жалған дихотомия туғызады. SimpleQA сияқты қарапайым бағалауларда кейбір модельдер 100%-ға жуық дәлдікке жетіп, сол арқылы галлюцинацияларды жояды. Алайда күрделірек бағалауларда және нақты қолдануда дәлдік 100%-дан төмен шектеледі, себебі кейбір сұрақтардың жауабын түрлі себептермен анықтау мүмкін емес: ақпараттың қолжетімсіздігі, шағын модельдердің ойлау қабілетінің шектеулілігі немесе нақтылануы керек екіұштылықтар.

Соған қарамастан, тек дәлдікке негізделген ұпай кестелері лидербордтар мен модель карталарында үстем болып тұр, бұл әзірлеушілерді тежелудің орнына жорамалдайтын модельдер құруға ынталандырады. Сондықтан модельдер неғұрлым жетілдірілген сайын да, олар белгісіздікті мойындаудың орнына қате жауаптарды сенімді түрде беріп, әлі де галлюцинация жасай алады.

Бағалауларды бағалаудың жақсырақ жолы

Мұның қарапайым шешімі бар. Сеніммен айтылған қателерді белгісіздікке қарағанда қаттырақ жазалаңыз және белгісіздікті орынды білдіргені үшін ішінара ұпай беріңіз. Бұл идея жаңа емес. Кейбір стандартталған тестерде соқыр жорамалдауды тежеу үшін қате жауаптарға теріс балл қою немесе сұрақты бос қалдырғаны үшін ішінара ұпай беру бұрыннан қолданылады. Бірнеше зерттеу тобы да белгісіздік пен калибрлеуді ескеретін бағалауларды зерттеген.

Біздің айтпағымыз басқа. Жанама түрде белгісіздікке сезімтал бірнеше жаңа тест қосу жеткіліксіз. Кең қолданылатын, дәлдікке негізделген бағалаулардың ұпайлау жүйесін жорамалдауды тежеу үшін жаңарту қажет. Егер негізгі ұпай кестелері сәтті жорамалдарды марапаттай берсе, модельдер де жорамалдауды үйрене береді. Ұпай кестелерін түзету галлюцинацияны азайту тәсілдерінің, жаңадан жасалғандарының да, бұрынғы зерттеулерден келгендерінің де, кеңірек енгізілуіне жол ашады.

Галлюцинациялар келесі сөзді болжаудан қалай пайда болады

Біз галлюцинациялардан құтылу неге сонша қиын екенін айттық, бірақ мұндай өте нақты фактілік қателіктер бастапқыда қайдан пайда болады? Өйткені ірі алдын ала оқытылған модельдерде орфографиялық қателер мен жақшалардың сәйкес келмеуі сияқты өзге қателер сирек байқалады. Айырмашылық деректерде қандай үлгілер бар екеніне байланысты.

Тілдік модельдер әуелі алдын ала оқыту арқылы үйренеді, бұл — орасан көп мәтіндегі келесі сөзді болжау үдерісі. Дәстүрлі машиналық оқыту міндеттерінен айырмасы, мұнда әр тұжырымға «дұрыс/қате» деген таңбалар тіркелмейді. Модель тек сауатты тілдің оң мысалдарын көреді және жалпы үлестірімді жуықтатуы керек. 

Қате деп таңбаланған мысалдар мүлде болмаған кезде, жарамды тұжырымдарды жарамсыздардан ажырату екі есе қиын. Бірақ таңбалар болған күннің өзінде, кейбір қателер болмай қоймайды. Неге екенін түсіну үшін қарапайымырақ ұқсастықты алайық. Бейнені тануда миллиондаған мысық пен ит фотосы «мысық» немесе «ит» деп таңбаланса, алгоритмдер оларды сенімді түрде жіктеуді үйрене алады. Ал енді әр үй жануарының фотосын оның туған күнімен таңбалап көріңіз. Туған күндер негізінен кездейсоқ болғандықтан, алгоритм қанша жерден жетілген болса да, бұл міндетте қателер әрқашан болады.

Дәл осы қағида алдын ала оқытуға да қолданылады. Орфография мен жақшалар тұрақты үлгілерге бағынады, сондықтан ондағы қателер ауқым ұлғайған сайын жойылады. Ал үй жануарының туған күні сияқты сирек, еркін фактілерді тек үлгілерден болжау мүмкін емес, сондықтан олар галлюцинацияларға әкеледі. Біздің талдауымыз келесі сөзді болжаудан галлюцинациялардың қандай түрлері туындауы тиіс екенін түсіндіреді. Ең жақсысы, алдын ала оқытудан кейінгі кезеңдер оларды жоюы керек еді, бірақ алдыңғы бөлімде сипатталған себептерге байланысты бұл толық жүзеге аспайды. 

Қорытындылар

Мақаламыздағы статистикалық көзқарас галлюцинациялардың табиғатын айқындап, жиі кездесетін қате түсініктерге қарсы тұрады деп үміттенеміз:

  • Тұжырым: Дәлдікті жақсарту арқылы галлюцинациялар жойылады, өйткені 100% дәл модель ешқашан галлюцинация жасамайды.
    Тұжырым:
    Дәлдік ешқашан 100%-ға жетпейді, өйткені модель өлшеміне, іздеу мен ой қорыту қабілеттеріне қарамастан, нақты өмірдегі кейбір сұрақтарға табиғатынан жауап беру мүмкін емес. 
  • Тұжырым: Галлюцинациялар сөзсіз.
    Тұжырым:
    Олай емес, өйткені тілдік модельдер белгісіз болғанда қалыс қала алады.
  • Тұжырым: Галлюцинациялардан аулақ болу тек ірі модельдер ғана жете алатын интеллект деңгейін талап етеді.
    Тұжырым:
    Шағын модель үшін өз шегін білу оңайырақ болуы мүмкін. Мысалы, маори тіліндегі сұраққа жауап беру сұралғанда, маори тілін мүлде білмейтін шағын модель жай ғана «Білмеймін» дей алады, ал маори тілін аздап білетін модель өз сенімділік деңгейін анықтауы керек. Мақалада айтылғандай, «калибрленген» болу дәл болуға қарағанда әлдеқайда аз есептеуді қажет етеді.
  • Тұжырым: Галлюцинациялар — қазіргі тілдік модельдердегі жұмбақ ақау.
    Тұжырым:
    Біз галлюцинациялардың бағалауларда қалай пайда болып, қалай марапатталатынының статистикалық тетіктерін түсінеміз.
  • Тұжырым: Галлюцинацияларды өлшеу үшін бізге тек жақсы галлюцинация бағалауы керек.
    Тұжырым:
    Галлюцинация бағалаулары жарияланған. Алайда кішіпейілділікті жазалап, жорамалдауды марапаттайтын дәстүрлі дәлдікке негізделген жүздеген бағалауларға қарсы жақсы галлюцинация бағалауының әсері аз. Оның орнына негізгі бағалау метрикаларының бәрі белгісіздікті білдіруді марапаттайтындай қайта жасалуы керек.

Соңғы модельдерімізде галлюцинация деңгейі төменірек, және біз тілдік модельдеріміз шығаратын сеніммен берілген қате жауаптар деңгейін одан әрі азайту үшін жұмысымызды жалғастырып келеміз.

Хабарландыру авторлары

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke