Անցնել հիմնական բովանդակությանը
OpenAI

Ինչու են լեզվի մոդելները հալյուցինացիա առաջացնում

Աբստրակտ պատկեր՝ ծովային կանաչ, կապույտ և նարդոսի լայնածավալ գրադիենտներով, որոնք անկյունագծով խառնվում են շրջանակի վրայով փափուկ, հոսող շերտերով։
Բեռնվում է…

OpenAI-ում մենք ջանասիրաբար աշխատում ենք ԱԲ համակարգերն ավելի օգտակար և հուսալի դարձնելու համար։ Նույնիսկ երբ լեզվի մոդելները դառնում են ավելի կարողունակ, մեկ խնդիր մնում է համառորեն դժվար լուծելի՝ հալյուցինացիաները։ Սրանով մենք նկատի ունենք այն դեպքերը, երբ մոդելը վստահորեն գեներացնում է պատասխան, որը ճշմարիտ չէ։ Մեր նոր հետազոտական հոդվածը(բացվում է նոր պատուհանում) պնդում է, որ լեզվի մոդելները հալյուցինացիաներ են առաջացնում, քանի որ ստանդարտ ուսուցման և գնահատման ընթացակարգերը խրախուսում են կռահումները՝ անորոշությունն ընդունելու փոխարեն։

ChatGPT‑ը նույնպես հալյուցինացիաներ է առաջացնում։GPT‑5‑ը զգալիորեն ավելի քիչ հալյուցինացիաներ է առաջացնում, հատկապես երբ հիմնավորվում է, բայց դրանք դեռևս առաջանում են։ Հալյուցինացիաները մնում են հիմնարար մարտահրավեր բոլոր լեզվի խոշոր մոդելների համար, բայց մենք ջանքեր ենք գործադրում դրանք էլ ավելի նվազեցնելու համար։

Ի՞նչ են հալյուցինացիաները։

Հալյուցինացիաները հավանական, բայց կեղծ պնդումներ են, որոնք գեներացվում են լեզվի մոդելների կողմից։ Դրանք կարող են հայտնվել անսպասելի ձևերով, նույնիսկ թվացյալ պարզ հարցերի դեպքում։ Օրինակ, երբ մենք լայնորեն օգտագործվող չաթբոտից հարցրինք Ադամ Թաուման Քալայի (այս հոդվածի հեղինակներից մեկի) դոկտորական ատենախոսության վերնագիրը, այն վստահորեն տվեց երեք տարբեր պատասխաններ, որոնցից ոչ մեկը ճիշտ չէր։ Երբ մենք հարցրինք նրա ծննդյան օրը, այն տվեց երեք տարբեր ամսաթվեր, որոնք նույնպես սխալ էին։ 

Թեստավորման համար ուսուցում

Հալյուցինացիաները մասամբ պահպանվում են, քանի որ ներկայիս գնահատման մեթոդները սխալ խթաններ են ստեղծում: Թեև գնահատումներն իրենք ուղղակիորեն չեն առաջացնում հալյուցինացիաներ, գնահատումների մեծ մասը չափում է մոդելի կատարողականը այնպես, որ խրախուսվում է գուշակությունը, այլ ոչ թե անկեղծությունը անորոշության վերաբերյալ։

Պատկերացրեք դա որպես բազմակի ընտրության հնաևավորությամբ թեստավորում։ Եթե չգիտեք պատասխանը, բայց ուղղակի կռահում եք, կարող է բախտի բերմամբ պատասխանը ճիշտ լինել։ Դատարկ թողնելու դեպքում հաստատ կգնահատվի զրո։ Նույն կերպ, երբ մոդելները գնահատվում են միայն ճշգրտությամբ՝ ըստ այն հարցերի տոկոսի, որոնք դրանք ճիշտ են պատասխանում, դրանց խրախուսում են ենթադրել, այլ ոչ թե ասել՝ «Ես չգիտեմ»։

Որպես մեկ այլ օրինակ՝ ենթադրենք, որ լեզվի մոդելին հարցնում են ինչ-որ մեկի ծննդյան օրը, բայց մոդելն այն չգիտի։ Եթե այն գուշակի «սեպտեմբերի 10», ապա ճիշտ լինելու հավանականությունը 1-ը 365-ից է։ «Չգիտեմ» ասելը երաշխավորում է զրո միավոր։ Հազարավոր թեստային հարցերի ընթացքում ենթադրությունների մոդելը վերջիվերջո ավելի լավ է երևում ցուցատախտակներում, քան զգույշ մոդելը, որն ընդունում է անորոշությունը։

Այն հարցերի համար, որտեղ կա միայն մեկ «ճիշտ պատասխան», կարելի է դիտարկել երեք կատեգորիա՝ ճշգրիտ պատասխաններ, սխալներ և ձեռնպահ մնալու դեպքեր, երբ մոդելը չի փորձում գուշակել։ Ձեռնպահ մնալը խոնարհության մի մասն է, որը OpenAI-ի հիմնական արժեքներից մեկն է։ Շատ գնահատման ցուցակներ մոդելները դասակարգում և առաջնահերթություն են տալիս ճշգրտության հիման վրա, սակայն սխալներն ավելի վատ են, քան ձեռնպահ մնալը։ Մեր մոդել Spec(բացվում է նոր պատուհանում) -ում նշվում է, որ ավելի լավ է նշել անորոշությունը կամ խնդրել պարզաբանում, քան տրամադրել վստահ տեղեկատվություն, որը կարող է սխալ լինել։ 

Կոնկրետ օրինակ բերելու համար, դիտարկեք SimpleQA գնահատումը որպես GPT5-ի համակարգային քարտի(բացվում է նոր պատուհանում) օրինակ։

Մետրիկա

gpt-5-thinking-mini

OpenAI o4-mini

Ձեռնպահ մնալու մակարդակը
(հստակ պատասխան չի տրվում) 

52%

1%

Ճշգրտության մակարդակ
(ճիշտ պատասխան, որքան բարձր, այնքան լավ)

22%

24%

Սխալի մակարդակ
(սխալ պատասխան, որքան ցածր, այնքան լավ)

26%

75%

Ընդամենը

100%

100%

Ճշգրտության առումով, հին OpenAI o4-mini մոդելը մի փոքր ավելի լավ է գործում։ Սակայն դրա սխալի մակարդակը (այսինքն՝ հալյուցինացիայի մակարդակը) զգալիորեն ավելի բարձր է։ Անորոշության դեպքում ռազմավարականորեն կռահելը բարելավում է ճշգրտությունը, բայց ավելացնում է սխալներն ու հալյուցինացիաները։ 

Երբ միջինացնում ենք տասնյակ գնահատումների արդյունքները, չափորոշիչների մեծ մասը առանձնացնում է ճշգրտության չափանիշը, բայց դա ենթադրում է ճշտի և սխալի միջև կեղծ դիխոտոմիա։ Պարզ գնահատականներում, ինչպիսիք են SimpleQA-ն, որոշ մոդելներ հասնում են մոտ 100% ճշգրտության և այդպիսով վերացնում են հալյուցինացիաները։ Այնուամենայնիվ, ավելի բարդ գնահատումների և իրական օգտագործման դեպքում ճշգրտությունը սահմանափակվում է 100%-ից ցածր, քանի որ կան որոշ հարցեր, որոնց պատասխանը հնարավոր չէ որոշել մի շարք պատճառներով, ինչպիսիք են՝ անհասանելի տեղեկատվությունը, փոքր մոդելների սահմանափակ մտածողության ունակությունները կամ պարզաբանման կարիք ունեցող երկիմաստությունները։

Այնուամենայնիվ, միայն ճշգրտության վրա հիմնված միավորների աղյուսակները գերիշխում են առաջատարների աղյուսակներում և մոդելային քարտերում՝ ծրագրավորողներին մղելով կառուցել մոդելներ, որոնք կռահում են, այլ ոչ թե հետ կանգնում։ Սա այն հիմնավորումներից մեկն է, թե ինչու, նույնիսկ մոդելների կատարելագործման դեպքում, դրանք դեռ կարող են հալյուցինացիաներ առաջացնել՝ վստահորեն սխալ պատասխաններ տալով՝ անորոշությունն ընդունելու փոխարեն։

Գնահատականները գնահատելու ավելի լավ եղանակ

Կա մի պարզ լուծում։ Ավելի խիստ պատժեք վստահ սխալները, քան անորոշությունը, և մասնակի գնահատական տվեք անորոշության համապատասխան արտահայտություններին։ Այս գաղափարը նոր չէ: Որոշ ստանդարտացված թեստեր վաղուց օգտագործում են սխալ պատասխանների համար բացասական գնահատման տարբերակներ կամ հարցերը դատարկ թողնելու համար մասնակի միավորներ՝ կույր կռահումները կանխելու համար։ Մի քանի հետազոտական խմբեր նույնպես ուսումնասիրել են գնահատականներ, որոնք հաշվի են առնում անորոշությունը և տրամաչափումը։

Մեր տեսակետը այլ է։ Բավարար չէ պարզապես մի քանի նոր անորոշությունը հաշվի առնող թեստեր ավելացնել։ Լայնորեն օգտագործվող, ճշգրտության վրա հիմնված գնահատումները պետք է թարմացվեն, որպեսզի դրանց միավորների հաշվարկը խուսափի կռահումներից։ Եթե հիմնական ցուցատախտակները շարունակեն պարգևատրել բախտավոր ենթադրությունները, մոդելները կշարունակեն սովորել գուշակել։ Ցուցատախտակների նորոգումը կարող է ընդլայնել հալյուցինացիաների նվազեցման տեխնիկաների կիրառումը, թե՛ նոր մշակված, թե՛ նախորդ հետազոտություններից ստացված մեթոդների։

Ինչպես են հալյուցինացիաները առաջանում հաջորդ բառի կանխատեսումից

Մենք խոսել ենք այն մասին, թե ինչու է հալյուցինացիաներից այդքան դժվար ազատվելը, բայց ի սկզբանե որտեղի՞ց են առաջանում այս խիստ կոնկրետ փաստական անճշտությունները։ Ի վերջո, մեծ նախապես պատրաստված մոդելները հազվադեպ են ցուցադրում այլ տեսակի սխալներ, ինչպիսիք են ուղղագրական սխալները և անհամապատասխան փակագծերը։ Տարբերությունը կապված է տվյալների մեջ առկա օրինաչափությունների տեսակների հետ։

Լեզվի մոդելները նախ սովորում են նախապատրաստման միջոցով, որը տեքստի հսկայական ծավալի մեջ հաջորդ բառը կանխատեսելու գործընթաց է։ Ի տարբերություն մեքենայական ուսուցման ավանդական խնդիրների, յուրաքանչյուր պնդմանը կցված չեն «ճիշտ/սխալ» պիտակներ։ Մոդելը տեսնում է միայն սահուն լեզվի դրական օրինակներ և պետք է մոտավոր կերպով ներկայացնի ընդհանուր բաշխումը։ 

Կրկնակի դժվար է տարբերակել վավեր պնդումները անվավերից, երբ չունեք որևէ օրինակ, որը պիտակավորված է որպես անվավեր։ Բայց նույնիսկ պիտակներով, որոշ սխալներ անխուսափելի են։ Որպեսզի տեսնեք, թե ինչու, դիտարկեք ավելի պարզ համեմատություն։ Պատկերների ճանաչման մեջ, եթե միլիոնավոր կատվի և շան լուսանկարներ պիտակավորվեն որպես «կատու» կամ «շուն», ալգորիթմները կարող են սովորել դրանք հուսալիորեն դասակարգել։ Բայց պատկերացրեք, որ փոխարենը յուրաքանչյուր կենդանու լուսանկարը պիտակավորեք նրա ծննդյան տարեթվով։ Քանի որ ծննդյան օրերը ըստ էության պատահական են, այս առաջադրանքը միշտ սխալներ կառաջացնի, անկախ նրանից, թե որքան զարգացած է ալգորիթմը։

Նույն սկզբունքը կիրառվում է նախնական վարժեցման ժամանակ։ Ուղղագրությունն ու փակագծերը հետևում են հետևողական օրինաչափություններին, ուստի սխալները այնտեղ անհետանում են մասշտաբի հետ։ Սակայն կամայական ցածր հաճախականության փաստերը, ինչպիսին է ընտանի կենդանու ծննդյան օրը, հնարավոր չէ կանխատեսել միայն օրինաչափություններից, ուստի դրանք հանգեցնում են հալյուցինացիաների։ Մեր վերլուծությունը բացատրում է, թե հաջորդ բառի կանխատեսումից ինչպիսի հալյուցինացիաներ կարող են առաջանալ։ Իդեալականորեն, նախապատրաստումից հետո հաջորդ փուլերը պետք է հեռացնեն դրանք, սակայն դա ամբողջությամբ հաջող չէ նախորդ բաժնում նկարագրված պատճառներով։ 

Եզրակացություններ

Հուսով ենք, որ մեր հոդվածի վիճակագրական տեսանկյունը պարզաբանում է հալյուցինացիաների բնույթը և հետ է մղում տարածված սխալ պատկերացումները։

  • Պնդում. Հալյուցինացիաները կվերացվեն ճշգրտությունը բարելավելով, քանի որ 100% ճշգրիտ մոդելը երբեք հալյուցինացիաներ չի ունենում:
    Բացահայտում.
    Ճշգրտությունը երբեք չի հասնի 100%-ի, քանի որ, անկախ մոդելի չափից, որոնման և դատողության հնարավորություններից, որոշ իրական աշխարհի հարցեր բնույթով անպատասխանելի են։ 
  • Պնդում. Հալյուցինացիաները անխուսափելի են:
    Բացահայտում.
    Դրանք այդպես չեն, քանի որ լեզվի մոդելները կարող են ձեռնպահ մնալ, երբ անորոշ են:
  • Պնդում. Հալյուցինացիաներից խուսափելու համար անհրաժեշտ է բանականության այնպիսի մակարդակ, որը հասանելի է բացառապես մեծ մոդելների միջոցով:
    Բացահայտում.
    Փոքր մոդելի համար կարող է ավելի հեշտ լինել իմանալ իր սահմանները: Օրինակ, երբ Ձեզ խնդրում են պատասխանել մաորի լեզվով հարցի, փոքր մոդելը, որը մաորի չգիտի, կարող է պարզապես ասել «չգիտեմ», մինչդեռ այն մոդելը, որը որոշ չափով գիտի մաորի, պետք է որոշի իր վստահության մակարդակը։ Ինչպես քննարկվում է հոդվածում, «կարգավորված» լինելը պահանջում է շատ ավելի քիչ հաշվարկներ, քան ճշգրիտ լինելը։
  • Պնդում. Հալյուցինացիաները ժամանակակից լեզվի մոդելների խորհրդավոր խափանում են։
    Բացահայտում.
    Մենք հասկանում ենք այն վիճակագրական մեխանիզմները, որոնց միջոցով հալյուցինացիաները առաջանում են և գնահատվում են գնահատումներում։
  • Պնդում. Հալյուցինացիաները չափելու համար մեզ պարզապես անհրաժեշտ է լավ հալյուցինացիոն գնահատում։
    Բացահայտում.
    Հալյուցինացիոն գնահատումները հրապարակված են։ Այնուամենայնիվ, հալյուցինացիաների լավ գնահատումը քիչ ազդեցություն ունի հարյուրավոր ավանդական ճշգրտության վրա հիմնված գնահատումների վրա, որոնք պատժում են խոնարհությունը և խրախուսում կռահելը։ Փոխարենը, բոլոր հիմնական գնահատման չափանիշները պետք է վերանայվեն՝ անորոշության արտահայտությունները խրախուսելու նպատակով։

Մեր վերջին մոդելներն ունեն ավելի ցածր հալյուցինացիոն ցուցանիշներ, և մենք շարունակում ենք ջանասիրաբար աշխատել՝ մեր լեզվի մոդելների արտածում վստահ սխալների ցուցանիշները ավելի նվազեցնելու համար։

Հայտարարության մասնակիցներ

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke