Kodėl kalbos modeliai prasimano informaciją

„OpenAI“ labai stengiasi paversti DI sistemas naudingesnėmis ir patikimesnėmis. Nors kalbos modelių galimybės didėja, vieną iššūkį vis dar sunku visiškai išspręsti – tai pramanai. Turime omenyje atvejus, kai modelis užtikrintai sugeneruoja neteisingą atsakymą. Mūsų naujame moksliniame straipsnyje(atsidaro naujame lange) teigiama, kad kalbos modeliai prasimano informaciją, nes standartinės mokymo ir vertinimo procedūros skatina spėliojimą, o ne neapibrėžtumo pripažinimą.
„ChatGPT“ taip pat prasimano. GPT‑5 prasimano žymiai rečiau, ypač samprotaudamas, tačiau pramanų vis dar pasitaiko. Pramanai išlieka esminiu iššūkiu visiems dideliems kalbos modeliams, tačiau sunkiai dirbame, kad juos dar labiau sumažintume.
Pramanai – tai tikėtini, bet klaidingi teiginiai, kuriuos generuoja kalbos modeliai. Jie gali pasireikšti netikėtais būdais, net ir atsakant į atrodytų paprastus klausimus. Pavyzdžiui, kai plačiai naudojamo pokalbių roboto paklausėme Adam Tauman Kalai (šio straipsnio autoriaus) daktaro disertacijos pavadinimo, jis užtikrintai pateikė tris skirtingus atsakymus – ir nė vienas iš jų nebuvo teisingas. Kai paklausėme jo gimimo datos, jis nurodė tris skirtingas datas, kurios taip pat visos buvo klaidingos.
Pramanai išlieka iš dalies dėl to, kad dabartiniai vertinimo metodai nustato netinkamas paskatas. Nors patys vertinimai tiesiogiai nesukelia pramanų, dauguma jų matuoja modelio našumą taip, kad skatinamas spėliojimas, o ne sąžiningas neapibrėžtumo pripažinimas.
Įsivaizduokite, kad sprendžiate testą su pasirenkamais atsakymais. Jei nežinote atsakymo, bet bandote spėti, jums gali pasisekti ir atsakysite teisingai. Palikę tuščią vietą, garantuotai gausite nulį. Taip pat ir modeliai: kai jie vertinami tik pagal tikslumą – procentinę dalį klausimų, į kuriuos atsako visiškai teisingai, – jie skatinami spėti, o ne sakyti „nežinau“.
Kitas pavyzdys: tarkime, kalbos modelio klausiama kieno nors gimtadienio, bet jis nežino. Jei jis spėja „rugsėjo 10 d.“, turi 1 iš 365 tikimybę atsakyti teisingai. Pasakius „nežinau“, garantuojama nulis taškų. Per tūkstančius testo klausimų spėliojantis modelis rezultatų lentelėse atrodo geriau nei atsargus modelis, pripažįstantis neapibrėžtumą.
Klausimams, turintiems vieną „teisingą atsakymą“, galima išskirti tris atsakymų kategorijas: tikslūs atsakymai, klaidos ir susilaikymas, kai modelis nebando spėti. Susilaikymas yra kuklumo – vienos iš „OpenAI“ pagrindinių vertybių – dalis. Daugumoje rezultatų lentelių modeliai reitinguojami pagal tikslumą, tačiau klaidos yra blogiau nei susilaikymas. Mūsų modelio specifikacijoje(atsidaro naujame lange) nurodoma, kad geriau nurodyti neapibrėžtumą arba paprašyti paaiškinimo, nei pateikti užtikrintą informaciją, kuri gali būti neteisinga.
Kaip konkretų pavyzdį panagrinėkite „SimpleQA“ vertinimą iš GPT5 sistemos kortelės(atsidaro naujame lange).
Metrinė sistema | gpt-5-thinking-mini | OpenAI o4-mini |
Susilaikymo rodiklis | 52 % | 1 % |
Tikslumo rodiklis (teisingas atsakymas, kuo didesnis, tuo geriau) | 22 % | 24 % |
Klaidų rodiklis | 26 % | 75 % |
Viso | 100 % | 100 % |
Tikslumo atžvilgiu senesnis „OpenAI“ „o4-mini“ modelis veikia šiek tiek geriau. Tačiau jo klaidų lygis (t. y. pramanų dažnis) yra žymiai didesnis. Strateginis spėliojimas esant neapibrėžtumui padidina tikslumą, bet taip pat paskatina daugiau klaidų ir pramanų.
Vidurkinant rezultatus iš daugybės vertinimų, daugumoje lyginamųjų standartų išskiriamas tikslumo rodiklis, tačiau tai lemia klaidingą dichotomiją tarp teisingo ir neteisingo. Atliekant supaprastintus vertinimus, tokius kaip „SimpleQA“, kai kurie modeliai pasiekia beveik šimtaprocentinį tikslumą ir taip pašalina pramanus. Tačiau atliekant sudėtingesnius vertinimus ir realiai naudojant, tikslumas nesiekia 100 proc., nes yra klausimų, į kuriuos atsakymo neįmanoma nustatyti dėl įvairių priežasčių, pavyzdžiui, neprieinamos informacijos, ribotų mažų modelių galvojimo gebėjimų arba dviprasmybių, kurias reikia paaiškinti.
Vis dėlto lyderių sąrašuose ir modelių kortelėse dominuoja tik tikslumu grindžiamos rezultatų lentelės, motyvuojančios programuotojus kurti modelius, kurie spėlioja, o ne susilaiko. Tai viena iš priežasčių, kodėl net ir tobulėjant modeliams jie vis dar gali prasimanyti informaciją, užtikrintai pateikdami neteisingus atsakymus, užuot pripažinę neapibrėžtumą.
Yra paprastas sprendimas. Užtikrintas klaidas bauskite griežčiau nei neapibrėžtumą ir skirkite dalinį kreditą už tinkamą neapibrėžtumo išraišką. Ši idėja nėra nauja. Kai kuriuose standartizuotuose testuose jau seniai naudojamos neigiamo vertinimo versijos už neteisingus atsakymus arba dalinis kreditas už neatsakytus klausimus, siekiant atgrasyti nuo aklų spėjimų. Kelios tyrimų grupės taip pat nagrinėjo vertinimus, kuriuose atsižvelgiama į neapibrėžtumą ir kalibravimą.
Mūsų mintis kitokia. Nepakanka šalia pridėti keletą naujų testų, kuriuose atsižvelgiama į neapibrėžtumą. Plačiai naudojami, tikslumu pagrįsti vertinimai turi būti atnaujinti taip, kad jų balų sistema atgrasytų nuo spėliojimo. Jei pagrindinėse rezultatų lentelėse ir toliau bus atlyginama už sėkmingus spėjimus, modeliai ir toliau mokysis spėlioti. Pataisius rezultatų lenteles, galima išplėsti pramanų mažinimo metodų, tiek naujai sukurtų, tiek žinomų iš ankstesnių tyrimų, taikymą.
Kalbėjome apie tai, kodėl pramanų taip sunku atsikratyti, bet iš kur apskritai atsiranda šie labai specifiniai faktiniai netikslumai? Juk dideli iš anksto apmokyti modeliai retai daro kitokio pobūdžio klaidas, pavyzdžiui, rašybos klaidas ar neatitinkančius skliaustus. Skirtumas susijęs su tuo, kokie dėsningumai egzistuoja duomenyse.
Kalbos modeliai pirmiausia mokosi per išankstinį mokymą – procesą, per kurį numatomas kitas žodis didžiuliuose teksto kiekiuose. Skirtingai nei tradicinėse mašininio mokymosi problemose, prie kiekvieno teiginio nėra etikečių „tiesa / melas“. Modelis mato tik teigiamus sklandžios kalbos pavyzdžius ir turi apytiksliai nustatyti bendrą pasiskirstymą.
Dvigubai sunkiau atskirti pagrįstus teiginius nuo nepagrįstų, kai neturite jokių pavyzdžių, pažymėtų kaip nepagrįsti. Tačiau net ir su etiketėmis kai kurios klaidos yra neišvengiamos. Kad suprastumėte kodėl, pasitelkime paprastesnę analogiją. Vaizdų atpažinimo srityje, jei milijonai kačių ir šunų nuotraukų pažymėtos kaip „katė“ arba „šuo“, algoritmai gali išmokti jas patikimai klasifikuoti. Tačiau įsivaizduokite, kad kiekviena augintinio nuotrauka žymima pagal augintinio gimtadienį. Kadangi gimtadieniai iš esmės yra atsitiktiniai, ši užduotis visada sukeltų klaidų, kad ir koks pažangus būtų algoritmas.
Tas pats principas galioja ir išankstiniam mokymui. Rašyba ir skliaustai atitinka nuoseklius dėsningumus, todėl didinant mastą klaidos ten išnyksta. Tačiau savavališki, retai pasitaikantys faktai, kaip augintinio gimtadienis, negali būti numatyti vien pagal dėsningumus, todėl sukelia pramanus. Mūsų analizė paaiškina, kokie pramanai turėtų kilti dėl kito žodžio numatymo. Idealiu atveju tolesni etapai po išankstinio mokymo turėtų jas pašalinti, tačiau tai ne visiškai pavyksta dėl ankstesniame skyriuje aprašytų priežasčių.
Tikimės, kad statistinis požiūris mūsų straipsnyje paaiškina pramanų pobūdį ir paneigia paplitusias klaidingas nuomones.
- Teiginys: pramanai bus pašalinti pagerinus tikslumą, nes šimtu procentų tikslus modelis niekada neprasimano.
Išvada: tikslumas niekada nebus 100 proc., nes, nepriklausomai nuo modelio dydžio, paieškos ir samprotavimo galimybių, kai kurie realaus pasaulio klausimai iš esmės yra neatsakomi. - Teiginys: pramanai yra neišvengiami.
Išvada: jie nėra neišvengiami, nes kalbos modeliai gali susilaikyti esant neapibrėžtumui. - Teiginys: norint išvengti pramanų, reikalingas intelekto lygis, kurį galima pasiekti tik naudojant didesnius modelius.
Išvada: mažam modeliui gali būti lengviau žinoti savo ribas. Pavyzdžiui, paprašytas atsakyti į klausimą maorių kalba, mažas modelis, nemokantis šios kalbos, gali tiesiog pasakyti „nežinau“, o modelis, šiek tiek mokantis maorių kalbos, turi nustatyti savo pasitikėjimo lygį. Kaip aptarta straipsnyje, buvimas „sukalibruotam“ reikalauja daug mažiau skaičiavimų nei buvimas tiksliam. - Teiginys: pramanai yra paslaptingas šiuolaikinių kalbos modelių trikdis.
Išvada: suprantame statistinius mechanizmus, dėl kurių atsiranda pramanai ir už juos atlyginama vertinimuose. - Teiginys: norint išmatuoti pramanus, mums tiesiog reikia gero pramanų vertinimo. Išvada: pramanų vertinimai buvo paskelbti. Tačiau geras pramanų vertinimas turi mažai įtakos prieš šimtus tradicinių, tikslumu pagrįstų vertinimų, kurie baudžia už kuklumą ir skatina spėliojimą. Vietoj to, visi pagrindiniai vertinimo rodikliai turi būti perdaryti taip, kad būtų atlyginama už neapibrėžtumo išraiškas.
Mūsų naujausių modelių pramanų rodikliai yra mažesni, ir mes toliau sunkiai dirbame, kad dar labiau sumažintume mūsų kalbos modelių daromų užtikrintų klaidų dažnį.
Pranešimo autoriai
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel ir Johannes Heidecke


