Bakit nagha-hallucinate ang mga modelo ng wika

Sa OpenAI, nagsusumikap kaming gawing mas kapaki-pakinabang at maaasahan ang mga system ng AI. Kahit mas nagiging mas mahusay ang mga modelo ng wika, isang hamon pa rin ang mahirap na lubusang malutas: ang mga halusinasyon. Ibig naming sabihin dito ay mga pagkakataon kung saan ang modelo ay may kumpiyansang bumubuo ng sagot na hindi totoo. Ayon sa aming bagong research paper(magbubukas sa bagong window), nagkakaroon ng mga pag-hallucinate ang mga modelo ng wika dahil mas binibigyang halaga ng karaniwang mga pamamaraan sa pagsasanay at pagsusuri ang paghula kaysa sa pag-amin sa kawalang katiyakan.
Ang ChatGPT ay nagha-hallucinate din. Ang GPT‑5 ay may mas kaunting mga halusinasyon lalo na kapag nangangatuwiran, ngunit nangyayari pa rin ang mga ito.- Ang mga halusinasyon ay nananatiling isang pangunahing hamon para sa lahat ng malalaking modelo ng wika, ngunit nagsusumikap kaming bawasan pa ang mga ito.
Ang mga halusinasyon ay makatotohanan pero maling mga pahayag na nabuo ng mga modelo ng wika.u Puwede silang lumitaw sa mga nakakagulat na paraan, kahit para sa mga tila simpleng tanong. Halimbawa, nang tanungin namin ang malawakang ginagamit na chatbot para sa pamagat ng disertasyon ng PhD ni Adam Tauman Kalai (isang may-akda ng papel na ito), may kumpiyansa itong nagbigay ng tatlong magkakaibang sagot—wala sa mga ito ang tama. Nang tinanong namin ang kanyang kaarawan, nagbigay ito ng tatlong magkakaibang petsa, at lahat ay mali.
Bahagyang nagpapatuloy ang mga halusinasyon dahil ang mga kasalukuyang pamamaraan ng pagsusuri ay nagtatakda ng mga maling insentibo. Bagaman ang mga pagsusuri mismo ay hindi direktang nagdudulot ng mga halusinasyon, karamihan sa mga pagsusuri ay sumusukat sa pagganap ng modelo sa paraang naghihikayat sa paghula sa halip na katapatan tungkol sa kawalan ng katiyakan.
Isipin mo na lang na parang isang multiple-choice na pagsusulit. Kung hindi mo alam ang sagot pero maghula ka nang pabigla-bigla, baka swertehin ka at tama ang hula mo. Kung iiwan itong blangko, siguradong zero ang makukuha. Sa parehong paraan, kapag ang mga modelo ay minarkahan lang batay sa katumpakan, ang porsyento ng mga tanong na nasagot nila nang eksakto, hinihikayat silang manghula kaysa sabihing “Hindi ko alam.”
Bilang isa pang halimbawa, isipin na tinanong ang modelo ng wika tungkol sa kaarawan ng isang tao pero hindi nito alam. Kung huhulaan nito ang "Setyembre 10," may 1-sa-365 na tsansa itong tama. Kung sasabihing “hindi ko alam” tiyak na zero ang puntos. Sa libu-libong tanong sa pagsusulit, mas magmumukhang mataas ang score ng modelong nanghuhula kaysa sa modelong maingat na umaamin ng kawalan ng katiyakan.
Para sa mga tanong na may isang “tamang sagot” lang, puwedeng isaalang-alang ang tatlong kategorya ng mga sagot: tamang sagot, mali, at abstensiyon kung saan ang modelo ay hindi nanghuhula. Ang pag-iwas ay bahagi ng pagpapakumbaba, isa sa mga pangunahing prinsipyo ng OpenAI. Karamihan sa mga scoreboard ay inuuna at niraranggo ang mga modelo batay sa katumpakan, pero mas malala ang mga pagkakamali kaysa sa mga hindi pagsagot. Nakasaad sa aming Spec ng Modelo(magbubukas sa bagong window) na mas mabuti na ipahiwatig ang kawalan ng katiyakan o humingi ng paglilinaw kaysa magbigay ng kumpiyansang impormasyon na maaaring mali.
Para sa konkretong halimbawa, tingnan ang SimpleQA eval bilang halimbawa mula sa System Card ng GPT5(magbubukas sa bagong window).
Metriko | gpt-5-thinking-mini | OpenAI o4-mini |
Rate ng hindi pagsagot | 52% | 1% |
Antas ng katumpakan | 22% | 24% |
Rate ng error | 26% | 75% |
Kabuuan | 100% | 100% |
Sa usapin ng katumpakan, bahagyang mas mahusay ang pagganap ng mas lumang modelo ng OpenAI o4-mini. Gayunpaman, ang antas ng pagkakamali nito (ibig sabihin, antas ng halusinasyon) ay higit na mas mataas. Ang estratehikong paghula kapag hindi sigurado ay nagpapabuti sa katumpakan pero nagdadagdag ng mga pagkakamali at hulisinasyon.
Kapag nag-a-average ng mga resulta sa dose-dosenang pagsusuri, karamihan sa mga benchmark pinipili ang sukatan ng katumpakan, pero nagdudulot ito ng maling dichotomy sa pagitan ng tama at mali. Sa mga simpleng pagsusuri tulad ng SimpleQA, nakakamit ng ang ilang mga modelo ang halos 100% na katumpakan at sa gayon nag-aalis ng mga halusinasyon. Gayunpaman, sa mas mapaghamong mga pagsusuri at sa aktwal na paggamit, ang katumpakan ay limitado sa ibaba ng 100% dahil may ilang mga tanong na ang sagot ay hindi matutukoy dahil sa iba't ibang dahilan tulad ng hindi magagamit na impormasyon, limitadong kakayahan sa pag-iisip ng maliliit na modelo, o mga kalabuan na kailangang linawin.
Gayunpaman, nangingibabaw ang mga scoreboard na puro katumpakan lang ang nangingibabaw sa mga leaderboard at model card, na nag-uudyok sa mga developer na bumuo ng mga modelong nanghuhula sa halip na nagpipigil. Iyon ang isang dahilan kung bakit, kahit na nagiging mas advanced ang mga modelo, puwede pa rin silang mag-hallucinate, kumpiyansang nagbibigay ng maling sagot sa halip na kilalanin ang kawalan ng katiyakan.
Mayroong direktang solusyon. Parusahan nang higit ang mga maling sagot na may kumpiyansa kaysa sa pagkakamaling nagpapakita ng kawalan ng katiyakan, at bigyan ng bahagi ng puntos ang tamang pagpapahayag ng kawalan ng katiyakan. Hindi na bago ang ideyang ito. Ang ilang mga pamantayang pagsusulit ay matagal nang gumagamit ng mga bersyon ng negatibong pagmamarka para sa maling sagot o bahagyang kredito para sa pag-iwan ng mga tanong na walang sagot para maiwasan ang bulag na paghula. Sinuri rin ng ilang grupo ng pananaliksik ang mga pagsusuri na tumutukoy sa kawalan ng katiyakan at kalibrasyon.
Magkaiba ang punto natin. Hindi sapat ang magdagdag lamang ng ilang bagong pagsubok na may kamalayan sa kawalan ng katiyakan. Kailangang i-update ang malawakang ginagamit na mga pagsusuri batay sa katumpakan para hindi na manghikayat ng paghuhula ang kanilang pagmamarka. Kung patuloy na binibigyan ng puntos ang mga swerte o mapalad na hula sa pangunahing scoreboard, patuloy rin na matututo ang mga modelo na manghula. Ang pagpapabuti ng mga scoreboard ay maaaring magpahusay sa pagpapalaganap ng mga teknik sa pagbawas ng halusinasyon, sa mga bagong binuo man o mula sa nakaraang pananaliksik.
Napag-usapan na natin kung bakit napakahirap alisin ang mga halusinasyon, pero saan nga ba talaga nagmumula ang mga ang mga napaka-tiyak na mga factual inaccuracy na ito? Pagkatapos ng lahat, ang mga malalaking pretrained na modelo ay bihirang magpakita ng iba pang uri ng mga pagkakamali tulad ng mga pagkakamali sa pagbaybay at hindi magkatugma na mga panaklong. Ang pagkakaiba ay may kinalaman sa kung anong mga uri ng pattern ang nasa data.
Natututo muna ang mga modelo ng wika sa pamamagitan ng pretraining, isang proseso ng paghula sa susunod na salita sa napakaraming text. Hindi tulad ng mga tradisyunal na problema sa pag-aaral ng makina, walang mga label na "tama/mali" na nakakabit sa bawat pahayag. Nakakakita lang ang modelo ng mga positibong halimbawa ng maayos na paggamit ng wika at kinakailangang tantiyahin nito ang pangkalahatang distribusyon.
Lalong mahirap tukuyin kung alin ang wastong pahayag at alin ang mali kapag wala kang anumang halimbawa na may label na mali. Pero kahit na may mga label, may ilang pagkakamali na hindi maiiwasan. Para makita kung bakit, isipin ang mas simpleng analohiya. Sa pagkilala ng larawan, kung may label na "pusa" o "aso" ang milyun-milyong larawan ng pusa at aso, matututuhan ng mga algorithm na pag-uri-uriin ang mga ito nang maaasahan. Pero isipin mo na lang kung lalagyan ng label ang bawat litrato ng alagang hayop ayon sa kaarawan nito. Dahil ang mga kaarawan ay talagang random, palaging magkakaroon ng pagkakamali sa gawaing ito, gaano man ka-advance ang algorithm.
Nalalapat din ang parehong prinsipyo sa pretraining. Dahil ang baybay at paggamit ng panaklong ay sumusunod sa konsistenteng pattern, ang mga pagkakamali sa mga ito ay unti-unting nawawala habang lumalaki ang saklaw. Pero ang mga arbitraryong impormasyon na bihirang lumitaw, gaya ng kaarawan ng alagang hayop, ay hindi mahuhulaan batay lang sa mga pattern, kaya nagreresulta ito sa mga halusinasyon. Ipinapaliwanag ng aming pagsusuri kung aling mga uri ng halusinasyon ang dapat lumitaw mula sa hula sa susunod na salita. Sa ideal na sitwasyon, dapat na alisin ang mga ito sa mga susunod na yugto pagkatapos ng pretraining, pero hindi ito ganap na nagiging matagumpay dahil sa mga dahilang ipinaliwanag sa nakaraang seksyon.
Inaasahan naming malinawan ng estadistikal na pananaw sa aming papel ang kalikasan ng mga halusinasyon at mapawi ang mga karaniwang maling pagkaunawa:
- Pag-angkin: Ang mga halusinasyon ay maaalis sa pamamagitan ng pagpapabuti ng katumpakan dahil ang 100% tumpak na modelo ay hindi kailanman nagkakamali.
Natuklasan: Ang katumpakan ay hindi kailanman aabot sa 100% dahil, anuman ang laki ng modelo, mga kakayahan sa paghahanap at pangangatwiran, ang ilang mga katanungan sa totoong mundo ay likas na hindi masasagot. - Pag-angkin: Hindi maiiwasan ang mga hulisinasyon.
Paghahanap: Hindi, dahil puwedeng umiwas ang mga modelo ng wika kapag hindi sigurado. - Pag-angkin: Ang pag-iwas sa mga halusinasyon ay nangangailangan ng antas ng katalinuhan na eksklusibong makakamit sa mas malalaking modelo.
Natuklasan: Maaaring mas madali para sa isang maliit na modelo na malaman ang mga limitasyon nito. Halimbawa, kapag tinanong na sagutin ang isang tanong sa Māori, maaaring simpleng sabihin ng maliit na modelo na hindi marunong ng Māori na “Hindi ko alam”, samantalang kailangang tukuyin ng modelong may kaalaman sa Māori ang antas ng kumpiyansa nito. Tulad ng tinalakay sa papel, ang pagiging "naka-calibrate" ay nangangailangan ng mas kaunting pagkalkula kaysa sa pagiging tumpak. - Pag-angkin: Ang mga halusinasyon ay isang mahiwagang glitch sa mga modernong modelo ng wika.
Natuklasan: Naiintindihan namin ang mga estadistikal na mekanismong nagdudulot ng halusinasyon at kung paano ito nabibigyan ng gantimpala sa mga pagsusuri. - Pag-angkin: Para masukat ang mga halusinasyon, kailangan lang natin ng mahusay na pagsusuri sa halusinasyon.
Natuklasan: Nai-publish na ang mga pagsusuri sa halusinasyon. Gayunpaman, ang mahusay na pagsusuri sa halusinasyon ay may kaunting epekto laban sa daan-daang tradisyonal na pagsusuri batay sa katumpakan na nagpaparusa sa kapakumbabaan at nagbibigay-gantimpala sa paghula. Sa halip, kailangang baguhin ang lahat ng pangunahing sukatan ng pagsusuri para gantimpalaan ang mga pagpapahayag ng kawalan ng katiyakan.
Mas mababa na ang antas ng halusinasyon sa aming pinakabagong mga modelo, at patuloy kaming nagsusumikap para lalo pang mabawasan ang mga maling sagot na may mataas na kumpiyansa na ibinibigay ng aming mga modelo ng wika.
Mga contributor sa anunsyo
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


