
Katika OpenAI, tunafanya kazi kwa bidii ili kufanya mifumo ya AI kuwa muhimu zaidi na ya kuaminika. Hata miundo ya lugha inapoendelea kuwa na uwezo zaidi, changamoto moja inabaki kuwa ngumu kusuluhisha kikamilifu: kubuni majibu. Kwa hili tunamaanisha hali ambapo muundo unazalisha jibu ambalo si la kweli. Karatasi yetu mpya ya utafiti(fungua katika dirisha jipya) inasema kwamba miundo ya lugha hudanganya kwa sababu taratibu za kawaida za mafunzo na tathmini huthawabisha kubahatisha badala ya kukiri kutokuwa na uhakika.
ChatGPT pia hubuni majibu. GPT‑5 imepunguza kiasi majibu ya kubuni hasa wakati wa uwazaji, lakini bado hutokea. Majibu ya kubuniwa bado ni changamoto ya kimsingi kwa miundo mikubwa ya lugha, lakini tunafanya kazi kwa bidii zaidi kuyapunguza.
Majibu ya kubuniwa ni taarifa zinazokubalika lakini za uwongo zinazozalishwa na miundo ya lugha. Hali hii inaweza kujitokeza kwa njia za kushangaza, hata kwa maswali yanayoonekana kuwa ya moja kwa moja. Kwa mfano, tulipouliza chatiboti inayotumiwa sana kwa kichwa cha tasnifu ya PhD ya Adam Tauman Kalai (mwandishi wa karatasi hii), ilitoa majibu matatu tofauti kwa ujasiri—hakuna hata moja lililo sahihi. Tulipouliza kuhusu siku yake ya kuzaliwa, ilitoa tarehe tatu tofauti, zote zikiwa si sahihi.
Majibu ya kubuni huendelea kwa kiasi fulani kwa sababu mbinu za sasa za tathmini huweka motisha zisizo sahihi. Ingawa tathmini zenyewe hazisababishi maono, tathmini nyingi hupima utendaji wa miundo kwa njia inayohimiza kubahatisha badala ya uaminifu kuhusu kutokuwa na uhakika.
Fikiria kama ni mtihani wa chaguo nyingi. Ikiwa hamjui jibu lakini mnakisia kwa kubahatisha, mnaweza kupata bahati na kuwa sahihi. Kuacha wazi kunahakikisha sifuri. Vivyo hivyo, wakati miundo inapimwa tu kwa usahihi, asilimia ya maswali wanayojibu kwa usahihi kabisa, wanahimizwa kukisia badala ya kusema "Sijui."
Kama mfano mwingine, tuseme muundo wa lugha umeulizwa siku ya kuzaliwa ya mtu lakini haujui. Ikikisia "Septemba 10," ina nafasi ya 1-katika-365 ya kuwa sahihi. Kusema “sijui” kunahakikisha pointi sifuri. Katika maelfu ya maswali ya mtihani, muundo wa kubahatisha huonekana bora zaidi kwenye ubao wa alama kuliko muundo makini unaokubali kutokuwa na uhakika.
Kwa maswali ambapo kuna "jibu sahihi" moja, mtu anaweza kuzingatia aina tatu za majibu: majibu sahihi, makosa na kujiepusha ambapo muundo haujaribu kubahatisha. Kujiepusha ni sehemu ya unyenyekevu, mojawapo ya maadili ya msingi ya OpenAI. Mabao mengi ya alama huweka kipaumbele na kuorodhesha miundo kulingana na usahihi, lakini makosa ni mabaya zaidi kuliko kutofanya chochote. Maelezo ya Muundo(fungua katika dirisha jipya) yanasema kuwa ni bora kuonyesha kutokuwa na uhakika au kuomba ufafanuzi kuliko kutoa maelezo ya uhakika ambayo yanaweza kuwa si sahihi.
Kwa mfano halisi, tafadhali zingatia SimpleQA eval kama mfano kutoka kwenye GPT5 System Card(fungua katika dirisha jipya).
Metriki | gpt-5-thinking-mini | OpenAI o4-mini |
Kiwango cha kujiepusha | 52% | 1% |
Kiwango cha usahihi | 22% | 24% |
Kiwango cha makosa | 26% | 75% |
Jumla | 100% | 100% |
Kwa upande wa usahihi, muundo wa zamani wa OpenAI o4-mini unafanya vizuri kwa kiwango cha chini. Hata hivyo, kiwango cha makosa yake (yaani, kiwango cha majibu ya kubuni) ni kikubwa zaidi. Kubahatisha kimkakati wakati huna uhakika huboresha usahihi lakini huongeza makosa na mawazo.
Wakati wa wastani wa matokeo katika tathmini nyingi, vigezo vingi huchagua kipimo cha usahihi, lakini hii inajumuisha mgawanyiko wa uwongo kati ya jibu sahihi na lisilo sahihi. Katika tathmini rahisi kama SimpleQA, baadhi ya miundo hufikia usahihi wa karibu 100% na hivyo kuondoa majibu ya kubuni. Hata hivyo, katika tathmini zenye changamoto zaidi na katika matumizi halisi, usahihi unazuiliwa chini ya 100% kwa sababu kuna baadhi ya maswali ambayo majibu yake hayawezi kuamuliwa kwa sababu mbalimbali kama vile taarifa zisizopatikana, uwezo wenye kikomo wa kufikiri wa miundo midogo, au utata unaohitaji ufafanuzi.
Hata hivyo, mbao za alama za usahihi pekee hutawala orodha za wanaoongoza na kadi za miundo na kuwahamasisha wasanidi programu kuunda miundo inayokisia badala ya kujizuia. Hiyo ni sababu moja kwa nini, hata miundo inapoendelea zaidi, bado inaweza kutoa majibu ya kubuni kwa ujasiri badala ya kukubali kutokuwa na uhakika.
Kuna marekebisho ya moja kwa moja. Adhibu makosa ya kujiamini zaidi kuliko unavyo adhibu kutokuwa na uhakika na toa sifa ya kiasi kwa maelezo yanayofaa ya kutokuwa na uhakika. Wazo hili si jipya. Baadhi ya mitihani iliyosanifiwa kwa muda mrefu imekuwa ikitumia aina za makato kwa majibu ambayo si sahihi au kutoa alama ya sehemu unapoacha maswali bila kujibu, ili kuzuia kubahatisha bila msingi. Vikundi kadhaa vya utafiti pia vimegundua tathmini zinazochukua akaunti ya kutokuwa na uhakika na urekebishaji.
Hoja yetu ni tofauti. Haitoshi kuongeza vipimo vichache vipya vya ufahamu wa kutokuwa na uhakika pembeni. Tathmini zinazotegemea usahihi zinazotumiwa sana zinahitaji kusasishwa ili alama zao zikatishe tamaa ya kubahatisha. Ikiwa mbao kuu za alama zitaendelea kutoa tuzo kwa kubahatisha kwa bahati, miundo itaendelea kujifunza kubahatisha. Kurekebisha mbao za alama kunaweza kupanua matumizi ya mbinu za kupunguza mawazo, zilizotengenezwa hivi karibuni na zile kutoka kwa utafiti wa awali.
Tumezungumza kuhusu kwa nini majibu ya kubuni ni magumu sana kuondoa, lakini dosari hizi za ukweli maalum zinatoka wapi mwanzoni? Baada ya yote, miundo mikubwa iliyofunzwa awali mara chache huonyesha aina nyingine za makosa kama vile makosa ya tahajia na mabano yasiyolingana. Tofauti inahusiana na aina za mifumo zilizopo kwenye data.
Miundo ya lugha hujifunza kwanza kupitia mafunzo ya awali, mchakato wa kubashiri neno linalofuata katika idadi kubwa ya maandishi. Tofauti na matatizo ya kawaida ya ujifunzaji wa mashine, hakuna lebo za “kweli/sikweli” zilizoambatanishwa na kila kauli. Muundo huona tu mifano chanya ya lugha fasaha na sharti ukadirie usambazaji wa jumla.
Ni vigumu maradufu kutofautisha taarifa halali na batili wakati huna mifano yoyote iliyoandikwa kuwa batili. Lakini lebo zikiwa, makosa fulani hayaepukiki. Ili kuona sababu, fikiria mlinganisho rahisi zaidi. Katika utambuzi wa picha, ikiwa mamilioni ya picha za paka na mbwa zimewekewa lebo kama "paka" au "mbwa," algoriti zinaweza kujifunza kuziainisha kwa uhakika. Lakini fikiria badala yake kuweka lebo kwenye kila picha ya mnyama kulingana na siku ya kuzaliwa ya mnyama huyo. Kwa kuwa siku za kuzaliwa kimsingi ni za nasibu, shughuli hii daima ingetoa makosa, bila kujali jinsi algoriti ilivyo ya hali ya juu.
Kanuni hiyo hiyo inatumika katika mafunzo ya awali. Tahajia na mabano hufuata mifumo thabiti, hivyo makosa katika maeneo haya hutoweka kadiri ukubwa unavyoongezeka. Lakini ukweli usio na mpangilio na unaojitokeza mara chache, kama tarehe ya kuzaliwa ya mnyama wa kufugwa, hauwezi kubashirika kwa kutumia mifumo pekee na hivyo husababisha majibu ya kubuni. Uchanganuzi wetu unaelezea ni aina gani za mawazo yanayopaswa kutokea kutokana na ubashiri wa neno inayofuata. Kwa kweli, hatua zaidi baada ya mafunzo ya awali zinapaswa kuyaondoa, lakini hii haijafanikiwa kikamilifu kwa sababu zilizoelezwa katika sehemu iliyopita.
Tunatumai kuwa lenzi ya takwimu katika karatasi yetu inafafanua asili ya maono na kusukuma nyuma maoni potofu ya kawaida:
- Dai: Majibu ya kubuni yataondolewa kwa kuboresha usahihi kwa sababu muundo wenye usahihi wa 100% hauwezi kamwe kuonyesha majibu ya kubuni.
Hitimisho: Usahihi hautawahi kufikia 100% kwa sababu, bila kujali ukubwa wa muundo, uwezo wa utafutaji na uwazaji, baadhi ya maswali ya ulimwengu halisi hayawezi kujibiwa. - Dai: Majinu ya kubuni hayaepukiki.
Uchunguzi: Sio kweli, kwa sababu miundo ya lugha inaweza kujizuia wakati haina uhakika. - Dai: Kuepuka majibu ya kubuni kunahitaji kiwango cha maarifa ambacho kinaweza kupatikana tu na miundo mikubwa.
Hitimisho: Inaweza kuwa rahisi kwa muundo mdogo kujua mipaka yake. Kwa mfano, unapoulizwa kujibu swali la Kimaori, muundo mdogo usiojua Kimaori unaweza kusema kwa urahisi “sijui” ilhali muundo unaojua baadhi ya Kimaori lazima uamue kiwango chake cha kujiamini. Kama ilivyojadiliwa katika makala haya, “Kujitathmini kwa usahihi” kunahitaji hesabu ndogo sana ikilinganishwa na kuwa sahihi. - Dai: Majibu ya kubuni ni hitilafu ya kushangaza katika miundo ya lugha ya kisasa.
Hitimisho: Tunaelewa mifumo ya takwimu ambayo majibu ya kubuni hutokea na hutuzwa katika tathmini. - Madai: Ili kupima maono ya uongo, tunahitaji tu tathmini nzuri ya maono ya uongo.
Hitimisho: Tathmini za maono ya uongo zimechapishwa. Hata hivyo, tathmini nzuri ya majibu ya kubuni ina athari ndogo dhidi ya mamia ya tathmini za jadi zinazozingatia usahihi ambazo huadhibu unyenyekevu na kupongeza kubahatisha. Badala yake, vipimo vyote vya msingi vya tathmini vinahitaji kufanyiwa kazi upya ili kuhamasisha vielelezo vya kutokuwa na uhakika.
Miundo yetu ya hivi punde ina viwango vya chini vya majibu ya kubuni na tunaendelea kufanya kazi kwa bidii ili kupunguza zaidi viwango vya makosa ya ujasiri vinavyotokana na utoaji wa miundo yetu ya lugha.
Wachangiaji wa matangazo
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel na Johannes Heidecke


