Jinsi maungamo yanavyoweza kufanya miundo ya lugha kuwa wa uaminifu
Tunashiriki mbinu ya awali, ya uthibitisho wa dhana inayojifunze miundo kuripoti wakati inapovunja maagizo au kuchukua njia za mkato zisizotarajiwa.
Mifumo ya AI inazidi kuwa na uwezo zaidi, na tunataka kuyaelewa kwa kina kadiri iwezekanavyo—ikiwa ni pamoja na jinsi na kwa nini yanafikia jibu. Wakati mwingine muundo huchukua njia ya mkato au kuboresha kwa lengo lisilo sahihi, lakini matokeo yake ya mwisho bado yanaonekana kuwa sahihi. Ikiwa tunaweza kubaini wakati hilo linatokea, tunaweza kufuatilia vyema mifumo iliyowekwa, kuboresha mafunzo, na kuongeza imani katika matokeo.
Utafiti wa OpenAI na wengine umeonyesha kuwa miundo ya AI inaweza kuhalalisha, kufanya udanganyifu wa tuzo, au kuwa isiyo ya uaminifu. Kwa sasa, tunaona tabia mbaya zinazotia wasiwasi zaidi, kama vile kupanga njama(fungua katika dirisha jipya), tu katika majaribio ya mkazo na tathmini za kiadui. Lakini kadiri miundo inavyozidi kuwa na uwezo na kuwa ya kiwakala zaidi, hata aina nadra za kutokulingana zinakuwa na athari kubwa zaidi, zikihamasisha sisi kuwekeza katika mbinu zinazotusaidia kubaini, kuelewa na kupunguza hatari hizi.
Kazi hii inagundua mbinu moja kama hiyo: mafunzo ya miundo kukubali wazi wanapojihusisha na tabia isiyofaa—mbinu tunayoita confessions.
Ungamo ni matokeo ya pili, tofauti na jibu kuu la muundo kwa mtumiaji. Jibu kuu linahukumiwa katika vipengele vingi—usahihi, mtindo, msaada, ufuatiliaji, usalama, na zaidi, na ishara hizi nyingi hutumika kujifunze miundo kutoa majibu bora. Kinyume chake, ungamo linapimwa na kufundishwa kwa jambo moja tu: uaminifu. Kukopa ukurasa kutoka kwa muundo wa kitubio, hakuna kitu ambacho muundo unasema katika kitubio chake kinachoshikiliwa dhidi yake wakati wa mafunzo. Ikiwa muundo unakiri kwa uaminifu kufanya udukuzi wa mtihani, udanganyifu, au kiuka maagizo, kukiri huko kunaongeza tuzo lake badala ya kupunguza. Lengo ni kuhimiza muundo kuripoti kwa uaminifu kile ilichofanya kwa kweli.
Katika majaribio yetu, tuligundua kuwa mbinu ya maungamo inaboresha kwa kiasi kikubwa mwonekano wa tabia mbaya ya muundo. Kwa wastani katika tathmini zetu zilizoundwa ili kusababisha tabia mbaya, uwezekano wa "hasi za uwongo" (yaani, muundo kutotii maagizo na kisha kutokiri) ni asilimia 4.4 pekee.
Usahihi wa muundo wetu wa "uthibitisho wa dhana" kwenye idadi ya seti za data za upinzani. Matokeo yameainishwa kama kufuata na kutokiri (hasi ya kweli), kufuata na kukiri (chanya ya uongo), kutokufuata na kutokiri (hasi ya uongo), na kutokufuata na kukiri (chanya ya kweli).

Kwa kuzingatia dokezo la mtumiaji, matokeo manne yanayowezekana yanategemea mchanganyiko wa (1) ikiwa jibu la muundo linatii (“zuri”) au halitii (“mbaya”), na (2) ikiwa ungamo linadai utiifu au kutokutii. Kwa ujumla tunaona kwamba maungamo yana uwezekano mkubwa wa kuwa sahihi, na zaidi ya hayo makosa ya maungamo kwa kawaida hayana madhara, na hutokana na mkanganyiko wa kweli badala ya kupotosha kwa makusudi.
Ungamo ni ripoti binafsi ya muundo kuhusu jinsi ulivyofuata kwa uaminifu na kwa barua maagizo au sera wazi na zisizo wazi ulizopewa, na kama kulikuwa na matukio yoyote ambapo ulifanya "njia za mkato" au "ulihack", ukiuka sera, au kwa njia yoyote haukufikia matarajio. Katika utafiti wetu, tunagundua kuwa miundo inaweza kufundishwa kuwa wazi katika kuripoti mapungufu yao binafsi. Tulifundisha toleo la GPT‑5 Thinking kuzalisha maungamo, na tukalitathmini kwenye seti kadhaa za data za majaribio ya mkazo nje ya usambazaji zilizoundwa ili kuibua tabia kama vile kupanga njama, udukuzi, kiuka maagizo, na maono ya uongo. Tuligundua kwamba hata wakati muundo unajihusisha na tabia hizi zisizohitajika, kuna uwezekano mkubwa wa kukiri kuhusu hizo. Mchoro hapo juu unaonyesha kuwa mbinu ya kukiri inafaa kwa upana katika seti mbalimbali za data na shughuli.
Baada ya mawasiliano yoyote kati ya mtumiaji na muundo kumalizika kwa jibu la muundo, ungamo linaweza kuombwa kwa kutuma ujumbe wa "mfumo" unaoagiza muundo kutoa ripoti ya ungamo. Ripoti inahusu jibu la mwisho la muundo, na inajumuisha (1) orodha ya maagizo yote ya wazi na ya siri, vikwazo, na malengo ambayo jibu hili lilipaswa kutimiza, (2) uchambuzi wa kweli na wa haki ikiwa jibu lilitimiza kila moja ya malengo haya, na (3) orodha ya mashaka yoyote, utata, au "maamuzi magumu" ambayo muundo ulikutana nayo katika kutoa jibu. Wakati wa mafunzo, ungamo linatathminiwa na muundo wa zawadi tofauti ambao hupima tu ungamo kwa ukamilifu wa malengo, usahihi wa uchambuzi wa ufuatiliaji, na upana wa kutokuwa na uhakika. Zawadi hizi zinatumika pekee kwa matokeo ya kukiri na kamwe haziathiri tuzo kwa jibu kuu. Hii inahakikisha sifa, iliyojadiliwa hapo juu, kwamba hakuna kitu ambacho muundo unasema katika ungamo linaweza kuathiri (au kusaidia) malipo yake kwa jibu lake kuu.
Nadharia inayohusu maungamo ni rahisi. Aina nyingi za tabia zisizohitajika za muundo hujitokeza kwa sababu tunauliza muundo kuboresha kwa malengo kadhaa kwa wakati mmoja. Wakati wa mafunzo ya uimarishaji, muundo huona dokeza, hutoa jibu, na hupata tuzo. Kwa muda, inajifunza kutoa aina za majibu yanayopata alama nzuri. Changamoto ni kwamba ishara ya tuzo inapaswa kuchanganya mambo mengi tofauti kwa wakati mmoja: jinsi jibu lilivyo sahihi, ikiwa ni la msaada, ikiwa linafuata vipimo vya bidhaa na sera, ikiwa linakidhi vikwazo vya usalama, na ikiwa inalingana na kile ambacho watumiaji wanapendelea. Wakati ishara hizi zinaposhirikiana, zinaweza kwa bahati mbaya kusukuma muundo kuelekea tabia ambazo hatutaki.
Kwa mfano, kazi yetu juu ya hallucinations ilionyesha kuwa baadhi ya seti za data zinathawabisha kubahatisha kwa ujasiri zaidi kuliko kukiri kwa uaminifu kutokuwa na uhakika. Utafiti wetu kuhusu tabia ya kujipendekeza ulionyesha kuwa miundo inaweza kuwa yenye kukubalika kupita kiasi wakati ishara ya upendeleo ni kali sana. Na kazi(fungua katika dirisha jipya) kutoka kwa vikundi vingine zimeonyesha kwamba miundo inaweza "kudanganya tuzo"—kupata mianya katika mpangilio wa mafunzo inayowaruhusu kupata alama ya juu bila kweli kufanya kile tulichokusudia. Katika baadhi ya matukio, njia hizi za mkato zinaweza kuenea(fungua katika dirisha jipya) hadi tabia mbaya zaidi katika utekelezaji.
Maungamo huepuka suala hili kwa kutenganisha malengo kikamilifu. Jibu kuu linaendelea kuboresha kwa sababu zote za kawaida. Ungamo limejengwa juu ya moja tu: ukweli. Hakuna kitu ambacho muundo unasema katika ungamo kinachoshikiliwa dhidi yake, na ungamo hilo haliathiri tuzo kwa jibu kuu. Hii inamaanisha kwamba hata kama muundo unadanganya au unachukua njia za mkato katika matokeo yake ya awali, bado una motisha ya kukiri hilo katika maungamo. Hivi ndivyo tunavyoona katika vitendo: miundo iko tayari kukubali tabia mbaya katika ungamo, hata katika kesi ambapo wanaificha katika jibu kuu. Na wakati maungamo yanaposhindwa, mara nyingi ni kwa sababu muundo unachanganyikiwa kwa kweli—kwa sababu maagizo yalikuwa ya utata au kwa sababu haukutambua kuwa kosa lilifanyika—badala ya kuwa ulikuwa unajaribu kupotosha kwa makusudi. Muhimu, matokeo ya awali yanaonyesha kwamba maungamo yanabaki kuwa na ufanisi hata wakati jibu la awali linatolewa bila mnyororo wa mawazo kabisa, ikionyesha kwamba uaminifu wa maungamo hauitegemei usomaji wa hoja za ndani na unaweza kuenea katika miundo ya baadaye ya usanifu.
Mafunzo ya kukiri hufanya kazi hata bila lebo za ukweli za utiifu. Kwa "ukweli wa msingi," tunamaanisha lebo ya uhakika, iliyotolewa kutoka nje, inayoonyesha ikiwa muundo ulifuata maagizo au uliukiuka. Katika shughuli nyingi za ulimwengu halisi, lebo hizi hazipatikani—ikiwa tungejua kwa uhakika kwamba muundo ulikuwa umekiuka sheria, tungeweza kuadhibu ukiukaji huo moja kwa moja badala ya kutegemea kukiri. Badala yake, muundo unalipwa kwa kutoa maelezo yaliyo na muundo na yanayoungwa mkono na ushahidi kuhusu kile unachoamini ulifanya. Karatasi inaonyesha kwamba uaminifu huwa unajitokeza katika usanidi huu. Tuwaza hii ni kwa sababu kutoa akaunti ya ukweli inayoungwa mkono na ushahidi kwa ujumla ni rahisi zaidi kwa muundo kuliko kuunda hadithi ya uwongo inayoweza kumshawishi jaji. Hili ni dhana muhimu inayogunduliwa katika karatasi, ambayo pia inajadili kesi ambazo maungamo yanashindwa—matokeo hasi yasiyo sahihi na matokeo chanya yasiyo sahihi—na jinsi yanavyotokea.
Karatasi inatoa ushahidi wa awali kwamba maungamo yanafanya kazi, lakini hayapaswi kufasiriwa kama uthibitisho kamili. Ingawa tulitumia muundo wa frontier (GPT‑5 Thinking), majaribio yetu yalikuwa na kikomo kwa kiwango, yakitumia kiasi kidogo cha rasilimali za kompyuta na data. Tunafurahi kuhusu kupeleka kazi hii kwenye kiwango inayofuata na kuona kama uaminifu wa maungamo utaendelea kudumu tunapopanua mafunzo yake.
Muundo "mbinu za ujanja za kupata tuzo" katika jibu lake kuu ili kumhadaa mchambuzi kwa kuweka alama za idadi ya maneno inayodaiwa, lakini kisha unakiri hili katika maungamo.
Kama sehemu ya majaribio yetu, tulifundisha miundo kwa makusudi dhidi ya ishara ya tuzo inayoweza "kuingiliwa" iliyohesabiwa na muundo dhaifu. Mpangilio huu ulitumika kwa tuzo kuu na tuzo ya kukiri. Muundo ulijifunza kutumia ishara dhaifu ya tuzo: usahihi wake wa dhahiri (unapopimwa na muundo dhaifu) uliongezeka, wakati usahihi wake wa kweli (unapopimwa na mthamini mwenye nguvu) ulipungua.
Hata hivyo, ingawa kituo cha kukiri kilifundishwa kwa ishara dhaifu sawa, usahihi wake ulielekea upande tofauti. Muundo ulijifunza kwamba njia bora ya kuboresha tuzo ya kukiri ilikuwa tu kukubali wakati ulipohack tuzo kuu. Maungamo yalikuwa sahihi zaidi baada ya muda, hata tabia kuu ilipogeuka.
Katika kipindi cha mafunzo, wakati muundo unashindwa kutii, unajifunza katika baadhi ya matukio "kuhack" hakimu mkuu wa tuzo na hivyo usahihi wa hakimu mkuu unapungua. Kinyume chake, ingawa jaji wa zawadi ya kukiri ni rahisi kudanganywa, muundo unakuwa mkweli zaidi katika mafunzo yake ya kukiri, hatimaye kufikia karibu 100% ya kukiri wakati haukufuata.
Gazeti(fungua katika dirisha jipya) lina majaribio zaidi na matokeo. Tulilinganisha muundo uliofundishwa kwa njia ya kukiri na muundo wa udhibiti uliofundishwa kwa njia sawa lakini bila njia ya kukiri. Pia tulichunguza kesi ambapo maungamo yalishindwa. Karibu makosa yote yalitokea wakati muundo ulipokuwa kwa kweli umechanganyikiwa—wakati maagizo yalikuwa yasiyoeleweka au wakati haukutambua kwamba ulikuwa umefanya kosa. (Tazama mfano wa hasi bandia hapo juu.)
Maungamo yana mapungufu yao. Hawazuii tabia mbaya; wanaibua. Thamani yao kuu ni kama chombo cha ufuatiliaji na uchunguzi, wakati wa mafunzo na katika usambazaji. Ungamo lina wajibu sawa na ufuatiliaji wa mlolongo wa mawazo: zote mbili hufanya michakato ya kufikiri iliyofichwa kuwa dhahiri zaidi. Maungamo yanazingatia kama muundo ulikiuka maagizo; mlolongo wa mawazo unaweza kuonyesha jinsi ulivyofikia hapo.
Kazi hii pia ni uthibitisho wa dhana. Hatukujifunze mifumo ya kukiri kwa kiwango kikubwa, na usahihi wa kukiri bado haujakamilika. Kuna kazi zaidi ya kufanywa ili kufanya mbinu kuwa ya kuaminika zaidi, thabiti zaidi, na inayoweza kutumika kwa upana zaidi katika familia za miundo na shughuli.
Kazi hii inafaa ndani ya mbinu yetu pana ya usalama wa AI. Maungamo ni mojawapo ya mbinu katika safu kubwa inayojumuisha upangaji wa kimakusudi, ufuatiliaji wa mlolongo wa mawazo, mpangilio wa maagizo, na zaidi. Hakuna mbinu moja inayotosha; lengo ni kuwa na mfumo wa tabaka wa ukaguzi na zana za uwazi zinazosaidiana na kuimarishana. Maungamo yanaweza kusaidia katika kugundua tabia zenye matatizo katika miundo wakati wa mafunzo na tathmini, pamoja na ufuatiliaji wakati wa utekelezaji. Maungamo peke yake hayawezi kutatua tatizo la kusawazisha vipengele vingi. Lakini kwa kuunda hali ya "seramu ya ukweli" ambapo miundo inazingatia tu uaminifu, inaongeza zana muhimu kwenye safu yetu kwa kuboresha uaminifu na usalama kwa ujumla.
Kadiri miundo inavyokuwa na uwezo zaidi na inavyotumika katika mazingira yenye hatari kubwa, tunahitaji zana bora za kuelewa inachofanya na kwa nini. Ungamo si suluhisho kamili, lakini yanaongeza safu yenye maana kwa mfumo wetu wa uwazi na uangalizi. Katika kazi za baadaye, tunapanga kupanua maungamo, pamoja na kuyachanganya na mbinu za uwazi na usalama zinazosaidiana, ikiwa ni pamoja na ufuatiliaji wa mlolongo wa mawazo na ulinganifu wa kimakusudi, ili kufanya maendeleo zaidi kuelekea kuhakikisha kuwa miundo yetu inatii kwa uaminifu maagizo na sera zote (kama vile Model Spec(fungua katika dirisha jipya)), na kuripoti kwa ukweli juu ya vitendo vyao.


