Ruka hadi kwenye maudhui kuu
OpenAI

29 Mei 2026

Usalama

Mwongozo wa pamoja wa tathmini za kuaminika za wahusika wengine

Mambo muhimu kwa tathmini huru zenye ufanisi za kinga na uwezo wa miundo ya frontier.

Inapakia…

Tathmini huru na za kuaminika za wahusika wengine zina jukumu muhimu katika kuimarisha mfumo wa ikolojia wa usalama. Tathmini hizi hufanywa kwenye miundo ya frontier ili kutoa ushahidi wa ziada kwa madai kuhusu uwezo muhimu na hatua za kupunguza hatari za usalama. Katika chapisho hili, tunashiriki mafunzo tuliyopata hadi sasa, na kupendekeza mbinu za kubuni tathmini zinazoweza kutathmini kwa uhalali miundo ya frontier ambazo tunatumaini zitasaidia kuunda viwango vinavyoibuka katika eneo hili.

Hapo awali, tathmini nyingi zilichukulia miundo kama chatbots: tathmini ilimpa muundo dokeza kana kwamba ni mtumiaji anauliza swali, muundo ukajibu, na mtathmini akahukumu matokeo. Miundo ya frontier ya leo inaweza kufanya mengi zaidi: inaweza kutumia zana, kufuatilia taarifa katika hatua nyingi, na kutenda ndani ya mtiririko mpana wa kazi. Hii ina maana kwamba utendaji hautegemei muundo pekee, bali pia mazingira ambamo kazi inafanyika, na usanidi unaorahisisha vitendo vyake. Usanidi huu wa kuzunguka, tunaouita “harness,” unaweza kubadilisha vipengele muhimu vya utendaji wa mfumo, ikiwemo jinsi unavyotumia zana, kufuatilia taarifa, au kupona kutokana na makosa.

Mchoro unaolinganisha mtiririko wa kazi wa dokeza-jibu na mtiririko wa kazi wa kazi ya kiwakala, ukionyesha jinsi mizunguko ya udhibiti, zana, muktadha, bajeti na kinga huwezesha utekelezaji wa kazi kwa kujitegemea.

Hili hubadilisha jinsi tathmini zinavyohitaji kufanywa, na kile wasomaji wanapaswa kutafuta katika ripoti za tathmini. Kwa mtazamo wetu, ripoti zenye manufaa zaidi hueleza wazi mambo mawili zaidi ya matokeo yenyewe: Kwanza, hubainisha dai ambalo usanidi wa tathmini uliundwa kupima, na pili, hushiriki ushahidi uliopo kwamba matokeo ya tathmini ni halali.

Madai yanayopimwa katika tathmini kwa kawaida huangukia katika mojawapo ya makundi matatu1:

  • Uibushaji wa uwezo: Je, muundo unaweza kwa namna inayoaminika kutoa uwezo unaotathminiwa? 
  • Utendaji wa kinga: Kinga zilizojaribiwa zina uimara kiasi gani dhidi ya tabia au shambulio linalotathminiwa?
  • Ulinganisho: Miundo tofauti inafanya vipi chini ya masharti yanayolingana?

Ripoti za tathmini pia zinahitaji kueleza jinsi watathmini walivyokagua athari zinazoweza kuathiri uhalali wa matokeo. Hizi ni pamoja na:

  • Reward hacking: Kutumia mianya katika kazi au mpimaji, ili mfumo upate sifa bila kuonyesha tabia ambayo tathmini imekusudiwa kupima.
  • Kukataa: Kukataa kwa njia zinazoficha tabia inayojaribiwa.
  • Uchafuzi: Kufanya vizuri kupita kiasi kwa sababu kazi za tathmini, majibu, au matoleo yanayofanana yalionekana katika data ya mafunzo au yaliweza kupatikana wakati wa tathmini, kama vile kupitia kuvinjari.
  • Matatizo yaliyovunjika: Kufanya vibaya kwa sababu kazi si halali. Sababu zinaweza kujumuisha uwekaji alama usio wa haki (kwa mfano, jibu sahihi linahitaji maelezo ya utekelezaji ambayo hayakutajwa) na mazingira yasiyoweza kutatuliwa (kwa mfano, faili muhimu kukosekana au zana zisizoaminika).
  • Sandbagging: Kupunguza utendaji kwa makusudi wanapoonyesha ufahamu kwamba wanatathminiwa.

Kuchagua harness sahihi kwa tathmini ni muhimu kwa matokeo bora

Tumegundua kwamba jukumu la harness ni muhimu hasa kwa mifumo inayotenda katika trajektoria ndefu zaidi. Miundo inapoweza kutumia zana, kudumisha hali, na kupona kutokana na makosa katika hatua nyingi, harness inaweza kubadilisha kiwango cha utendaji kinachoonekana, na hata kuamua kama uwezo unaotathminiwa utaonekana kabisa katika tathmini. Kwa mfano, harness inayohifadhi hali na kurudia vitendo vilivyoshindwa inaweza kuruhusu muundo kumaliza kazi ya hatua nyingi ambayo muundo huohuo haukamilishi kamwe katika harness rahisi zaidi.

Katika jedwali hapa chini, tunatenganisha aina tatu za madai ambayo watathmini wanaweza kutaka kutoa na harness ambayo tunaamini kila aina ya dai inahitaji.

Dai ambalo tathmini inajaribu kuunga mkono

Chaguo linalofaa la harness

Ushahidi wa kuripoti

Uwezo chini ya uibushaji thabiti: Mfumo A unaweza kukamilisha kazi za aina X wakati usanidi umeundwa ili kutoa utendaji wake wenye nguvu zaidi unaoaminika.

Tumia usanidi wa uibushaji wenye nguvu zaidi unaoaminika kwa mfumo, ikijumuisha harness, zana, miundo ya usaidizi, na bajeti ambayo mtumiaji mwenye uwezo angetumia kwa njia ya kuridhisha.

Usanidi wa harness na zana, mwongozo wa uibushaji, bajeti/jitihada zilizoruhusiwa, tokeni/gharama/muda, na kwa nini usanidi huo ni kiwakilishi kinachoaminika cha uwezo unaodaiwa. Ikiwa unalinganisha mifumo chini ya usanidi tofauti ulioboreshwa, iandike kama ulinganisho wa mfumo-kwa-mfumo au wa uibushaji thabiti.

Ulinganisho unaodhibitiwa: Mfumo A unafanya vizuri zaidi kuliko Mfumo B chini ya usanidi wa tathmini wa pamoja.

Weka kazi, uwekaji alama, na bajeti vikiwa thabiti. Tumia ama usanidi wa pamoja wa harness/zana au seti thabiti ya harness zilizosanifishwa zilizochaguliwa mapema ili kutoa uibushaji wa juu unaofaa kwa mifumo inayolinganishwa.

Seti ya kazi ya pamoja, zana, mbinu ya uwekaji alama, harness, bajeti, ufanisi wa tokeni/gharama, na vikwazo vinavyojulikana. Kwa tathmini za wakala wa uandishi wa msimbo, harness ya chanzo huria kama Codex CLI inaweza kutoa mzunguko thabiti wa wakala na kiolesura cha zana katika mifumo yote. Mbinu bora kwa uibushaji wa kiwango cha juu ingekuwa kuboresha harness maalum kwa kila kazi na mfumo, lakini kufanya hivyo kwa sasa si jambo la vitendo.

Uimara wa kinga chini ya shambulio lililoibuliwa: Kinga za Mfumo A zinatosha kwa tabia husika ya muundo au shambulio lililoibuliwa.

Tumia usanidi wa kupima kinga ulioundwa kuibua shambulio lenye nguvu zaidi linaloaminika chini ya muundo husika wa mpinzani.

Jinsi watathmini walivyobainisha tabia husika ya muundo, usanidi wa kinga uliopimwa, mkakati wa uibushaji, harness iliyotumika kuutekeleza, na bajeti au jitihada zilizoruhusiwa.

Madai ya uwezo yana nguvu sawa tu na uibushaji ulio nyuma yake: watathmini wanahitaji kuchagua harness inayolingana vyema na kazi na uwezo ambao tathmini inajaribu kupima. Harness iliyosanifishwa inaweza kufaa kwa kulinganisha mifumo chini ya masharti yanayofanana, lakini inaweza kupunguza makadirio ya uwezo inapokosa vipengele maalum vya harness vinavyosaidia muundo kutekeleza kazi. Kwa mfano, utendaji wa GPT‑5.5 kwenye masafa ya cyber ya OpenAI unaonyesha jinsi chaguo la harness linaweza kubadilisha kwa kiasi kikubwa uwezo unaopimwa kwenye kazi zinazohitaji matumizi marefu ya zana kwa hatua nyingi: muundo hufanya vizuri zaidi wakati harness inatumia compaction kuhifadhi muktadha unaohusiana na kazi kadri mwingiliano unavyokuwa mrefu. Hili linaonyesha kwamba kwa miundo fulani, harness inayokosa compaction ingeibua uwezo kwa kiwango cha chini.

Viwango vya juu vya mafanikio ni bora zaidi

Tathmini nyingine zilizochapishwa2 pia zinaonyesha chaguo za harness na bajeti zikibadilisha matokeo ya tathmini. Kuongeza uwezo wa kompyuta wakati wa jaribio kunaweza kubadilisha kwa kiasi kikubwa uwezo ambao tathmini inaibua, hasa katika maeneo ambamo mafanikio ni rahisi kuthibitisha, kama kazi nyingi za cyber. Katika tathmini ya masafa ya cyber ya UK AISI(fungua katika dirisha jipya), kuongeza bajeti kutoka tokeni milioni 10 hadi milioni 100 kuliboresha utendaji kwa hadi 59%, na utendaji ulikuwa bado unaongezeka katika bajeti ya juu zaidi iliyojaribiwa. Kueleza hili kwa undani hufanya tathmini iwe rahisi zaidi kufasiriwa: huwaonyesha wasomaji jinsi matokeo yanavyotegemea usanidi wa uibushaji uliopimwa. Utendaji unapokuwa bado unaboreka kwa bajeti ya ziada, alama inapaswa kuelezwa kama utendaji chini ya harness na bajeti hiyo, si kama kiwango cha juu cha uwezo kilichopimwa. Mara nyingi uwezo hutegemea rasilimali badala ya kuwa kiasi kisichobadilika kinachoweza kupimwa kwa usafi mara moja na kwa yote. Ambapo mafanikio yanaweza kupimwa katika majaribio yanayorudiwa, ripoti zinapaswa pia kuzingatia gharama inayotarajiwa kwa kila suluhisho lililofaulu, si kiwango cha mafanikio tu katika bajeti maalum ya tokeni. Hili linaweza kufanya uzito wa hatari kuwa rahisi kufasiriwa: kiwango cha chini cha mafanikio bado kinaweza kuwa na maana ya vitendo ikiwa gharama ya majaribio yanayorudiwa iko ndani ya muundo husika wa tishio. Kwa madai ya uwezo, uibushaji wa chini unaoweza kuepukika ni kushindwa kwa kipimo: ikiwa harness au bajeti inazuia mfumo kuonyesha tabia ambayo ungeweza kutoa vinginevyo, alama haipimi uwezo unaodaiwa. Ambapo watathmini wamesukuma uibushaji kadri inavyowezekana na utendaji bado unaboreka, ripoti zinapaswa kusema hivyo wazi na kubainisha kwamba matokeo ni makadirio ya kiwango cha chini tu.

Upimaji wa kinga unaweza kupunguza makadirio ya kama shambulio linaweza kufaulu, na jinsi linavyoweza kuwa baya, usipozingatia rasilimali zinazopatikana kwa washambuliaji, ikiwemo harness maalum. Katika tathmini ya cyber ya GPT‑5.5 ya UK AISI(fungua katika dirisha jipya), red teaming yao ya kitaalamu ilipata universal jailbreak iliyobua maudhui ya cyber yanayokiuka katika hoja ovu ambazo OpenAI ilitoa, ikiwemo katika mazingira ya kiwakala ya zamu nyingi. Walitumia Codex kuunda harness maalum ili kuimarisha utendaji wa shambulio wa muundo: iliweka muundo wa kupita kinga unaoweza kutumika tena ndani ya mwingiliano, ikahifadhi muundo huo katika zamu na vizuizi mbalimbali, na kuutumia katika hoja ovu za cyber ambazo OpenAI ilitoa. Upimaji wa kinga unapaswa kuendana na mpinzani. Ikiwa dai linahusu uimara dhidi ya matumizi mabaya ya kitaalamu, jaribio linapaswa kutathmini mkakati wenye nguvu zaidi unaoaminika wa shambulio la mwisho-hadi-mwisho chini ya bajeti iliyobainishwa, ikiwemo harness yoyote inayohitajika kuhifadhi na kutumia tena mkakati huo. Vinginevyo, matokeo yako katika hatari ya kutopimwa sawasawa: yanaweza kuunga mkono dai finyu zaidi kuhusu upinzani dhidi ya kudokeza rahisi, yanaweza kukosa kuona jinsi shambulio linavyokuwa baya na uwezekano wake wa kufaulu mara tu mbinu ya uibushaji inapowekwa kiutendaji, na pia yanaweza kuzidisha uwezekano au uzito wa tatizo yakipewa bajeti kubwa kupita kiasi.

Kuna wakati na mahali pa ulinganisho wa harness zilizosanifishwa, lakini watathmini wanapaswa kuwa wazi kuhusu kwa nini kutumia seti thabiti ya harness kunafaa na ni dai gani linaweza kuungwa mkono. tathmini ya muda wa upeo ya METR(fungua katika dirisha jipya) ni mfano wa usanidi mpana wa tathmini uliowekwa ipasavyo: umeundwa kutoa matokeo yanayolinganishwa katika mifumo inayotathminiwa. METR hufafanua matokeo ya pamoja, muda wa kawaida wa kazi ya binadamu ambapo wakala wa AI anatabiriwa kufaulu kwa kiwango fulani cha uaminifu. Inatumia mkusanyiko wa pamoja wa kazi, mbinu ya uwekaji alama, mbinu ya kufitisha, na seti ndogo ya miundo ya usaidizi inayoweza kutumika tena kama Triframe na ReAct(fungua katika dirisha jipya) ndani ya kila kundi la makadirio yanayoripotiwa pamoja. METR ilipopanua mkusanyiko wa kazi na kuhamisha miundombinu ya tathmini kutoka mfumo ulioitwa Vivaria hadi mwingine ulioitwa Inspect, iliripoti mabadiliko hayo (sasisho la Time Horizon 1.1(fungua katika dirisha jipya)) na kutathmini upya miundo chini ya usanidi mpya wa tathmini. Hiyo ndiyo thamani ya usanidi wa tathmini uliosanifishwa, ikiwemo seti thabiti ya harness: inaweza kuwafanya wasomaji waamini kwamba tofauti ya alama inaakisi kweli tofauti kati ya mifumo inayolinganishwa, badala ya mabadiliko katika usanidi wa kipimo.

Tunapendekeza kwamba ripoti za tathmini za wahusika wengine zieleze ni aina gani ya dai ambalo usanidi wao wa tathmini umekusudiwa kuunga mkono; zieleze kwa ukaribu gani kile kilichojaribiwa kinaakisi dai hilo pana; zieleze chaguo za harness zilizounda matokeo; zifafanue wakati chaguo hizo zinabadilika kati ya tathmini; na zijumuishe ushahidi unaounga mkono kuonyesha jinsi matokeo yalivyopatikana na jinsi yanavyojumlishwa kwa dai hilo.

Tathmini uhalali kwa kukagua hatari zinazojulikana zinazoweza kupotosha matokeo

Kadri miundo inavyokuwa na uwezo zaidi, alama za tathmini huwa rahisi zaidi kutafsiriwa vibaya. Ikilinganishwa na uwezo halisi, alama za tathmini zinaweza kupunguzwa kwa njia isiyo ya kweli ikiwa muundo unatambua kuwa unatathminiwa na kupunguza utendaji kimkakati. Zinaweza kuongezwa ikiwa muundo unatumia njia ya mkato katika kazi, dokeza, mpimaji, au harness. Pia zinaweza kupotoshwa na uchafuzi (ambapo muundo tayari unajua au unaweza kupata jibu bila kutatua kazi) au na matatizo “yaliyovunjika” ambayo yana utata, yamewekewa alama vibaya, hayawezi kutatuliwa, au yako wazi kwa njia za mkato zisizokusudiwa. Kwa hiyo ripoti za tathmini zinapaswa kuoanisha alama kuu na mjadala wa hatari hizi, ili wasomaji waweze kutathmini kama alama zinaakisi tabia iliyokusudiwa.

Harness, bajeti, zana, kanuni za uwekaji alama, vifuatiliaji, na taratibu za mapitio vyote huathiri kama wakala anatatua kazi iliyokusudiwa, anaikwepa, anaikariri, au anapata njia ya kuizunguka. Ripoti ya kuaminika hufanya ukaguzi huo uonekane: watathmini wanapaswa kupitia sampuli kwa tabia hizi kila mara tathmini inapofanywa.

Reward hacking

Reward hacking humaanisha kupata alama za juu za tathmini kwa njia ambazo haziakisi uwezo uliokusudiwa. Hapa, wasiwasi ni kwamba mfumo unapata sifa kwa kutumia kazi, mpimaji, dokeza, au harness vibaya badala ya kufanya kazi ambayo tathmini ilikusudiwa kupima. tathmini ya METR ya GPT 5.4(fungua katika dirisha jipya) inaonyesha kwa nini hili ni muhimu: licha ya muundo kufaulu kwenye kazi kwa kiwango ambacho kingesajiliwa kama muda wa upeo wa takriban saa 13 katika jaribio la kwanza, mapitio ya binadamu yalionyesha kwamba baadhi ya mafanikio hayo yalitokana na reward hacking, na kurekebisha matokeo ili kuhesabu tu matukio yasiyo na reward hacking kulishusha makadirio hadi karibu saa 6. Watathmini wanapaswa kutathmini hitaji la marekebisho kama hayo na, yanapohitajika, wayaripoti wazi: makadirio ya uwezo yana manufaa zaidi wakati wasomaji wanaweza kuona ni mafanikio gani ya dhahiri yaliondolewa, kwa nini yaliondolewa, na matokeo yanategemea kiasi gani uamuzi huo.

Chati inayoonyesha utendaji wa muundo wa AI kwa muda pamoja na mstari wa mwelekeo na vipindi vya kujiamini.

Kukataa

Miundo pia inaweza kufanya vibaya katika tathmini za uwezo kutokana na kinga. Muundo unaweza kuwa na utendaji wa chini wa tathmini kuliko uwezo wake kwa sababu ya kukataa kazi za tathmini badala ya kuzikamilisha. Kwa hiyo ripoti zinapaswa kueleza ikiwa kukataa kulikuwa sehemu ya matokeo ya tathmini na ikiwa ndiyo, ni sampuli ngapi ziliathiriwa kwa sababu yake.

Uchafuzi

Uchafuzi ni muhimu zaidi kwa benchmark za umma au zinazotumika tena. Ikiwa kazi, majibu, au matoleo yanayofanana yanaonekana katika data ya mafunzo au yanaweza kupatikana na wakala mwenye uwezo wa kuvinjari, utendaji unaweza kuakisi kukariri au urejeshaji badala ya utendaji wa muundo. Watathmini wanapaswa kupendelea kazi za faragha au zilizoundwa upya inapowezekana na kupima kama miundo inazalisha upya maelezo mahususi ya kazi kabla ya kutatua.

Matatizo yaliyovunjika

Matatizo yaliyovunjika yanajumuisha hali kama tatizo ambalo kwa bahati mbaya haliwezi kutatuliwa. Matatizo yaliyovunjika ni ya kawaida vya kutosha(fungua katika dirisha jipya) kiasi kwamba yanapaswa kuchukuliwa kama hatari ya kawaida ya uhalali. Yanajumuisha ukweli msingi usio sahihi, madokeza yenye utata, faili zinazokosekana, huduma zisizo thabiti, vigezo vya uwekaji alama visivyo vya haki, na mazingira yanayofichua njia za mkato kama faili za majibu zilizofichwa au historia ya uhifadhi iliyo na kiraka cha ukweli msingi.

Sandbagging

Sandbagging ya muundo au mfumo humaanisha kupunguza utendaji kimkakati wakati utendaji thabiti ungepingana na lengo fulani. tathmini ya GPT‑5.5 ya Apollo(fungua katika dirisha jipya) ilijaribu hili kwa kuunda muktadha ambapo muundo ulielewa kwamba alama za juu za tathmini zinaweza kusababisha unlearning au kuzuia uzinduzi. GPT‑5.5 bado ilijibu kwa usahihi, ikidokeza ushahidi mdogo wa kitabia wa kupunguza utendaji kimkakati3. Lakini mapitio yao ya rekodi za uwazaji yaliongeza muktadha muhimu: Apollo ilipata ishara za wastani au zaidi za ufahamu wa tathmini ya alignment katika 52% ya sampuli za hali ya sandbagging, ikilinganishwa na 0% katika counterfactuals. Ushahidi huo unafanya tafsiri ya matokeo kuwa changamano zaidi, lakini hatimaye huwapa wasomaji ishara zaidi: wasomaji wanaweza kuona matokeo ya kitabia yanayotia moyo na pia sababu ya kuwa waangalifu wasiyatafsiri kupita kiasi.

Jinsi tunavyounga mkono tathmini zenye nguvu zaidi

Madai thabiti yanahitaji harness sahihi ya kuibua tabia na pia ukaguzi wa uhalali kuonyesha kwamba matokeo ni sahihi. Mtazamo wetu kwamba harness na ukaguzi wa uhalali ni sehemu ya matokeo ya tathmini unaathiri jinsi tunavyounga mkono tathmini za wahusika wengine kwa vitendo: 

  • Tunashiriki mwongozo mahususi wa uibushaji wa kiwango cha juu na watathmini.
  • Tunawaomba watathmini wa uwezo kutumia Codex kama kiwango cha chini cha pamoja kwa miundo ya OpenAI: majaribio yanapaswa angalau kuendesha msingi kupitia kiolesura kilekile cha kiwakala ambacho watumiaji wana uwezekano wa kutegemea, badala ya kupitia kiolesura cha muundo kilichopunguzwa tu.
  • Pia tunafanya rekodi za uwazaji na vielelezo vingine vya kati vipatikane pale vinapohitajika kutathmini udanganyifu, sandbagging, au ufahamu wa tathmini. METR na Apollo wametumia ufikiaji huu katika tathmini za OpenAI tangu GPT‑5. 
  • Hatimaye, tunapa kipaumbele utafiti wa kuelewa kwa undani zaidi ni lini na jinsi chaguo za harness zinavyobadilisha matokeo kwa kiasi kikubwa, kuanzia usimamizi wa muktadha na ufikiaji wa zana hadi tabia ya kurudia, uwekaji alama, na bajeti za rasilimali.

Maana ya hili kwa viwango vya tathmini na mwelekeo wa utafiti wa baadaye 

Mapendekezo haya yamekusudiwa si tu kuboresha ripoti binafsi za tathmini, bali pia kuarifu viwango vinavyoibuka vya kitaifa (fungua katika dirisha jipya)na kimataifa (fungua katika dirisha jipya)kwa tathmini na uripoti wa AI ya frontier. Kuendelea mbele, viwango vya tathmini za wahusika wengine vinapaswa kuhitaji maelezo ya kutosha kwa watoa maamuzi kuelewa ni madai gani ambayo tathmini mahususi zinaunga mkono, ni mfumo gani ulijaribiwa, matokeo yaliibuliwaje, na jinsi watathmini walivyokagua uhalali wake. Kwa mifumo ya frontier inayojaribiwa kwenye kazi ambamo uwezo wa kiwakala ni muhimu, maelezo yanapaswa kujumuisha (kwa kuzingatia masuala yoyote ya usalama au usiri):

  • Dai: ikiwa tathmini inalinganisha mifumo, inakadiria kiwango cha juu cha uwezo, au inapima kinga.
  • Maudhui ya tathmini: maelezo ya kutosha kuhusu kazi au mgawanyo wa kazi ili wasomaji waelewe ni ujuzi, tabia, au hali za kushindwa zipi ambazo tathmini inapima kwa kweli.
  • Mfumo uliojaribiwa: muundo, mpangilio wa uwazaji, ufikiaji wa zana, harness, na kinga.
  • Bajeti: zamu, tokeni, majaribio/kurudia, muda halisi wa saa, gharama ya inferensi, na pale inapofaa gharama inayotarajiwa kwa kila suluhisho lililofaulu.
  • Mbinu za uibushaji: chaguo za harness zilizotumika kuibua matokeo, na kwa ukaribu gani kile kilichojaribiwa kinaakisi dai pana linalotolewa.
  • Ukaguzi wa uhalali: jinsi watathmini walivyotafuta reward hacking, ufahamu wa tathmini, uchafuzi, kukataa, sandbagging na tabia nyingine ambazo zingeweza kudhoofisha matokeo, ikiwemo jinsi visa vilivyothibitishwa vilivyoathiri uwekaji alama au tafsiri.

Viwango vinavyoacha nje chaguo za harness au ukaguzi wa uhalali vinaweza kupunguza makadirio ya kile mfumo unaweza kufanya au kuzidisha imani katika dai la usalama. Kujenga harness thabiti na mbinu za uibushaji bado ni eneo la wazi la utafiti na kunapaswa kuwa lengo la uchunguzi na uwekezaji zaidi.

Mwandishi

OpenAI

Faharasa

Kwa sababu tunatumia istilahi kadhaa za kitaalamu katika chapisho hili, tumejumuisha faharasa hapa chini inayotoa maelezo ya lugha rahisi kuhusu tunachorejelea:

  • Mfumo wa kiwakala: Mfumo unaoweza kushughulikia kazi kwa hatua nyingi, ukitumia zana, ukidumisha hali ya kazi, na kutenda ndani ya mazingira, badala ya kurudisha jibu moja tu kwa dokeza.

  • Tathmini: Uamuzi mpana kuhusu kama ushahidi unaunga mkono dai, hitimisho la hatari, au msimamo wa uhakikisho ambao unaweza kutegemea data ya tathmini, mapitio ya hati, mahojiano, mapitio ya mchakato, na vielelezo vingine vinavyohusika.

  • Compaction: Mbinu ya kuhifadhi muktadha unaohusiana na kazi wakati wa uendeshaji mrefu.

  • Usanidi: Mfumo halisi uliojaribiwa na masharti ya tathmini, zaidi ya jina la muundo.

  • Uchafuzi: Wakati kazi za tathmini, majibu, au matoleo yanayofanana yanaonekana katika data ya mafunzo ya muundo au yanaweza kupatikana wakati wa tathmini (kwa mfano, kupitia zana kama kuvinjari), na kufanya utendaji uonekane kuzidi uwezo halisi wa muundo wa kujumlisha.

  • Uibushaji: Mchakato wa kujaribu kutoa uwezo au tabia kutoka kwa mfumo wakati wa tathmini.

  • Mazingira: Mpangilio wa kazi ambamo mfumo hujaribiwa. Hii inajumuisha mambo kama hali ya nje ambayo wakala huingiliana nayo na kuibadilisha wakati wa tathmini, kama vile mazingira ya terminal au mchezo wa video.

  • Tathmini ya kipimo: Jaribio au kipimo mahususi ndani ya tathmini.

  • Ufahamu wa tathmini: Ufahamu wa tathmini humaanisha muundo kutambua, au kuonekana kutambua, kwamba unatathminiwa na huenda ukarekebisha tabia yake kwa kuitikia muktadha huo. Hili linaweza kuonekana kama muundo ukifanya uwazaji waziwazi kuhusu kujaribiwa, kubaini kusudi la tathmini, au kubadilisha tabia yake kwa sababu unatarajia matokeo yataathiri jinsi unavyohukumiwa au kutumika.

  • Harness: Muundo unaoukabili muundo unaoruhusu muundo kutekeleza kazi: madokeza, zana, violesura, mantiki ya udhibiti, kumbukumbu, majaribio ya kurudia, vithibitishaji, na miundo mingine ya usaidizi inayouzunguka muundo.

  • Uibushaji wa kiwango cha juu: Upimaji unaolenga kupata utendaji wenye nguvu zaidi unaoaminika au hali ya kushindwa ambayo mfumo unaweza kutoa chini ya bajeti iliyobainishwa, badala ya kuendesha mfumo mara moja tu kupitia harness iliyosanifishwa.

  • Rekodi za uwazaji: Kumbukumbu za uwazaji wa kati wa muundo wakati wa jaribio.

  • Reward hacking: Kupata alama ya juu kupitia njia ya mkato au tabia iliyo nje ya dhamira ya mtathmini.

  • Kinga: Vichujio, vifuatiliaji, mifumo ya kuzuia, na ulinzi mwingine unaotumika kuzunguka muundo au bidhaa.

  • Sandbagging: Kupunguza utendaji kimkakati katika tathmini kwa namna inayodhoofisha matokeo.

  • Uwekaji alama: Mbinu inayotumika kuamua jinsi utendaji unapimwa au kama kazi imefaulu.

  • Harness iliyosanifishwa: Harness inayowekwa sawa katika mifumo yote badala ya kubinafsishwa kwa muundo au kazi fulani, ili tofauti za matokeo ziwe rahisi zaidi kuhusishwa na muundo uliojaribiwa.

  • Muda wa upeo: Urefu wa kazi ambao mfumo unaweza kukamilisha kwa uaminifu uliobainishwa, mara nyingi ukielezwa kama muda ambao binadamu angechukua kufanya kazi hiyo hiyo.

  • Ufikiaji wa zana: Zana za nje zinazopatikana kwa muundo wakati wa tathmini.

  • Trajektoria: Njia za hatua kwa hatua ambazo mfumo hufuata unaposhughulikia kazi.

  • Universal jailbreak: Muundo mmoja wa shambulio unaosababisha mfumo kupita kinga katika madokeza au kazi nyingi.

Tanbihi

  1. 1

    Chapisho hili halijaribu kutatua jinsi wahusika wengine wanapaswa kutathmini madai yanayohusiana na kutolingana au mwelekeo. Kazi zaidi inahitajika ili kuelewa jinsi chaguo za harness zinavyoathiri tathmini hizo, hasa kwa sababu harness zinazounga mkono tabia za muda mrefu zinaweza pia kubadilisha aina za tabia zisizokusudiwa ambazo watathmini wanahitaji kufuatilia.

  2. 2

    HAL(fungua katika dirisha jipya) hutoa mfano wa ziada kutoka tathmini za wakala: kwenye CORE-Bench(fungua katika dirisha jipya), kubadilisha harness kuwa Claude Code kulibadilisha utendaji uliopimwa na pia wasifu wa gharama kwenye benchmark hiyo hiyo. Mifano mingine ya umma ni pamoja na SWE-agent(fungua katika dirisha jipya), SeeAct(fungua katika dirisha jipya), ScienceAgentBench(fungua katika dirisha jipya), CORE-Bench(fungua katika dirisha jipya), na Inspect Cyber(fungua katika dirisha jipya); kila moja huwaambia wasomaji ni kiolesura au harness gani iliyotoa alama.

  3. 3

    Kupata alama ya 100% kwenye matoleo yote mawili ya Sandbagging QA na 99.6% kwenye kazi ya sandbagging ya udanganyifu wa kimkakati.