2026. gada 29. maijs

Kopīgs ceļvedis uzticamiem trešo pušu izvērtējumiem

Kas ir svarīgi efektīviem neatkarīgiem robežmodeļu aizsargmehānismu un spēju izvērtējumiem.

Notiek ielāde…

Neatkarīgiem, uzticamiem trešo pušu izvērtējumiem ir izšķiroša loma⁠ drošības ekosistēmas stiprināšanā. Šie izvērtējumi tiek veikti robežmodeļiem, lai sniegtu papildu pierādījumus apgalvojumiem par kritiskām spējām un drošības mazināšanas pasākumiem. Šajā rakstā dalāmies ar gūtajām atziņām un iesakām pieejas izvērtējumu izstrādei, kas var derīgi novērtēt robežmodeļus un, cerams, palīdzēt veidot topošos standartus šajā jomā.

Iepriekš daudzos izvērtējumos modeļi tika aplūkoti kā tērzēšanas roboti: izvērtējumā modelim tika dota uzvedne tā, it kā lietotājs uzdotu jautājumu, modelis atbildēja, un vērtētājs novērtēja sniegto izvadi. Mūsdienu robežmodeļi spēj daudz vairāk: tie var izmantot rīkus, sekot informācijai daudzos soļos un darboties plašākā darbplūsmā. Tas nozīmē, ka sniegums ir atkarīgs ne tikai no modeļa, bet arī no vides, kurā uzdevums notiek, un no iestatījuma, kas atvieglo tā darbības. Šis apkārtējais iestatījums, ko mēs saucam par “izpildes ietvaru”, var mainīt būtiskus sistēmas snieguma aspektus, tostarp to, kā tā izmanto rīkus, seko informācijai vai atkopjas pēc kļūdām.

Diagramma, kurā salīdzināta uzvednes-atbildes darbplūsma ar aģentu darbplūsmu, parādot, kā vadības cikli, rīki, konteksts, budžets un aizsargmehānismi nodrošina autonomu uzdevumu izpildi.

Tas maina gan to, kā jāveic izvērtējumi, gan to, kam lasītājiem būtu jāpievērš uzmanība izvērtējumu ziņojumos. Mūsuprāt, visnoderīgākie ziņojumi skaidri apraksta divas lietas papildus pašam rezultātam: pirmkārt, tie precizē, kādu apgalvojumu izvērtēšanas iestatījumu bija paredzēts pārbaudīt, un, otrkārt, tie dalās ar pieejamajiem pierādījumiem, ka izvērtēšanas rezultāts ir derīgs.

Izvērtējumos pārbaudītie apgalvojumi parasti iedalās vienā no trim kategorijām¹:

Spējas izzināšana: Vai modelis ticami var demonstrēt izvērtējamo spēju?
Aizsargmehānismu sniegums: Cik noturīgi ir testētie aizsargmehānismi pret izvērtējamo uzvedību vai uzbrukumu?
Salīdzinājums: Kāds ir dažādu modeļu sniegums līdzvērtīgos apstākļos?

Izvērtējumu ziņojumiem arī jāizskaidro, kā vērtētāji pārbaudīja ietekmes, kas varētu skart rezultāta derīgumu. Tās ietver:

Atlīdzības uzlaušana: Saīsņu izmantošana uzdevumā vai vērtētājā, lai sistēma saņemtu atzinību, neparādot uzvedību, ko izvērtējumā ir paredzēts mērīt.
Atteikumi: Atteikšanās tādos veidos, kas aizsedz testējamo uzvedību.
Kontaminācija: Pārlieku augsts sniegums tāpēc, ka izvērtēšanas uzdevumi, atbildes vai tām tuvi varianti parādījās apmācības datos vai bija atrodami izvērtēšanas laikā, piemēram, pārlūkojot.
Bojāti uzdevumi: Pārāk zems sniegums tāpēc, ka uzdevumi nav derīgi. Iemesli var būt netaisnīga vērtēšana (piem., pareizai atbildei vajadzīgas nenorādītas ieviešanas detaļas) un neatrisināmas vides (piem., trūkst kritisku failu vai rīki ir neuzticami).
Apzināta snieguma pazemināšana: Apzināti sliktāks sniegums, kad sistēma apzinās, ka tiek izvērtēta.

Pareiza izpildes ietvara izvēle izvērtējumam ir izšķiroša optimāliem rezultātiem

Esam novērojuši, ka izpildes ietvara loma ir īpaši svarīga sistēmām, kas darbojas garākās trajektorijās. Kad modeļi var izmantot rīkus, saglabāt stāvokli un atgūties pēc kļūdām ar vairākiem soļiem, izpildes ietvars var mainīt novēroto snieguma līmeni un pat noteikt, vai izvērtējamā spēja vispār parādās izvērtējumā. Piemēram, izpildes ietvars, kas saglabā stāvokli un atkārto neveiksmīgas darbības, var ļaut modelim pabeigt vairāku soļu uzdevumu, ko tas pats modelis vienkāršākā izpildes ietvarā nekad nepabeigtu.

Zemāk esošajā tabulā mēs nošķiram trīs apgalvojumu veidus, ko vērtētāji var vēlēties izteikt, un izpildes ietvaru, kas, mūsuprāt, katram no tiem ir nepieciešams.

Apgalvojums, ko izvērtēšana cenšas pamatot	Piemērota izpildes ietvara izvēle	Ziņojamie pierādījumi
Spēja spēcīgas izzināšanas apstākļos: Sistēma A var pabeigt X tipa uzdevumus, ja iestatījums ir izstrādāts tā, lai atklātu tās spēcīgāko ticamo sniegumu.	Izmantojiet sistēmai spēcīgāko ticamo izzināšanas iestatījumu, tostarp izpildes ietvaru, rīkus, palīgstruktūras un budžetu, ko prasmīgs lietotājs pamatoti izmantotu.	Izpildes ietvara un rīku iestatījums, izzināšanas vadlīnijas, atļautais budžets/pūles, tekstvienības/izmaksas/laiks un iemesls, kāpēc šis iestatījums ir ticams aizstājējs apgalvotajai spējai. Ja sistēmas salīdzina dažādos optimizētos iestatījumos, apzīmējiet to kā sistēmu salīdzinājumu vai spēcīgas izzināšanas salīdzinājumu.
Kontrolēts salīdzinājums: Sistēma A pārspēj sistēmu B kopīgā izvērtēšanas iestatījumā.	Saglabājiet uzdevumus, vērtēšanu un budžetu nemainīgus. Izmantojiet vai kopīgu izpildes ietvara/rīku iestatījumu, vai iepriekš noteiktu standartizētu izpildes ietvaru kopu, kas izvēlēta, lai nodrošinātu saprātīgu maksimālo izzināšanu salīdzināmajām sistēmām.	Kopīgais uzdevumu kopums, rīki, vērtēšanas metode, izpildes ietvars, budžets, tekstvienību efektivitāte/izmaksas un zināmie ierobežojumi. Programmēšanas aģentu izvērtējumos atvērtā pirmkoda izpildes ietvars, piemēram, Codex CLI, var nodrošināt fiksētu aģenta ciklu un rīku saskarni dažādām sistēmām. Ideālā pieeja maksimālai izzināšanai būtu optimizēt individuāli pielāgotu izpildes ietvaru katram uzdevumam un sistēmai, taču pašlaik praksē to darīt nav praktiski.
Aizsargmehānismu noturība izzināta uzbrukuma apstākļos: Sistēmas A aizsargmehānismi ir pietiekami spēcīgi attiecīgajai modeļa uzvedībai vai izzinātajam uzbrukumam.	Izmantojiet aizsargmehānismu testēšanas iestatījumu, kas paredzēts, lai izzinātu spēcīgāko ticamo uzbrukumu attiecīgā pretinieka modeļa ietvaros.	Kā vērtētāji raksturoja attiecīgo modeļa uzvedību, testēto aizsargmehānismu konfigurāciju, izzināšanas stratēģiju, tās īstenošanai izmantoto izpildes ietvaru un atļauto budžetu vai pūles.

Apgalvojumi par spējām ir tik spēcīgi, cik spēcīga ir to pamatā esošā izzināšana: vērtētājiem jāizvēlas izpildes ietvars, kas vislabāk atbilst uzdevumam un spējai, ko izvērtējums cenšas mērīt. Standartizēts izpildes ietvars var būt piemērots sistēmu salīdzināšanai identiskos apstākļos, taču tas var nenovērtēt spēju, ja tajā nav iekļautas konkrētas izpildes ietvara funkcijas, kas palīdz modelim izpildīt uzdevumu. Piemēram, GPT‑5.5 sniegums OpenAI kiberdiapazonos parāda, kā izpildes ietvara izvēle var būtiski mainīt mērīto spēju uzdevumos, kuriem nepieciešama ilga, vairāku soļu rīku izmantošana: modelis darbojas labāk, kad izpildes ietvars izmanto kompaktēšanu⁠, lai saglabātu uzdevumam būtisko kontekstu, mijiedarbībai kļūstot garākai. Tas parāda, ka noteiktiem modeļiem izpildes ietvars bez kompaktēšanas nepietiekami izzina sniegumu.

Augstāks panākumu līmenis ir labāks

Arī citi publicēti izvērtējumi² parāda, ka izpildes ietvara un budžeta izvēles maina izvērtējumu rezultātus. Testēšanas laikā pieejamo skaitļošanas resursu palielināšana var būtiski mainīt to, kādu spēju izvērtējums izzina, īpaši jomās, kur panākumus ir viegli pārbaudīt, piemēram, daudzos kiberdrošības uzdevumos. UK AISI kiberdiapazona izvērtējumā⁠(atveras jaunā logā) budžeta palielināšana no 10M līdz 100M tekstvienībām uzlaboja sniegumu līdz pat 59%, un sniegums joprojām pieauga arī pie augstākā testētā budžeta. Šādu detaļu norādīšana padara izvērtējumu vieglāk interpretējamu: tas parāda lasītājiem, kā rezultāts ir atkarīgs no testētā izzināšanas iestatījuma. Ja sniegums joprojām uzlabojas, palielinot budžetu, rezultāts būtu jāapraksta kā sniegums šajā izpildes ietvarā un budžetā, nevis kā izmērīts spējas griestu līmenis. Spēja bieži ir atkarīga no resursiem, nevis fiksēts lielums, ko var skaidri izmērīt uz visiem laikiem. Ja panākumus var mērīt atkārtotos mēģinājumos, ziņojumos būtu jāapsver arī sagaidāmās izmaksas uz vienu veiksmīgu atrisinājumu, nevis tikai panākumu līmenis pie fiksēta tekstvienību budžeta. Tas var atvieglot nopietnības interpretāciju: zems panākumu līmenis joprojām var būt praktiski nozīmīgs, ja atkārtotu mēģinājumu izmaksas iekļaujas attiecīgajā draudu modelī. Apgalvojumiem par spējām novēršama nepietiekama izzināšana ir mērījuma kļūme: ja izpildes ietvars vai budžets neļauj sistēmai parādīt uzvedību, ko tā citādi varētu radīt, rezultāts nemēra apgalvoto spēju. Ja vērtētāji ir virzījuši izzināšanu tik tālu, cik praktiski iespējams, un sniegums joprojām uzlabojas, ziņojumos tas būtu skaidri jānorāda un jāprecizē, ka rezultāts ir tikai apakšējās robežas novērtējums.

Aizsargmehānismu testēšana var novērtēt par zemu, vai uzbrukums var izdoties un cik nopietns tas varētu būt, ja netiek ņemti vērā uzbrucējiem pieejamie resursi, tostarp pielāgoti izpildes ietvari. UK AISI GPT‑5.5 kiberdrošības izvērtējumā⁠(atveras jaunā logā) viņu ekspertu "sarkanā komanda" atklāja universālu ielaušanos, kas izraisīja pārkāpjošu kibersaturu visos OpenAI sniegtajos ļaunprātīgajos vaicājumos, tostarp daudzgājienu aģentu iestatījumos. Viņi izmantoja Codex, lai izveidotu pielāgotu izpildes ietvaru modeļa uzbrukuma snieguma pastiprināšanai: tas mijiedarbībā iestrādāja atkārtoti izmantojamu aizsargmehānismu apiešanas modeli, saglabāja šo modeli pāri gājieniem un blokiem un piemēroja to OpenAI sniegtajiem ļaunprātīgajiem kibervaicājumiem. Aizsargmehānismu testēšanai jāatbilst pretinieka līmenim. Ja apgalvojums attiecas uz noturību pret ekspertu ļaunprātīgu izmantošanu, testam jāizvērtē spēcīgākā ticamā pilna cikla uzbrukuma stratēģija noteikta budžeta ietvaros, tostarp jebkurš izpildes ietvars, kas vajadzīgs šīs stratēģijas saglabāšanai un atkārtotai izmantošanai. Pretējā gadījumā rezultāti var būt nepareizi kalibrēti: tie var pamatot tikai šaurāku apgalvojumu par noturību pret vienkāršākām uzvednēm, var neparādīt gan to, cik nopietns kļūst uzbrukums, gan tā veiksmes varbūtību pēc izzināšanas metodes operacionalizācijas, un var arī pārspīlēt problēmas iespējamību vai nopietnību, ja piešķirts pārāk liels budžets.

Standartizētiem izpildes ietvaru salīdzinājumiem ir savs laiks un vieta, taču vērtētājiem skaidri jānorāda, kāpēc konsekventa izpildes ietvaru kopuma izmantošana ir piemērota un kādu apgalvojumu tā var pamatot. METR laika horizonta izvērtējums⁠(atveras jaunā logā) ir piemērs plašākam, atbilstoši fiksētam izvērtēšanas iestatījumam: tas ir izstrādāts, lai radītu salīdzināmus rezultātus starp vērtētajām sistēmām. METR definē kopīgu iznākumu — tipisko cilvēka uzdevuma ilgumu, pie kura tiek prognozēts, ka MI aģents gūs panākumus ar noteiktu uzticamības līmeni. Tas piemēro kopīgu uzdevumu kopu, vērtēšanas metodi, pielāgošanas metodi un nelielu atkārtoti izmantojamu palīgstruktūru kopu, piemēram, Triframe un ReAct⁠(atveras jaunā logā), katrā kopā ziņoto novērtējumu ietvaros. Kad METR paplašināja uzdevumu kopu un pārcēla izvērtēšanas infrastruktūru no ietvara ar nosaukumu Vivaria uz citu ar nosaukumu Inspect, tā ziņoja par izmaiņām (Time Horizon 1.1 atjauninājums⁠(atveras jaunā logā)) un atkārtoti izvērtēja modeļus jaunajā izvērtēšanas iestatījumā. Tā ir standartizēta izvērtēšanas iestatījuma, tostarp konsekventa izpildes ietvaru kopuma, vērtība: tas var dot lasītājiem pārliecību, ka rezultātu atšķirība patiešām atspoguļo atšķirību starp salīdzinātajām sistēmām, nevis mērījuma iestatījuma maiņu.

Mēs iesakām, lai trešo pušu izvērtējumu ziņojumos tiktu norādīts, kāda veida apgalvojumu to izvērtēšanas iestatījums ir paredzēts pamatot; aprakstīts, cik cieši testētais atspoguļo šo plašāko apgalvojumu; aprakstītas izpildes ietvara izvēles, kas veidoja rezultātu; detalizēti norādīts, kad šīs izvēles mainās starp izvērtējumiem; un iekļauti pamatojoši pierādījumi, kas parāda, kā rezultāts tika iegūts un cik labi tas vispārinās uz apgalvojumu.

Novērtējiet derīgumu, pārbaudot zināmos riskus, kas var izkropļot rezultātus

Modeļiem kļūstot spējīgākiem, kļūst vieglāk pārprast izvērtējumu rezultātus. Salīdzinājumā ar reālajām spējām izvērtējumu rezultāti var būt mākslīgi pazemināti, ja modelis atpazīst, ka tiek izvērtēts, un stratēģiski darbojas sliktāk. Tie var būt paaugstināti, ja modelis izmanto saīsni uzdevumā, uzvednē, vērtētājā vai izpildes ietvarā. Tos var izkropļot arī kontaminācija (kad modelis jau zina atbildi vai var to atrast, neatrisinot uzdevumu) vai “bojāti” uzdevumi, kas ir neskaidri, nepareizi vērtēti, neatrisināmi vai ievainojami pret neparedzētām saīsnēm. Tāpēc izvērtējumu ziņojumos virsraksta rezultāti būtu jāpapildina ar šo risku apspriedi, lai lasītāji varētu novērtēt, vai rezultāti atspoguļo iecerēto uzvedību.

Izpildes ietvari, budžeti, rīki, vērtēšanas noteikumi, monitori un pārskatīšanas procedūras ietekmē to, vai aģents risina iecerēto uzdevumu, izvairās no tā, iegaumē to vai atrod ceļu tam apkārt. Uzticams ziņojums padara šīs pārbaudes redzamas: vērtētājiem katru reizi, kad tiek veikts novērtējums, būtu jāpārskata paraugi attiecībā uz šādu uzvedību.

Atlīdzības uzlaušana

Atlīdzības uzlaušana nozīmē augstu izvērtējuma rezultātu sasniegšanu veidos, kas neatspoguļo iecerēto spēju. Šeit satraucoši ir tas, ka sistēma saņem atzinību, izmantojot uzdevumu, vērtētāju, uzvedni vai izpildes ietvaru, nevis paveicot darbu, ko izvērtējums bija paredzēts mērīt. METR GPT 5.4 izvērtējums⁠(atveras jaunā logā) parāda, kāpēc tas ir svarīgi: lai gan modelis uzdevumos guva panākumus tādā līmenī, kas sākotnēji atbilda aptuveni 13 stundu laika horizontam, cilvēka pārskatīšana parādīja, ka daļa no šiem panākumiem radās atlīdzības uzlaušanas dēļ, un rezultātu pārskatīšana, ņemot vērā tikai tos gadījumus, kuros atlīdzības uzlaušanas nebija, samazināja novērtējumu līdz aptuveni 6 stundām. Vērtētājiem būtu jānovērtē šādu korekciju nepieciešamība un, ja tās ir vajadzīgas, skaidri par tām jāziņo: spējas novērtējums ir daudz noderīgāks, ja lasītāji var redzēt, kuri šķietamie panākumi tika diskvalificēti, kāpēc tie tika diskvalificēti un cik lielā mērā rezultāts ir atkarīgs no šī sprieduma.

Diagramma, kas parāda MI modeļa sniegumu laika gaitā ar tendences līniju un ticamības intervāliem.

Atteikumi

Modeļi aizsargmehānismu dēļ var arī uzrādīt zemāku sniegumu spēju izvērtējumos. Modelim izvērtējumā var būt zemāks sniegums, nekā tas patiesībā spējīgs sasniegt, jo tas atsakās no izvērtēšanas uzdevumiem, nevis tos pabeidz. Tāpēc ziņojumos būtu jāizskaidro, vai atteikumi bija daļa no izvērtējuma rezultātiem, un, ja jā, tad cik paraugu to dēļ tika ietekmēti.

Kontaminācija

Kontaminācija ir īpaši svarīga publiskiem vai atkārtoti izmantotiem etaloniem⁠. Ja uzdevumi, atbildes vai to tuvi varianti parādās apmācības datos vai aģents tos var atrast, pārlūkojot, sniegums var atspoguļot iegaumēšanu vai izgūšanu, nevis modeļa spēju. Vērtētājiem, kur iespējams, būtu jādod priekšroka privātiem vai jaunizveidotiem uzdevumiem un jāpārbauda, vai modeļi neatkārto uzdevumam specifiskas detaļas pirms tā atrisināšanas.

Bojāti uzdevumi

Bojāti uzdevumi ietver situācijas, piemēram, kad uzdevumu nejauši nav iespējams atrisināt. Bojāti uzdevumi ir pietiekami izplatīti⁠(atveras jaunā logā), lai tos uzskatītu par standarta derīguma risku. Tie ietver nepareizu pamatpatiesību, neskaidras uzvednes, trūkstošus failus, nestabilus pakalpojumus, netaisnīgus vērtēšanas kritērijus un vides, kas atklāj saīsnes, piemēram, slēptus atbilžu failus vai repozitorija vēsturi ar pamatpatiesības labojumu.

Apzināta snieguma pazemināšana

Modeļa vai sistēmas apzināta snieguma pazemināšana nozīmē stratēģiski darboties ar zemāku līmeni, ja spēcīgs sniegums būtu pretrunā kādam mērķim. Apollo GPT‑5.5 izvērtējums⁠(atveras jaunā logā) to testēja, izveidojot kontekstu, kurā modelis saprata, ka augsti izvērtējuma rezultāti varētu izraisīt iemācitā atmācīšanu vai bloķēt ieviešanu. GPT‑5.5 joprojām atbildēja pareizi, kas liecina par nelieliem uzvedības pierādījumiem stratēģiskai snieguma pazemināšanai³. Taču viņu spriešanas pēdu pārskatīšana pievienoja svarīgu kontekstu: Apollo konstatēja mērenas vai augstākas pazīmes par atbilstības izvērtējuma apzināšanos 52% paraugu apzinātas snieguma pazemināšanas nosacījumā, salīdzinot ar 0% kontrfaktiskajos gadījumos. Šie pierādījumi sarežģī rezultāta interpretāciju, taču galu galā sniedz lasītājiem vairāk signālu: viņi var redzēt gan nomierinošo uzvedības rezultātu, gan iemeslu būt piesardzīgiem, to nepārinterpretējot.

Kā mēs atbalstām spēcīgākus izvērtējumus

Spēcīgiem apgalvojumiem vajadzīgs gan pareizais izpildes ietvars uzvedības izzināšanai, gan derīguma pārbaude, kas parāda, ka rezultāts ir pamatots. Mūsu uzskats, ka izpildes ietvari un derīguma pārbaudes ir daļa no izvērtējuma rezultāta, ietekmē to, kā mēs praksē atbalstām trešo pušu izvērtējumus:

Mēs dalāmies ar konkrētām maksimālās izzināšanas vadlīnijām ar vērtētājiem.
Mēs lūdzam spēju vērtētājus izmantot Codex kā kopīgu platformu OpenAI modeļiem: testiem vismaz jāpalaiž bāzes variants caur to pašu aģentu saskarni, uz kuru lietotāji, visticamāk, paļausies, nevis tikai caur vienkāršotu modeļa saskarni.
Mēs arī nodrošinām piekļuvi spriešanas pēdām un citiem starpposma artefaktiem tur, kur tie ir vajadzīgi maldināšanas, apzinātas snieguma pazemināšanas vai izvērtēšanas apzināšanās novērtēšanai. METR un Apollo šo piekļuvi OpenAI izvērtējumos izmanto kopš GPT‑5.
Visbeidzot, mēs prioritizējam pētījumus, lai dziļāk izprastu, kad un kā izpildes ietvara izvēles būtiski maina rezultātus — no konteksta pārvaldības un piekļuves rīkiem līdz atkārtotu mēģinājumu uzvedībai, vērtēšanai un resursu budžetiem.

Ko tas nozīmē izvērtēšanas standartiem un turpmākajiem pētniecības virzieniem

Šie ieteikumi ir paredzēti ne tikai atsevišķu izvērtējumu ziņojumu uzlabošanai, bet arī topošo nacionālo ⁠(atveras jaunā logā)un starptautisko ⁠(atveras jaunā logā)standartu informēšanai progresīvākā MI izvērtēšanā un ziņošanā. Turpmāk trešo pušu izvērtēšanas standartiem būtu nepieciešams pietiekami daudz detaļu, lai lēmumu pieņēmēji saprastu, kādus apgalvojumus konkrētie izvērtējumi pamato, kāda sistēma tika testēta, kā rezultāts tika izzināts un kā vērtētāji pārbaudīja tā derīgumu. Robežsistēmām, kas tiek testētas uzdevumos, kuros svarīgas ir aģentu spējas, detaļām būtu jāietver (ievērojot jebkādas drošības vai konfidencialitātes bažas):

Apgalvojums: vai izvērtējums salīdzina sistēmas, novērtē spēju maksimumu vai testē aizsargmehānismus.
Izvērtējuma saturs: pietiekami daudz detaļu par uzdevumiem vai uzdevumu sadalījumu, lai lasītāji saprastu, kādas prasmes, uzvedību vai atteices režīmus izvērtējums patiesībā testē.
Testētā sistēma: modelis, spriešanas iestatījums, piekļuve rīkiem, izpildes ietvars un aizsargmehānismi.
Budžets: gājieni, tekstvienības, mēģinājumi/atkārtoti mēģinājumi, sienas pulksteņa laiks, inferenču izmaksas un, kur piemērojams, sagaidāmās izmaksas uz vienu veiksmīgu atrisinājumu.
Izzināšanas metodes: izpildes ietvara izvēles, kas izmantotas rezultāta atklāšanai, un tas, cik cieši testētais atspoguļo plašāko izteikto apgalvojumu.
Derīguma pārbaudes: kā vērtētāji meklēja atlīdzības uzlaušanu, izvērtēšanas apzināšanos, kontamināciju, atteikumus, apzinātu snieguma pazemināšanu un citu uzvedību, kas varētu graut rezultātu, tostarp kā apstiprinātie gadījumi ietekmēja vērtēšanu vai interpretāciju.

Standarti, kuros nav iekļautas izpildes ietvara izvēles vai derīguma pārbaudes, var nenovērtēt to, ko sistēma spēj, vai pārvērtēt pārliecību par drošības apgalvojumu. Spēcīgu izpildes ietvaru un izzināšanas metožu izveide joprojām ir atvērta pētniecības joma, un tai būtu jābūt turpmākas izpētes un ieguldījumu fokusā.

2026

Autors

OpenAI

Glosārijs

Tā kā šajā rakstā lietojam vairākus specializētus terminus, zemāk esam iekļāvuši glosāriju ar vienkāršā valodā sniegtu skaidrojumu par to, uz ko atsaucamies:

Aģentu sistēma: Sistēma, kas var izpildīt uzdevumu vairākos soļos, izmantojot rīkus, saglabājot uzdevuma stāvokli un darbojoties vidē, nevis tikai sniedzot vienu atbildi uz uzvedni.
Novērtējums: Plašāks spriedums par to, vai pierādījumi apstiprina apgalvojumu, riska secinājumu vai pārliecības pozīciju; tas var būt balstīts uz izvērtēšanas datiem, dokumentu pārskatīšanu, intervijām, procesu pārskatīšanu un citiem atbilstošiem artefaktiem.
Kompaktēšana: Metode uzdevumam būtiska konteksta saglabāšanai ilgstošas izpildes laikā.
Konfigurācija: Precīza testētā sistēma un izvērtēšanas nosacījumi, neaprobežojoties tikai ar modeļa nosaukumu.
Kontaminācija: Situācija, kad izvērtēšanas uzdevumi, atbildes vai to tuvi varianti parādās modeļa apmācības datos vai ir atrodami izvērtēšanas laikā (piem., ar tādiem rīkiem kā pārlūkošana), tādējādi radot iespaidu, ka modeļa sniegums ir labāks par tā patieso vispārināšanas spēju.
Izzināšana: Process, kurā novērtējuma laikā mēģina atklāt sistēmas spēju vai uzvedību.
Vide: Uzdevuma vide, kurā sistēma tiek testēta. Tas ietver, piemēram, ārējo stāvokli, ar kuru aģents mijiedarbojas un ko tas maina izvērtēšanas laikā, piemēram, termināļa vidi vai videospēli.
Izvērtēšana: Konkrēts tests vai mērījums novērtējuma ietvaros.
Izvērtēšanas apzināšanās: Izvērtēšanas apzināšanās nozīmē, ka modelis atpazīst vai šķietami atpazīst, ka tas tiek izvērtēts, un, iespējams, pielāgo savu uzvedību šim kontekstam. Tas var izpausties tā, ka modelis tieši spriež par to, ka tiek testēts, secina izvērtēšanas mērķi vai maina savu uzvedību, jo sagaida, ka rezultāts ietekmēs to, kā tas tiks vērtēts vai ieviests.
Izpildes ietvars: Uz modeli vērsta struktūra, kas ļauj modelim izpildīt uzdevumu: uzvednes, rīki, saskarnes, vadības loģika, atmiņa, atkārtoti mēģinājumi, validatori un citas modeli aptverošas atbalsta struktūras.
Maksimālā izzināšana: Testēšana, kuras mērķis ir noteikta budžeta ietvaros atrast spēcīgāko ticamo sniegumu vai atteices režīmu, ko sistēma var radīt, nevis vienkārši vienreiz palaist sistēmu caur standartizētu izpildes ietvaru.
Spriešanas pēdas: Ieraksti par modeļa starpposmu spriešanu testa laikā.
Atlīdzības uzlaušana: Augsta rezultāta sasniegšana, izmantojot saīsni vai uzvedību ārpus vērtētāja ieceres.
Aizsargmehānismi: Filtri, monitori, bloķēšanas sistēmas un citi aizsardzības līdzekļi, kas tiek piemēroti ap modeli vai produktu.
Apzināta snieguma pazemināšana: Stratēģiski sliktāks sniegums izvērtēšanā tādā veidā, kas grauj rezultātu.
Vērtēšana: Metode, ko izmanto, lai noteiktu, kā tiek mērīts sniegums vai vai uzdevums ir izdevies.
Standartizēts izpildes ietvars: Izpildes ietvars, kas tiek saglabāts vienāds dažādām sistēmām, nevis pielāgots konkrētam modelim vai uzdevumam, lai rezultātu atšķirības būtu vieglāk attiecināt uz testēto modeli.
Laika horizonts: Uzdevuma ilgums, ko sistēma var pabeigt ar noteiktu uzticamību; to bieži izsaka kā laiku, kas cilvēkam būtu vajadzīgs tā paša uzdevuma veikšanai.
Piekļuve rīkiem: Ārējie rīki, kas modelim ir pieejami novērtējuma laikā.
Trajektorijas: Soli pa solim ceļi, kuriem sistēma seko, izpildot uzdevumu.
Universāla izlaušanās: Vienots uzbrukuma paņēmiens, kas liek sistēmai apiet aizsargmehānismus daudzās uzvednēs vai uzdevumos.

Zemsvītras piezīmes

1
Šis raksts nemēģina atrisināt, kā trešajām pusēm būtu jāizvērtē apgalvojumi par neatbilstību vai noslieci. Nepieciešams vairāk darba, lai saprastu, kā izpildes ietvara izvēles ietekmē šos izvērtējumus, jo īpaši tāpēc, ka izpildes ietvari, kas atbalsta ilgāka horizonta uzvedību, var arī mainīt to neparedzētās uzvedības veidu, kas vērtētājiem jāuzrauga.
2
HAL⁠(atveras jaunā logā) sniedz vēl vienu piemēru no aģentu izvērtējumiem: CORE-Bench⁠(atveras jaunā logā) gadījumā izpildes ietvara nomaiņa uz Claude Code mainīja gan mērīto sniegumu, gan izmaksu profilu tajā pašā etalonā. Citi publiski piemēri ir SWE-agent⁠(atveras jaunā logā), SeeAct⁠(atveras jaunā logā), ScienceAgentBench⁠(atveras jaunā logā), CORE-Bench⁠(atveras jaunā logā) un Inspect Cyber⁠(atveras jaunā logā); katrs no tiem lasītājiem norāda, kura saskarne vai izpildes ietvars radīja rezultātu.
3
100% rezultāts abos Apzināta snieguma pazemināšanas QA variantos un 99,6% stratēģiskās maldināšanas apzinātas snieguma pazemināšanas uzdevumā.

Turpināt lasīt

Skatīt visu

Safety and alignment in an era of long-horizon models

Drošība2026. g. 20. jūl.

Why teens deserve access to safe AI — card image

Kāpēc pusaudžiem nepieciešama piekļuve drošam MI

Drošība2026. g. 16. jūl.

GPT-Red: pašpilnveides atraisīšana izturībai

Drošība2026. g. 15. jūl.