Preskočite na glavni sadržaj
OpenAI

29. svibnja 2026.

Sigurnost

Zajednički priručnik za pouzdane evaluacije trećih strana

Što je važno za učinkovite neovisne evaluacije zaštitnih mjera i sposobnosti graničnih modela.

Učitavanje…

Neovisne, pouzdane evaluacije trećih strana imaju ključnu ulogu u jačanju sigurnosnog ekosustava. Te se evaluacije provode na graničnim modelima kako bi pružile dodatne dokaze za tvrdnje o kritičnim sposobnostima i sigurnosnim mjerama ublažavanja. U ovoj objavi dijelimo lekcije koje smo dosad naučili i preporučujemo pristupe za osmišljavanje evaluacija koje mogu valjano procijeniti granične modele, za koje se nadamo da će pomoći u oblikovanju novih standarda u ovom području.

Ranije su mnoge evaluacije tretirale modele kao chatbotove: evaluacija bi modelu zadala upit kao da je korisnik koji postavlja pitanje, model bi odgovorio, a evaluator bi procijenio izlaz. Današnji granični modeli mogu učiniti mnogo više: mogu koristiti alate, pratiti informacije kroz mnogo koraka i djelovati unutar šireg tijeka rada. To znači da izvedba ne ovisi samo o modelu, nego i o okruženju u kojem se zadatak odvija te o postavi koja olakšava njegove radnje. Ta okolna postava, koju nazivamo „okvir”, može promijeniti ključne aspekte izvedbe sustava, uključujući način na koji koristi alate, prati informacije ili se oporavlja od pogrešaka.

Dijagram koji uspoređuje tijek rada upit-odgovor s agentskim tijekom rada na zadatku te pokazuje kako upravljačke petlje, alati, kontekst, budžet i zaštitne mjere omogućuju autonomno izvršavanje zadataka.

To mijenja način na koji evaluacije treba provoditi i na što bi čitatelji trebali obratiti pozornost u evaluacijskim izvješćima. Po našem mišljenju, najkorisnija izvješća izričito opisuju dvije stvari uz sam rezultat: prvo, navode za testiranje koje je tvrdnje evaluacijska postava osmišljena, a drugo, dijele dostupne dokaze da je rezultat evaluacije valjan.

Tvrdnje testirane u evaluacijama obično spadaju u jednu od tri skupine1:

  • Elicitacija sposobnosti: Može li model uvjerljivo pokazati sposobnost koja se evaluira? 
  • Učinkovitost zaštitnih mjera: Koliko su testirane zaštitne mjere robusne na ponašanje ili napad koji se evaluira?
  • Usporedba: Kako različiti modeli rade u ekvivalentnim uvjetima?

Evaluacijska izvješća također trebaju objasniti kako su evaluatori provjeravali učinke koji bi mogli utjecati na valjanost rezultata. To uključuje:

  • Hakiranje nagrade: Iskorištavanje prečaca u zadatku ili ocjenjivaču, tako da sustav dobije priznanje bez pokazivanja ponašanja koje evaluacija treba mjeriti.
  • Odbijanja: Odbijanje na načine koji prikrivaju ponašanje koje se testira.
  • Kontaminacija: Previsoka izvedba zato što su se zadaci evaluacije, odgovori ili bliske varijante pojavili u podacima za treniranje ili su bili dostupni tijekom evaluacije, primjerice pregledavanjem.
  • Neispravni problemi: Slabija izvedba zato što zadaci nisu valjani. Razlozi mogu uključivati nepravedno bodovanje (npr. točan odgovor zahtijeva nenavedene detalje implementacije) i nerješiva okruženja (npr. nedostaju ključne datoteke ili su alati nepouzdani).
  • Sandbagging: Namjerno slabija izvedba kada sustav pokazuje svijest da se evaluira.

Odabir pravog okvira za evaluaciju ključan je za optimalne rezultate

Primijetili smo da je uloga okvira osobito važna za sustave koji djeluju kroz dulje putanje. Kada modeli mogu koristiti alate, održavati stanje i oporavljati se od pogrešaka kroz mnogo koraka, okvir može promijeniti opaženu razinu izvedbe, pa čak i odrediti hoće li se sposobnost koja se procjenjuje uopće pojaviti u evaluaciji. Na primjer, okvir koji čuva stanje i ponavlja neuspjele radnje može omogućiti modelu da dovrši zadatak u više koraka koji isti model nikada ne dovrši u jednostavnijem okviru.

U tablici u nastavku razdvajamo tri vrste tvrdnji koje evaluatori možda žele iznijeti i okvir za koji vjerujemo da ga svaka vrsta tvrdnje zahtijeva.

Tvrdnja koju evaluacija pokušava poduprijeti

Odgovarajući izbor okvira

Dokazi koje treba prijaviti

Sposobnost pod snažnom elicitacijom: Sustav A može dovršiti zadatke tipa X kada je postava osmišljena tako da izvuče njegovu najsnažniju vjerodostojnu izvedbu.

Koristite najsnažniju vjerodostojnu postavu elicitacije za sustav, uključujući okvir, alate, pomoćnu strukturu i budžet koje bi sposoban korisnik razumno koristio.

Postava okvira i alata, smjernice za elicitaciju, dopušteni budžet/napor, tokeni/trošak/vrijeme i zašto je ta postava vjerodostojan proxy za tvrdnju o sposobnosti. Ako uspoređujete sustave pod različitim optimiziranim postavama, označite to kao usporedbu sustav-sa-sustavom ili usporedbu snažne elicitacije.

Kontrolirana usporedba: Sustav A nadmašuje Sustav B pod zajedničkom evaluacijskom postavom.

Zadržite zadatke, bodovanje i budžet fiksnima. Koristite ili zajedničku postavu okvira/alata ili fiksni skup standardiziranih okvira odabran unaprijed kako bi se osigurala razumna maksimalna elicitacija za sustave koji se uspoređuju.

Zajednički skup zadataka, alati, metoda bodovanja, okvir, budžet, učinkovitost tokena/trošak i poznata ograničenja. Za evaluacije coding-agent sustava, okvir otvorenog koda kao što je Codex CLI može pružiti fiksnu petlju agenta i sučelje alata među sustavima. Idealan pristup za maksimalnu elicitaciju bio bi optimizirati prilagođeni okvir za svaki zadatak i sustav, ali to je trenutačno nepraktično u praksi.

Robusnost zaštitnih mjera pod elicitiranim napadom: Zaštitne mjere Sustava A dovoljne su za relevantno ponašanje modela ili elicitirani napad.

Koristite postavu za testiranje zaštitnih mjera osmišljenu da izvuče najsnažniji vjerodostojni napad pod relevantnim modelom protivnika.

Kako su evaluatori okarakterizirali relevantno ponašanje modela, testiranu konfiguraciju zaštitnih mjera, strategiju elicitacije, okvir korišten za njezinu provedbu te dopušteni budžet ili napor.

Tvrdnje o sposobnostima snažne su samo onoliko koliko je snažna elicitacija koja stoji iza njih: evaluatori trebaju odabrati okvir koji najbolje odgovara zadatku i sposobnosti koju evaluacija pokušava mjeriti. Standardizirani okvir može biti prikladan za usporedbu sustava u istim uvjetima, ali može podcijeniti sposobnost kada izostavlja specifične značajke okvira koje pomažu modelu izvršiti zadatak. Na primjer, izvedba GPT‑5.5 na OpenAI-jevim kibernetičkim rasponima pokazuje kako izbor okvira može bitno promijeniti izmjerenu sposobnost na zadacima koji zahtijevaju dugu upotrebu alata u više koraka: model radi bolje kada okvir koristi sažimanje za očuvanje konteksta relevantnog za zadatak kako interakcija postaje dulja. To pokazuje da bi za određene modele okvir koji izostavlja sažimanje nedovoljno elicitirao izvedbu.

Veće stope uspješnosti su bolje

Druge objavljene evaluacije2 također pokazuju da izbori okvira i budžeta mijenjaju rezultate evaluacije. Povećanje računalnih resursa u vremenu testiranja može znatno promijeniti koju sposobnost evaluacija elicitira, osobito u domenama u kojima je uspjeh lako provjeriti, kao što su mnogi kibernetički zadaci. U evaluaciji kibernetičkog raspona UK AISI-ja(otvara se u novom prozoru), povećanje budžeta s 10M na 100M tokena poboljšalo je izvedbu za do 59 %, a izvedba je i dalje rasla pri najvećem testiranom budžetu. Navođenje toga čini evaluaciju razumljivijom: pokazuje čitateljima kako rezultat ovisi o testiranoj postavi elicitacije. Kada se izvedba i dalje poboljšava s dodatnim budžetom, rezultat treba opisati kao izvedbu pod tim okvirom i budžetom, a ne kao izmjereni gornji prag sposobnosti. Sposobnost često ovisi o resursima, a nije fiksna veličina koja se može jednom zauvijek čisto izmjeriti. Ondje gdje se uspjeh može mjeriti kroz ponovljene pokušaje, izvješća bi trebala uzeti u obzir i očekivani trošak po uspješnom rješenju, a ne samo stopu uspjeha pri fiksnom budžetu tokena. To može olakšati tumačenje ozbiljnosti: niska stopa uspjeha i dalje može biti praktično značajna ako je trošak ponovljenih pokušaja unutar relevantnog modela prijetnje. Za tvrdnje o sposobnostima, podelicitacija koja se mogla izbjeći predstavlja neuspjeh mjerenja: ako okvir ili budžet sprječava sustav da pokaže ponašanje koje bi inače mogao proizvesti, rezultat ne mjeri sposobnost koja se tvrdi. Ondje gdje su evaluatori pogurali elicitaciju koliko je to izvedivo, a izvedba se i dalje poboljšava, izvješća bi to trebala jasno reći i jasno dati do znanja da je rezultat samo procjena donje granice.

Testiranje zaštitnih mjera može podcijeniti može li napad uspjeti i koliko bi mogao biti ozbiljan ako ne uzima u obzir resurse dostupne napadačima, uključujući prilagođene okvire. U kibernetičkoj evaluaciji GPT‑5.5 koju je proveo UK AISI(otvara se u novom prozoru), tijekom njihova stručnog red team testiranja pronađen je univerzalni jailbreak koji je izvukao nedopušten kibernetički sadržaj kroz zlonamjerne upite koje je OpenAI dostavio, uključujući agentske postavke u više poteza. Koristili su Codex za izradu prilagođenog okvira kako bi ojačali napadačku izvedbu modela: ugradio je ponovno upotrebljiv obrazac zaobilaženja zaštitnih mjera u interakciju, očuvao taj obrazac kroz poteze i blokove te ga primijenio na zlonamjerne kibernetičke upite koje je OpenAI dostavio. Testiranje zaštitnih mjera treba odgovarati protivniku. Ako se tvrdnja odnosi na robusnost prema zloupotrebi od strane stručnjaka, test bi trebao evaluirati najsnažniju vjerodostojnu cjelovitu strategiju napada unutar definiranog budžeta, uključujući svaki okvir potreban za očuvanje i ponovnu uporabu te strategije. U suprotnom, rezultati riskiraju pogrešnu kalibraciju: mogli bi poduprijeti samo užu tvrdnju o otpornosti na jednostavnije upite, mogli bi propustiti i koliko napad postaje ozbiljan i kolika je vjerojatnost njegova uspjeha nakon operacionalizacije metode elicitacije, a mogli bi i precijeniti vjerojatnost ili ozbiljnost problema ako im se dodijeli prevelik budžet.

Postoji vrijeme i mjesto za usporedbe sa standardiziranim okvirima, ali evaluatori bi trebali biti izričiti o tome zašto je uporaba dosljednog skupa okvira prikladna i koju tvrdnju može poduprijeti. METR-ova evaluacija vremenskog horizonta(otvara se u novom prozoru) primjer je šire, primjereno fiksirane evaluacijske postave: osmišljena je kako bi proizvela usporedive rezultate među sustavima koje evaluira. METR definira zajednički ishod, tipično trajanje ljudskog zadatka pri kojem se predviđa da će AI agent uspjeti uz zadanu razinu pouzdanosti. Primjenjuje zajednički skup zadataka, metodu bodovanja, metodu prilagodbe i mali skup ponovno upotrebljivih pomoćnih struktura kao što su Triframe i ReAct(otvara se u novom prozoru) unutar svake serije zajedno prijavljenih procjena. Kada je METR proširio skup zadataka i premjestio evaluacijsku infrastrukturu iz okvira nazvanog Vivaria u onaj nazvan Inspect, prijavio je promjenu (ažuriranje Time Horizon 1.1(otvara se u novom prozoru)) i ponovno evaluirao modele pod novom evaluacijskom postavom. To je vrijednost standardizirane evaluacijske postave, uključujući dosljedan skup okvira: može čitateljima uliti povjerenje da razlika u rezultatima doista odražava razliku među uspoređivanim sustavima, a ne promjenu u mjernoj postavi.

Preporučujemo da izvješća o evaluacijama trećih strana navedu kakvu vrstu tvrdnje njihova evaluacijska postava treba poduprijeti, opišu koliko ono što je testirano odražava tu širu tvrdnju, opišu izbore okvira koji su oblikovali rezultat, navedu kada se ti izbori mijenjaju među evaluacijama i uključe potporne dokaze koji pokazuju kako je rezultat proizveden i koliko se dobro generalizira na tvrdnju.

Procijenite valjanost provjerom poznatih opasnosti koje mogu iskriviti rezultate

Kako modeli postaju sposobniji, evaluacijske rezultate postaje lakše pogrešno protumačiti. U odnosu na stvarne sposobnosti, evaluacijski rezultati mogu biti umjetno sniženi ako model prepozna da se evaluira i strateški podbaci. Mogu biti napuhani ako model iskoristi prečac u zadatku, upitu, ocjenjivaču ili okviru. Mogu biti iskrivljeni i kontaminacijom (kada model već zna odgovor ili ga može pronaći bez rješavanja zadatka) ili „neispravnim” problemima koji su dvosmisleni, pogrešno bodovani, nerješivi ili ranjivi na nenamjerne prečace. Evaluacijska izvješća stoga bi trebala upariti istaknute rezultate s raspravom o tim opasnostima, kako bi čitatelji mogli procijeniti odražavaju li rezultati namjeravano ponašanje.

Okviri, budžeti, alati, pravila bodovanja, sustavi za nadzor i postupci pregleda svi utječu na to rješava li agent namjeravani zadatak, izbjegava li ga, pamti li ga ili pronalazi put oko njega. Pouzdano izvješće čini te provjere vidljivima: evaluatori bi trebali pregledavati uzorke za ta ponašanja svaki put kada se procjena provodi.

Hakiranje nagrade

Hakiranje nagrade znači postizanje visokih evaluacijskih rezultata na načine koji ne odražavaju namjeravanu sposobnost. Ovdje je zabrinutost da sustav dobiva priznanje iskorištavanjem zadatka, ocjenjivača, upita ili okvira, a ne obavljanjem rada koji je evaluacija trebala mjeriti. METR-ova evaluacija GPT 5.4(otvara se u novom prozoru) pokazuje zašto je to važno: iako je model uspijevao na zadacima stopom koja bi se na prvi pogled registrirala kao vremenski horizont od otprilike 13 sati, ljudski pregled pokazao je da su neki od tih uspjeha proizašli iz hakiranja nagrade, a revizija rezultata tako da se uzmu u obzir samo slučajevi bez hakiranja nagrade snizila je procjenu na oko 6 sati. Evaluatori bi trebali procijeniti potrebu za takvim prilagodbama i, kada su potrebne, jasno ih prijaviti: procjena sposobnosti mnogo je korisnija kada čitatelji mogu vidjeti koji su prividni uspjesi diskvalificirani, zašto su diskvalificirani i koliko rezultat ovisi o toj prosudbi.

Grafikon koji prikazuje izvedbu AI modela tijekom vremena s linijom trenda i intervalima pouzdanosti.

Odbijanja

Modeli također mogu podbaciti u evaluacijama sposobnosti zbog zaštitnih mjera. Model može imati slabiju evaluacijsku izvedbu nego što je sposoban postići zato što odbija evaluacijske zadatke umjesto da ih dovrši. Izvješća bi stoga trebala objasniti jesu li odbijanja bila dio evaluacijskih rezultata i, ako jesu, koliko je uzoraka zbog njih bilo kompromitirano.

Kontaminacija

Kontaminacija je najvažnija za javne ili ponovno korištene referencije. Ako se zadaci, odgovori ili bliske varijante pojavljuju u podacima za treniranje ili ih agent s mogućnošću pregledavanja može pronaći, izvedba može odražavati pamćenje ili dohvat, a ne izvedbu modela. Evaluatori bi trebali, gdje je moguće, dati prednost privatnim ili novo konstruiranim zadacima i testirati reproduciraju li modeli detalje specifične za zadatak prije rješavanja.

Neispravni problemi

Neispravni problemi uključuju situacije poput problema koji se slučajno ne može riješiti. Neispravni problemi dovoljno su česti(otvara se u novom prozoru) da ih treba tretirati kao standardni rizik za valjanost. To uključuje netočnu osnovnu istinu, dvosmislene upite, datoteke koje nedostaju, nestabilne usluge, nepravedne kriterije bodovanja i okruženja koja otkrivaju prečace poput skrivenih datoteka s odgovorima ili povijesti repozitorija koja sadrži zakrpu osnovne istine.

Sandbagging

Sandbagging modela ili sustava znači strateški podbaciti kada bi snažna izvedba bila u sukobu s nekim ciljem. Apollova evaluacija GPT‑5.5(otvara se u novom prozoru) testirala je to stvaranjem konteksta u kojem je model razumio da bi visoki evaluacijski rezultati mogli potaknuti odučavanje ili blokirati implementaciju. GPT‑5.5 je i dalje točno odgovarao, što upućuje na malo bihevioralnih dokaza strateškog podbacivanja3. No njihov pregled tragova rasuđivanja dodao je važan kontekst: Apollo je pronašao umjerene ili jače znakove svijesti o evaluaciji usklađenosti u 52 % uzoraka u uvjetu sandbagginga, u usporedbi s 0 % u hipotetskim scenarijima. Ti dokazi kompliciraju tumačenje rezultata, ali čitateljima u konačnici daju više signala: mogu vidjeti i ohrabrujući bihevioralni rezultat i razlog za oprez pri njegovu pretjeranom tumačenju.

Kako podupiremo snažnije evaluacije

Snažne tvrdnje zahtijevaju i pravi okvir za izvlačenje ponašanja i provjere valjanosti koje pokazuju da je rezultat pouzdan. Naše stajalište da su okviri i provjere valjanosti dio evaluacijskog rezultata oblikuje način na koji u praksi podupiremo evaluacije trećih strana: 

  • S evaluatorima dijelimo konkretne smjernice za maksimalnu elicitaciju.
  • Od evaluatora sposobnosti tražimo da koriste Codex kao zajednički minimalni standard za OpenAI modele: testovi bi trebali barem pokrenuti osnovnu liniju kroz isto agentsko sučelje na koje će se korisnici vjerojatno oslanjati, a ne samo kroz ogoljeno sučelje modela.
  • Također stavljamo na raspolaganje tragove rasuđivanja i druge međuartefakte ondje gdje su potrebni za procjenu obmane, sandbagginga ili svijesti o evaluaciji. METR i Apollo koriste taj pristup u OpenAI evaluacijama još od GPT‑5. 
  • Naposljetku, prioritet dajemo istraživanju kako bismo dublje razumjeli kada i kako izbori okvira bitno mijenjaju rezultate, od upravljanja kontekstom i pristupa alatima do ponašanja pri ponovnim pokušajima, bodovanja i budžeta resursa.

Što to znači za evaluacijske standarde i buduće smjerove istraživanja 

Ove preporuke nisu namijenjene samo poboljšanju pojedinačnih evaluacijskih izvješća, nego i informiranju novih nacionalnih (otvara se u novom prozoru)i međunarodnih (otvara se u novom prozoru)standarda za evaluaciju i izvješćivanje o frontier AI sustavima. U budućnosti bi standardi za evaluacije trećih strana trebali zahtijevati dovoljno pojedinosti da donositelji odluka mogu razumjeti koje tvrdnje konkretne evaluacije podupiru, koji je sustav testiran, kako je rezultat elicitiran i kako su evaluatori provjerili njegovu valjanost. Za granične sustave koji se testiraju na zadacima gdje su agentske sposobnosti važne, pojedinosti bi trebale uključivati (uz sve sigurnosne ili povjerljive iznimke):

  • Tvrdnja: uspoređuje li evaluacija sustave, procjenjuje gornji prag sposobnosti ili testira zaštitne mjere.
  • Sadržaj evaluacije: dovoljno pojedinosti o zadacima ili raspodjeli zadataka da čitatelji razumiju koje vještine, ponašanja ili načine otkaza evaluacija zapravo testira.
  • Testirani sustav: model, postavka rasuđivanja, pristup alatima, okvir i zaštitne mjere.
  • Budžet: broj krugova, tokena, pokušaja/ponovnih pokušaja, proteklo vrijeme, trošak inferencije i, gdje je primjenjivo, očekivani trošak po uspješnom rješenju.
  • Metode elicitacije: izbori okvira korišteni za izvlačenje rezultata i koliko ono što je testirano odražava širu tvrdnju koja se iznosi.
  • Provjere valjanosti: kako su procjenitelji tražili hakiranje nagrade, svijest o evaluaciji, kontaminaciju, odbijanja, sandbagging i druga ponašanja koja bi mogla potkopati rezultat, uključujući kako su potvrđeni slučajevi utjecali na bodovanje ili tumačenje.

Standardi koji izostavljaju izbore okvira ili provjere valjanosti mogu podcijeniti što sustav može učiniti ili precijeniti povjerenje u sigurnosnu tvrdnju. Izgradnja snažnih okvira i metoda elicitacije i dalje je otvoreno istraživačko područje te bi trebala biti fokus daljnjeg istraživanja i ulaganja.

Autor

OpenAI

Pojmovnik

Budući da u ovoj objavi koristimo niz stručnih pojmova, u nastavku smo uključili pojmovnik s jednostavnim objašnjenjem na što mislimo:

  • Agentski sustav: Sustav koji može rješavati zadatak kroz više koraka, koristeći alate, održavajući stanje zadatka i djelujući u okruženju, umjesto da samo vrati jedan odgovor na upit.

  • Procjena: Šira prosudba o tome podupiru li dokazi neku tvrdnju, zaključak o riziku ili stajalište o jamstvu, a može se temeljiti na podacima evaluacije, pregledu dokumentacije, intervjuu, pregledu procesa i drugim relevantnim artefaktima.

  • Sažimanje: Metoda za očuvanje konteksta relevantnog za zadatak tijekom dugih izvođenja.

  • Konfiguracija: Točno testirani sustav i uvjeti evaluacije, izvan samog naziva modela.

  • Kontaminacija: Kada se zadaci evaluacije, odgovori ili bliske varijante pojavljuju u podacima za treniranje modela ili ih je moguće otkriti tijekom evaluacije (npr. putem alata kao što je pregledavanje), pa izvedba precjenjuje stvarnu sposobnost generalizacije modela.

  • Elicitacija: Proces pokušaja izvlačenja neke sposobnosti ili ponašanja iz sustava tijekom procjene.

  • Okruženje: Okvir zadatka u kojem se sustav testira. To uključuje stvari poput vanjskog stanja s kojim agent komunicira i koje mijenja tijekom evaluacije, kao što su terminalsko okruženje ili videoigra.

  • Evaluacija: Određeni test ili mjerenje unutar procjene.

  • Svijest o evaluaciji: Svijest o evaluaciji odnosi se na to da model prepoznaje, ili se čini da prepoznaje, da se evaluira te potencijalno prilagođava svoje ponašanje kao odgovor na taj kontekst. To može izgledati tako da model izričito rasuđuje o tome da je testiran, zaključuje koja je svrha evaluacije ili mijenja svoje ponašanje jer očekuje da će rezultat utjecati na to kako će biti procijenjen ili implementiran.

  • Okvir: Struktura okrenuta modelu koja mu omogućuje izvršavanje zadatka: upiti, alati, sučelja, upravljačka logika, memorija, ponovni pokušaji, validatori i druge potporne strukture oko modela.

  • Maksimalna elicitacija: Testiranje usmjereno na pronalaženje najsnažnije vjerodostojne izvedbe ili načina neuspjeha koji sustav može proizvesti unutar definiranog budžeta, umjesto da se sustav jednostavno jednom provede kroz standardizirani okvir.

  • Tragovi rasuđivanja: Zapisi o međukoracima rasuđivanja modela tijekom testa.

  • Hakiranje nagrade: Postizanje visokog rezultata prečacem ili ponašanjem izvan namjere evaluatora.

  • Zaštitne mjere: Filtri, sustavi za nadzor, sustavi blokiranja i druge zaštite primijenjene oko modela ili proizvoda.

  • Sandbagging: Strateški slabija izvedba u evaluaciji na način koji potkopava rezultat.

  • Bodovanje: Metoda kojom se odlučuje kako se mjeri izvedba ili je li zadatak uspješno izvršen.

  • Standardizirani okvir: Okvir koji ostaje isti među sustavima umjesto da se prilagođava određenom modelu ili zadatku kako bi se razlike u rezultatima lakše pripisale testiranom modelu.

  • Vremenski horizont: Duljina zadatka koji sustav može dovršiti uz zadanu pouzdanost, često izražena kao vrijeme koje bi čovjeku trebalo za isti zadatak.

  • Pristup alatima: Vanjski alati dostupni modelu tijekom procjene.

  • Putanje: Putevi koje sustav slijedi korak po korak dok rješava zadatak.

  • Univerzalni jailbreak: Jedinstveni obrazac napada koji uzrokuje da sustav zaobiđe zaštitne mjere u mnogim upitima ili zadacima.

Fusnote

  1. 1

    Ova objava ne pokušava razriješiti kako bi treće strane trebale evaluirati tvrdnje povezane s neusklađenošću ili sklonostima. Potrebno je više rada kako bi se razumjelo kako izbori okvira utječu na te evaluacije, osobito zato što okviri koji podržavaju ponašanje s duljim horizontom mogu promijeniti i vrste nenamjernog ponašanja koje evaluatori trebaju pratiti.

  2. 2

    HAL(otvara se u novom prozoru) pruža dodatni primjer iz evaluacija agenata: na CORE-Bench(otvara se u novom prozoru) promjena okvira na Claude Code promijenila je i izmjerenu izvedbu i profil troška na istoj referenciji. Drugi javni primjeri uključuju SWE-agent(otvara se u novom prozoru), SeeAct(otvara se u novom prozoru), ScienceAgentBench(otvara se u novom prozoru), CORE-Bench(otvara se u novom prozoru) i Inspect Cyber(otvara se u novom prozoru); svaki čitateljima govori koje sučelje ili okvir je proizveo rezultat.

  3. 3

    Rezultat od 100 % na obje varijante Sandbagging QA i 99,6 % na zadatku sandbagginga sa strateškom obmanom.