Zajednički priručnik za pouzdane evaluacije trećih strana
Šta je važno za djelotvorne nezavisne evaluacije zaštitnih mjera i sposobnosti frontier modela.
Nezavisne, pouzdane evaluacije trećih strana imaju ključnu ulogu u jačanju sigurnosnog ekosistema. Ove evaluacije provode se na frontier modelima kako bi pružile dodatne dokaze za tvrdnje o kritičnim sposobnostima i sigurnosnim mjerama ublažavanja. U ovom tekstu dijelimo lekcije koje smo do sada naučili i preporučujemo pristupe za osmišljavanje evaluacija koje mogu valjano procijeniti frontier modele, za koje se nadamo da će pomoći u oblikovanju nastajućih standarda u ovoj oblasti.
Ranije su mnoge evaluacije tretirale modele kao chatbotove: evaluacija bi modelu zadala upit kao da je korisnik koji postavlja pitanje, model bi odgovorio, a evaluator bi ocijenio izlaz. Današnji frontier modeli mogu mnogo više: mogu koristiti alate, pratiti informacije kroz mnogo koraka i djelovati unutar šireg toka rada. To znači da učinak ne zavisi samo od modela, već i od okruženja u kojem se zadatak odvija, kao i od postavke koja olakšava njegove radnje. Ova okolna postavka, koju nazivamo „harness“, može promijeniti ključne aspekte učinka sistema, uključujući način na koji koristi alate, prati informacije ili se oporavlja od grešaka.
To mijenja način na koji evaluacije treba provoditi i na šta čitaoci trebaju obratiti pažnju u izvještajima o evaluaciji. Po našem mišljenju, najkorisniji izvještaji izričito opisuju dvije stvari pored samog rezultata: prvo, navode koju je tvrdnju evaluacijska postavka osmišljena da testira, a drugo, dijele dostupne dokaze da je rezultat evaluacije valjan.
Tvrdnje testirane u evaluacijama obično spadaju u jednu od tri kategorije1:
- Elicitacija sposobnosti: Može li model vjerodostojno pokazati sposobnost koja se evaluira?
- Učinak zaštitnih mjera: Koliko su testirane zaštitne mjere robusne na ponašanje ili napad koji se evaluira?
- Poređenje: Kako različiti modeli rade pod ekvivalentnim uslovima?
Izvještaji o evaluaciji također trebaju objasniti kako su evaluatori provjeravali efekte koji bi mogli uticati na valjanost rezultata. To uključuje:
- Manipulacija nagradom: Iskorištavanje prečica u zadatku ili ocjenjivaču, tako da sistem dobije priznanje bez pokazivanja ponašanja koje evaluacija treba mjeriti.
- Odbijanja: Odbijanje na načine koji prikrivaju ponašanje koje se testira.
- Kontaminacija: Previsok učinak zato što su se zadaci evaluacije, odgovori ili bliske varijante pojavili u podacima za obuku ili su bili dostupni tokom evaluacije, na primjer pregledavanjem.
- Neispravni problemi: Slabiji učinak zato što su zadaci nevaljani. Razlozi mogu uključivati nepravedno bodovanje (npr. tačan odgovor zahtijeva neizrečene detalje implementacije) i nerješiva okruženja (npr. nedostaju kritične datoteke ili su alati nepouzdani).
- Sandbagging: Namjerno slabije izvođenje kada pokazuju svijest da se evaluiraju.
Primijetili smo da je uloga harnessa posebno važna za sisteme koji djeluju kroz duže trajektorije. Kada modeli mogu koristiti alate, održavati stanje i oporavljati se od grešaka kroz mnogo koraka, harness može promijeniti uočeni nivo učinka, pa čak i odrediti da li će se sposobnost koja se procjenjuje uopće pojaviti u evaluaciji. Na primjer, harness koji čuva stanje i ponavlja neuspjele radnje može omogućiti modelu da završi višekoračni zadatak koji isti model nikada ne završi u jednostavnijem harnessu.
U tabeli ispod razdvajamo tri vrste tvrdnji koje evaluatori možda žele iznijeti i harness za koji vjerujemo da ga svaka vrsta tvrdnje zahtijeva.
Tvrdnja koju evaluacija pokušava podržati | Odgovarajući izbor harnessa | Dokazi koje treba prijaviti |
Tvrdnja o sposobnosti pod snažnom elicitacijom: Sistem A može završiti zadatke tipa X kada je postavka osmišljena da izvuče njegov najsnažniji vjerodostojni učinak. | Koristite najsnažniju vjerodostojnu postavku elicitacije za sistem, uključujući harness, alate, pomoćnu strukturu i budžet koje bi sposoban korisnik razumno koristio. | Postavka harnessa i alata, smjernice za elicitaciju, dozvoljeni budžet/napor, tokeni/trošak/vrijeme i zašto je ta postavka vjerodostojan proxy za tvrdnju o sposobnosti. Ako se sistemi porede pod različitim optimizovanim postavkama, označite to kao poređenje sistem-sistem ili poređenje snažne elicitacije. |
Kontrolisano poređenje: Sistem A nadmašuje Sistem B pod zajedničkom evaluacijskom postavkom. | Zadržite zadatke, bodovanje i budžet fiksnim. Koristite ili zajedničku postavku harnessa/alata ili unaprijed odabran fiksni skup standardizovanih harnessa koji pružaju razumnu maksimalnu elicitaciju za sisteme koji se porede. | Zajednički skup zadataka, alati, metoda bodovanja, harness, budžet, efikasnost tokena/trošak i poznata ograničenja. Za evaluacije coding-agenta, open-source harness kao što je Codex CLI može pružiti fiksnu agentnu petlju i interfejs alata kroz različite sisteme. Idealan pristup za maksimalnu elicitaciju bio bi optimizovati prilagođeni harness za svaki zadatak i sistem, ali je to trenutno nepraktično u praksi. |
Robusnost zaštitnih mjera pod eliciranim napadom: Zaštitne mjere Sistema A dovoljne su za relevantno ponašanje modela ili elicirani napad. | Koristite postavku testiranja zaštitnih mjera osmišljenu da izvuče najsnažniji vjerodostojni napad pod relevantnim modelom protivnika. | Kako su evaluatori okarakterisali relevantno ponašanje modela, testiranu konfiguraciju zaštitnih mjera, strategiju elicitacije, harness korišten za njeno provođenje te dozvoljeni budžet ili napor. |
Tvrdnje o sposobnostima jake su samo onoliko koliko je jaka elicitacija iza njih: evaluatori trebaju odabrati harness koji najbolje odgovara zadatku i sposobnosti koju evaluacija pokušava mjeriti. Standardizovani harness može biti ispravan za poređenje sistema pod identičnim uslovima, ali može potcijeniti sposobnost kada izostavi specifične funkcije harnessa koje pomažu modelu da izvrši zadatak. Na primjer, učinak GPT‑5.5 na OpenAI cyber rasponima pokazuje kako izbor harnessa može suštinski promijeniti izmjerenu sposobnost na zadacima koji zahtijevaju dugu, višekoračnu upotrebu alata: model radi bolje kada harness koristi kompakciju da očuva kontekst relevantan za zadatak kako interakcija postaje duža. To pokazuje da bi za određene modele harness koji izostavlja kompakciju nedovoljno elicirao učinak.
Veće stope uspjeha su bolje
Druge objavljene evaluacije2 također pokazuju da izbori harnessa i budžeta mijenjaju rezultate evaluacije. Povećanje računanja u vremenu testiranja može značajno promijeniti koju sposobnost evaluacija elicira, posebno u domenima gdje je uspjeh lako provjeriti, kao što su mnogi cyber zadaci. U evaluaciji cyber raspona UK AISI-ja(otvara se u novom prozoru), povećanje budžeta sa 10M na 100M tokena poboljšalo je učinak za do 59%, a učinak je i dalje rastao pri najvećem testiranom budžetu. Navođenje ovoga čini evaluaciju lakšom za tumačenje: pokazuje čitaocima kako rezultat zavisi od testirane postavke elicitacije. Kada se učinak i dalje poboljšava uz dodatni budžet, rezultat treba opisati kao učinak pod tim harnessom i budžetom, a ne kao izmjerenu gornju granicu sposobnosti. Sposobnost često zavisi od resursa, a ne predstavlja fiksnu veličinu koja se može jednom zauvijek čisto izmjeriti. Tamo gdje se uspjeh može mjeriti kroz ponovljene pokušaje, izvještaji bi trebali uzeti u obzir i očekivani trošak po uspješnom rješenju, a ne samo stopu uspjeha pri fiksnom budžetu tokena. To može olakšati tumačenje ozbiljnosti: niska stopa uspjeha i dalje može biti praktično značajna ako je trošak ponovljenih pokušaja unutar relevantnog modela prijetnje. Za tvrdnje o sposobnostima, izbjegljivo nedovoljno eliciranje predstavlja neuspjeh mjerenja: ako harness ili budžet sprečavaju sistem da pokaže ponašanje koje bi inače mogao proizvesti, rezultat ne mjeri sposobnost koja se tvrdi. Tamo gdje su evaluatori pogurali elicitaciju koliko je to izvedivo, a učinak se i dalje poboljšava, izvještaji to trebaju jasno reći i jasno staviti do znanja da je rezultat samo procjena donje granice.
Testiranje zaštitnih mjera može potcijeniti da li napad može uspjeti i koliko bi mogao biti ozbiljan ako ne uzima u obzir resurse dostupne napadačima, uključujući prilagođene harnesse. U cyber evaluaciji GPT‑5.5 UK AISI-ja(otvara se u novom prozoru), njihov ekspertni red teaming pronašao je univerzalni jailbreak koji je elicirao nedozvoljeni cyber sadržaj kroz zlonamjerne upite koje je OpenAI dostavio, uključujući višekružne agentne postavke. Koristili su Codex za izradu prilagođenog harnessa kako bi ojačali napadački učinak modela: ugradio je obrazac zaobilaženja zaštitnih mjera koji se može ponovo koristiti u interakciju, očuvao taj obrazac kroz poteze i blokove te ga primijenio na zlonamjerne cyber upite koje je OpenAI dostavio. Testiranje zaštitnih mjera treba odgovarati protivniku. Ako se tvrdnja odnosi na robusnost prema zloupotrebi od strane stručnjaka, test treba evaluirati najsnažniju vjerodostojnu end-to-end strategiju napada unutar definisanog budžeta, uključujući svaki harness potreban da se ta strategija očuva i ponovo koristi. U suprotnom, rezultati nose rizik pogrešne kalibracije: mogli bi podržati samo užu tvrdnju o otpornosti na jednostavnije upite, mogli bi propustiti i koliko napad postaje ozbiljan i kolika je vjerovatnoća uspjeha kada se metoda elicitacije operacionalizuje, a mogli bi i precijeniti vjerovatnoću ili ozbiljnost problema ako se dodijeli prevelik budžet.
Postoje vrijeme i mjesto za poređenja sa standardizovanim harnessima, ali evaluatori trebaju biti izričiti o tome zašto je upotreba dosljednog skupa harnessa prikladna i koju tvrdnju može podržati. METR-ova evaluacija vremenskog horizonta(otvara se u novom prozoru) primjer je šire, prikladno fiksirane evaluacijske postavke: osmišljena je da proizvede uporedive rezultate kroz sisteme koje evaluira. METR definiše zajednički ishod, tipično trajanje ljudskog zadatka pri kojem se predviđa da će AI agent uspjeti uz dati nivo pouzdanosti. Primjenjuje zajednički skup zadataka, metodu bodovanja, metodu prilagođavanja i mali skup višekratno upotrebljivih pomoćnih struktura kao što su Triframe i ReAct(otvara se u novom prozoru) unutar svake grupe procjena koje se zajedno prijavljuju. Kada je METR proširio skup zadataka i premjestio evaluacijsku infrastrukturu s okvira nazvanog Vivaria na okvir nazvan Inspect, prijavio je promjenu (ažuriranje Time Horizon 1.1(otvara se u novom prozoru)) i ponovo evaluirao modele pod novom evaluacijskom postavkom. To je vrijednost standardizovane evaluacijske postavke, uključujući dosljedan skup harnessa: može uliti povjerenje čitaocima da razlika u rezultatima zaista odražava razliku između sistema koji se porede, a ne promjenu u postavci mjerenja.
Preporučujemo da izvještaji o evaluaciji trećih strana navedu koju vrstu tvrdnje njihova evaluacijska postavka treba podržati; opišu koliko blisko ono što je testirano odražava tu širu tvrdnju; opišu izbore harnessa koji su oblikovali rezultat; navedu kada se ti izbori mijenjaju između evaluacija; i uključe potporne dokaze koji pokazuju kako je rezultat proizveden i koliko se dobro generalizuje na tvrdnju.
Kako modeli postaju sposobniji, rezultate evaluacije postaje lakše pogrešno tumačiti. U odnosu na stvarne sposobnosti, rezultati evaluacije mogu biti umjetno sniženi ako model prepozna da se evaluira i strateški namjerno podbaci. Mogu biti napuhani ako model iskoristi prečicu u zadatku, upitu, ocjenjivaču ili harnessu. Mogu biti iskrivljeni i kontaminacijom (kada model već zna ili može pronaći odgovor bez rješavanja zadatka) ili „neispravnim“ problemima koji su dvosmisleni, pogrešno bodovani, nerješivi ili podložni nenamjernim prečicama. Izvještaji o evaluaciji zato bi trebali upariti glavne rezultate s raspravom o ovim opasnostima, kako bi čitaoci mogli procijeniti odražavaju li rezultati namjeravano ponašanje.
Harnessi, budžeti, alati, pravila bodovanja, monitori i postupci pregleda svi utiču na to da li agent rješava namjeravani zadatak, izbjegava ga, pamti ga ili pronalazi put oko njega. Pouzdan izvještaj čini te provjere vidljivim: evaluatori bi trebali pregledati uzorke za ova ponašanja svaki put kada se procjena provodi.
Manipulacija nagradom
Manipulacija nagradom znači postizanje visokih rezultata evaluacije na načine koji ne odražavaju namjeravanu sposobnost. Ovdje je zabrinutost da sistem dobija priznanje iskorištavanjem zadatka, ocjenjivača, upita ili harnessa umjesto obavljanjem rada koji je evaluacija trebala mjeriti. METR-ova evaluacija GPT 5.4(otvara se u novom prozoru) pokazuje zašto je to važno: iako je model uspijevao na zadacima stopom koja bi pri prvom prolazu odgovarala vremenskom horizontu od otprilike 13 sati, ljudski pregled pokazao je da su neki od tih uspjeha proizašli iz manipulacije nagradom, a revizija rezultata tako da se uzmu u obzir samo slučajevi bez manipulacije nagradom snizila je procjenu na oko 6 sati. Evaluatori bi trebali procijeniti potrebu za takvim prilagodbama i, kada su potrebne, jasno ih prijaviti: procjena sposobnosti mnogo je korisnija kada čitaoci mogu vidjeti koji su prividni uspjesi diskvalifikovani, zašto su diskvalifikovani i koliko rezultat zavisi od te prosudbe.

Odbijanja
Modeli također mogu imati slabiji učinak u evaluacijama sposobnosti zbog zaštitnih mjera. Model može imati slabiji evaluacijski učinak od onoga za šta je sposoban zato što odbija evaluacijske zadatke umjesto da ih završi. Izvještaji bi zato trebali objasniti jesu li odbijanja bila dio rezultata evaluacije i, ako jesu, koliko je uzoraka zbog njih bilo kompromitovano.
Kontaminacija
Kontaminacija je najvažnija za javne ili ponovo korištene benchmarke. Ako se zadaci, odgovori ili bliske varijante pojavljuju u podacima za obuku ili ih agent može pronaći pregledavanjem, učinak može odražavati pamćenje ili dohvat, a ne učinak modela. Evaluatori bi trebali, gdje god je moguće, dati prednost privatnim ili novo konstruisanim zadacima i testirati reprodukuju li modeli detalje specifične za zadatak prije rješavanja.
Neispravni problemi
Neispravni problemi uključuju situacije kao što je problem koji se slučajno ne može riješiti. Neispravni problemi su dovoljno česti(otvara se u novom prozoru) da ih treba tretirati kao standardni rizik za valjanost. Oni uključuju netačnu osnovnu istinu, dvosmislene upite, nedostajuće datoteke, nestabilne servise, nepravedne kriterije bodovanja i okruženja koja otkrivaju prečice kao što su skrivene datoteke s odgovorima ili historija repozitorija koja sadrži patch osnovne istine.
Sandbagging
Sandbagging od strane modela ili sistema znači strateško namjerno slabije izvođenje kada bi snažan učinak bio u sukobu s nekim ciljem. Apolloova evaluacija GPT‑5.5(otvara se u novom prozoru) testirala je to stvaranjem konteksta u kojem je model razumio da bi visoki rezultati evaluacije mogli pokrenuti odučavanje ili blokirati primjenu. GPT‑5.5 je ipak odgovarao tačno, što sugeriše malo bihevioralnih dokaza o strateškom namjerno slabijem izvođenju3. Ali njihov pregled tragova rezonovanja dodao je važan kontekst: Apollo je pronašao umjerene ili jače znakove svijesti o evaluaciji usklađenosti u 52% uzoraka u uslovu sandbagginga, u poređenju s 0% u kontrafaktualima. Ti dokazi komplikuju tumačenje rezultata, ali čitaocima na kraju daju više signala: mogu vidjeti i ohrabrujući bihevioralni rezultat i razlog za oprez pri njegovom pretjeranom tumačenju.
Snažne tvrdnje zahtijevaju i pravi harness za eliciranje ponašanja i provjere valjanosti koje pokazuju da je rezultat pouzdan. Naš stav da su harnessi i provjere valjanosti dio rezultata evaluacije oblikuje način na koji u praksi podržavamo evaluacije trećih strana:
- S evaluatorima dijelimo konkretne smjernice za maksimalnu elicitaciju.
- Od evaluatora sposobnosti tražimo da koriste Codex kao zajednički minimum za OpenAI modele: testovi bi trebali barem pokrenuti osnovnu liniju kroz isti agentni interfejs na koji će se korisnici vjerovatno oslanjati, a ne samo kroz ogoljeni interfejs modela.
- Također stavljamo na raspolaganje tragove rezonovanja i druge međuartefakte tamo gdje su potrebni za procjenu obmane, sandbagginga ili svijesti o evaluaciji. METR i Apollo koriste ovaj pristup u OpenAI evaluacijama još od GPT‑5.
- Na kraju, dajemo prioritet istraživanju kako bismo dublje razumjeli kada i kako izbori harnessa suštinski mijenjaju rezultate, od upravljanja kontekstom i pristupa alatima do ponašanja pri ponovnim pokušajima, bodovanja i budžeta resursa.
Ove preporuke nisu namijenjene samo poboljšanju pojedinačnih izvještaja o evaluaciji, već i informisanju nastajućih nacionalnih (otvara se u novom prozoru)i međunarodnih (otvara se u novom prozoru)standarda za evaluaciju i izvještavanje o frontier AI sistemima. U budućnosti bi standardi za evaluaciju trećih strana trebali zahtijevati dovoljno detalja da donosioci odluka razumiju koje tvrdnje konkretne evaluacije podržavaju, koji je sistem testiran, kako je rezultat eliciran i kako su evaluatori provjerili njegovu valjanost. Za frontier sisteme koji se testiraju na zadacima gdje su agentne sposobnosti važne, detalji bi trebali uključivati (uz poštivanje svih sigurnosnih ili povjerljivih ograničenja):
- Tvrdnja: da li evaluacija poredi sisteme, procjenjuje gornju granicu sposobnosti ili testira zaštitne mjere.
- Sadržaj evaluacije: dovoljno detalja o zadacima ili raspodjeli zadataka da čitaoci razumiju koje vještine, ponašanja ili načine otkaza evaluacija zaista testira.
- Testirani sistem: model, postavku rezonovanja, pristup alatima, harness i zaštitne mjere.
- Budžet: potezi, tokeni, pokušaji/ponovni pokušaji, proteklo vrijeme, trošak inferencije i, gdje je primjenjivo, očekivani trošak po uspješnom rješenju.
- Metode elicitacije: izbori harnessa korišteni za izvlačenje rezultata i koliko blisko ono što je testirano odražava širu tvrdnju koja se iznosi.
- Provjere valjanosti: kako su procjenjivači tražili manipulaciju nagradom, svijest o evaluaciji, kontaminaciju, odbijanja, sandbagging i druga ponašanja koja bi mogla potkopati rezultat, uključujući kako su potvrđeni slučajevi uticali na bodovanje ili tumačenje.
Standardi koji izostavljaju izbore harnessa ili provjere valjanosti mogu potcijeniti šta sistem može učiniti ili precijeniti povjerenje u sigurnosnu tvrdnju. Izgradnja snažnih harnessa i metoda elicitacije ostaje otvoreno istraživačko područje i trebala bi biti fokus daljnjeg istraživanja i ulaganja.
Autor
Pojmovnik
Budući da u ovom tekstu koristimo niz stručnih pojmova, u nastavku smo uključili pojmovnik koji jednostavnim jezikom objašnjava na šta mislimo:
Agentni sistem: Sistem koji može raditi na zadatku kroz više koraka, koristeći alate, održavajući stanje zadatka i djelujući u okruženju, umjesto da samo vrati jedan odgovor na upit.
Procjena: Šira prosudba o tome da li dokazi podržavaju tvrdnju, zaključak o riziku ili stav o uvjeravanju, a može se zasnivati na podacima evaluacije, pregledu dokumenata, intervjuu, pregledu procesa i drugim relevantnim artefaktima.
Kompakcija: Metoda za očuvanje konteksta relevantnog za zadatak tokom dugih izvođenja.
Konfiguracija: Tačno testirani sistem i uslovi evaluacije, izvan samog naziva modela.
Kontaminacija: Kada se zadaci evaluacije, odgovori ili bliske varijante pojavljuju u podacima za obuku modela ili se mogu otkriti tokom evaluacije (npr. putem alata kao što je pregledavanje), pa učinak precjenjuje stvarnu sposobnost generalizacije modela.
Elicitacija: Proces pokušaja da se iz sistema izvuče određena sposobnost ili ponašanje tokom procjene.
Okruženje: Okvir zadatka u kojem se sistem testira. To uključuje stvari poput vanjskog stanja s kojim agent interaguje i koje mijenja tokom evaluacije, kao što su terminalsko okruženje ili videoigra.
Evaluacija: Određeni test ili mjerenje unutar procjene.
Svijest o evaluaciji: Svijest o evaluaciji odnosi se na to da model prepoznaje, ili izgleda kao da prepoznaje, da se evaluira i da potencijalno prilagođava svoje ponašanje tom kontekstu. To može izgledati tako da model izričito rezonuje o tome da je testiran, zaključuje koja je svrha evaluacije ili mijenja svoje ponašanje jer očekuje da će rezultat uticati na to kako će biti ocijenjen ili primijenjen.
Harness: Struktura okrenuta modelu koja mu omogućava da izvrši zadatak: upiti, alati, interfejsi, upravljačka logika, memorija, ponovni pokušaji, validatori i druge potporne strukture oko modela.
Maksimalna elicitacija: Testiranje usmjereno na pronalaženje najsnažnijeg vjerodostojnog učinka ili načina otkaza koji sistem može proizvesti unutar definisanog budžeta, umjesto da se sistem samo jednom provede kroz standardizovani harness.
Tragovi rezonovanja: Zapisi o međukoracima rezonovanja modela tokom testa.
Manipulacija nagradom: Postizanje visokog rezultata putem prečice ili ponašanja izvan namjere evaluatora.
Zaštitne mjere: Filteri, monitori, sistemi blokiranja i druge zaštite primijenjene oko modela ili proizvoda.
Sandbagging: Strateško namjerno slabije izvođenje u evaluaciji na način koji podriva rezultat.
Bodovanje: Metoda koja se koristi da se odredi kako se učinak mjeri ili da li je zadatak uspješno izvršen.
Standardizovani harness: Harness koji ostaje isti kroz različite sisteme umjesto da se prilagođava određenom modelu ili zadatku, tako da se razlike u rezultatima lakše mogu pripisati testiranom modelu.
Vremenski horizont: Dužina zadatka koji sistem može završiti uz navedeni nivo pouzdanosti, često izražena kao vrijeme koje bi istom zadatku trebalo čovjeku.
Pristup alatima: Vanjski alati dostupni modelu tokom procjene.
Trajektorije: Putanje korak po korak koje sistem prati dok radi na zadatku.
Univerzalni jailbreak: Jedinstveni obrazac napada koji navodi sistem da zaobiđe zaštitne mjere kroz mnogo upita ili zadataka.
Fusnote
- 1
Ovaj tekst ne pokušava razriješiti kako bi treće strane trebale evaluirati tvrdnje povezane s neusklađenošću ili sklonošću određenim ponašanjima. Potrebno je više rada da bi se razumjelo kako izbori harnessa utiču na te evaluacije, posebno zato što harnessi koji podržavaju ponašanje s dužim horizontom mogu promijeniti i vrste nenamjernog ponašanja koje evaluatori trebaju pratiti.
- 2
HAL(otvara se u novom prozoru) pruža dodatni primjer iz evaluacija agenata: na CORE-Bench(otvara se u novom prozoru) promjena harnessa na Claude Code promijenila je i izmjereni učinak i profil troškova na istom benchmarku. Drugi javni primjeri uključuju SWE-agent(otvara se u novom prozoru), SeeAct(otvara se u novom prozoru), ScienceAgentBench(otvara se u novom prozoru), CORE-Bench(otvara se u novom prozoru) i Inspect Cyber(otvara se u novom prozoru); svaki čitaocima govori koji su interfejs ili harness proizveli rezultat.
- 3
Postizanje 100% na obje varijante Sandbagging QA i 99,6% na zadatku sandbagginga sa strateškom obmanom.


