Gå til hovedindhold
OpenAI

29. maj 2026

Sikkerhed

En fælles playbook for troværdige tredjepartsevalueringer

Hvad der betyder noget for effektive uafhængige evalueringer af sikkerhedsforanstaltninger og evner for banebrydende modeller.

Indlæser ...

Uafhængige, betroede tredjepartsevalueringer spiller en kritisk rolle i at styrke sikkerhedsøkosystemet. Disse evalueringer udføres på banebrydende modeller for at give yderligere evidens for påstande om kritiske evner og sikkerhedsforanstaltninger. I dette indlæg deler vi de erfaringer, vi hidtil har gjort os, og anbefaler tilgange til at designe evalueringer, der gyldigt kan vurdere frontier-modeller, som vi håber kan være med til at informere nye standarder på området.

Tidligere behandlede mange evalueringer modeller som chatbots: evalueringen promptede en model, som om den var en bruger, der stillede et spørgsmål, modellen svarede, og en evaluator bedømte outputtet. Nutidens banebrydende modeller kan meget mere: de kan bruge værktøjer, holde styr på information på tværs af mange trin og handle inden for et større workflow. Det betyder, at præstation ikke kun afhænger af modellen, men også af det miljø, hvor opgaven foregår, og af den opsætning, der muliggør dens handlinger. Denne omgivende opsætning, som vi kalder „harnesset“, kan ændre centrale aspekter af systemets præstation, herunder hvordan det bruger værktøjer, holder styr på information eller kommer sig efter fejl.

Diagram, der sammenligner et prompt-svar-workflow med et agentisk opgaveworkflow, og viser hvordan kontrolsløjfer, værktøjer, kontekst, budget og sikkerhedsforanstaltninger muliggør autonom opgaveudførelse.

Det ændrer, hvordan evalueringer skal gennemføres, og hvad læsere bør se efter i evalueringsrapporter. Efter vores opfattelse beskriver de mest nyttige rapporter eksplicit to ting ud over selve resultatet: For det første specificerer de, hvilken påstand evalueringsopsætningen var designet til at teste, og for det andet deler de den tilgængelige evidens for, at evalueringsresultatet er gyldigt.

Påstande, der testes i evalueringer, falder typisk i én af tre kategorier1:

  • Elicitering af evner: Kan en model plausibelt frembringe den evne, der evalueres? 
  • Ydeevne af sikkerhedsforanstaltninger: Hvor robuste er de testede sikkerhedsforanstaltninger over for den adfærd eller det angreb, der evalueres?
  • Sammenligning: Hvordan klarer forskellige modeller sig under tilsvarende betingelser?

Evalueringsrapporter skal også forklare, hvordan evaluatorer kontrollerede for effekter, der kunne påvirke et resultats validitet. Disse omfatter:

  • Reward hacking: At udnytte genveje i opgaven eller scoreren, så systemet får kredit uden at demonstrere den adfærd, evalueringen er beregnet til at måle.
  • Afvisninger: At afvise på måder, der skjuler den adfærd, der testes.
  • Kontaminering: At præstere for godt, fordi evalueringsopgaver, svar eller nære varianter optrådte i træningsdata eller kunne findes under evalueringen, f.eks. gennem browsing.
  • Defekte problemer: At præstere for dårligt, fordi opgaver er ugyldige. Årsager kan omfatte uretfærdig scoring (f.eks. at det korrekte svar kræver ikke-oplyste implementeringsdetaljer) og uløselige miljøer (f.eks. manglende kritiske filer eller upålidelige værktøjer).
  • Sandbagging: Bevidst at underpræstere, når de viser bevidsthed om at blive evalueret.

Det er afgørende at vælge det rigtige harness til en evaluering for at opnå optimale resultater

Vi har observeret, at harnessets rolle er særligt vigtig for systemer, der handler over længere trajektorier. Når modeller kan bruge værktøjer, opretholde tilstand og komme sig efter fejl på tværs af mange trin, kan harnesset ændre det observerede præstationsniveau og endda afgøre, om den evne, der vurderes, overhovedet viser sig i evalueringen. For eksempel kan et harness, der bevarer tilstand og prøver mislykkede handlinger igen, lade en model fuldføre en flertrinsopgave, som den samme model aldrig fuldfører i et enklere harness.

I tabellen nedenfor adskiller vi tre typer påstande, som evaluatorer måske vil fremsætte, og det harness, vi mener, hver type påstand kræver.

Påstand, som evalueringen forsøger at understøtte

Passende valg af harness

Evidens, der skal rapporteres

Evne under stærk elicitering: System A kan fuldføre opgaver af type X, når opsætningen er designet til at fremkalde dets stærkeste troværdige præstation.

Brug den stærkest mulige og troværdige eliciteringsopsætning for systemet, herunder testharness, værktøjer, støttestrukturer og det ressourcebudget, som en kompetent bruger med rimelighed ville anvende.

Harness- og værktøjsopsætningen, eliciteringsvejledning, tilladt budget/indsats, tokens/omkostning/tid og hvorfor opsætningen er en troværdig proxy for den påståede evne. Hvis systemer sammenlignes under forskellige optimerede opsætninger, så mærk det som en system-til-system- eller stærk-eliciterings-sammenligning.

Kontrolleret sammenligning: System A klarer sig bedre end System B under en fælles evalueringsopsætning.

Hold opgaverne, scoringen og budgettet fast. Brug enten en fælles harness-/værktøjsopsætning eller et fast sæt standardiserede harnesses valgt på forhånd for at give rimelig maksimal elicitering for de systemer, der sammenlignes.

Det fælles opgavesæt, værktøjer, scoremetode, harness, budget, tokeneffektivitet/omkostning og kendte begrænsninger. Til evalueringer af kodningsagenter kan et open source-harness som Codex CLI give et fast agentloop og en fast værktøjsgrænseflade på tværs af systemer. Den ideelle tilgang til maksimal elicitering ville være at optimere et skræddersyet harness for hver opgave og hvert system, men det er i øjeblikket upraktisk i praksis.

Robusthed af sikkerhedsforanstaltninger under eliciteret angreb: System A’s sikkerhedsforanstaltninger er tilstrækkelige til den relevante modeladfærd eller det eliciterede angreb.

Brug en opsætning til test af sikkerhedsforanstaltninger, der er designet til at fremkalde det stærkeste troværdige angreb under den relevante angribermodel.

Hvordan evaluatorer karakteriserede den relevante modeladfærd, den testede konfiguration af sikkerhedsforanstaltninger, eliciteringsstrategien, det harness der blev brugt til at udføre den, og det tilladte budget eller den tilladte indsats.

Påstande om evner er kun så stærke som den elicitering, der ligger bag dem: evaluatorer skal vælge det harness, der passer bedst til opgaven og den evne, evalueringen forsøger at måle. Et standardiseret harness kan være det rigtige til at sammenligne systemer under identiske betingelser, men det kan undervurdere evnen, når det udelader specifikke harness-funktioner, der hjælper modellen med at udføre opgaven. For eksempel viser GPT‑5.5’s præstation på OpenAI’s cyber ranges, hvordan et valg af harness væsentligt kan ændre den målte evne på opgaver, der kræver langvarig, flertrins brug af værktøjer: modellen klarer sig bedre, når harnesset bruger compaction til at bevare opgaverelevant kontekst, efterhånden som interaktionen bliver længere. Det demonstrerer, at et harness, der udelader compaction, for visse modeller vil fremkalde for lidt præstation.

Højere succesrater er bedre

Andre offentliggjorte evalueringer2 viser også, at valg af harness og budget ændrer evalueringsresultater. Øget compute ved testtid kan markant ændre, hvilken evne en evaluering fremkalder, især i domæner, hvor succes er let at verificere, såsom mange cyberopgaver. I UK AISI’s evaluering af cyber ranges(åbner i et nyt vindue) forbedrede en forøgelse af budgettet fra 10M til 100M tokens præstationen med op til 59 %, og præstationen steg stadig ved det højeste testede budget. At beskrive dette gør evalueringen lettere at fortolke: det viser læserne, hvordan resultatet afhænger af den testede eliciteringsopsætning. Når præstationen stadig forbedres med yderligere budget, bør scoren beskrives som præstation under det pågældende harness og budget, ikke som et målt loft for evnen. Evne er ofte ressourceafhængig snarere end en fast størrelse, der kan måles rent én gang for alle. Hvor succes kan måles på tværs af gentagne forsøg, bør rapporter også overveje forventet omkostning pr. vellykket løsning, ikke kun succesrate ved et fast tokenbudget. Det kan gøre alvoren lettere at fortolke: en lav succesrate kan stadig være praktisk betydningsfuld, hvis omkostningen ved gentagne forsøg ligger inden for den relevante trusselsmodel. For påstande om evner er undgåelig underelicitering en målefejl: hvis harnesset eller budgettet forhindrer systemet i at udvise adfærd, det ellers kunne frembringe, måler scoren ikke den evne, der påstås. Hvor evaluatorer har presset eliciteringen så langt, som det er muligt, og præstationen stadig forbedres, bør rapporter sige det klart og tydeliggøre, at resultatet kun er et estimat af en nedre grænse.

Test af sikkerhedsforanstaltninger kan undervurdere, om et angreb kan lykkes, og hvor alvorligt det kan blive, når der ikke tages højde for de ressourcer, angribere har til rådighed, herunder skræddersyede harnesses. I UK AISI's GPT‑5.5‑cyberevaluering(åbner i et nyt vindue) fandt deres ekspert-red teaming et universelt jailbreak, der fremkaldte cyberindhold i strid med reglerne på tværs af de ondsindede forespørgsler, OpenAI leverede, herunder i agentiske indstillinger med flere ture. De brugte Codex til at skabe et skræddersyet harness for at styrke modellens angrebspræstation: det indlejrede et genanvendeligt mønster til omgåelse af sikkerhedsforanstaltninger i interaktionen, bevarede dette mønster på tværs af dialogomgange og blokke og anvendte det på tværs af de ondsindede cyberforespørgsler, OpenAI leverede. Test af sikkerhedsforanstaltninger bør matche angriberen. Hvis påstanden handler om robusthed over for ekspertmisbrug, bør testen evaluere den stærkeste troværdige end-to-end-angrebsstrategi under et defineret budget, herunder ethvert harness, der er nødvendigt for at bevare og genbruge den strategi. Ellers risikerer resultaterne at være fejlkalibrerede: de kan kun understøtte en snævrere påstand om modstandsdygtighed over for enklere prompting, de kan overse både hvor alvorligt angrebet bliver og sandsynligheden for succes, når eliciteringsmetoden operationaliseres, og de kan også overvurdere, hvor sandsynligt eller alvorligt et problem er, hvis der gives for stort budget.

Der er tid og sted for sammenligninger med standardiserede harnesses, men evaluatorer bør være eksplicitte om, hvorfor det er passende at bruge et konsistent sæt harnesses, og hvilken påstand det kan understøtte. METR's tidshorisont-evaluering(åbner i et nyt vindue) er et eksempel på en bredere, passende fast evalueringsopsætning: den er designet til at producere sammenlignelige resultater på tværs af de systemer, den evaluerer. METR definerer et fælles udfald, den typiske varighed for en menneskelig opgave, hvor en AI-agent forventes at lykkes ved et givet pålidelighedsniveau. Den anvender en fælles opgavesuite, scoremetode, tilpasningsmetode og et lille sæt genanvendelige stilladser såsom Triframe og ReAct(åbner i et nyt vindue) inden for hver batch af estimater, der rapporteres sammen. Da METR udvidede opgavesuiten og flyttede evalueringsinfrastrukturen fra et framework kaldet Vivaria til et kaldet Inspect, rapporterede de ændringen (Time Horizon 1.1-opdatering(åbner i et nyt vindue)) og gen-evaluerede modeller under den nye evalueringsopsætning. Det er værdien af en standardiseret evalueringsopsætning, herunder et konsistent sæt harnesses: den kan give læserne tillid til, at en forskel i scorer virkelig afspejler en forskel mellem de systemer, der sammenlignes, snarere end en ændring i måleopsætningen.

Vi anbefaler, at tredjeparts evalueringsrapporter angiver, hvilken type påstand deres evalueringsopsætning er beregnet til at understøtte; beskriver, hvor tæt det testede afspejler den bredere påstand; beskriver de valg af harness, der formede resultatet; beskriver i detaljer, hvornår disse valg ændrer sig mellem evalueringer; og inkluderer understøttende evidens for at vise, hvordan resultatet blev frembragt, og hvor godt det generaliserer til påstanden.

Vurder validitet ved at kontrollere for kendte risici, der kan forvrænge resultater

Efterhånden som modeller bliver mere kapable, bliver evalueringsscorer lettere at fejlfortolke. I forhold til reelle evner kan evalueringsscorer blive kunstigt reduceret, hvis en model genkender, at den bliver evalueret, og strategisk underpræsterer. De kan blive oppustet, hvis modellen udnytter en genvej i opgaven, prompten, scoreren eller harnesset. De kan også blive forvrænget af kontaminering (hvor en model allerede kender eller kan finde et svar uden at løse opgaven) eller af „defekte“ problemer, der er tvetydige, forkert scoret, uløselige eller sårbare over for utilsigtede genveje. Evalueringsrapporter bør derfor koble overskriftsscorer med en diskussion af disse risici, så læserne kan vurdere, om scorerne afspejler den tilsigtede adfærd.

Harnesses, budgetter, værktøjer, scoringsregler, monitorer og gennemgangsprocedurer påvirker alle, om en agent løser den tilsigtede opgave, undgår den, memorerer den eller finder en vej uden om den. En troværdig rapport gør disse kontroller synlige: evaluatorer bør gennemgå prøver for disse adfærdsmønstre, hver gang en vurdering gennemføres.

Reward hacking

Reward hacking betyder at opnå høje evalueringsscorer på måder, der ikke afspejler den tilsigtede evne. Her er bekymringen, at systemet får kredit ved at udnytte opgaven, scoreren, prompten eller harnesset i stedet for ved at udføre det arbejde, evalueringen var beregnet til at måle. METR’s evaluering af GPT 5.4(åbner i et nyt vindue) viser, hvorfor dette er vigtigt: selv om modellen lykkedes med opgaver i en grad, der ved første gennemgang ville være registreret som en tidshorisont på omtrent 13 timer, viste menneskelig gennemgang, at nogle af disse succeser kom fra reward hacking, og en revision af resultaterne, så kun tilfælde uden reward hacking blev medregnet, sænkede estimatet til omkring 6 timer. Evaluatorer bør vurdere behovet for sådanne justeringer og, når de er nødvendige, rapportere dem klart: et estimat af en evne er langt mere nyttigt, når læserne kan se, hvilke tilsyneladende succeser der blev diskvalificeret, hvorfor de blev diskvalificeret, og hvor meget resultatet afhænger af den vurdering.

Diagram, der viser AI-modelpræstation over tid med en trendlinje og konfidensintervaller.

Afvisninger

Modeller kan også underpræstere i evalueringer af evner på grund af sikkerhedsforanstaltninger. En model kan have lavere evalueringspræstation, end den er i stand til, fordi den afviser evalueringsopgaver i stedet for at fuldføre dem. Rapporter bør derfor forklare, om afvisninger var en del af evalueringsresultaterne, og hvis ja, hvor mange prøver der blev kompromitteret på grund af dem.

Kontaminering

Kontaminering betyder mest for offentlige eller genbrugte benchmarks. Hvis opgaver, svar eller nære varianter optræder i træningsdata eller kan findes af en agent med browsing, kan præstation afspejle memorering eller hentning snarere end modelpræstation. Evaluatorer bør, hvor det er muligt, foretrække private eller nykonstruerede opgaver og teste, om modeller gengiver opgavespecifikke detaljer, før de løser opgaven.

Defekte problemer

Defekte problemer omfatter situationer som et problem, der ved et uheld ikke kan løses. Defekte problemer er tilstrækkeligt almindelige(åbner i et nyt vindue) til, at de bør behandles som en standardrisiko for validitet. De omfatter forkert ground truth, tvetydige prompts, manglende filer, ustabile tjenester, uretfærdige scoringskriterier og miljøer, der afslører genveje såsom skjulte svarfiler eller lagerhistorik, der indeholder ground-truth-patchen.

Sandbagging

Sandbagging fra en model eller et system betyder strategisk at underpræstere, når stærk præstation ville være i konflikt med et mål. Apollos GPT‑5.5‑evaluering(åbner i et nyt vindue) testede dette ved at skabe en kontekst, hvor modellen forstod, at høje evalueringsscorer kunne udløse unlearning eller blokere implementering. GPT‑5.5 svarede stadig korrekt, hvilket tyder på begrænset adfærdsmæssig evidens for strategisk underpræstation3. Men deres gennemgang af reasoning traces tilføjede vigtig kontekst: Apollo fandt moderate eller stærkere tegn på bevidsthed om alignment-evaluering i 52 % af prøverne under sandbagging-betingelsen sammenlignet med 0 % i kontrafaktiske tilfælde. Den evidens komplicerer fortolkningen af resultatet, men giver i sidste ende læserne mere signal: læserne kan se både det betryggende adfærdsmæssige resultat og grunden til at være forsigtige med at overfortolke det.

Hvordan vi understøtter stærkere evalueringer

Stærke påstande kræver både det rigtige harness til at fremkalde adfærden og validitetskontroller, der viser, at resultatet er solidt. Vores syn på, at harnesses og validitetskontroller er en del af evalueringsresultatet, former, hvordan vi i praksis understøtter tredjepartsevalueringer: 

  • Vi deler specifik vejledning om maksimal elicitering med evaluatorer.
  • Vi beder evaluatorer af evner om at bruge Codex som et fælles minimum for OpenAI-modeller: tests bør som minimum køre en baseline gennem den samme agentiske grænseflade, som brugere sandsynligvis vil stole på, frem for kun gennem en nedskåret modelgrænseflade.
  • Vi gør også reasoning traces og andre mellemliggende artefakter tilgængelige, hvor de er nødvendige for at vurdere bedrag, sandbagging eller evalueringsbevidsthed. METR og Apollo har brugt denne adgang i OpenAI-evalueringer siden GPT‑5. 
  • Endelig prioriterer vi forskning for at forstå mere indgående, hvornår og hvordan valg af harness væsentligt ændrer resultater, fra kontekststyring og værktøjsadgang til genforsøgsadfærd, scoring og ressourcebudgetter.

Hvad dette betyder for evalueringsstandarder og fremtidige forskningsretninger 

Disse anbefalinger er ikke kun tænkt til at forbedre individuelle evalueringsrapporter, men også til at informere nye nationale (åbner i et nyt vindue)og internationale (åbner i et nyt vindue)standarder for evaluering og rapportering af frontier-AI. Fremadrettet bør standarder for tredjepartsevaluering kræve tilstrækkelig detaljeringsgrad til, at beslutningstagere kan forstå, hvilke påstande de specifikke evalueringer understøtter, hvilket system der blev testet, hvordan resultatet blev fremkaldt, og hvordan evaluatorer kontrollerede dets validitet. For banebrydende systemer, der testes på opgaver, hvor agentiske evner er vigtige, bør detaljer omfatte (med forbehold for eventuelle sikkerheds- eller fortrolighedshensyn):

  • Påstanden: om evalueringen sammenligner systemer, estimerer et loft for evner eller tester sikkerhedsforanstaltninger.
  • Evalueringsindhold: tilstrækkelig detaljeringsgrad om opgaverne eller opgavefordelingen til, at læserne kan forstå, hvilke færdigheder, adfærdsmønstre eller fejltilstande evalueringen faktisk tester.
  • Det testede system: modellen, indstillingen for ræsonnering, værktøjsadgang, harness og sikkerhedsforanstaltninger.
  • Budgettet: dialogomgange, tokens, forsøg/genforsøg, faktisk tid, inferensomkostning og, hvor relevant, forventet omkostning pr. vellykket løsning.
  • Eliciteringsmetoder: de valg af harness, der blev brugt til at fremkalde resultatet, og hvor tæt det testede afspejler den bredere påstand, der fremsættes.
  • Validitetskontroller: hvordan evaluatorer ledte efter reward hacking, evalueringsbevidsthed, kontaminering, afvisninger, sandbagging og anden adfærd, der kunne underminere resultatet, herunder hvordan bekræftede tilfælde påvirkede scoring eller fortolkning.

Standarder, der udelader valg af harness eller validitetskontroller, kan undervurdere, hvad et system kan gøre, eller overvurdere tilliden til en sikkerhedspåstand. At bygge stærke harnesses og eliciteringsmetoder er fortsat et åbent forskningsområde og bør være et fokus for yderligere undersøgelse og investering.

Skrevet af

OpenAI

Ordliste

Fordi vi bruger en række fagudtryk i dette indlæg, har vi inkluderet en ordliste nedenfor med en forklaring i almindeligt sprog på, hvad vi henviser til:

  • Agentisk system: Et system, der kan arbejde sig gennem en opgave over flere trin ved at bruge værktøjer, bevare opgavetilstand og handle i et miljø, i stedet for kun at returnere ét enkelt svar på en prompt.

  • Vurdering: En bredere bedømmelse af, om evidens understøtter en påstand, risikokonklusion eller sikkerhedsposition, som kan være baseret på evalueringsdata, dokumentgennemgang, interview, procesgennemgang og andre relevante artefakter.

  • Compaction: Metode til at bevare opgaverelevant kontekst under lange forløb.

  • Konfiguration: Det præcist testede system og evalueringsbetingelserne, ud over modelnavnet.

  • Kontaminering: Når evalueringsopgaver, svar eller nære varianter optræder i en models træningsdata eller kan findes under evalueringen (f.eks. via værktøjer som browsing), så præstationen overvurderer modellens reelle generalisering.

  • Elicitering: Processen med at forsøge at fremkalde en evne eller adfærd fra et system under en vurdering.

  • Miljø: Den opgavesammenhæng, hvor et system testes. Det omfatter ting som den eksterne tilstand, agenten interagerer med og ændrer under en evaluering, såsom et terminalmiljø eller et videospil.

  • Evaluering: En bestemt test eller måling inden for en vurdering.

  • Evalueringsbevidsthed: Evalueringsbevidsthed henviser til, at en model genkender, eller ser ud til at genkende, at den bliver evalueret, og potentielt justerer sin adfærd som reaktion på den kontekst. Det kan se ud som, at modellen eksplicit ræsonnerer om at blive testet, udleder formålet med evalueringen eller ændrer sin adfærd, fordi den forventer, at resultatet vil påvirke, hvordan den bliver bedømt eller implementeret.

  • Harness: Den modelvendte struktur, der lader en model udføre en opgave: prompts, værktøjer, grænseflader, kontrollogik, hukommelse, genforsøg, validatorer og andre støttende strukturer omkring modellen.

  • Maksimal elicitering: Testning med henblik på at finde den stærkeste troværdige præstation eller fejltilstand, et system kan frembringe inden for et defineret budget, frem for blot at køre systemet én gang gennem et standardiseret harness.

  • Reasoning traces: Registreringer af modellens mellemliggende ræsonnering under en test.

  • Reward hacking: At opnå en høj score gennem en genvej eller adfærd uden for evaluatorens hensigt.

  • Sikkerhedsforanstaltninger: Filtre, monitorer, blokeringssystemer og andre beskyttelser anvendt omkring en model eller et produkt.

  • Sandbagging: Strategisk underpræstation i en evaluering på en måde, der underminerer resultatet.

  • Scoring: Metode, der bruges til at afgøre, hvordan præstation måles, eller om en opgave lykkedes.

  • Standardiseret harness: Et harness, der holdes ens på tværs af systemer i stedet for at blive tilpasset en bestemt model eller opgave, så forskelle i resultater lettere kan tilskrives den testede model.

  • Tidshorisont: Længden af en opgave, et system kan gennemføre med en specificeret pålidelighed, ofte udtrykt som hvor lang tid den samme opgave ville tage et menneske.

  • Værktøjsadgang: Eksterne værktøjer, der er tilgængelige for modellen under vurderingen.

  • Trajektorier: De trin-for-trin-forløb et system følger, mens det arbejder sig gennem en opgave.

  • Universel jailbreak: Et enkelt angrebsmønster, der får et system til at omgå sikkerhedsforanstaltninger på tværs af mange prompts eller opgaver.

Fodnoter

  1. 1

    Dette indlæg forsøger ikke at afgøre, hvordan tredjeparter bør evaluere påstande om misalignment eller tilbøjelighedsrelaterede forhold. Der er behov for mere arbejde for at forstå, hvordan valg af harness påvirker disse evalueringer, især fordi harnesses, der understøtter adfærd med længere tidshorisont, også kan ændre de typer utilsigtet adfærd, evaluatorer skal overvåge.

  2. 2

    HAL(åbner i et nyt vindue) giver et yderligere eksempel fra agentevalueringer: på CORE-Bench(åbner i et nyt vindue) ændrede en ændring af harness til Claude Code både den målte præstation og omkostningsprofilen på det samme benchmark. Andre offentlige eksempler omfatter SWE-agent(åbner i et nyt vindue), SeeAct(åbner i et nyt vindue), ScienceAgentBench(åbner i et nyt vindue), CORE-Bench(åbner i et nyt vindue) og Inspect Cyber(åbner i et nyt vindue); hver af dem fortæller læserne, hvilken grænseflade eller hvilket harness der producerede scoren.

  3. 3

    Scorede 100 % på begge Sandbagging QA-varianter og 99,6 % på sandbagging-opgaven om strategisk bedrag.