Gå direkt till huvudinnehåll
OpenAI

29 maj 2026

Säkerhet

En gemensam handbok för tillförlitliga tredjepartsutvärderingar

Vad som är viktigt för effektiva oberoende utvärderingar av skyddsåtgärder och förmågor hos frontiermodeller.

Laddar …

Oberoende, betrodda utvärderingar från tredje part spelar en avgörande roll för att stärka säkerhetsekosystemet. Dessa utvärderingar genomförs på frontiermodeller för att ge ytterligare bevis för påståenden om kritiska förmågor och säkerhetsåtgärder. I det här inlägget delar vi lärdomar vi hittills dragit och rekommenderar tillvägagångssätt för att utforma utvärderingar som på ett giltigt sätt kan bedöma frontiermodeller, vilket vi hoppas kan bidra till framväxande standarder på området.

Tidigare behandlade många utvärderingar modeller som chattbottar: utvärderingen promptade en modell som om den vore en användare som ställde en fråga, modellen svarade och en utvärderare bedömde resultatet. Dagens frontiermodeller kan göra mycket mer: de kan använda verktyg, hålla reda på information över många steg och agera inom ett större arbetsflöde. Det innebär att prestationen inte bara beror på modellen, utan också på den miljö där uppgiften äger rum och på det upplägg som möjliggör dess handlingar. Detta omgivande upplägg, som vi kallar ”ramverk”, kan förändra viktiga aspekter av systemets prestation, inklusive hur det använder verktyg, håller reda på information eller återhämtar sig från misstag.

Diagram som jämför ett arbetsflöde baserat på prompt och svar med ett agentbaserat arbetsflöde, och visar hur kontrollslingor, verktyg, kontext, resursbudget och skyddsmekanismer möjliggör autonomt utförande av uppgifter.

Detta förändrar hur utvärderingar behöver genomföras och vad läsare bör leta efter i utvärderingsrapporter. Enligt vår mening beskriver de mest användbara rapporterna uttryckligen två saker utöver själva resultatet: För det första anger de vilket påstående utvärderingsupplägget utformats för att testa, och för det andra delar de tillgängliga bevis för att utvärderingsresultatet är giltigt.

Påståenden som testas i utvärderingar faller vanligtvis i en av tre kategorier1:

  • Elicitering av förmåga: Kan en modell på ett trovärdigt sätt uppvisa den förmåga som utvärderas? 
  • Skyddsåtgärders prestation: Hur robusta är de testade skyddsåtgärderna mot det beteende eller den attack som utvärderas?
  • Jämförelse: Hur presterar olika modeller under likvärdiga förhållanden?

Utvärderingsrapporter behöver också förklara hur utvärderare kontrollerade effekter som kan påverka giltigheten i ett resultat. Dessa inkluderar:

  • Belöningsmanipulation: Att utnyttja genvägar i uppgiften eller poängsättningen så att systemet tilldelas poäng utan att uppvisa det beteende som utvärderingen är avsedd att mäta.
  • Avvisanden: Att avvisa en begäran på ett sätt som gör det svårt att bedöma det beteende som utvärderingen avser att testa.
  • Kontaminering: Överprestation eftersom utvärderingsuppgifter, svar eller nära varianter förekom i träningsdata eller gick att hitta under utvärderingen, till exempel genom webbsökning.
  • Trasiga uppgifter: Underprestation eftersom uppgifter är ogiltiga. Skäl kan vara orättvis poängsättning (t.ex. att rätt svar kräver implementeringsdetaljer som inte anges) och olösbara miljöer (t.ex. saknade kritiska filer eller opålitliga verktyg).
  • Sandbagging: Att medvetet underprestera när systemet är medvetet om att det utvärderas.

Att välja rätt ramverk för en utvärdering är avgörande för optimala resultat

Vi har observerat att ramverkets roll är särskilt viktig för system som agerar över längre trajektorier. När modeller kan använda verktyg, upprätthålla tillstånd och återhämta sig från misstag över många steg kan ramverket förändra den observerade prestationsnivån och till och med avgöra om den förmåga som bedöms alls framträder i utvärderingen. Till exempel kan ett ramverk som bevarar tillstånd och försöker igen efter misslyckade handlingar låta en modell slutföra en flerstegsuppgift som samma modell aldrig slutför i ett enklare ramverk.

I tabellen nedan skiljer vi mellan tre typer av påståenden som utvärderare kan vilja göra och det ramverk som vi anser att varje typ av påstående kräver.

Påstående som utvärderingen syftar till att stödja

Lämpligt val av ramverk

Bevis att rapportera

Förmåga under stark elicitering: System A kan slutföra uppgifter av typ X när upplägget är utformat för att få fram dess starkaste trovärdiga prestation.

Använd den starkaste trovärdiga eliciteringsuppsättningen för systemet, inklusive det ramverk, de verktyg, de stödfunktioner och den resursbudget som en kompetent användare rimligen skulle använda.

Ramverks- och verktygskonfigurationen, riktlinjerna för elicitering, den tillåtna resursåtgången samt antalet token, kostnaden och tidsåtgången, och varför upplägget utgör en trovärdig proxy för den påstådda förmågan. Om system jämförs med olika optimerade upplägg ska detta anges som en jämförelse mellan system eller en jämförelse baserad på stark elicitering.

Kontrollerad jämförelse: System A presterar bättre än System B under ett gemensamt utvärderingsupplägg.

Använd samma uppgifter, poängsättning och resursbudget genom hela jämförelsen. Använd antingen ett gemensamt ramverks- och verktygsupplägg eller en på förhand fastställd uppsättning standardiserade ramverk som valts ut för att ge en rimlig nivå av maximal elicitering för de system som jämförs.

Det gemensamma uppgiftsunderlaget, de verktyg, den poängsättningsmetod, det ramverk, den resursbudget, den tokeneffektivitet och kostnad samt de kända begränsningarna som används. För utvärderingar av kodningsagenter kan ett ramverk med öppen källkod, såsom Codex CLI, användas för att tillhandahålla en och samma agentcykel och ett gemensamt verktygsgränssnitt för olika system. Den ideala metoden för maximal elicitering vore att optimera ett skräddarsytt ramverk för varje uppgift och system, men detta är för närvarande opraktiskt i praktiken.

Skyddens robusthet mot eliciterade angrepp: System A:s skydd är tillräckliga för det relevanta modellbeteendet eller det eliciterade angreppet.

Använd en testuppsättning för skyddsmekanismer som är utformad för att få fram det starkaste trovärdiga angreppet inom ramen för den relevanta angriparmodellen.

Hur utvärderarna beskrev det relevanta modellbeteendet, den skyddskonfiguration som testades, eliciteringsstrategin, det ramverk som användes för att genomföra den samt den resursbudget eller arbetsinsats som tilläts.

Påståenden om förmåga är bara så starka som den elicitering som ligger bakom dem: utvärderare behöver välja den testmiljö som bäst passar uppgiften och den förmåga som utvärderingen syftar till att mäta. Ett standardiserat upplägg kan vara lämpligt när system ska jämföras under identiska förhållanden, men det kan samtidigt underskatta en modells förmåga om det saknar funktioner som hjälper modellen att utföra uppgiften. GPT‑5.5:s resultat i OpenAI:s cybermiljöer visar exempelvis hur valet av testmiljö kan ha stor påverkan på den uppmätta förmågan i uppgifter som kräver långvarig och flerstegsbaserad användning av verktyg. Modellen presterar bättre när testmiljön använder komprimering för att bevara uppgiftsrelevant kontext när interaktionen blir längre. Detta visar att en testmiljö som saknar komprimering kan ge en missvisande bild av den faktiska förmågan hos vissa modeller.

Högre framgångsgrad är bättre

Andra publicerade utvärderingar2 visar också att val av testmiljö och budget kan påverka utvärderingsresultaten. Ökade beräkningsresurser vid testning kan avsevärt påverka vilken förmåga en utvärdering får fram, särskilt inom områden där framgång är lätt att verifiera, såsom många cyberuppgifter. I UK AISI:s utvärdering i cybermiljöer(öppnas i ett nytt fönster) förbättrade en ökning av budgeten från 10 miljoner till 100 miljoner token prestationen med upp till 59 %, och prestationen fortsatte att förbättras även vid den högsta testade budgeten. Att redovisa detta gör utvärderingen lättare att tolka eftersom det visar hur resultatet påverkas av den testade eliciteringsmetoden. När prestationen fortfarande förbättras med en större budget bör resultatet beskrivas som prestation under den aktuella testmiljön och budgeten, inte som en uppmätt övre gräns för modellens förmåga. Förmåga är ofta resursberoende snarare än en oförändrad egenskap som kan mätas en gång för alla. När framgång kan mätas vid upprepade försök bör rapporter även beakta den förväntade kostnaden per lyckad lösning, inte bara framgångsgraden vid en fast tokenbudget. Detta kan göra risknivån lättare att bedöma. En låg framgångsgrad kan fortfarande vara praktiskt betydelsefull om kostnaden för upprepade försök ryms inom den relevanta hotmodellen. För påståenden om förmåga är otillräcklig elicitering ett mätfel: om testmiljön eller budgeten hindrar systemet från att uppvisa beteenden som det annars skulle kunna uppvisa, mäter resultatet inte den förmåga som påstås. Om utvärderare har drivit eliciteringen så långt det är praktiskt möjligt och prestationen fortfarande förbättras bör detta framgå tydligt av rapporten, tillsammans med en förklaring att resultatet endast utgör en uppskattad nedre gräns för den faktiska förmågan.

Testning av skyddsåtgärder kan underskatta både sannolikheten att en attack lyckas och vilka konsekvenser den kan få om man inte tar hänsyn till de resurser som står angripare till buds, inklusive anpassade testmiljöer. I UK AISI:s cyberutvärdering av GPT‑5.5(öppnas i ett nytt fönster) fann deras expertbaserade red teaming en generell jailbreak-metod som framlockade otillåtet cyberinnehåll för samtliga skadliga frågor som OpenAI tillhandahöll, även i agentbaserade scenarier med flera steg. De använde Codex för att skapa en anpassad testmiljö som förstärkte attackens effektivitet. Den byggde in ett återanvändbart mönster för att kringgå skyddsåtgärder i interaktionen, bevarade mönstret mellan olika turer och block samt tillämpade det på de skadliga cyberfrågor som OpenAI tillhandahöll. Testning av skyddsåtgärder bör utformas utifrån den angripare som avses. Om påståendet gäller robusthet mot avancerat missbruk bör testet utvärdera den starkaste trovärdiga attackstrategin från början till slut inom en definierad budget, inklusive de testmiljöer som krävs för att bevara och återanvända strategin. Annars riskerar resultaten att bli missvisande. De kan då endast stödja ett snävare påstående om motståndskraft mot enklare promptning, missa både attackens konsekvenser och sannolikheten att den lyckas när eliciteringsmetoden används i praktiken, eller överskatta hur sannolikt eller allvarligt ett problem är om budgeten sätts för högt.

Det finns tillfällen då jämförelser med standardiserade testmiljöer är lämpliga, men utvärderare bör vara tydliga med varför en konsekvent uppsättning testmiljöer är lämplig och vilka slutsatser den kan stödja. METR:s utvärdering av tidshorisont(öppnas i ett nytt fönster) är ett exempel på ett bredare, avsiktligt standardiserat utvärderingsupplägg som är utformat för att ge jämförbara resultat mellan de system som utvärderas. METR definierar ett gemensamt mått: den typiska tid det tar att utföra en uppgift för vilken en AI-agent förutsägs lyckas med en viss tillförlitlighetsnivå. Utvärderingen använder en gemensam uppgiftssvit, poängsättningsmetod, anpassningsmetod och en mindre uppsättning återanvändbara stödfunktioner, såsom Triframe och ReAct(öppnas i ett nytt fönster), inom varje omgång uppskattningar som rapporteras tillsammans. När METR utökade uppgiftssviten och flyttade utvärderingsinfrastrukturen från ett ramverk kallat Vivaria till ett kallat Inspect redovisade de förändringen (uppdatering av Time Horizon 1.1(öppnas i ett nytt fönster)) och utvärderade modellerna på nytt med det nya utvärderingsupplägget. Det är styrkan med ett standardiserat utvärderingsupplägg, inklusive en konsekvent uppsättning testmiljöer: det ger läsaren större förtroende för att skillnader i resultat faktiskt speglar skillnader mellan de system som jämförs, snarare än förändringar i själva mätupplägget.

Vi rekommenderar att utvärderingsrapporter från tredje part anger vilken typ av påstående deras utvärderingsupplägg är avsett att stödja, beskriver hur nära det som testades speglar det bredare påståendet, beskriver de val av ramverk som formade resultatet, redogör för när dessa val förändras mellan utvärderingar och inkluderar stödjande bevis för att visa hur resultatet producerades och hur väl det generaliserar till påståendet.

Bedöm giltighet genom att kontrollera kända risker som kan snedvrida resultat

När modeller blir mer kapabla blir utvärderingsresultat också lättare att misstolka. I förhållande till en modells faktiska förmåga kan resultaten bli artificiellt låga om modellen inser att den utvärderas och medvetet underpresterar. De kan bli artificiellt höga om modellen utnyttjar genvägar i uppgiften, prompten, poängsättningen eller testmiljön. Resultaten kan också snedvridas av kontaminering (när modellen redan känner till svaret eller kan hitta det utan att lösa uppgiften) eller av trasiga uppgifter som är tvetydiga, felaktigt poängsatta, olösbara eller sårbara för oavsiktliga genvägar. Utvärderingsrapporter bör därför komplettera de övergripande resultaten med en diskussion om dessa risker, så att läsaren kan bedöma om resultaten faktiskt speglar det beteende som avses.

Ramverk, budgetar, verktyg, poängsättningsregler, övervakare och granskningsrutiner påverkar huruvida en agent löser den avsedda uppgiften, undviker den, memorerar den eller hittar en väg runt den. En tillförlitlig rapport gör dessa kontroller synliga: utvärderare bör granska stickprov för dessa beteenden varje gång en bedömning genomförs.

Belöningsmanipulation

Belöningsmanipulation innebär att uppnå höga utvärderingsresultat på sätt som inte speglar den avsedda förmågan. Risken är att systemet tilldelas poäng genom att utnyttja genvägar i uppgiften, poängsättningen, prompten eller testmiljön i stället för att utföra det arbete som utvärderingen är avsedd att mäta. METR:s utvärdering av GPT‑5.4(öppnas i ett nytt fönster) visar varför detta är viktigt. Även om modellen löste uppgifter i en takt som vid första anblick motsvarade en tidshorisont på omkring 13 timmar visade mänsklig granskning att vissa av framgångarna berodde på belöningsmanipulation. När resultaten justerades så att endast fall utan belöningsmanipulation räknades sjönk uppskattningen till omkring 6 timmar. Utvärderare bör bedöma behovet av sådana justeringar och, när de behövs, redovisa dem tydligt. En uppskattning av förmåga blir betydligt mer användbar när läsaren kan se vilka skenbara framgångar som uteslöts, varför de uteslöts och hur stor påverkan dessa bedömningar har på resultatet.

Diagram som visar AI-modellers prestation över tid med en trendlinje och konfidensintervall.

Avvisanden

Modeller kan också prestera sämre i förmågeutvärderingar på grund av skyddsåtgärder. En modell kan uppnå sämre resultat än dess faktiska förmåga motiverar om den avvisar utvärderingsuppgifter i stället för att genomföra dem. Rapporter bör därför redovisa om avvisanden påverkade utvärderingsresultaten och, i så fall, hur många exempel eller testfall som påverkades.

Kontaminering

Kontaminering är särskilt relevant för offentliga eller återanvända benchmarktester. Om uppgifter, svar eller närliggande varianter förekommer i träningsdatan eller kan hittas av en agent med hjälp av webbsökning kan resultaten spegla memorering eller informationshämtning snarare än modellens faktiska förmåga. Utvärderare bör därför, när det är möjligt, föredra privata eller nykonstruerade uppgifter och kontrollera om modeller återger uppgiftsspecifika detaljer innan de faktiskt löser uppgiften.

Trasiga uppgifter

Trasiga uppgifter omfattar situationer där en uppgift av misstag inte går att lösa. Sådana uppgifter är tillräckligt vanliga(öppnas i ett nytt fönster) för att betraktas som en standardmässig risk för utvärderingens giltighet. Exempel är felaktiga facit, tvetydiga instruktioner, saknade filer, opålitliga tjänster, orättvisa poängsättningskriterier och miljöer som exponerar genvägar, såsom dolda svarsfiler eller förvar som innehåller den korrekta lösningen.

Sandbagging

Sandbagging innebär att en modell eller ett system medvetet presterar sämre än det skulle kunna göra när goda resultat skulle motverka något av dess mål. I Apollos utvärdering av GPT‑5.5(öppnas i ett nytt fönster) testades detta genom att skapa en situation där modellen förstod att höga utvärderingsresultat kunde leda till avlärning eller hindra att modellen togs i bruk. GPT‑5.5 fortsatte trots detta att svara korrekt, vilket tyder på begränsade beteendemässiga tecken på strategisk underprestation3. Granskningen av modellens resonemangsspår gav dock viktig ytterligare kontext. Apollo fann måttliga eller starkare tecken på att modellen var medveten om att den utvärderades för målanpassning i 52 % av exemplen i sandbagging-scenariot, jämfört med 0 % i de kontrafaktiska jämförelsefallen. Detta gör resultatet mer nyanserat att tolka, men ger samtidigt läsaren mer information. Läsaren kan se både det betryggande resultatet och skälen att vara försiktig med att dra alltför långtgående slutsatser av det.

Hur vi stöder starkare utvärderingar

Starka påståenden kräver både rätt ramverk för att locka fram beteendet och giltighetskontroller som visar att resultatet är välgrundat. Vår syn att ramverk och giltighetskontroller är en del av utvärderingsresultatet formar hur vi i praktiken stöder utvärderingar från tredje part: 

  • Vi delar specifik vägledning om maximal elicitering med utvärderare.
  • Vi uppmanar utvärderare av förmåga att använda Codex som en gemensam lägstanivå för OpenAI-modeller. Tester bör åtminstone köra en baslinje genom samma agentbaserade gränssnitt som användare sannolikt kommer att förlita sig på, i stället för enbart genom ett förenklat modellgränssnitt.
  • Vi gör också resonemangsspår och andra mellanliggande artefakter tillgängliga när de behövs för att bedöma bedrägeri, sandbagging eller medvetenhet om att modellen utvärderas. METR och Apollo har haft tillgång till detta material i OpenAI:s utvärderingar sedan GPT‑5. 
  • Slutligen prioriterar vi forskning för att få en djupare förståelse för när och hur val av testmiljöer har en betydande påverkan på resultaten – från kontexthantering och verktygsåtkomst till återförsöksbeteende, poängsättning och resursbudgetar.

Vad detta innebär för utvärderingsstandarder och framtida forskningsinriktningar 

Dessa rekommendationer är inte bara avsedda att förbättra enskilda utvärderingsrapporter, utan också att bidra till framväxande nationella (öppnas i ett nytt fönster)och internationella (öppnas i ett nytt fönster)standarder för utvärdering och rapportering av frontiersystem. Framöver bör standarder för tredjepartsutvärderingar kräva tillräckligt med detaljer för att beslutsfattare ska kunna förstå vilka slutsatser de specifika utvärderingarna kan stödja, vilket system som testades, hur resultatet togs fram och hur utvärderarna kontrollerade resultatets giltighet. För frontiersystem som testas på uppgifter där agentbaserade förmågor spelar en viktig roll bör detaljerna omfatta (med förbehåll för eventuella säkerhets- eller sekretesshänsyn):

  • Påståendet: om utvärderingen jämför system, uppskattar ett tak för förmåga eller testar skyddsåtgärder.
  • Utvärderingsinnehåll: Tillräckligt med information om uppgifterna eller uppgiftsfördelningen för att läsaren ska kunna förstå vilka färdigheter, beteenden eller feltyper som utvärderingen faktiskt testar.
  • Det testade systemet: Modellen, inställning för resonemang, verktygsåtkomst, ramverk och skyddsåtgärder.
  • Budgeten:Budgeten: antal turer, token, försök/återförsök, faktisk förfluten tid, inferenskostnad och, där det är tillämpligt, förväntad kostnad per lyckad lösning.
  • Eliciteringsmetoder: de val av ramverk som användes för att få fram resultatet och hur nära det som testades speglar det bredare påstående som görs.
  • Giltighetskontroller: hur utvärderare granskade förekomsten av belöningsmanipulation, medvetenhet om att modellen utvärderas, kontaminering, avvisanden, sandbagging och andra beteenden som kan undergräva resultatet, inklusive hur bekräftade fall påverkade poängsättningen eller tolkningen av resultaten.

Standarder som inte redovisar val av testmiljöer eller giltighetskontroller riskerar att underskatta vad ett system faktiskt kan göra eller att ge en alltför hög tilltro till säkerhetspåståenden. Att utveckla robusta testmiljöer och eliciteringsmetoder är fortfarande ett öppet forskningsområde och bör vara en prioriterad fråga för fortsatt forskning och investeringar.

Författare

OpenAI

Ordlista

Eftersom vi använder ett antal facktermer i det här inlägget har vi inkluderat en ordlista nedan som ger en lättbegriplig förklaring av vad vi syftar på:

  • Agentbaserade system: Ett system som kan arbeta igenom en uppgift i flera steg, använda verktyg, upprätthålla uppgiftsstatus och agera i en miljö, i stället för att bara returnera ett enda svar på en prompt.

  • Bedömning: Ett övergripande ställningstagande till om tillgängliga bevis stöder ett påstående, en riskbedömning eller en försäkran. Bedömningen kan baseras på utvärderingsdata, dokumentgranskning, intervjuer, processgranskningar och andra relevanta underlag.

  • Komprimering: En metod för att bevara uppgiftsrelevant kontext under långa körningar.

  • Konfiguration: Exakt testat system och utvärderingsförhållanden, utöver modellnamnet.

  • Kontaminering: När utvärderingsuppgifter, svar eller nära varianter förekommer i en modells träningsdata eller går att hitta under utvärderingen (t.ex. via verktyg som webbsökning), vilket gör att prestationen överskattar modellens verkliga generaliseringsförmåga.

  • Elicitering: Processen att försöka få fram en förmåga eller ett beteende från ett system under en bedömning.

  • Miljö: Den uppgiftsmiljö där ett system testas. Detta omfattar sådant som det externa tillstånd som agenten interagerar med och ändrar under en utvärdering, till exempel en terminalmiljö eller ett videospel.

  • Utvärdering: Ett särskilt test eller en särskild mätning inom en bedömning.

  • Utvärderingsmedvetenhet: Utvärderingsmedvetenhet syftar på att en modell inser, eller verkar inse, att den utvärderas och potentiellt anpassar sitt beteende som svar på den kontexten. Det kan se ut som att modellen uttryckligen resonerar om att den testas, drar slutsatser om syftet med utvärderingen eller ändrar sitt beteende eftersom den förväntar sig att resultatet påverkar hur den bedöms eller driftsätts.

  • Ramverk: Den modellnära struktur som gör det möjligt för en modell att utföra en uppgift, exempelvis promptar, verktyg, gränssnitt, styrlogik, minne, återförsök, validerare och andra stödfunktioner runt modellen.

  • Maximal elicitering: Testning som syftar till att identifiera den starkaste trovärdiga prestandan eller det allvarligaste trovärdiga felaktiga beteendet som ett system kan uppvisa inom en definierad resursbudget, snarare än att enbart köra systemet en gång genom ett standardiserat ramverk.

  • Resonemangsspår: Register över modellens mellanliggande resonemang under ett test.

  • Belöningsmanipulation: Att uppnå ett högt resultat genom en genväg eller ett beteende som ligger utanför utvärderarens avsikt.

  • Skyddsåtgärder: Filter, övervakare, blockeringssystem och andra skydd som tillämpas runt en modell eller produkt.

  • Sandbagging: Strategisk underprestation i en utvärdering på ett sätt som undergräver resultatet.

  • Poängsättning: Metod som används för att avgöra hur prestation mäts eller huruvida en uppgift lyckades.

  • Standardiserat ramverk: Ett ramverk som hålls oförändrat mellan olika system i stället för att anpassas till en specifik modell eller uppgift, så att skillnader i resultaten lättare kan tillskrivas den testade modellen.

  • Tidshorisont: Tidslängden för en uppgift som ett system kan slutföra med angiven tillförlitlighet, ofta uttryckt som hur lång tid samma uppgift skulle ta för en människa.

  • Verktygsåtkomst: Externa verktyg som är tillgängliga för modellen under bedömningen.

  • Trajektorier: Stegvisa banor som ett system följer medan det arbetar igenom en uppgift.

  • Universell jailbreak: Ett enda attackmönster som får ett system att kringgå skyddsåtgärder över många promptar eller uppgifter.

Fotnoter

  1. 1

    Det här inlägget försöker inte avgöra hur tredje parter bör utvärdera påståenden om felinriktning eller benägenhetsrelaterade påståenden. Mer arbete behövs för att förstå hur val av ramverk påverkar dessa utvärderingar, särskilt eftersom ramverket som stöder beteende med längre tidshorisont också kan förändra vilka typer av oavsiktligt beteende som utvärderare behöver övervaka.

  2. 2

    HAL(öppnas i ett nytt fönster) ger ytterligare ett exempel från agentutvärderingar: på CORE-Bench(öppnas i ett nytt fönster) förändrade ett byte av ramverk till Claude Code både uppmätt prestation och kostnadsprofilen på samma benchmark. Andra offentliga exempel inkluderar SWE-agent(öppnas i ett nytt fönster), SeeAct(öppnas i ett nytt fönster), ScienceAgentBench(öppnas i ett nytt fönster), CORE-Bench(öppnas i ett nytt fönster) och Inspect Cyber(öppnas i ett nytt fönster); var och en talar om för läsarna vilket gränssnitt eller ramverk som gav poängen.

  3. 3

    100 % poäng på båda Sandbagging QA-varianterna och 99,6 % på sandbagging-uppgiften för strategiskt bedrägeri.