29. toukokuuta 2026

Yhteinen pelikirja luotettaville kolmannen osapuolen arvioinneille

Mikä on tärkeää edistyneiden mallien suojatoimien ja kyvykkyyksien tehokkaissa riippumattomissa arvioinneissa.

Ladataan...

Riippumattomilla, luotetuilla kolmannen osapuolen arvioinneilla on keskeinen rooli⁠ turvallisuusekosysteemin vahvistamisessa. Nämä arvioinnit tehdään edistyneille malleille, jotta saadaan lisänäyttöä väitteille kriittisistä kyvykkyyksistä ja turvallisuutta parantavista lievennyksistä. Tässä kirjoituksessa jaamme tähän mennessä oppimiamme asioita ja suosittelemme lähestymistapoja sellaisten arviointien suunnitteluun, joilla voidaan pätevästi arvioida edistyneitä malleja ja jotka toivottavasti auttavat muotoutuvien alan standardien kehittämisessä.

Aiemmin monissa arvioinneissa malleja käsiteltiin chatbotteina: arvioinnissa mallille annettiin kehote ikään kuin käyttäjä esittäisi kysymyksen, malli vastasi ja arvioija arvioi tuotoksen. Nykyiset edistyneet mallit pystyvät paljon enempään: ne voivat käyttää työkaluja, seurata tietoa monien vaiheiden yli ja toimia osana laajempaa työnkulkua. Tämä tarkoittaa, että suorituskyky ei riipu vain mallista vaan myös ympäristöstä, jossa tehtävä tapahtuu, sekä asetelmasta, joka mahdollistaa sen toiminnan. Tämä ympäröivä asetelma, jota kutsumme ”testisarjaksi”, voi muuttaa järjestelmän suorituskyvyn keskeisiä piirteitä, mukaan lukien sitä, miten se käyttää työkaluja, seuraa tietoa tai toipuu virheistä.

Kaavio, jossa verrataan kehote–vastaus-työnkulkua agenttiseen tehtävätyönkulkuun ja näytetään, miten ohjaussilmukat, työkalut, konteksti, budjetti ja suojatoimet mahdollistavat autonomisen tehtävänsuorituksen.

Tämä muuttaa sitä, miten arvioinnit on tehtävä ja mitä lukijoiden tulisi etsiä arviointiraporteista. Näkemyksemme mukaan hyödyllisimmät raportit kuvaavat eksplisiittisesti kaksi asiaa itse tuloksen lisäksi: ensinnäkin sen, mitä väitettä arviointiasetelma oli suunniteltu testaamaan, ja toiseksi sen, mitä saatavilla olevaa näyttöä on siitä, että arviointitulos on pätevä.

Arvioinneissa testatut väitteet jakautuvat tyypillisesti kolmeen luokkaan¹:

Kyvykkyyden kartoitus: Voiko malli uskottavasti tuottaa arvioitavan kyvykkyyden?
Suojatoimien suorituskyky: Kuinka kestäviä testatut suojatoimet ovat arvioitavaa käyttäytymistä tai hyökkäystä vastaan?
Vertailu: Miten eri mallit suoriutuvat vastaavissa olosuhteissa?

Arviointiraporttien on myös selitettävä, miten arvioijat tarkistivat vaikutukset, jotka voisivat heikentää tuloksen pätevyyttä. Näihin kuuluvat:

Palkinnon hakkerointi: Tehtävän tai pisteyttäjän oikoteiden hyödyntäminen niin, että järjestelmä saa tunnustusta osoittamatta sitä käyttäytymistä, jota arvioinnilla on tarkoitus mitata.
Kieltäytymiset: Kieltäytyminen tavoilla, jotka peittävät testattavan käyttäytymisen.
Kontaminaatio: Ylisuoriutuminen siksi, että arviointitehtävät, vastaukset tai niiden läheiset variantit esiintyivät koulutusdatassa tai olivat löydettävissä arvioinnin aikana, esimerkiksi selaamalla.
Rikkinäiset ongelmat: Alisuoriutuminen siksi, että tehtävät ovat virheellisiä. Syitä voivat olla esimerkiksi epäreilu pisteytys (esim. oikea vastaus edellyttää mainitsemattomia toteutusyksityiskohtia) ja ratkaisemattomat ympäristöt (esim. puuttuvat kriittiset tiedostot tai epäluotettavat työkalut).
Sandbagging: Tahallinen alisuoriutuminen, kun malli osoittaa tiedostavansa olevansa arvioitavana.

Oikean testisarjan valinta arviointiin on ratkaisevan tärkeää optimaalisten tulosten kannalta

Olemme havainneet, että testisarjan rooli on erityisen tärkeä järjestelmissä, jotka toimivat pidemmillä prosessiketjuilla. Kun mallit pystyvät käyttämään työkaluja, säilyttämään tilatiedot ja toipumaan virheistä useiden vaiheiden aikana, testisarja voi vaikuttaa havaittuun suorituskykyyn ja jopa ratkaista, näkyykö arvioitava kyky lainkaan arvioinnissa. Esimerkiksi testisarja, joka säilyttää tilatiedot ja yrittää epäonnistuneita toimintoja uudelleen, voi mahdollistaa sen, että malli saa päätökseen monivaiheisen tehtävän, jota sama malli ei koskaan saisi valmiiksi yksinkertaisemmassa testisarjassa.

Alla olevassa taulukossa erotamme kolme väitetyyppiä, joita arvioijat saattavat haluta esittää, sekä testisarjan, jota uskomme kunkin väitetyypin edellyttävän.

Väite, jota arviointi pyrkii tukemaan	Sopivan testisarjan valinta	Raportoitavat todisteet
Kyky voimakkaassa kartoituksessa: Järjestelmä A pystyy suorittamaan tyypin X tehtäviä, kun asetelma on suunniteltu siten, että se tuottaa uskottavimman suorituskyvyn.	Käytä järjestelmän luotettavinta mahdollista selvitysjärjestelyä, mukaan lukien testisarjat, työkalut, telineet ja budjetti, jota kyvykkään käyttäjän tulisi kohtuudella käyttää.	Testisarjojen ja työkalujen kokoonpano, selvitysohjeet, budjetti/sallittu työmäärä, tokenit/kustannukset/aika ja miksi kokoonpano on uskottava vastine väitetylle kyvylle. Jos vertailet järjestelmiä erilaisissa optimoiduissa asetelmissa, nimeä se järjestelmien väliseksi tai vahvan herätteen vertailuksi.
Kontrolloitu vertailu: Järjestelmä A suoriutuu järjestelmästä B paremmin jaetussa arviointiympäristössä.	Pidä tehtävät, pisteytys ja budjetti kiinteinä. Käytä joko jaettua testisarjaa/työkalukokoonpanoa tai standardoituja testisarjoja, joka on valittu etukäteen kohtuullisen maksimaalisen tiedonkeruun saavuttamiseksi vertailtavissa järjestelmissä.	Jaettu tehtäväkokonaisuus, työkalut, pisteytysmenetelmä, testisarjat, budjetti, token-tehokkuus/kustannukset ja tunnetut rajoitukset. Koodausagenttien arvioinneissa avoimen lähdekoodin testisarja, kuten Codex CLI, voi tarjota kiinteän agenttisilmukan ja työkalurajapinnan järjestelmien välillä. Ihanteellinen lähestymistapa maksimaalisen selvittämisen saavuttamiseksi olisi optimoida räätälöity testisarja kullekin tehtävälle ja järjestelmälle, mutta se on tällä hetkellä käytännössä epäkäytännöllistä.
Varmista järjestelmän kestävyys simuloidussa hyökkäyksessä: Järjestelmän A suojatoimet ovat riittävät kyseisen mallin käyttäytymisen tai simuloidun hyökkäyksen kannalta.	Käytä suojaustestausjärjestelyjä, jotka on suunniteltu herättämään voimakkain uskottava hyökkäys kyseessä olevan vastustajamallin mukaisesti.	Miten arvioijat luonnehtivat asiaankuuluvaa mallin käyttäytymistä, testattua suojauskokoonpanoa, kartoitusstrategiaa, sen toteuttamiseen käytettyä testisarjaa sekä sallittua budjettia tai työmäärää.

Kyvykkyysväitteet ovat vain niin vahvoja kuin niiden taustalla oleva kartoitus: arvioijien on valittava testisarja, joka sopii parhaiten tehtävään ja siihen kyvykkyyteen, jota arvioinnilla pyritään mittaamaan. Standardoitu testisarja voi olla oikea valinta järjestelmien vertailuun samoissa olosuhteissa, mutta se voi aliarvioida kyvykkyyttä, jos siitä puuttuu tiettyjä testisarjan ominaisuuksia, jotka auttavat mallia suorittamaan tehtävän. Esimerkiksi GPT‑5.5:n suorituskyky OpenAI:n kyberalueilla osoittaa, miten testisarjan valinta voi olennaisesti muuttaa mitattua kyvykkyyttä tehtävissä, jotka vaativat pitkää, monivaiheista työkalujen käyttöä: malli suoriutuu paremmin, kun testisarjaa käyttää kompaktointia⁠ säilyttääkseen tehtävän kannalta olennaisen kontekstin vuorovaikutuksen pitkittyessä. Tämä osoittaa, että tietyille malleille testisarja, josta kartoitus puuttuu, toisi suorituskyvyn esiin liian heikosti.

Suurempi onnistumisaste on parempi

Myös muut julkaistut arvioinnit² osoittavat, että testisarja- ja budjettivalinnat muuttavat arviointituloksia. Testiaikaisen laskennan lisääminen voi merkittävästi muuttaa sitä, minkä kyvykkyyden kartoitus tuo esiin, erityisesti aloilla, joilla onnistuminen on helppo varmistaa, kuten monissa kybertehtävissä. UK AISI:n kyberaluearvioinnissa⁠(avautuu uudessa ikkunassa) budjetin kasvattaminen 10 miljoonasta 100 miljoonaan tokeniin paransi suorituskykyä jopa 59 %, ja suorituskyky parani yhä suurimmalla testatulla budjetilla. Tämän tarkentaminen tekee arvioinnista helpommin tulkittavan: se osoittaa lukijoille, miten tulos riippuu testatusta kartoitusmenetelmästä. Kun suorituskyky paranee edelleen lisäbudjetilla, pistemäärä tulisi kuvata kyseisen testisarjan ja budjetin alaisena suorituskykynä, ei mitattuna kyvykkyyden ylärajana. Kyvykkyys riippuu usein resursseista eikä ole kiinteä suure, joka voitaisiin mitata puhtaasti kerran ja lopullisesti. Kun onnistumista voidaan mitata toistuvien yritysten yli, raporteissa tulisi tarkastella myös odotettua kustannusta onnistunutta ratkaisua kohti, ei vain onnistumisastetta kiinteällä tokenbudjetilla. Tämä voi helpottaa vakavuuden tulkintaa: matalakin onnistumisaste voi silti olla käytännössä merkityksellinen, jos toistuvien yritysten kustannus mahtuu relevanttiin uhkamalliin. Kyvykkyysväitteissä vältettävissä oleva liian heikko kartoitus on mittausvirhe: jos testisarja tai budjetti estää järjestelmää osoittamasta käyttäytymistä, jonka se muuten voisi tuottaa, pistemäärä ei mittaa väitettyä kyvykkyyttä. Kun arvioijat ovat vieneet kartoituksen niin pitkälle kuin käytännössä mahdollista ja suorituskyky paranee silti edelleen, raporttien tulisi sanoa tämä selvästi ja tehdä selväksi, että tulos on vain alaraja-arvio.

Suojatoimien testaus voi aliarvioida sitä, voiko hyökkäys onnistua ja kuinka vakava se voisi olla, jos ei huomioida hyökkääjien käytettävissä olevia resursseja, mukaan lukien räätälöidyt testisarjat. UK AISI:n GPT‑5.5‑kyberarvioinnissa⁠(avautuu uudessa ikkunassa) heidän huippuluokan red team -työnsä löysi universaalin jailbreakin, joka kartoitti sääntöjä rikkovaa kybersisältöä OpenAI:n toimittamissa haitallisissa kyselyissä, myös monikierroksisissa agenttisissa asetelmissa. He käyttivät Codexia luodakseen räätälöidyn testisarjan vahvistamaan mallin hyökkäyssuorituskykyä: se upotti vuorovaikutukseen uudelleenkäytettävän suojatoimien ohitusmallin, säilytti tämän mallin kierrosten ja lohkojen yli ja sovelsi sitä OpenAI:n toimittamiin haitallisiin kyberkyselyihin. Suojatoimien testauksen tulisi vastata vastustajaa. Jos väite koskee kestävyyttä asiantuntijatason väärinkäyttöä vastaan, testin tulisi arvioida vahvin uskottava päästä päähän -hyökkäysstrategia määritellyllä budjetilla, mukaan lukien kaikki testisarjat, joita tarvitaan strategian säilyttämiseen ja uudelleenkäyttöön. Muuten tulokset voivat kalibroitua väärin: ne voivat tukea vain kapeampaa väitettä vastustuskyvystä yksinkertaisempaa kehottamista vastaan, ne voivat jättää huomaamatta sekä sen, kuinka vakavaksi hyökkäys muuttuu, että sen onnistumistodennäköisyyden, kun kartoitusmenetelmä operationalisoidaan, ja ne voivat myös liioitella ongelman todennäköisyyttä tai vakavuutta, jos budjettia annetaan liikaa.

Standardoitujen testisarjavertailujen aika ja paikka on olemassa, mutta arvioijien tulisi kertoa selvästi, miksi yhtenäisen testisarjajoukon käyttö on tarkoituksenmukaista ja mitä väitettä se voi tukea. METR:n aikahorisonttiarviointi⁠(avautuu uudessa ikkunassa) on esimerkki laajemmasta, asianmukaisesti kiinteästä arviointiasetelmasta: se on suunniteltu tuottamaan vertailukelpoisia tuloksia arvioimiensa järjestelmien välillä. METR määrittelee yhteisen lopputuloksen, eli tyypillisen keston ihmisen tehtävälle, jossa tekoälyagentin ennustetaan onnistuvan tietyllä luotettavuustasolla. Se soveltaa yhteistä tehtäväjoukkoa, pisteytysmenetelmää, sovitusmenetelmää ja pientä joukkoa uudelleenkäytettäviä tukirakenteita, kuten Triframea ja ReActia⁠(avautuu uudessa ikkunassa), kunkin yhdessä raportoidun estimaattierän sisällä. Kun METR laajensi tehtäväjoukkoa ja siirsi arviointiinfrastruktuurin Vivaria-nimisestä kehyksestä Inspect-nimiseen, se raportoi muutoksen (Time Horizon 1.1 -päivitys⁠(avautuu uudessa ikkunassa)) ja arvioi mallit uudelleen uuden arviointiasetelman alla. Tämä on standardoidun arviointiasetelman, mukaan lukien yhtenäisen testisarjajoukon, arvo: se voi antaa lukijoille varmuuden siitä, että pistemäärien ero todella heijastaa eroa verrattavien järjestelmien välillä eikä muutosta mittausasetelmassa.

Suosittelemme, että kolmannen osapuolen arviointiraporteissa kerrotaan, millaista väitettä niiden arviointiasetelman on tarkoitus tukea; kuvataan, kuinka läheisesti testattu vastaa tätä laajempaa väitettä; kuvataan tulosta muovanneet testisarjavalinnat; eritellään, milloin nämä valinnat muuttuvat arviointien välillä; ja sisällytetään tukevaa näyttöä siitä, miten tulos tuotettiin ja kuinka hyvin se yleistyy väitteeseen.

Arvioi pätevyyttä tarkistamalla tunnetut vaaratekijät, jotka voivat vääristää tuloksia

Kun mallit muuttuvat kyvykkäämmiksi, arviointipisteitä on helpompi tulkita väärin. Todellisiin kyvykkyyksiin nähden arviointipisteet voivat pienentyä keinotekoisesti, jos malli tunnistaa olevansa arvioitavana ja alisuoriutuu strategisesti. Ne voivat paisua, jos malli hyödyntää oikotietä tehtävässä, kehotteessa, pisteyttäjässä tai testisarjassa. Niitä voivat myös vääristää kontaminaatio (kun malli jo tietää vastauksen tai voi löytää sen ratkaisematta tehtävää) tai ”rikkinäiset” ongelmat, jotka ovat monitulkintaisia, väärin pisteytettyjä, ratkaisemattomia tai alttiita tahattomille oikoteille. Arviointiraporteissa tulisi siksi yhdistää pääpisteet näitä vaaroja käsittelevään keskusteluun, jotta lukijat voivat arvioida, heijastavatko pisteet.

Testisarjat, budjetit, työkalut, pisteytyssäännöt, valvonta ja tarkastusmenettelyt vaikuttavat kaikki siihen, ratkaiseeko agentti tarkoitetun tehtävän, välttääkö se sitä, muistaako se sen ulkoa vai löytääkö se kiertotien sen ympäri. Luotettava raportti tekee nämä tarkistukset näkyviksi: arvioijien tulisi tarkastella näytteitä näiden käyttäytymisten varalta aina, kun arviointi suoritetaan.

Palkinnon hakkerointi

Palkinnon hakkerointi tarkoittaa korkeiden arviointipisteiden saavuttamista tavoilla, jotka eivät heijasta tarkoitettua kyvykkyyttä. Huolena on tässä se, että järjestelmä saa tunnustusta hyödyntämällä tehtävää, pisteyttäjää, kehotetta tai testisarjaa sen sijaan, että se tekisi työn, jota arvioinnilla oli tarkoitus mitata. METR:n GPT 5.4 -arviointi⁠(avautuu uudessa ikkunassa) osoittaa, miksi tämä on tärkeää: vaikka malli onnistui tehtävissä sellaisella tahdilla, joka olisi ensisilmäyksellä vastannut noin 13 tunnin aikahorisonttia, ihmisten tekemä tarkastus osoitti, että osa onnistumisista johtui palkinnon hakkeroinnista, ja tulosten korjaaminen siten, että huomioitiin vain tapaukset ilman palkinnon hakkerointia, laski arvion noin kuuteen tuntiin. Arvioijien tulisi arvioida tällaisten korjausten tarve ja, kun niitä tarvitaan, raportoida ne selvästi: kyvykkyysarvio on paljon hyödyllisempi, kun lukijat näkevät, mitkä näennäiset onnistumiset hylättiin, miksi ne hylättiin ja kuinka paljon tulos riippuu tästä harkinnasta.

Kaavio, joka näyttää tekoälymallin suorituskyvyn ajan myötä trendiviivan ja luottamusvälien kanssa.

Kieltäytymiset

Mallit voivat myös alisuoriutua kyvykkyysarvioinneissa suojatoimien vuoksi. Mallin arviointisuorituskyky voi olla sen todellista kyvykkyyttä heikompi, jos se kieltäytyy arviointitehtävistä niiden suorittamisen sijaan. Raporteissa tulisi siksi selittää, olivatko kieltäytymiset osa arviointituloksia, ja jos olivat, kuinka moni näyte niiden vuoksi vaarantui.

Kontaminaatio

Kontaminaatio on tärkeintä julkisissa tai uudelleenkäytetyissä benchmarkeissa⁠. Jos tehtävät, vastaukset tai niiden läheiset variantit esiintyvät koulutusdatassa tai agentti voi löytää ne selaamalla, suorituskyky voi heijastaa muistamista tai hakua mallin suorituskyvyn sijaan. Arvioijien tulisi mahdollisuuksien mukaan suosia yksityisiä tai vasta rakennettuja tehtäviä ja testata, toistavatko mallit tehtäväkohtaisia yksityiskohtia ennen ratkaisemista.

Rikkinäiset ongelmat

Rikkinäisiin ongelmiin kuuluvat esimerkiksi tilanteet, joissa ongelmaa ei vahingossa voi ratkaista. Rikkinäiset ongelmat ovat riittävän yleisiä⁠(avautuu uudessa ikkunassa), että niitä tulisi käsitellä tavanomaisena validiteettiriskinä. Niihin kuuluvat virheelliset oikeat vastaukset, epäselvät tehtävänasettelut, puuttuvat tiedostot, epävakaat palvelut, epäoikeudenmukaiset pisteytyskriteerit sekä ympäristöt, joissa on käytettävissä oikoteitä, kuten piilotetut vastaustiedostot tai oikeat vastaukset sisältävä versionhallintahistoria.

Sandbagging

Mallin tai järjestelmän sandbagging tarkoittaa strategista alisuoriutumista, kun vahva suoritus olisi ristiriidassa jonkin tavoitteen kanssa. Apollon GPT‑5.5‑arviointi⁠(avautuu uudessa ikkunassa) testasi tätä luomalla kontekstin, jossa malli ymmärsi, että korkeat arviointipisteet saattaisivat käynnistää oppimisen kumoamisen tai estää käyttöönoton. GPT‑5.5 vastasi silti oikein, mikä viittaa vähäiseen käyttäytymisnäyttöön strategisesta alisuoriutumisesta³. Mutta heidän päättelyjälkien tarkastelunsa toi tärkeää lisäkontekstia: Apollo löysi kohtalaisia tai vahvempia merkkejä yhdenmukaisuuden arvioinnin tiedostamisesta 52 prosentissa sandbagging-olosuhteiden näytteistä, verrattuna 0 prosenttiin kontrafaktuaaleissa. Tämä näyttö tekee tuloksen tulkinnasta monimutkaisemman, mutta antaa lopulta lukijoille enemmän signaalia: lukijat näkevät sekä rauhoittavan käyttäytymistuloksen että syyn olla tulkitsematta sitä liian pitkälle.

Miten tuemme vahvempia arviointeja

Vahvat väitteet edellyttävät sekä oikeaa testisarjan käyttäytymisen esiin tuomiseksi että validiteettitarkistuksia, jotka osoittavat tuloksen olevan luotettava. Näkemyksemme siitä, että testisarjat ja validiteettitarkistukset ovat osa arviointitulosta, ohjaa sitä, miten tuemme kolmannen osapuolen arviointeja käytännössä:

Jaamme arvioijille täsmällistä ohjeistusta maksimaalisesta kartoituksesta.
Pyydämme kyvykkyysarvioijia käyttämään Codexia OpenAI-mallien yhteisenä vähimmäistasona: testien tulisi vähintään ajaa peruslinja saman agenttisen käyttöliittymän kautta, johon käyttäjät todennäköisesti tukeutuvat, eikä vain riisutun mallikäyttöliittymän kautta.
Tuomme myös päättelyjälkiä ja muita välivaiheen artefakteja saataville silloin, kun niitä tarvitaan harhauttamisen, sandbaggingin tai arviointitietoisuuden arviointiin. METR ja Apollo ovat käyttäneet tätä pääsyä OpenAI-arvioinneissa GPT‑5:stä lähtien.
Lopuksi priorisoimme tutkimusta, jotta ymmärtäisimme syvemmin, milloin ja miten testisarjavalinnat muuttavat tuloksia olennaisesti, kontekstinhallinnasta ja työkalujen käyttöoikeudesta uudelleenyrityskäyttäytymiseen, pisteytykseen ja resurssibudjetteihin.

Mitä tämä tarkoittaa arviointistandardeille ja tuleville tutkimussuunnille

Näiden suositusten tarkoituksena ei ole vain parantaa yksittäisiä arviointiraportteja, vaan myös informoida edistyneen tekoälyn arvioinnin ja raportoinnin muotoutuvia kansallisia ⁠(avautuu uudessa ikkunassa)ja kansainvälisiä ⁠(avautuu uudessa ikkunassa)standardeja. Jatkossa kolmannen osapuolen arviointistandardien tulisi vaatia riittävästi yksityiskohtia, jotta päätöksentekijät ymmärtävät, mitä väitteitä tietyt arvioinnit tukevat, mitä järjestelmää testattiin, miten tulos kartoitettiin ja miten arvioijat tarkistivat sen pätevyyden. Kun edistyneitä järjestelmiä testataan tehtävissä, joissa agenttiset kyvykkyydet ovat tärkeitä, yksityiskohtiin tulisi sisältyä (turvallisuus- tai luottamuksellisuushuolten sallimissa rajoissa):

Väite: vertaileeko arviointi järjestelmiä, arvioiko se kyvykkyyden ylärajaa vai testaako se suojatoimia.
Arvioinnin sisältö: riittävästi yksityiskohtia tehtävistä tai tehtäväjakaumasta, jotta lukijat ymmärtävät, mitä taitoja, käyttäytymisiä tai virhetiloja arviointi todella testaa.
Testattu järjestelmä: malli, päättelyasetus, työkalujen käyttöoikeus, testisarja ja suojatoimet.
Budjetti: kierrokset, tokenit, yritykset/uudelleenyritykset, seinäkelloaika, inferenssikustannus ja soveltuvin osin odotettu kustannus onnistunutta ratkaisua kohti.
Kartoitusmenetelmät: tuloksen esiin tuomiseen käytetyt testisarjavalinnat ja se, kuinka läheisesti testattu vastaa esitettyä laajempaa väitettä.
Validiteettitarkistukset: miten arvioijat etsivät palkinnon hakkerointia, arviointitietoisuutta, kontaminaatiota, kieltäytymisiä, sandbaggingia ja muuta käyttäytymistä, joka voisi heikentää tulosta, mukaan lukien miten vahvistetut tapaukset vaikuttivat pisteytykseen tai tulkintaan.

Standardit, joista puuttuvat testisarjavalinnat tai validiteettitarkistukset, voivat aliarvioida järjestelmän kyvykkyyksiä tai liioitella luottamusta turvallisuusväitteeseen. Vahvojen testisarjojen ja kartoitusmenetelmien rakentaminen on edelleen avoin tutkimusalue, ja sen tulisi olla jatkotutkimuksen ja investointien painopiste.

2026

Tekijä

OpenAI

Sanasto

Koska käytämme tässä kirjoituksessa useita erikoistermejä, olemme lisänneet alle sanaston, joka selittää selkokielellä, mihin viittaamme:

Agenttinen järjestelmä: Järjestelmä, joka pystyy suorittamaan tehtävän useissa vaiheissa, käyttämällä työkaluja, ylläpitämällä tehtävän tilaa ja toimimalla ympäristössä, sen sijaan että se vain antaisi yhden vastauksen kehotteeseen.
Arviointi: laajempi harkinta siitä, tukeeko näyttö väitettä, riskipäätelmää tai varmennuskantaa; se voi perustua arviointidataan, asiakirjojen tarkasteluun, haastatteluihin, prosessiarviointiin ja muihin olennaisiin aineistoihin.
Kompaktointi: Menetelmä tehtävän kannalta olennaisen kontekstin säilyttämiseen pitkien suoritusten aikana.
Konfiguraatio: Tarkka testattu järjestelmä ja arviointiolosuhteet mallin nimen lisäksi.
Kontaminaatio: Tilanne, jossa arviointitehtävät, vastaukset tai niiden läheiset variantit esiintyvät mallin koulutusdatassa tai ovat löydettävissä arvioinnin aikana (esim. selaamisen kaltaisilla työkaluilla), jolloin suorituskyky yliarvioi mallin todellista yleistämiskykyä.
Kartoitus:: prosessi, jossa arvioinnin aikana pyritään tuomaan järjestelmästä esiin jokin kyvykkyys tai käyttäytyminen.
Ympäristö: Tehtäväympäristö, jossa järjestelmää testataan. Tähän kuuluvat esimerkiksi ulkoinen tila, jonka kanssa agentti on vuorovaikutuksessa ja jota se muokkaa arvioinnin aikana, kuten pääteympäristö tai videopeli.
Evaluointi: Tietty testi tai mittaus arvioinnin sisällä.
Arviointitietoisuus: Arviointitietoisuudella tarkoitetaan sitä, että malli tunnistaa tai näyttää tunnistavan olevansa arvioitavana ja mahdollisesti mukauttaa käyttäytymistään tämän kontekstin perusteella. Tämä voi näkyä siten, että malli eksplisiittisesti päättelee olevansa testattavana, päättelee arvioinnin tarkoituksen tai muuttaa käyttäytymistään, koska odottaa tuloksen vaikuttavan siihen, miten sitä arvioidaan tai otetaan käyttöön.
Testisarja: Malliin päin näkyvä rakenne, jonka avulla malli voi suorittaa tehtävän: kehotteet, työkalut, käyttöliittymät, ohjauslogiikka, muisti, uudelleenyritykset, validoijat ja muut mallia ympäröivät tukirakenteet.
Maksimaalinen kartoitus: Testaus, jonka tavoitteena on löytää järjestelmän voimakkain uskottava suorituskyky- tai vikatila määritellyn budjetin puitteissa, sen sijaan että järjestelmä vain ajettaisiin kerran läpi standardoidulla testisarjalla.
Päättelyjäljet: Tallenteet mallin testin aikaisesta välivaiheiden päättelystä.
Palkinnon hakkerointi: Korkean pistemäärän saavuttaminen oikotien tai arvioijan tarkoituksen ulkopuolisen käyttäytymisen avulla.
Suojatoimet: Suodattimet, valvontajärjestelmät, estojärjestelmät ja muut mallin tai tuotteen ympärille asetetut suojaukset.
Sandbagging: Strateginen alisuoriutuminen arvioinnissa tavalla, joka heikentää tuloksen luotettavuutta.
Pisteytys: Menetelmä, jolla päätetään, miten suorituskyky mitataan tai onnistuiko tehtävä.
Standardoitu testisarja: testisarja, joka pidetään samana eri järjestelmien välillä sen sijaan, että se räätälöitäisiin tietylle mallille tai tehtävälle, jotta tuloserot voidaan helpommin liittää testattuun malliin.
Aikahorisontti: Tehtävän pituus, jonka järjestelmä voi suorittaa määritellyllä luotettavuudella; ilmaistaan usein sillä, kuinka kauan saman tehtävän suorittaminen veisi ihmiseltä.
Työkalujen käyttöoikeus: Ulkoiset työkalut, jotka ovat mallin käytettävissä arvioinnin aikana.
Trajektorit: Vaiheittaiset polut, joita järjestelmä seuraa suorittaessaan tehtävää.
Universaali jailbreak: Yksittäinen hyökkäysmalli, joka saa järjestelmän ohittamaan suojatoimet monissa kehotteissa tai tehtävissä.

Alaviitteet

1
Tässä kirjoituksessa ei pyritä ratkaisemaan, miten kolmansien osapuolten tulisi arvioida väärän kohdistuksen tai taipumuksiin liittyviä väitteitä. Tarvitaan lisää työtä sen ymmärtämiseksi, miten testisarjavalinnat vaikuttavat näihin arviointeihin, etenkin koska pidemmän aikahorisontin käyttäytymistä tukevat testisarjat voivat myös muuttaa sitä, millaista tahatonta käyttäytymistä arvioijien on seurattava.
2
HAL⁠(avautuu uudessa ikkunassa) tarjoaa lisäesimerkin agenttiarvioinneista: CORE-Benchissä⁠(avautuu uudessa ikkunassa) testisarjan vaihtaminen Claude Codeen muutti saman vertailun mitattua suorituskykyä ja kustannusprofiilia. Muita julkisia esimerkkejä ovat SWE-agent⁠(avautuu uudessa ikkunassa), SeeAct⁠(avautuu uudessa ikkunassa), ScienceAgentBench⁠(avautuu uudessa ikkunassa), CORE-Bench⁠(avautuu uudessa ikkunassa) ja Inspect Cyber⁠(avautuu uudessa ikkunassa); kukin kertoo lukijoille, mikä käyttöliittymä tai testisarja tuotti tuloksen.
3
100 % pisteet molemmissa Sandbagging QA -varianteissa ja 99,6 % strategisen harhauttamisen sandbagging-tehtävässä.

Jatka lukemista

Näytä kaikki

Safety and alignment in an era of long-horizon models

Turvallisuus20.7.2026

Why teens deserve access to safe AI — card image

Miksi teini-ikäiset ansaitsevat pääsyn turvalliseen tekoälyyn

Turvallisuus16.7.2026

GPT-Red: itseparannus lisää vankkuutta

Turvallisuus15.7.2026