Siirry pääsisältöön
OpenAI

25. syyskuuta 2025

JulkaisuTutkimus

Malliemme suorituskyvyn mittaaminen tosielämän tehtävissä

Esittelemme uuden GDPval-arvioinnin, joka mittaa mallin suorituskykyä 44 ammatissa taloudellisesti arvokkaissa, tosielämän tehtävissä.

Tehtävämme on varmistaa, että yleinen tekoäly hyödyttää koko ihmiskuntaa. Osana missiotamme haluamme kertoa avoimesti siitä, miten tekoälymallit voivat auttaa ihmisiä todellisessa maailmassa. Siksi esittelemme uuden GDPval-arviointimenetelmän, joka on tarkoitettu auttamaan meitä seuraamaan, kuinka hyvin mallimme ja muut mallit suoriutuvat taloudellisesti arvokkaissa, reaalimaailman tehtävissä. Annoimme tälle arvioinnille nimeksi GDPval, koska lähdimme liikkeelle bruttokansantuotteesta keskeisenä taloudellisena indikaattorina ja otimme tehtäviä keskeisistä ammateista bruttokansantuotteeseen eniten vaikuttavilta toimialoilta.

Ihmiset usein spekuloivat tekoälyn laajempaa vaikutusta yhteiskuntaan. Selkein tapa ymmärtää sen potentiaalia on tarkastella, mihin mallit jo pystyvät. Historiallisesti tarkasteltuna merkittävien teknologioiden, kuten internetin ja älypuhelimien, keksimisestä laajaan käyttöönottoon kesti yli vuosikymmenen. Arvioinnit, kuten GDPval, auttavat pohtimaan tekoälyyn tulevia parannuksia tosiasioiden perusteella arvailujen sijaan, ja ne voivat auttaa meitä seuraamaan mallien kehitystä ajan kuluessa.

Aiemmat tekoälyarvioinnit, kuten haastavat akateemiset testit ja kilpailulliset koodaushaasteet, ovat olleet olennaisia ​​mallien päättelykyvyn rajojen arvioinneissa, mutta ne jäävät usein vajaaksi sellaisissa tehtävissä, joita monet ihmiset hoitavat jokapäiväisessä työssään.

Tämän kuilun kaventamiseksi olemme kehittäneet arviointeja, jotka mittaavat yhä realistisempia ja taloudellisesti merkityksellisiä ominaisuuksia. Tämä kehitys on siirtynyt klassisista akateemisista vertailuarvoista, kuten MMLU (koetyyppiset kysymykset kymmenistä aiheista), soveltavampiin arviointeihin, kuten SWE-Bench (ohjelmistosuunnittelun virheenkorjaustehtävät), MLE-Bench (koneoppimisen suunnittelutehtävät, kuten mallien koulutus ja analysointi) ja Paper-Bench (tieteellinen päättely ja tutkimuspapereiden arvostelu), ja viime aikoina markkinapohjaisiin arviointeihin, kuten SWE-Lancer (freelance-perusteiset ohjelmistosuunnitteluprojektit, jotka perustuvat todellisiin maksuihin).

GDPval on seuraava askel tässä prosessissa. Se mittaa mallien suorituskykyä tehtävissä, jotka on johdettu suoraan kokeneiden ammattilaisten tosielämän tietämyksestä useissa eri ammateissa ja eri sektoreilla. Näin se antaa selkeämmän kuvan siitä, miten mallit toimivat taloudellisesti arvokkaissa tehtävissä. Mallien arviointi realistisissa työtehtävissä auttaa meitä ymmärtämään paitsi sitä, kuinka hyvin ne toimivat laboratoriossa, myös sitä, miten ne voivat tukea ihmisiä heidän päivittäisessä työssään. 

Mitä GDPval mittaa

Tähän GDPval-arvioinnin ensimmäiseen versioon on valittu 44 ammattia yhdeksältä toimialalta, jotka eniten vaikuttavat Yhdysvaltojen bruttokansantuotteeseen (GDP). Täysi GDPval-kokoelma sisältää 1 320 erikoistehtävää (220 avoimen lähdekoodin kultaisessa kokoelmassa), joista jokainen on kokeneiden ammattilaisten huolellisesti laatima ja tarkistama. Näillä ammattilaisilla on keskimäärin yli 14 vuoden kokemus näiltä aloilta. Jokainen tehtävä perustuu todellisiin työtuotteisiin, kuten lakiasiakirjaan, tekniseen piirustukseen, asiakastukikeskusteluun tai hoitosuunnitelmaan.

GDPval-arvioinnille on ominaista sekä realistisuus että arvioitavien tehtävien monimuotoisuus. Toisin kuin muut taloudelliseen arvoon sidotut arvioinnit, jotka keskittyvät tiettyihin alueisiin (esim. SWE-Lancer), GDPval kattaa useita tehtäviä ja ammatteja. Toisin kuin vertailuarvoissa, joissa tehtäviä luodaan synteettisesti akateemisen kokeen tai testin tyyliin (esim. Humanity’s Last Exam tai MMLU), GDPvalin tehtävät perustuvat tuotoksiin, jotka ovat joko tällä hetkellä olemassa olevia todellisia teoksia tai tuotteita tai vastaavalla tavalla tuotettuja teoksia. 

Toisin kuin perinteiset vertailuarvot, GDPval-tehtävät eivät ole yksinkertaisia ​​tekstikehotteita. Ne sisältävät viitetiedostoja ja kontekstia, ja odotetut tuotokset kattavat asiakirjoja, dioja, kaavioita, laskentataulukoita ja multimediaa. Näin todellinen materiaali tekee GDPval-arviosta realistisemman testin siitä, miten mallit voisivat tukea ammattilaisia.

GDPval on varhainen vaihe, joka ei heijasta monien taloudellisten tehtävien kaikkia vivahteita. Vaikka se kattaa 44 ammattia ja satoja tietotyötehtäviä, se rajoittuu kertaluonteisiin arviointeihin. Se ei kata tapauksia, joissa mallin olisi rakennettava kontekstia tai sitä olisi parannettava useiden vedosten avulla. Tulevissa versioissa on enemmän vuorovaikutteisia työnkulkuja ja kontekstipitoisia tehtäviä, jotta ne heijastaisivat paremmin reaalimaailman tietotyön monimutkaisuutta (katso lisätietoja alla olevasta Rajoitukset-osiosta).

Miten valitsimme ammatit

GDPval kattaa tehtäviä 9 toimialalta 44 eri ammatista, ja tulevat versiot laajentavat kattavuutta entisestään. Alkuperäiset yhdeksän toimialaa valittiin niiden perusteella, jotka tuottivat yli 5 % Yhdysvaltojen bruttokansantuotteesta St. Louisin keskuspankin tietojen mukaan. Sitten valitsimme kultakin toimialalta viisi ammattia, jotka vaikuttavat eniten kokonaispalkkoihin ja -korvauksiin ja ovat pääasiassa tietotyöammatteja, käyttämällä Yhdysvaltain työtilastoviraston (Bureau of Labor Statistics, BLS) ammattityöllisyysraportin palkka- ja työllisyystietoja toukokuulta 2024(avautuu uudessa ikkunassa). Jotta voisimme selvittää, olivatko ammatit pääasiassa tietotyötä, käytimme tehtävätietoja Yhdysvaltain O*NET(avautuu uudessa ikkunassa)-ammattitietokannasta, jonka on sponsoroinut Yhdysvaltain työministeriö. Luokittelimme O*NET-aineistossa kunkin ammatin tehtävän sen mukaan, oliko se tietotyötä vai fyysistä tai käsin tehtävää (joka vaatii toimia fyysisessä maailmassa). Ammatti luokiteltiin yleisesti ottaen “pääasiassa tietotyöksi“, jos vähintään 60 % sen osatehtävistä luokiteltiin sellaisiksi, ettei niihin liittynyt fyysistä tai manuaalista työtä. Valitsimme tämän 60 prosentin kynnysarvon lähtökohdaksi ensimmäiselle GDPval-versiolle keskittyen ammatteihin, joissa tekoälyllä voi olla suurin vaikutus reaalimaailman tuottavuuteen. 

Tämän prosessin tuloksena valikoitui 44 ammattia.

Kiinteistöt ja vuokraus

  • Hotelliportieerit

  • Kiinteistö- ja yhteisöyhdistysten johtajat

  • Kiinteistöjen myyntiedustajat

  • Kiinteistönvälittäjät

  • Vastaanotto- ja vuokraustoimihenkilöt

Valtionhallinto

  • Virkistysalan työntekijät

  • Vaatimustenmukaisuusvastaavat

  • Poliisin ja etsivien ensilinjan esihenkilöt

  • Hallintopalvelupäälliköt

  • Lasten, perheiden ja koulujen sosiaalityöntekijät

Tuotanto

  • Koneinsinöörit

  • Teollisuusinsinöörit

  • Ostajat ja ostoagentit

  • Lähetys-, vastaanotto- ja varastotyöntekijät

  • Tuotanto- ja operatiivisten työntekijöiden ensilinjan esihenkilöt

Ammatilliset, tieteelliset ja tekniset palvelut

  • Ohjelmistokehittäjät

  • Asianajajat

  • Kirjanpitäjät ja tilintarkastajat

  • Tietokone- ja tietojärjestelmäpäälliköt

  • Projektinhallinnan asiantuntijat

Terveydenhuolto ja sosiaalihuolto

  • Laillistetut sairaanhoitajat

  • Erikoissairaanhoitajat

  • Lääkintä- ja terveyspalveluiden johtajat

  • Toimisto- ja hallinnollisten tukityöntekijöiden ensilinjan esihenkilöt

  • Lääketieteelliset sihteerit ja hallintoavustajat

Rahoitus- ja vakuutusala

  • Asiakaspalvelun edustajat

  • Rahoitus- ja sijoitusanalyytikot

  • Talouspäälliköt

  • Henkilökohtaiset talousneuvojat

  • Arvopaperi-, hyödyke- ja rahoituspalveluiden myyntiedustajat

Vähittäiskauppa

  • Farmaseutit

  • Vähittäiskaupan työntekijöiden ensilinjan esihenkilöt

  • Toimitusjohtajat ja käyttöpäälliköt

  • Yksityisetsivät ja tutkijat

Tukkukauppa

  • Myyntipäälliköt

  • Tilaustoimihenkilöt

  • Muiden kuin vähittäiskaupan työntekijöiden ensilinjan esihenkilöt

  • Myyntiedustajat, tukku- ja tuotanto, lukuun ottamatta teknisiä ja tieteellisiä tuotteita

  • Myyntiedustajat, tukku- ja tuotanto, tekniset ja tieteelliset tuotteet

Tietopalvelut

  • Ääni- ja videoteknikot

  • Tuottajat ja ohjaajat

  • Uutisanalyytikot, toimittajat ja journalistit

  • Elokuva- ja videoleikkaajat

  • Toimittajat

GDPval kattaa 44 tietotyön ammattia yhdeksältä sektorilta ohjelmistokehittäjistä ja lakimiehistä laillistettuihin sairaanhoitajiin ja koneinsinööreihin. Nämä ammatit valittiin niiden taloudellisen merkityksen perusteella, ja ne edustavat sellaisia ​​päivittäisen työn tyyppejä, joissa tekoäly voi mielekkäästi auttaa ammattilaisia.

Kuinka rakensimme tietojoukon

Jokaisen ammatin kohdalla teimme yhteistyötä kokeneiden ammattilaisten kanssa luodaksemme edustavia tehtäviä, jotka heijastavat heidän päivittäisiä työtehtäviään. Näillä ammattilaisilla oli keskimäärin 14 vuoden kokemus ja vahva urakehityshistoria. Rekrytoimme tarkoituksella laajan joukon asiantuntijoita, kuten eri toimialojen lakimiehiä ja erikokoisia yrityksiä edustavuuden maksimoimiseksi.

Jokainen tehtävä kävi läpi monivaiheisen tarkastusprosessin sen varmistamiseksi, että se edusti todellista työtä, oli toisen ammattilaisen suoritettavissa ja selkeä arviointia varten. Jokainen tehtävä sai keskimäärin viisi asiantuntija-arviointikierrosta, mukaan lukien muiden tehtävän tekijöiden tarkastukset, muiden ammattilaisten arvioinnit ja mallipohjainen vahvistus. 

Tuloksena oleva aineisto sisältää 30 täysin tarkastettua tehtävää ammattia kohden (täysi joukko), joista 5 tehtävää ammattia kohden on avoimen lähdekoodin kokoelmassamme, mikä tarjoaa vankan perustan mallin suorituskyvyn arvioinnille tosielämän tietotyössä.

Esimerkkejä GDPval-tehtävistä

Kehote ja tehtävän konteksti

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Kokeneen ihmisen tuotos

Räjäytyskuva kaapelikelan suunnittelusta
Jokainen GDPval-tehtävä on kokeneen ammattilaisen suunnittelema ja heijastaa heidän työstään peräisin olevaa todellista tietotyötä. Kehote on realistinen työtehtävä, jonka on luonut toimialan asiantuntija, ja kokoelman tuotos on asiantuntijan oma ratkaisu.

Mallin suorituskyvyn arviointi

Mallin suorituskyvyn arvioimiseksi GDPval-tehtävissä käytämme asiantuntija-arvioijia. He ovat kokeneita ammattilaisia ​​samoista ammateista, jotka ovat edustettuina aineistossa. Nämä arvioijat vertaavat sokeasti mallin luomia tuotoksia tehtävien kirjoittajien tuottamiin tuotoksiin kriittisesti ja arvioiden (tietämättä, kumpi on tekoälyn ja kumpi ihmisen luomaa). Arvostelijat luokittelevat sitten ihmisten ja tekoälyn tuotokset ja luokittelevat jokaisen tekoälyn tuotoksen “paremmaksi“, “yhtä hyväksi“ tai “huonommaksi kuin" toinen.

Tehtävien kirjoittajat laativat myös yksityiskohtaiset pisteytysohjeet ammateilleen, mikä lisää arvosteluprosessiin johdonmukaisuutta ja avoimuutta. Rakensimme myös tekoälyjärjestelmän tai “automaattisen arvioijan“, joka on koulutettu arvioimaan, miten ihmisasiantuntijat arvioisivat tietyn tuotoksen. Toisin sanoen sen sijaan, että automaattinen arvioija suorittaisi täyden asiantuntijan tarkastuksen jokainen kerta, se voi nopeasti ennustaa, mistä tuotoksesta ihmiset todennäköisesti pitäisivät. Julkaisemme tämän työkalun osoitteessa evals.openai.com kokeellisena tutkimuspalveluna, mutta se ei ole vielä yhtä luotettava kuin asiantuntija-arvioijat, joten emme käytä sitä korvaamaan heitä. 

Varhaiset tulokset

Havaitsimme, että nykypäivän parhaat edistyneet mallit lähestyvät jo alan asiantuntijoiden tuottaman työn laatua. Tämän testaamiseksi suoritimme sokkoarviointeja, joissa alan asiantuntijat vertasivat useiden johtavien mallien – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro ja Grok 4 – tuotoksia ihmisen tuottamaan työhön. GDPval-kokoelman 220 tehtävästä tallensimme, milloin mallin tuotokset arvioitiin paremmiksi ("voittaa") tai samantasoisiksi ("tasan") alan asiantuntijoiden tuotoksiin, kuten alla olevasta pylväskaaviosta käy ilmi. Claude Opus 4.1 oli joukosta parhaiten suoriutuva malli, joka loistaa erityisesti estetiikassa (esim. asiakirjojen muotoilussa, dian asettelussa), ja GPT‑5 loisti erityisesti tarkkuudessa (esim. alakohtaisen tiedon löytämisessä). Näemme myös selkeää edistystä näissä tehtävissä ajan kuluessa. Suorituskyky on yli kaksinkertaistunut GPT‑4o‑mallista (julkaistu keväällä 2024) GPT‑5‑malliin (julkaistu kesällä 2025) selkeän lineaarisen trendin mukaisesti.

Lisäksi havaitsimme, että edistyneet mallit pystyvät suorittamaan GDPval-tehtäviä noin 100 kertaa nopeammin ja 100 kertaa halvemmalla kuin alan asiantuntijat. Nämä luvut heijastavat kuitenkin vain mallin päättelyaikaa ja API-laskutushintoja, eivätkä ne siksi kata ihmisen valvontaa, iterointia ja integrointivaiheita, joita malliemme käyttö edellyttää todellisissa työpaikoissa. Siitä huolimatta odotamme, että erityisesti niissä tehtävissä, joissa mallit ovat erityisen vahvoja, tehtävän antaminen mallille ennen sen kokeilemista ihmisen kanssa säästäisi aikaa ja rahaa.

Asiantuntija-arvioijat vertasivat johtavien mallien tuotoksia ihmisasiantuntijoiden tuotoksiin. Nykyiset edistyneet mallit lähestyvät jo alan asiantuntijoiden tuottaman työn laatua. Hieman alle puolessa tehtävistä Claude Opus 4.1 tuotti tuotoksia, jotka arvioitiin yhtä hyviksi tai paremmiksi kuin ihmisten tekemät.

GPT‑4o‑mallista GPT‑5‑malliin suorituskyky GDPval-tehtävissä yli kolminkertaistui vuodessa. 

Lopuksi koulutimme GPT‑5:n sisäistä, kokeellista versiota asteittain arvioidaksemme, voimmeko parantaa GDPvalin suorituskykyä. Havaitsimme tämän prosessin parantaneen suorituskykyä ja luoneen polun jatkokehitykselle. Muut kontrolloidut kokeet tukevat samaa: mallin koon kasvattaminen, useampien päättelyvaiheiden kannustaminen ja rikkaamman tehtäväkontekstin antaminen johtivat kaikki mitattavissa oleviin hyötyihin.

Voit lukea koko tuloksen julkaisustamme. Julkaisemme myös GDPval-tehtäväkokoelman osajoukon ja julkisen arviointipalvelun, jotta muut tutkijat voivat hyödyntää tätä työtä.

Työn ja tekoälyn tulevaisuus 

Tekoälyn kehittyessä se todennäköisesti aiheuttaa muutoksia työmarkkinoilla. Alustavat GDPval-tulokset osoittavat, että mallit voivat jo ottaa hoitaakseen joitakin toistuvia, hyvin määriteltyjä tehtäviä nopeammin ja halvemmalla kuin asiantuntijat. Useimmat työt ovat kuitenkin enemmän kuin vain kokoelma tehtäviä, jotka voidaan kirjoittaa muistiin. GDPval korostaa, missä tekoäly voi hoitaa rutiinitehtäviä, jotta ihmiset voivat käyttää enemmän aikaa työn luoviin ja harkintaa vaativiin osiin. Tekoälyn kyky täydentää työntekijöitä tällä tavalla voi johtaa merkittävään talouskasvuun. Tavoitteenamme on pitää kaikki tekoälyn ns. “ylöspäin menevässä hississä“ demokratisoimalla pääsyä näihin työkaluihin, tukemalla työntekijöitä muutoksen aikana ja rakentamalla järjestelmiä, jotka palkitsevat laaja-alaista osallistumista. 

Rajoitukset ja mitä seuraavaksi

GDPval on varhainen vaihe. Vaikka se kattaa 44 ammattia ja satoja tehtäviä, jatkamme lähestymistapamme tarkentamista laajentaaksemme testauksemme laajuutta ja saadaksemme tuloksista merkityksellisempiä. Arvioinnin nykyinen versio on myös kertaluonteinen, joten se ei kata tapauksia, joissa mallin kontekstia olisi rakennettava tai sitä olisi parannettava useiden vedosten avulla, esimerkiksi oikeudellisen toimeksiannon tarkastaminen asiakaspalautteen jälkeen tai data-analyysin toistaminen poikkeaman havaitsemisen jälkeen. Lisäksi tosielämän tehtäviä ei aina määritellä selkeästi kehotteella ja viitetiedostoilla. Esimerkiksi asianajajan on ehkä selvitettävä epäselvyyksiä ja keskusteltava asiakkaansa kanssa ennen kuin hän päättää, että oikeudellisen toimeksiannon laatiminen on oikea tapa auttaa heitä. Aiomme laajentaa GDPval-arviointia kattamaan useampia ammatteja, toimialoja ja tehtävätyyppejä, lisäämään vuorovaikutteisuutta ja tehtäviä, joissa käsitellään epäselvyyksiä. Pitkän aikavälin tavoitteena on parantaa monimuotoisen tietotyön edistymisen mittaamista.

Osallistu

Yhteisön osallistuminen on olennaista. Olemme innoissamme voidessamme rakentaa GDPvalia yhdessä tutkijoiden, ammattilaisten ja organisaatioiden kanssa, jotka jakavat tavoitteemme tehdä yleisestä tekoälystä hyödyllisempää työssäkäyville.