Meie mudelite jõudluse mõõtmine reaalsete ülesannete täitmisel.
Tutvustame GDPval-i, uut hindamismeetodit, mis mõõdab mudeli jõudlust majanduslikult väärtuslikel, reaalse maailma ülesannetel 44 ametikohal.
Meie missiooniks on tagada, et üldine tehisintellekt teeniks kogu inimkonna huve. Meie missiooni osana tahame läbipaistvalt edastada teavet selle kohta, kuidas tehisintellekti mudelid saavad aidata inimesi reaalses maailmas. Seetõttu tutvustame GDPval-i: uut hindamismeetodit, mis on loodud selleks, et aidata meil jälgida, kui hästi meie ja teiste mudelid majanduslikult väärtuslike, reaalse maailma ülesannete täitmisel toimivad. Me nimetame seda hindamist GDPval-iks, kuna alustasime sisemajanduse koguprodukti (SKP) kontseptsioonist kui peamisest majandusnäitajast ja koostasime ülesandeid peamistest ametitest tööstusharudes, mis annavad suurima panuse SKP-sse.
Inimesed spekuleerivad sageli tehisintellekti laiemast mõjust ühiskonnale, kuid kõige selgem viis selle potentsiaali mõistmiseks on vaadata, mida mudelid juba suudavad teha. Ajalugu näitab, et suuremad tehnoloogiad, alates internetist kuni nutitelefonideni, vajasid leiutamisest laialdase kasutuselevõtuni rohkem kui kümme aastat. Hindamised nagu GDPval aitavad vestlusi tulevaste tehisintellekti täiustuste üle rajada tõenditele, mitte oletustele, ning aitavad meil aja jooksul mudelite täiustusi jälgida.
Varasemad tehisintellekti hindamised, nagu keerulised akadeemilised testid ja konkurentsivõimelised kodeerimisülesanded, on olnud olulised mudelite arutlusvõime piiride nihutamisel, kuid sageli jäävad need alla ülesannetele, millega paljud inimesed oma igapäevatöös tegelevad.
Selle lõhe ületamiseks oleme välja töötanud hindamised, mis mõõdavad üha realistlikumaid ja majanduslikult asjakohaseid võimeid. See areng on liikunud klassikalistest akadeemilistest võrdlusalustest nagu MMLU (eksamistiilis küsimused mitmetes ainetes) rakendatud hindamistele nagu SWE-Bench (tarkvarainseneri veaparanduse ülesanded), MLE-Bench (masinõppe inseneri ülesanded nagu mudeli koolitus ja analüüs) ja Paper-Bench (teaduslik arutlus ja uurimistööde kriitika), ning hiljuti turupõhistele hindamistele nagu SWE-Lancer (freelance tarkvarainseneri projektid, mis põhinevad tegelikel väljamaksetel).
GDPval on selle arenguprotsessi järgmine samm. See mõõdab mudelite jõudlust ülesannetes, mis on otseselt seotud kogenud spetsialistide reaalse teadmistööga erinevates ametites ja sektorites, andes selgema ülevaate sellest, kuidas mudelid majanduslikult väärtuslikke ülesandeid täidavad. Mudeleid realistlikel ametialastel ülesannetel hinnates saame aru mitte ainult sellest, kui hästi need laboris toimivad, vaid ka sellest, kuidas need võivad igapäevases töös inimestele tugi pakkuda.
GDPval, selle hindamise esimene versioon, hõlmab 44 ametit, mis on valitud 9 peamisest tööstusharust, mis annavad panuse USA SKP-sse. GDPval täiskomplekt sisaldab 1 320 spetsialiseeritud ülesannet (220 kuldse avatud lähtekoodiga komplektis), millest igaüks on hoolikalt koostatud ja üle vaadatud kogenud professionaalide poolt, kellel on keskmiselt üle 14-aastane kogemus nendes valdkondades. Iga ülesanne põhineb reaalsetel töötoodetel, nagu juriidiline dokument, inseneri joonis, klienditugi vestlus või õendusabi plaan.
GDPval on eriline nii oma realismi kui ka hinnatavate ülesannete mitmekesisuse poolest. Erinevalt teistest majandusliku väärtusega seotud hindamistest, mis keskenduvad konkreetsetele domeenidele (nt SWE-Lancer), hõlmab GDPval paljusid ülesandeid ja ameteid. Erinevalt võrdlusalustest, mis hõlmavad ülesannete sünteetilist loomist akadeemilise eksami või testi stiilis (nt Humanity’s Last Exam või MMLU), keskendub GDPval ülesannetele, mis põhinevad kas tänapäeval eksisteerival tegelikul töö- või tooteesitusel või sarnaselt koostatud töötootel.
Erinevalt traditsioonilistest võrdlusnäitajatest ei ole GDPval ülesanded lihtsad viibad. Need tulevad koos failide ja kontekstiga ning oodatavad tulemused hõlmavad dokumente, slaide, diagramme, arvutustabeleid ja multimeediat. See realism muudab GDPval-i realistlikumaks testiks selle kohta, kuidas mudelid võivad professionaalidele tugi pakkuda.
SKPväärtus on varajane samm, mis ei kajasta paljude majandusülesannete kõiki nüansse. Kuigi see hõlmab 44 ametit ja sadu teadmiste töö ülesandeid, on see piiratud ühekordsete hindamistega, mistõttu ei hõlma see juhtumeid, kus mudel peaks konteksti looma või mitme mustandi kaudu paranema. Tulevased versioonid laienevad interaktiivsematele töövoogudele ja kontekstrikastele ülesannetele, et paremini kajastada pärismaailma teadmiste töö keerukust (vaata allpool meie Piirangute jaotist).
GDPval hõlmab ülesandeid 9 tööstusharus ja 44 ametikohas ning tulevased versioonid jätkavad katvuse laiendamist. Esialgsed 9 tööstusharu valiti välja nende põhjal, mis andsid üle 5% USA SKP-st, nagu on määratud St. Louisi Föderaalreservi Panga andmetest. Seejärel valisime igas tööstusharus välja 5 ametit, mis annavad suurima panuse kogupalkadesse ja hüvitistesse ning on valdavalt teadmistepõhised ametid, kasutades palga- ja tööhõiveandmeid 2024. aasta mai USA Tööstatistika Büroo (BLS) ametialase tööhõive aruandest(avaneb uues aknas). Et teha kindlaks, kas ametid olid valdavalt teadmistepõhised, kasutasime ülesannete andmeid O*NET(avaneb uues aknas)ist, USA Tööministeeriumi toetatud Ameerika Ühendriikide ametialase teabe andmebaasist. Me klassifitseerisime, kas iga ametikoha ülesanne O*NET-is oli teadmiste töö või füüsiline töö/käsitsitöö (nõudes toimingute tegemist füüsilises maailmas). Ametit kvalifitseeritakse üldiselt kui „peamiselt teadmistega seotud tööd”, kui vähemalt 60% selle komponentülesannetest on klassifitseeritud füüsilist tööd või käsitsitööd mitte sisaldavaks. Valisime selle 60% künnise lähtepunktiks GDPval-i esimeses versioonis, keskendudes ametitele, kus tehisintellektil võiks olla suurim mõju reaalse maailma tootlikkusele.
See protsess andis tulemuseks 44 ametikohta kaasamiseks.
Kinnisvara, rentimine ja liisimine
Concierged
Kinnisvara, kinnisvarahaldus ja kogukonna ühingu juhid
Kinnisvaramüügi agendid
Kinnisvaramaaklerid
Letitöötajad ja rendileandjad
Valitsus
Vaba aja tegevuste korraldajad
Vastavuskontrolli ametnikud
Politsei ja detektiivide esmatasandi juhid
Haldusteenuste juhid
Laste, perede ja koolide sotsiaaltöötajad
Tootmine
Mehaanikainsenerid
Tööstusinsenerid.
Ostjad ja ostuagentid
Kauba saatmise, vastuvõtmise ja laoseisu ametnikud
Tootmise ja töötajate esmareajuhid
Professionaalsed, teaduslikud ja tehnilised teenused
Tarkvaraarendajad
Advokaadid
Raamatupidajad ja audiitorid
Arvuti- ja infosüsteemide juhid
projektijuhtimise spetsialistid
Tervishoid ja sotsiaalhoolekanne
Registreeritud meditsiiniõed
Õendustöötajad
Meditsiiniteenuste ja tervishoiuteenuste juhid
Kontori- ja haldustoe töötajate esmarealised juhendajad
Meditsiinisekretärid ja administratiivassistendid
Rahandus ja kindlustus
Klienditeenindajad
Finants- ja investeerimisanalüütikud
Finantsjuhid
Isiklikud finantsnõustajad
Väärtpaberite, kaupade ja finantsteenuste müügiagendid
Jaekaubandus
Apteekrid
Jaemüügitöötajate esmatasandi juhendajad
Üld- ja operatsioonide juhid
Eraisikutest detektiivid ja uurijad
Hulgikaubandus
Müügijuhid
Tellimuste töötajad
Mitte-jaemüügi müügitöötajate esmatasandi juhid
Müügiesindajad, hulgimüük ja tootmine, välja arvatud tehnilised ja teaduslikud tooted
Müügiesindajad, hulgimüügi ja tootmise, tehniliste ja teaduslike toodete alal
Teave
Heli- ja videotehnikud
Produtsendid ja režissöörid
Uudiste analüütikud, reporterid ja ajakirjanikud
Filmi- ja video monteerijad
Toimetajad
Iga ameti jaoks töötasime koos kogenud spetsialistidega, et loo esinduslikud ülesanded, mis peegeldavad nende igapäevast tööd. Nendel professionaalidel oli keskmiselt 14 aastat kogemust ja silmapaistvad edusammud karjääris. Me värbasime teadlikult laia valiku eksperte, näiteks juriste erinevatest praktikaaladest ja erineva suurusega firmadest, et maksimeerida esinduslikkust.
Iga ülesanne läbis mitmeastmelise ülevaatusprotsessi, et tagada selle esinduslikkus tegeliku töö suhtes, teostatavus teise professionaali poolt ja selgus hindamise jaoks. Keskmiselt sai iga ülesanne 5 eksperdihinnangu vooru, sealhulgas kontrollid teistelt ülesannete koostajatelt, täiendavatelt ametialastelt ülevaatajatelt ja mudelipõhise valideerimise.
Tulemuseks olev andmekogum sisaldab 30 täielikult üle vaadatud ülesannet iga ameti kohta (täiskomplekt) ja 5 ülesannet iga ameti kohta meie avatud lähtekoodiga kuldkomplektis, pakkudes tugeva aluse mudeli jõudluse hindamiseks päriselu teadmistöös.
GDPval ülesannete näited
Viip + ülesande kontekst
Kogenud inimese tulemus

Mudeli jõudluse hindamiseks GDPval ülesannetes toetume ekspertidest „hindajatele“, rühm kogenud spetsialiste, kes esindavad andmestikus esindatud ameteid. Need hindajad võrdlevad pimesi mudeli koostatud tulemusi ülesande kirjutajate omadega (teadmata, milline on tehisintellekti ja milline inimese loodud) ning pakuvad kriitikat ja järjestusi. Hindajad järjestavad seejärel inimeste ja tehisintellekti tulemused ning klassifitseerivad iga tehisintellekti tulemuse kui „parem“, „sama hea kui“ või „halvem kui“ teised omavahel.
Ülesannete koostajad lõid ka oma ametite jaoks üksikasjalikud hindamisjuhendid, mis lisavad hindamisprotsessile järjepidevust ja läbipaistvust. Samuti lõime „automatiseeritud hindaja“, tehisintellekti süsteemi, mis on koolitatud hindama, kuidas inimeste eksperdid antud tööd hindaksid. Teisisõnu, iga kord täisväärtusliku eksperdihinnangu läbiviimise asemel saab automatiseeritud hindaja kiiresti ennustada, millist väljundit inimesed tõenäoliselt eelistavad. Avaldame selle tööriista evals.openai.com kaudu eksperimentaalse uurimisteenusena, kuid see pole veel nii usaldusväärne kui ekspertide hindajad, seega me ei kasuta seda nende asendamiseks.
Leidsime, et tänapäeva tipptasemel mudelid on juba lähenemas tööstuse ekspertide töö kvaliteedile. Selle testimiseks viisime läbi pimedad hindamised, kus tööstuse eksperdid võrdlesid mitmete juhtivate mudelite, GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro ja Grok 4, tulemusi inimeste loodud töödega. GDPval kuldkomplekti 220 ülesande puhul registreerisime, millal mudeli väljundeid hinnati paremaks kui („võidud“) või samaväärseks („viigid“) valdkonna ekspertide esitatavate tulemustega, nagu on näidatud allpool olevas tulpdiagrammis. Claude Opus 4.1 oli komplekti parim mudel, paistes eriti silma esteetika osas (nt dokumendi vormindamine, slaidipaigutus), ja GPT‑5 paistis eriti silma täpsuse poolest (nt domeenispetsiifilise teadmise leidmine). Samuti näeme nende ülesannete puhul aja jooksul selget edasiminekut. Jõudlus on rohkem kui kahekordistunud alates GPT‑4o‑st (välja antud kevadel 2024) kuni GPT‑5‑ni (välja antud suvel 2025), järgides selget lineaarset trendi.
Lisaks leidsime, et tipptasemel mudelid suudavad GDPval ülesandeid täita ligikaudu 100 korda kiiremini ja 100 korda odavamalt kui valdkonna eksperdid. Kuid need arvud kajastavad ainult mudeli järeldusaega ja API arveldusmäärasid ning seetõttu ei hõlma need inimlikku järelevalvet, iteratsiooni ja integreerimissamme, mis on vajalikud meie mudelite kasutamiseks reaalses töökeskkonnas. Siiski, eriti ülesannete alamhulgal, kus mudelid on eriti tugevad, eeldame, et ülesande andmine mudelile enne selle proovimist inimesega salvestaks aega ja raha.
Eksperthindajad võrdlesid juhtivate mudelite tulemusi inimeste ekspertide omadega. Tänapäeva tipptasemel mudelid on juba lähenemas tööstuse ekspertide töö kvaliteedile. Claude Opus 4.1 toodetud väljundid hinnati ligikaudu pooltes ülesannetes sama headeks või paremateks kui inimeste omad.
GPT‑4o‑st GPT‑5‑ni kasvas jõudlus GDPval ülesannetes rohkem kui kolm korda aastaga.
Lõpuks treenisime järk-järgult GPT‑5 sisemist, eksperimentaalset versiooni, et hinnata, kas suudame parandada jõudlust GDPvalis. Leidsime, et see protsess parandas jõudlust, luues võimaluse edasiseks potentsiaalseks täiustamiseks. Teised kontrollitud eksperimendid kinnitavad seda: mudeli suuruse suurendamine, rohkemate arutlusetappide julgustamine ja rikkama ülesande konteksti pakkumine viisid kõik mõõdetavate edusammudeni.
Sa saad lugeda täielikke tulemusi meie artiklis. Samuti avaldame GDPval ülesannete kuldse alamhulga ja avaliku hindamisteenuse, et teised teadlased saaksid sellele tööle tugineda.
Kuna tehisintellekt muutub võimekamaks, toob see tõenäoliselt kaasa muutusi tööturul. Varajased GDPval tulemused näitavad, et mudelid suudavad juba täita mõningaid korduvaid, hästi määratletud ülesandeid kiiremini ja madalamate kuludega kui eksperdid. Kuid enamik töökohti on rohkem kui lihtsalt ülesannete kogum, mida saab kirja panna. GDPval toob esile, kus tehisintellekt saab hakkama rutiinsete ülesannetega, et inimesed saaksid rohkem aega pühendada töö loovatele ja otsustusmahukatele osadele. Kui tehisintellekt täiendab töötajaid sel viisil, võib see tõlkuda märkimisväärseks majanduskasvuks. Meie eesmärk on hoida kõiki tehisintellekti „tõusuteel“, demokratiseerides juurdepääsu nendele tööriistadele, toetades töötajaid muutuste ajal ja luues süsteeme, mis premeerivad laialdast panust.
GDPval on esialgne samm. Kuigi see hõlmab 44 ametit ja sadu ülesandeid, jätkame oma lähenemisviisi täiustamist, et laiendada testimise ulatust ja muuta tulemused tähendusrikkamaks. Praegune hindamise versioon on samuti ühekordne, seega ei hõlma see juhtumeid, kus mudel peaks konteksti looma või mitme mustandi kaudu paranema, näiteks juriidilise memorandumi muutmine pärast kliendi tagasisidet või andmeanalüüsi kordamine pärast anomaalia avastamist. Lisaks ei ole reaalmaailmas ülesanded alati selgelt määratletud viipade ja viitefailidega; näiteks võib advokaat pidada vajalikuks navigeerida ebaselguses ja rääkida oma kliendiga, enne kui otsustab, et õigusliku memorandumi loomine on õige lähenemisviis nende aitamiseks. Me plaanime laiendada GDPval'i, et hõlmata rohkem ameteid, tööstusharusid ja ülesandetüüpe, suurendades interaktiivsust ja lisades rohkem ülesandeid, mis hõlmavad ebaselguse navigeerimist, pikaajalise eesmärgiga paremini mõõta edusamme mitmekesises teadmistöös.
- Kui oled valdkonna ekspert ja oled huvitatud GDPval-i panustamisest, palun anna oma huvist teada siin.
- Kui oled OpenAI klient ja soovid panustada GDPval-i tulevasesse vooru, palun anna oma huvist teada siin.
Kogukonna osalus on hädavajalik, oleme põnevil, et saame koos teadlaste, praktikute ja organisatsioonidega, kes jagavad meie eesmärki muuta AGI inimeste töö jaoks kasulikumaks, ehitada GDPval.


