25. september 2025

Meie mudelite jõudluse mõõtmine reaalsete ülesannete täitmisel.

Tutvustame GDPval-i, uut hindamismeetodit, mis mõõdab mudeli jõudlust majanduslikult väärtuslikel, reaalse maailma ülesannetel 44 ametikohal.

Lugege uurimistööd Külasta saiti evals.openai.com

Meie missiooniks on tagada, et üldine tehisintellekt teeniks kogu inimkonna huve. Meie missiooni osana tahame läbipaistvalt edastada teavet selle kohta, kuidas tehisintellekti mudelid saavad aidata inimesi reaalses maailmas. Seetõttu tutvustame GDPval-i: uut hindamismeetodit, mis on loodud selleks, et aidata meil jälgida, kui hästi meie ja teiste mudelid majanduslikult väärtuslike, reaalse maailma ülesannete täitmisel toimivad. Me nimetame seda hindamist GDPval-iks, kuna alustasime sisemajanduse koguprodukti (SKP) kontseptsioonist kui peamisest majandusnäitajast ja koostasime ülesandeid peamistest ametitest tööstusharudes, mis annavad suurima panuse SKP-sse.

Inimesed spekuleerivad sageli tehisintellekti laiemast mõjust ühiskonnale, kuid kõige selgem viis selle potentsiaali mõistmiseks on vaadata, mida mudelid juba suudavad teha. Ajalugu näitab, et suuremad tehnoloogiad, alates internetist kuni nutitelefonideni, vajasid leiutamisest laialdase kasutuselevõtuni rohkem kui kümme aastat. Hindamised nagu GDPval aitavad vestlusi tulevaste tehisintellekti täiustuste üle rajada tõenditele, mitte oletustele, ning aitavad meil aja jooksul mudelite täiustusi jälgida.

Varasemad tehisintellekti hindamised, nagu keerulised akadeemilised testid ja konkurentsivõimelised kodeerimisülesanded, on olnud olulised mudelite arutlusvõime piiride nihutamisel, kuid sageli jäävad need alla ülesannetele, millega paljud inimesed oma igapäevatöös tegelevad.

Selle lõhe ületamiseks oleme välja töötanud hindamised, mis mõõdavad üha realistlikumaid ja majanduslikult asjakohaseid võimeid. See areng on liikunud klassikalistest akadeemilistest võrdlusalustest nagu MMLU (eksamistiilis küsimused mitmetes ainetes) rakendatud hindamistele nagu SWE-Bench (tarkvarainseneri veaparanduse ülesanded), MLE-Bench (masinõppe inseneri ülesanded nagu mudeli koolitus ja analüüs) ja Paper-Bench (teaduslik arutlus ja uurimistööde kriitika), ning hiljuti turupõhistele hindamistele nagu SWE-Lancer (freelance tarkvarainseneri projektid, mis põhinevad tegelikel väljamaksetel).

GDPval on selle arenguprotsessi järgmine samm. See mõõdab mudelite jõudlust ülesannetes, mis on otseselt seotud kogenud spetsialistide reaalse teadmistööga erinevates ametites ja sektorites, andes selgema ülevaate sellest, kuidas mudelid majanduslikult väärtuslikke ülesandeid täidavad. Mudeleid realistlikel ametialastel ülesannetel hinnates saame aru mitte ainult sellest, kui hästi need laboris toimivad, vaid ka sellest, kuidas need võivad igapäevases töös inimestele tugi pakkuda.

Mida GDPval mõõdab

GDPval, selle hindamise esimene versioon, hõlmab 44 ametit, mis on valitud 9 peamisest tööstusharust, mis annavad panuse USA SKP-sse. GDPval täiskomplekt sisaldab 1 320 spetsialiseeritud ülesannet (220 kuldse avatud lähtekoodiga komplektis), millest igaüks on hoolikalt koostatud ja üle vaadatud kogenud professionaalide poolt, kellel on keskmiselt üle 14-aastane kogemus nendes valdkondades. Iga ülesanne põhineb reaalsetel töötoodetel, nagu juriidiline dokument, inseneri joonis, klienditugi vestlus või õendusabi plaan.

GDPval on eriline nii oma realismi kui ka hinnatavate ülesannete mitmekesisuse poolest. Erinevalt teistest majandusliku väärtusega seotud hindamistest, mis keskenduvad konkreetsetele domeenidele (nt SWE-Lancer), hõlmab GDPval paljusid ülesandeid ja ameteid. Erinevalt võrdlusalustest, mis hõlmavad ülesannete sünteetilist loomist akadeemilise eksami või testi stiilis (nt Humanity’s Last Exam või MMLU), keskendub GDPval ülesannetele, mis põhinevad kas tänapäeval eksisteerival tegelikul töö- või tooteesitusel või sarnaselt koostatud töötootel.

Erinevalt traditsioonilistest võrdlusnäitajatest ei ole GDPval ülesanded lihtsad viibad. Need tulevad koos failide ja kontekstiga ning oodatavad tulemused hõlmavad dokumente, slaide, diagramme, arvutustabeleid ja multimeediat. See realism muudab GDPval-i realistlikumaks testiks selle kohta, kuidas mudelid võivad professionaalidele tugi pakkuda.

SKPväärtus on varajane samm, mis ei kajasta paljude majandusülesannete kõiki nüansse. Kuigi see hõlmab 44 ametit ja sadu teadmiste töö ülesandeid, on see piiratud ühekordsete hindamistega, mistõttu ei hõlma see juhtumeid, kus mudel peaks konteksti looma või mitme mustandi kaudu paranema. Tulevased versioonid laienevad interaktiivsematele töövoogudele ja kontekstrikastele ülesannetele, et paremini kajastada pärismaailma teadmiste töö keerukust (vaata allpool meie Piirangute jaotist).

Kuidas me ameteid valisime

GDPval hõlmab ülesandeid 9 tööstusharus ja 44 ametikohas ning tulevased versioonid jätkavad katvuse laiendamist. Esialgsed 9 tööstusharu valiti välja nende põhjal, mis andsid üle 5% USA SKP-st, nagu on määratud St. Louisi Föderaalreservi Panga andmetest. Seejärel valisime igas tööstusharus välja 5 ametit, mis annavad suurima panuse kogupalkadesse ja hüvitistesse ning on valdavalt teadmistepõhised ametid, kasutades palga- ja tööhõiveandmeid 2024. aasta mai USA Tööstatistika Büroo (BLS) ametialase tööhõive aruandest⁠(avaneb uues aknas). Et teha kindlaks, kas ametid olid valdavalt teadmistepõhised, kasutasime ülesannete andmeid O*NET⁠(avaneb uues aknas)ist, USA Tööministeeriumi toetatud Ameerika Ühendriikide ametialase teabe andmebaasist. Me klassifitseerisime, kas iga ametikoha ülesanne O*NET-is oli teadmiste töö või füüsiline töö/käsitsitöö (nõudes toimingute tegemist füüsilises maailmas). Ametit kvalifitseeritakse üldiselt kui „peamiselt teadmistega seotud tööd”, kui vähemalt 60% selle komponentülesannetest on klassifitseeritud füüsilist tööd või käsitsitööd mitte sisaldavaks. Valisime selle 60% künnise lähtepunktiks GDPval-i esimeses versioonis, keskendudes ametitele, kus tehisintellektil võiks olla suurim mõju reaalse maailma tootlikkusele.

See protsess andis tulemuseks 44 ametikohta kaasamiseks.

Kinnisvara, rentimine ja liisimine

Concierged
Kinnisvara, kinnisvarahaldus ja kogukonna ühingu juhid
Kinnisvaramüügi agendid
Kinnisvaramaaklerid
Letitöötajad ja rendileandjad

Valitsus

Vaba aja tegevuste korraldajad
Vastavuskontrolli ametnikud
Politsei ja detektiivide esmatasandi juhid
Haldusteenuste juhid
Laste, perede ja koolide sotsiaaltöötajad

Tootmine

Mehaanikainsenerid
Tööstusinsenerid.
Ostjad ja ostuagentid
Kauba saatmise, vastuvõtmise ja laoseisu ametnikud
Tootmise ja töötajate esmareajuhid

Professionaalsed, teaduslikud ja tehnilised teenused

Tarkvaraarendajad
Advokaadid
Raamatupidajad ja audiitorid
Arvuti- ja infosüsteemide juhid
projektijuhtimise spetsialistid

Tervishoid ja sotsiaalhoolekanne

Registreeritud meditsiiniõed
Õendustöötajad
Meditsiiniteenuste ja tervishoiuteenuste juhid
Kontori- ja haldustoe töötajate esmarealised juhendajad
Meditsiinisekretärid ja administratiivassistendid

Rahandus ja kindlustus

Klienditeenindajad
Finants- ja investeerimisanalüütikud
Finantsjuhid
Isiklikud finantsnõustajad
Väärtpaberite, kaupade ja finantsteenuste müügiagendid

Jaekaubandus

Apteekrid
Jaemüügitöötajate esmatasandi juhendajad
Üld- ja operatsioonide juhid
Eraisikutest detektiivid ja uurijad

Hulgikaubandus

Müügijuhid
Tellimuste töötajad
Mitte-jaemüügi müügitöötajate esmatasandi juhid
Müügiesindajad, hulgimüük ja tootmine, välja arvatud tehnilised ja teaduslikud tooted
Müügiesindajad, hulgimüügi ja tootmise, tehniliste ja teaduslike toodete alal

Teave

Heli- ja videotehnikud
Produtsendid ja režissöörid
Uudiste analüütikud, reporterid ja ajakirjanikud
Filmi- ja video monteerijad
Toimetajad

GDPval hõlmab 44 teadmistöö ametit 9 sektoris, alates tarkvaraarendajatest ja juristidest kuni registreeritud õdede ja mehaanikainsenerideni. Need ametid valiti nende majandusliku tähtsuse tõttu ja esindavad igapäevatöö tüüpe, kus tehisintellekt saab professionaalidele sisuliselt abiks olla.

Kuidas me andmestikku koostasime

Iga ameti jaoks töötasime koos kogenud spetsialistidega, et loo esinduslikud ülesanded, mis peegeldavad nende igapäevast tööd. Nendel professionaalidel oli keskmiselt 14 aastat kogemust ja silmapaistvad edusammud karjääris. Me värbasime teadlikult laia valiku eksperte, näiteks juriste erinevatest praktikaaladest ja erineva suurusega firmadest, et maksimeerida esinduslikkust.

Iga ülesanne läbis mitmeastmelise ülevaatusprotsessi, et tagada selle esinduslikkus tegeliku töö suhtes, teostatavus teise professionaali poolt ja selgus hindamise jaoks. Keskmiselt sai iga ülesanne 5 eksperdihinnangu vooru, sealhulgas kontrollid teistelt ülesannete koostajatelt, täiendavatelt ametialastelt ülevaatajatelt ja mudelipõhise valideerimise.

Tulemuseks olev andmekogum sisaldab 30 täielikult üle vaadatud ülesannet iga ameti kohta (täiskomplekt) ja 5 ülesannet iga ameti kohta meie avatud lähtekoodiga kuldkomplektis, pakkudes tugeva aluse mudeli jõudluse hindamiseks päriselu teadmistöös.

GDPval ülesannete näited

Viip + ülesande kontekst

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Kogenud inimese tulemus

Iga ülesanne GDPval-is on loodud kogenud professionaali poolt ja peegeldab nende ametist tulenevat tegelikku teadmistega seotud tööd. Viip on realistlik tööülesanne, mille on loonud domeeniekspert, ja kuldne tulemus on eksperdi enda lahendus.

Kuidas me hindame mudeli jõudlust

Mudeli jõudluse hindamiseks GDPval ülesannetes toetume ekspertidest „hindajatele“, rühm kogenud spetsialiste, kes esindavad andmestikus esindatud ameteid. Need hindajad võrdlevad pimesi mudeli koostatud tulemusi ülesande kirjutajate omadega (teadmata, milline on tehisintellekti ja milline inimese loodud) ning pakuvad kriitikat ja järjestusi. Hindajad järjestavad seejärel inimeste ja tehisintellekti tulemused ning klassifitseerivad iga tehisintellekti tulemuse kui „parem“, „sama hea kui“ või „halvem kui“ teised omavahel.

Ülesannete koostajad lõid ka oma ametite jaoks üksikasjalikud hindamisjuhendid, mis lisavad hindamisprotsessile järjepidevust ja läbipaistvust. Samuti lõime „automatiseeritud hindaja“, tehisintellekti süsteemi, mis on koolitatud hindama, kuidas inimeste eksperdid antud tööd hindaksid. Teisisõnu, iga kord täisväärtusliku eksperdihinnangu läbiviimise asemel saab automatiseeritud hindaja kiiresti ennustada, millist väljundit inimesed tõenäoliselt eelistavad. Avaldame selle tööriista evals.openai.com kaudu eksperimentaalse uurimisteenusena, kuid see pole veel nii usaldusväärne kui ekspertide hindajad, seega me ei kasuta seda nende asendamiseks.

Varajased tulemused

Leidsime, et tänapäeva tipptasemel mudelid on juba lähenemas tööstuse ekspertide töö kvaliteedile. Selle testimiseks viisime läbi pimedad hindamised, kus tööstuse eksperdid võrdlesid mitmete juhtivate mudelite, GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro ja Grok 4, tulemusi inimeste loodud töödega. GDPval kuldkomplekti 220 ülesande puhul registreerisime, millal mudeli väljundeid hinnati paremaks kui („võidud“) või samaväärseks („viigid“) valdkonna ekspertide esitatavate tulemustega, nagu on näidatud allpool olevas tulpdiagrammis. Claude Opus 4.1 oli komplekti parim mudel, paistes eriti silma esteetika osas (nt dokumendi vormindamine, slaidipaigutus), ja GPT‑5 paistis eriti silma täpsuse poolest (nt domeenispetsiifilise teadmise leidmine). Samuti näeme nende ülesannete puhul aja jooksul selget edasiminekut. Jõudlus on rohkem kui kahekordistunud alates GPT‑4o‑st (välja antud kevadel 2024) kuni GPT‑5‑ni (välja antud suvel 2025), järgides selget lineaarset trendi.

Lisaks leidsime, et tipptasemel mudelid suudavad GDPval ülesandeid täita ligikaudu 100 korda kiiremini ja 100 korda odavamalt kui valdkonna eksperdid. Kuid need arvud kajastavad ainult mudeli järeldusaega ja API arveldusmäärasid ning seetõttu ei hõlma need inimlikku järelevalvet, iteratsiooni ja integreerimissamme, mis on vajalikud meie mudelite kasutamiseks reaalses töökeskkonnas. Siiski, eriti ülesannete alamhulgal, kus mudelid on eriti tugevad, eeldame, et ülesande andmine mudelile enne selle proovimist inimesega salvestaks aega ja raha.

Eksperthindajad võrdlesid juhtivate mudelite tulemusi inimeste ekspertide omadega. Tänapäeva tipptasemel mudelid on juba lähenemas tööstuse ekspertide töö kvaliteedile. Claude Opus 4.1 toodetud väljundid hinnati ligikaudu pooltes ülesannetes sama headeks või paremateks kui inimeste omad.

GPT‑4o‑st GPT‑5‑ni kasvas jõudlus GDPval ülesannetes rohkem kui kolm korda aastaga.

Lõpuks treenisime järk-järgult GPT‑5 sisemist, eksperimentaalset versiooni, et hinnata, kas suudame parandada jõudlust GDPvalis. Leidsime, et see protsess parandas jõudlust, luues võimaluse edasiseks potentsiaalseks täiustamiseks. Teised kontrollitud eksperimendid kinnitavad seda: mudeli suuruse suurendamine, rohkemate arutlusetappide julgustamine ja rikkama ülesande konteksti pakkumine viisid kõik mõõdetavate edusammudeni.

Sa saad lugeda täielikke tulemusi meie artiklis. Samuti avaldame GDPval ülesannete kuldse alamhulga ja avaliku hindamisteenuse, et teised teadlased saaksid sellele tööle tugineda.

Töö ja tehisintellekti tulevik

Kuna tehisintellekt muutub võimekamaks, toob see tõenäoliselt kaasa muutusi tööturul. Varajased GDPval tulemused näitavad, et mudelid suudavad juba täita mõningaid korduvaid, hästi määratletud ülesandeid kiiremini ja madalamate kuludega kui eksperdid. Kuid enamik töökohti on rohkem kui lihtsalt ülesannete kogum, mida saab kirja panna. GDPval toob esile, kus tehisintellekt saab hakkama rutiinsete ülesannetega, et inimesed saaksid rohkem aega pühendada töö loovatele ja otsustusmahukatele osadele. Kui tehisintellekt täiendab töötajaid sel viisil, võib see tõlkuda märkimisväärseks majanduskasvuks. Meie eesmärk on hoida kõiki tehisintellekti „tõusuteel“, demokratiseerides juurdepääsu nendele tööriistadele, toetades töötajaid muutuste ajal ja luues süsteeme, mis premeerivad laialdast panust.

Piirangud ja mis järgneb

GDPval on esialgne samm. Kuigi see hõlmab 44 ametit ja sadu ülesandeid, jätkame oma lähenemisviisi täiustamist, et laiendada testimise ulatust ja muuta tulemused tähendusrikkamaks. Praegune hindamise versioon on samuti ühekordne, seega ei hõlma see juhtumeid, kus mudel peaks konteksti looma või mitme mustandi kaudu paranema, näiteks juriidilise memorandumi muutmine pärast kliendi tagasisidet või andmeanalüüsi kordamine pärast anomaalia avastamist. Lisaks ei ole reaalmaailmas ülesanded alati selgelt määratletud viipade ja viitefailidega; näiteks võib advokaat pidada vajalikuks navigeerida ebaselguses ja rääkida oma kliendiga, enne kui otsustab, et õigusliku memorandumi loomine on õige lähenemisviis nende aitamiseks. Me plaanime laiendada GDPval'i, et hõlmata rohkem ameteid, tööstusharusid ja ülesandetüüpe, suurendades interaktiivsust ja lisades rohkem ülesandeid, mis hõlmavad ebaselguse navigeerimist, pikaajalise eesmärgiga paremini mõõta edusamme mitmekesises teadmistöös.

Osale

Kui oled valdkonna ekspert ja oled huvitatud GDPval-i panustamisest, palun anna oma huvist teada siin.
Kui oled OpenAI klient ja soovid panustada GDPval-i tulevasesse vooru, palun anna oma huvist teada siin.

Kogukonna osalus on hädavajalik, oleme põnevil, et saame koos teadlaste, praktikute ja organisatsioonidega, kes jagavad meie eesmärki muuta AGI inimeste töö jaoks kasulikumaks, ehitada GDPval.

Autor

OpenAI

Jätka lugemist

Vaata kõiki

GPT-Red: enesetäiustus suurema vastupidavuse nimel

Ohutus15. juuli 2026

Signaali ja müra eristamine kodeerimise hindamistes

Teadustöö8. juuli 2026

Tutvustame GeneBench-Pro'd

Teadustöö30. juuni 2026