Mūsų modelių našumo vertinimas atliekant realaus pasaulio užduotis
Pristatome „GDPval“ – naują vertinimą, kuris matuoja modelio našumą atliekant ekonomiškai vertingas realaus pasaulio užduotis 44-iose profesijose.
Mūsų misija – užtikrinti, kad bendrasis dirbtinis intelektas būtų naudingas visai žmonijai. Vykdydami savo misiją, norime skaidriai informuoti apie pažangą, kaip DI modeliai gali padėti žmonėms realiame pasaulyje. Todėl pristatome „GDPval“: naują vertinimą, skirtą padėti mums stebėti, kaip gerai mūsų ir kitų kūrėjų modeliai atlieka ekonomiškai vertingas realaus pasaulio užduotis. Šį vertinimą pavadinome „GDPval“, nes atspirties tašku pasirinkome bendrąjį vidaus produktą (BVP) kaip pagrindinį ekonominį rodiklį, o užduotis atrinkome iš pagrindinių profesijų tose pramonės šakose, kurios labiausiai prisideda prie BVP.
Žmonės dažnai spekuliuoja apie DI poveikį visuomenei plačiąja prasme, tačiau aiškiausias būdas suprasti jo potencialą yra pažvelgti į tai, ką modeliai jau geba atlikti. Istorija rodo, kad pagrindinėms technologijoms – nuo interneto iki išmaniųjų telefonų – prireikė daugiau nei dešimtmečio, kad jos taptų plačiai naudojamos nuo išradimo momento. Tokie vertinimai kaip „GDPval“ padeda pagrįsti pokalbius apie būsimus DI patobulinimus įrodymais, o ne spėlionėmis, ir leidžia mums stebėti modelių tobulėjimą laikui bėgant.
Ankstesni DI vertinimai, tokie kaip sudėtingi akademiniai testai ir konkurenciniai kodavimo iššūkiai, buvo labai svarbūs plečiant modelių samprotavimo galimybių ribas, tačiau jie dažnai neapima tokių užduočių, kurias daugelis žmonių atlieka savo kasdieniame darbe.
Siekdami užpildyti šią spragą, kūrėme vertinimus, kuriais matuojami vis realistiškesni ir ekonomiškai aktualesni gebėjimai. Ši pažanga apėmė perėjimą nuo klasikinių akademinių lyginamųjų standartų, tokių kaip MMLU (egzaminų tipo klausimai iš dešimčių dalykų), prie labiau taikomųjų vertinimų, pvz., „SWE-Bench“ (programinės įrangos inžinerijos klaidų taisymo užduotys), „MLE-Bench“ (mašininio mokymosi inžinerijos užduotys, tokios kaip modelių mokymas ir analizė) ir „Paper-Bench“ (mokslinis samprotavimas ir tyrimų straipsnių kritika), o visai neseniai – prie rinka pagrįstų vertinimų, tokių kaip „SWE-Lancer“ (laisvai samdomų programinės įrangos inžinierių projektai, pagrįsti realiu užmokesčiu).
„GDPval“ yra kitas žingsnis šioje pažangoje. Jis matuoja modelio našumą atliekant užduotis, paimtas tiesiogiai iš patyrusių specialistų realaus žinių darbo įvairiose profesijose ir sektoriuose, taip suteikdamas aiškesnį vaizdą, kaip modeliai atlieka ekonomiškai vertingas užduotis. Modelių vertinimas atliekant realistiškas profesines užduotis padeda mums suprasti ne tik tai, kaip gerai jie veikia laboratorijoje, bet ir kaip jie galėtų padėti žmonėms jų kasdieniame darbe.
„GDPval“, pirmoji šio vertinimo versija, apima 44 profesijas, atrinktas iš devynių didžiausių pramonės šakų, kurios labiausiai prisideda prie JAV BVP. Visą „GDPval“ rinkinį sudaro 1320 specializuotų užduočių (220 auksiniame atvirojo kodo rinkinyje), kurių kiekviena buvo kruopščiai parengta ir patikrinta patyrusių specialistų, turinčių vidutiniškai daugiau nei 14 metų patirtį šiose srityse. Kiekviena užduotis pagrįsta realiais darbo produktais, tokiais kaip teisinė santrauka, inžinerinis brėžinys, klientų aptarnavimo pokalbis ar slaugos planas.
„GDPval“ išsiskiria tiek savo realizmu, tiek vertinamų užduočių įvairove. Skirtingai nuo kitų vertinimų, susietų su ekonomine verte, kurie koncentruojasi į konkrečias sritis (pvz., „SWE-Lancer“), „GDPval“ apima daugybę užduočių ir profesijų. Ir skirtingai nuo lyginamųjų standartų, kurie apima sintetiniu būdu sukurtas užduotis akademinio egzamino ar testo stiliumi (pvz., „Humanity's Last Exam“ ar MMLU), „GDPval“ orientuojasi į užduotis, pagrįstas rezultatais, kurie yra arba realus šiandien egzistuojantis darbo produktas, arba panašiai sukonstruotas darbo produktas.
Skirtingai nuo tradicinių lyginamųjų standartų, „GDPval“ užduotys nėra paprasti tekstiniai raginimai. Jos pateikiamos su informaciniais failais ir kontekstu, o laukiami rezultatai apima dokumentus, skaidres, diagramas, skaičiuokles ir multimediją. Dėl šio realizmo „GDPval“ yra tikroviškesnis testas, parodantis, kaip modeliai galėtų padėti specialistams.
„GDPval“ yra ankstyvas žingsnis, kuris neatspindi visų daugelio ekonominių užduočių niuansų. Nors jis apima 44 profesijas ir šimtus žinių darbo užduočių, jis apsiriboja vienkartiniais vertinimais (angl. one-shot), todėl neapima atvejų, kai modeliui reikėtų kaupti kontekstą arba tobulėti per kelis juodraščius. Būsimos versijos apims interaktyvesnes darbo eigas ir kontekstu turtingas užduotis, kad geriau atspindėtų realaus pasaulio žinių darbo sudėtingumą (daugiau apie tai skaitykite toliau esančiame skyriuje „Apribojimai“).
„GDPval“ apima užduotis iš devynių pramonės šakų ir 44 profesijų, o būsimos versijos ir toliau plės aprėptį. Pradinės devynios pramonės šakos buvo pasirinktos remiantis tomis, kurios prisideda daugiau nei 5 proc. prie JAV BVP, kaip nustatyta pagal Sent Luiso federalinio rezervų banko duomenis. Tada atrinkome po -penkias profesijas kiekvienoje pramonės šakoje, kurios labiausiai prisideda prie bendro darbo užmokesčio ir kompensacijų bei yra daugiausia žinių darbo profesijos, naudodami darbo užmokesčio ir užimtumo duomenis iš 2024 m. gegužės mėn. JAV darbo statistikos biuro (BLS) profesinio užimtumo ataskaitos(atsidaro naujame lange). Norėdami nustatyti, ar profesija yra daugiausia žinių darbas, naudojome užduočių duomenis iš O*NET(atsidaro naujame lange) – JAV profesinės informacijos duomenų bazės, kurią remia JAV darbo departamentas. Klasifikavome, ar kiekviena O*NET nurodyta profesijos užduotis yra žinių darbas, ar fizinis darbas / rankų darbas (reikalaujantis veiksmų fiziniame pasaulyje). Profesija bendrai buvo kvalifikuojama kaip „daugiausia žinių darbas“, jei bent 60 proc. jos sudedamųjų užduočių buvo klasifikuojamos kaip neapimančios fizinio ar rankų darbo. Šią 60 proc. ribą pasirinkome kaip atspirties tašką pirmajai „GDPval“ versijai, daugiausia dėmesio skirdami profesijoms, kuriose DI galėtų turėti didžiausią poveikį realaus pasaulio produktyvumui.
Šiame procese įtrauktos 44 profesijos.
Nekilnojamasis turtas, nuoma ir išperkamoji nuoma
Konsjeržai
Turto, nekilnojamojo turto ir bendrijų valdytojai
Nekilnojamojo turto pardavimo agentai
Nekilnojamojo turto brokeriai
Priimamojo ir nuomos darbuotojai
Valstybinis sektorius
Poilsio organizavimo darbuotojai
Atitikties pareigūnai
Policijos ir detektyvų tiesioginiai vadovai
Administracinių paslaugų vadovai
Vaikų, šeimos ir mokyklos socialiniai darbuotojai
Gamyba
Mechanikos inžinieriai
Pramonės inžinieriai
Pirkėjai ir pirkimo agentai
Siuntimo, priėmimo ir atsargų apskaitininkai
Gamybos ir operacijų darbuotojų tiesioginiai vadovai
Profesinės, mokslinės ir techninės paslaugos
Programinės įrangos kūrėjai
Teisininkai
Buhalteriai ir auditoriai
Kompiuterių ir informacinių sistemų vadovai
Projektų valdymo specialistai
Sveikatos priežiūra ir socialinė pagalba
Registruoti slaugytojai
Slaugytojai praktikai
Medicinos ir sveikatos paslaugų vadovai
Biuro ir administracinės pagalbos darbuotojų tiesioginiai vadovai
Medicinos sekretoriai ir administracijos asistentai
Finansai ir draudimas
Klientų aptarnavimo atstovai
Finansų ir investicijų analitikai
Finansų vadovai
Asmeniniai finansų patarėjai
Vertybinių popierių, žaliavų ir finansinių paslaugų pardavimo agentai
Mažmeninė prekyba
Vaistininkai
Mažmeninės prekybos darbuotojų tiesioginiai vadovai
Generaliniai ir operacijų vadovai
Privatūs detektyvai ir tyrėjai
Didmeninė prekyba
Pardavimų vadovai
Užsakymų priėmėjai
Ne mažmeninės prekybos pardavimų darbuotojų tiesioginiai vadovai
Pardavimų atstovai, didmeninė prekyba ir gamyba, išskyrus techninius ir mokslinius produktus
Pardavimų atstovai, didmeninė prekyba ir gamyba, techniniai ir moksliniai produktai
Informacija
Garso ir vaizdo technikai
Prodiuseriai ir režisieriai
Naujienų analitikai, reporteriai ir žurnalistai
Filmų ir vaizdo įrašų montuotojai
Redaktoriai
Dirbome su patyrusiais specialistais, kad kiekvienai profesijai sukurtume reprezentatyvias užduotis, atspindinčias kasdienį darbą. Šie specialistai turėjo vidutiniškai 14 metų patirtį ir puikius karjeros pasiekimus. Sąmoningai pasitelkėme platų ekspertų ratą – pavyzdžiui, teisininkus iš skirtingų praktikos sričių ir įvairaus dydžio kontorų – kad maksimaliai padidintume reprezentatyvumą.
Kiekviena užduotis praėjo kelių etapų peržiūros procesą, siekiant užtikrinti, kad ji atitiktų realų darbą, būtų įvykdoma kitam specialistui ir aiški vertinimui. Vidutiniškai kiekviena užduotis gavo penkis ekspertų peržiūros raundus, įskaitant kitų užduočių rašytojų patikras, papildomus tos profesijos recenzentus ir modeliu pagrįstą patvirtinimą.
Gautą duomenų rinkinį sudaro 30 visiškai peržiūrėtų užduočių kiekvienai profesijai (pilnas rinkinys) ir penkios užduotys kiekvienai profesijai mūsų auksiniame atvirojo kodo rinkinyje, suteikiant tvirtą pagrindą modelio našumui vertinti atliekant realaus pasaulio žinių darbą.
„GDPval“ užduočių pavyzdžiai
Raginimas + užduoties kontekstas
Patyrusio žmogaus rezultatas

Vertindami modelio našumą atliekant „GDPval“ užduotis, remiamės ekspertais „vertintojais“ – patyrusių specialistų grupe iš tų pačių profesijų, kurios atstovaujamos duomenų rinkinyje. Šie vertintojai aklai (nežinodami, kuris yra DI, o kuris – žmogaus darbas) lygina modelio sugeneruotus rezultatus su užduočių rašytojų parengtais rezultatais ir pateikia kritiką bei reitingus. Tuomet vertintojai reitinguoja žmogaus ir DI rezultatus ir klasifikuoja kiekvieną DI rezultatą kaip „geresnį“, „tokį pat gerą“ arba „blogesnį“ vienas kito atžvilgiu.
Užduočių rengėjai taip pat sukūrė išsamias vertinimo rubrikas savo profesijoms, kurios suteikia vertinimo procesui nuoseklumo ir skaidrumo. Taip pat sukūrėme „automatinį vertintoją“ – DI sistemą, išmokytą įvertinti, kaip ekspertai žmonės vertintų tam tikrą rezultatą. Kitaip tariant, užuot kaskart atlikus išsamią ekspertų peržiūrą, automatinis vertintojas gali greitai nuspėti, kuriam rezultatui žmonės greičiausiai teiktų pirmenybę. Šį įrankį išleidžiame adresu evals.openai.com kaip eksperimentinę tyrimų paslaugą, tačiau ji dar nėra tokia patikima kaip ekspertai vertintojai, todėl nenaudojame jos jiems pakeisti.
Nustatėme, kad šiandieniniai geriausi pasienio modeliai jau artėja prie pramonės ekspertų darbo kokybės. Norėdami tai patikrinti, atlikome aklus vertinimus, kuriuose pramonės ekspertai lygino kelių pirmaujančių modelių – GPT‑4o, o4-mini, „OpenAI o3“, GPT‑5, „Claude Opus 4.1“, „Gemini 2.5 Pro“ ir „Grok 4“ – rezultatus su žmonių atliktu darbu. Per 220 užduočių „GDPval“ auksiniame rinkinyje fiksavome atvejus, kai modelio rezultatai buvo įvertinti geriau („laimėjimai“) arba lygiaverčiai („lygiosios“) pramonės ekspertų rezultatams, kaip parodyta toliau esančioje stulpelinėje diagramoje. „Claude Opus 4.1“ buvo geriausiai pasirodęs modelis rinkinyje, ypač pasižymėjęs estetika (pvz., dokumentų formatavimu, skaidrių išdėstymu), o GPT‑5 ypač pasižymėjo tikslumu (pvz., randant specifines srities žinias). Taip pat pastebime aiškią pažangą laikui bėgant atliekant šias užduotis. Našumas padidėjo daugiau nei dvigubai nuo „GPT‑4o“ (išleisto 2024 m. pavasarį) iki GPT‑5 (išleisto 2025 m. vasarą) – aiški tiesinė tendencija.
Be to, nustatėme, kad pažangiausi modeliai gali atlikti „GDPval“ užduotis maždaug 100 kartų greičiau ir 100 kartų pigiau nei pramonės ekspertai. Vis dėlto šie skaičiai atspindi gryną modelio vykdymo laiką ir API įkainius, todėl neapima žmogaus priežiūros, iteracijos ir integracijos veiksmų, reikalingų naudojant mūsų modelius realiose darbo vietose. Visgi, ypač tose užduočių grupėse, kur modeliai yra ypač stiprūs, tikimės, kad užduoties perdavimas modeliui prieš bandant ją atlikti žmogui sutaupytų laiko ir pinigų.
Ekspertai vertintojai lygino pirmaujančių modelių rezultatus su žmonių ekspertų rezultatais. Šiandienos pažangiausi modeliai jau artėja prie kokybės, kurią pasiekia pramonės ekspertai. „Claude Opus 4.1“ sugeneravo rezultatus, įvertintus taip pat gerai arba geriau nei žmonių, beveik pusėje užduočių.
Nuo „GPT‑4o“ iki GPT‑5 našumas atliekant „GDPval“ užduotis padidėjo daugiau nei trigubai per metus.
Galiausiai, laipsniškai mokėme vidinę, eksperimentinę GPT‑5 versiją, siekdami įvertinti, ar galėtume pagerinti našumą „GDPval“. Nustatėme, kad šis procesas pagerino našumą, sukurdamas kelią tolesniam potencialiam tobulėjimui. Kiti kontroliuojami eksperimentai tai patvirtina: didinant modelio dydį, skatinant daugiau samprotavimo žingsnių ir suteikiant turtingesnį užduoties kontekstą, buvo pasiekta apčiuopiamų laimėjimų.
Visus rezultatus galite perskaityti mūsų straipsnyje. Taip pat išleidžiame auksinį „GDPval“ užduočių poaibį ir viešą vertinimo paslaugą, kad kiti tyrėjai galėtų remtis šiuo darbu.
DI tampant vis pajėgesniam, jis greičiausiai sukels pokyčių darbo rinkoje. Ankstyvieji „GDPval“ rezultatai rodo, kad modeliai jau gali atlikti kai kurias pasikartojančias, gerai apibrėžtas užduotis greičiau ir pigiau nei ekspertai. Tačiau dauguma darbų yra daugiau nei tik užduočių rinkinys, kurį galima užrašyti. „GDPval“ išryškina sritis, kur DI gali atlikti įprastas užduotis, kad žmonės galėtų skirti daugiau laiko kūrybiškoms, sprendimų priėmimo reikalaujančioms darbo dalims. Kai DI papildo darbuotojus tokiu būdu, tai gali lemti reikšmingą ekonomikos augimą. Mūsų tikslas – išlaikyti visus DI „kylančiame lifte“, demokratizuojant prieigą prie šių įrankių, remiant darbuotojus pokyčių metu ir kuriant sistemas, kurios atlygina už platų indėlį.
„GDPval“ yra ankstyvas žingsnis. Nors jis apima 44 profesijas ir šimtus užduočių, mes toliau tobuliname savo požiūrį, siekdami išplėsti testavimo aprėptį ir padaryti rezultatus prasmingesnius. Dabartinė vertinimo versija taip pat yra vienkartinė (angl. one-shot), todėl neapima atvejų, kai modeliui reikėtų kaupti kontekstą arba tobulėti per kelis juodraščius – pavyzdžiui, peržiūrėti teisinę santrauką gavus kliento atsiliepimų arba kartoti duomenų analizę pastebėjus anomaliją. Be to, realiame pasaulyje užduotys ne visada aiškiai apibrėžtos raginimu ir informaciniais failais; pavyzdžiui, teisininkui gali tekti orientuotis neapibrėžtume ir pasikalbėti su klientu prieš nusprendžiant, kad teisinės santraukos kūrimas yra tinkamas būdas jam padėti. Planuojame išplėsti „GDPval“, įtraukdami daugiau profesijų, pramonės šakų ir užduočių tipų su didesniu interaktyvumu ir daugiau užduočių, apimančių orientavimąsi neapibrėžtume, turėdami ilgalaikį tikslą geriau matuoti pažangą įvairiame žinių darbe.
- Jei esate pramonės ekspertas, norintis prisidėti prie „GDPVal“, išreikškite savo susidomėjimą čia.
- Jei esate klientas, dirbantis su „OpenAI“, ir norėtumėte prisidėti prie būsimo „GDPVal“ etapo, išreikškite susidomėjimą čia.
Bendruomenės dalyvavimas yra būtinas – džiaugiamės galėdami kurti „GDPval“ kartu su tyrėjais, praktikais ir organizacijomis, kurie dalijasi mūsų tikslu padaryti AGI naudingesnį žmonėms darbe.


