2025 m. rugsėjo 25 d.

Mūsų modelių našumo vertinimas atliekant realaus pasaulio užduotis

Pristatome „GDPval“ – naują vertinimą, kuris matuoja modelio našumą atliekant ekonomiškai vertingas realaus pasaulio užduotis 44-iose profesijose.

Skaityti straipsnį Apsilankykite evals.openai.com

Mūsų misija – užtikrinti, kad bendrasis dirbtinis intelektas būtų naudingas visai žmonijai. Vykdydami savo misiją, norime skaidriai informuoti apie pažangą, kaip DI modeliai gali padėti žmonėms realiame pasaulyje. Todėl pristatome „GDPval“: naują vertinimą, skirtą padėti mums stebėti, kaip gerai mūsų ir kitų kūrėjų modeliai atlieka ekonomiškai vertingas realaus pasaulio užduotis. Šį vertinimą pavadinome „GDPval“, nes atspirties tašku pasirinkome bendrąjį vidaus produktą (BVP) kaip pagrindinį ekonominį rodiklį, o užduotis atrinkome iš pagrindinių profesijų tose pramonės šakose, kurios labiausiai prisideda prie BVP.

Žmonės dažnai spekuliuoja apie DI poveikį visuomenei plačiąja prasme, tačiau aiškiausias būdas suprasti jo potencialą yra pažvelgti į tai, ką modeliai jau geba atlikti. Istorija rodo, kad pagrindinėms technologijoms – nuo interneto iki išmaniųjų telefonų – prireikė daugiau nei dešimtmečio, kad jos taptų plačiai naudojamos nuo išradimo momento. Tokie vertinimai kaip „GDPval“ padeda pagrįsti pokalbius apie būsimus DI patobulinimus įrodymais, o ne spėlionėmis, ir leidžia mums stebėti modelių tobulėjimą laikui bėgant.

Ankstesni DI vertinimai, tokie kaip sudėtingi akademiniai testai ir konkurenciniai kodavimo iššūkiai, buvo labai svarbūs plečiant modelių samprotavimo galimybių ribas, tačiau jie dažnai neapima tokių užduočių, kurias daugelis žmonių atlieka savo kasdieniame darbe.

Siekdami užpildyti šią spragą, kūrėme vertinimus, kuriais matuojami vis realistiškesni ir ekonomiškai aktualesni gebėjimai. Ši pažanga apėmė perėjimą nuo klasikinių akademinių lyginamųjų standartų, tokių kaip MMLU (egzaminų tipo klausimai iš dešimčių dalykų), prie labiau taikomųjų vertinimų, pvz., „SWE-Bench“ (programinės įrangos inžinerijos klaidų taisymo užduotys), „MLE-Bench“ (mašininio mokymosi inžinerijos užduotys, tokios kaip modelių mokymas ir analizė) ir „Paper-Bench“ (mokslinis samprotavimas ir tyrimų straipsnių kritika), o visai neseniai – prie rinka pagrįstų vertinimų, tokių kaip „SWE-Lancer“ (laisvai samdomų programinės įrangos inžinierių projektai, pagrįsti realiu užmokesčiu).

„GDPval“ yra kitas žingsnis šioje pažangoje. Jis matuoja modelio našumą atliekant užduotis, paimtas tiesiogiai iš patyrusių specialistų realaus žinių darbo įvairiose profesijose ir sektoriuose, taip suteikdamas aiškesnį vaizdą, kaip modeliai atlieka ekonomiškai vertingas užduotis. Modelių vertinimas atliekant realistiškas profesines užduotis padeda mums suprasti ne tik tai, kaip gerai jie veikia laboratorijoje, bet ir kaip jie galėtų padėti žmonėms jų kasdieniame darbe.

Ką matuoja „GDPval“

„GDPval“, pirmoji šio vertinimo versija, apima 44 profesijas, atrinktas iš devynių didžiausių pramonės šakų, kurios labiausiai prisideda prie JAV BVP. Visą „GDPval“ rinkinį sudaro 1320 specializuotų užduočių (220 auksiniame atvirojo kodo rinkinyje), kurių kiekviena buvo kruopščiai parengta ir patikrinta patyrusių specialistų, turinčių vidutiniškai daugiau nei 14 metų patirtį šiose srityse. Kiekviena užduotis pagrįsta realiais darbo produktais, tokiais kaip teisinė santrauka, inžinerinis brėžinys, klientų aptarnavimo pokalbis ar slaugos planas.

„GDPval“ išsiskiria tiek savo realizmu, tiek vertinamų užduočių įvairove. Skirtingai nuo kitų vertinimų, susietų su ekonomine verte, kurie koncentruojasi į konkrečias sritis (pvz., „SWE-Lancer“), „GDPval“ apima daugybę užduočių ir profesijų. Ir skirtingai nuo lyginamųjų standartų, kurie apima sintetiniu būdu sukurtas užduotis akademinio egzamino ar testo stiliumi (pvz., „Humanity's Last Exam“ ar MMLU), „GDPval“ orientuojasi į užduotis, pagrįstas rezultatais, kurie yra arba realus šiandien egzistuojantis darbo produktas, arba panašiai sukonstruotas darbo produktas.

Skirtingai nuo tradicinių lyginamųjų standartų, „GDPval“ užduotys nėra paprasti tekstiniai raginimai. Jos pateikiamos su informaciniais failais ir kontekstu, o laukiami rezultatai apima dokumentus, skaidres, diagramas, skaičiuokles ir multimediją. Dėl šio realizmo „GDPval“ yra tikroviškesnis testas, parodantis, kaip modeliai galėtų padėti specialistams.

„GDPval“ yra ankstyvas žingsnis, kuris neatspindi visų daugelio ekonominių užduočių niuansų. Nors jis apima 44 profesijas ir šimtus žinių darbo užduočių, jis apsiriboja vienkartiniais vertinimais (angl. one-shot), todėl neapima atvejų, kai modeliui reikėtų kaupti kontekstą arba tobulėti per kelis juodraščius. Būsimos versijos apims interaktyvesnes darbo eigas ir kontekstu turtingas užduotis, kad geriau atspindėtų realaus pasaulio žinių darbo sudėtingumą (daugiau apie tai skaitykite toliau esančiame skyriuje „Apribojimai“).

Kaip pasirinkome profesijas

„GDPval“ apima užduotis iš devynių pramonės šakų ir 44 profesijų, o būsimos versijos ir toliau plės aprėptį. Pradinės devynios pramonės šakos buvo pasirinktos remiantis tomis, kurios prisideda daugiau nei 5 proc. prie JAV BVP, kaip nustatyta pagal Sent Luiso federalinio rezervų banko duomenis. Tada atrinkome po -penkias profesijas kiekvienoje pramonės šakoje, kurios labiausiai prisideda prie bendro darbo užmokesčio ir kompensacijų bei yra daugiausia žinių darbo profesijos, naudodami darbo užmokesčio ir užimtumo duomenis iš 2024 m. gegužės mėn. JAV darbo statistikos biuro (BLS) profesinio užimtumo ataskaitos⁠(atsidaro naujame lange). Norėdami nustatyti, ar profesija yra daugiausia žinių darbas, naudojome užduočių duomenis iš O*NET⁠(atsidaro naujame lange) – JAV profesinės informacijos duomenų bazės, kurią remia JAV darbo departamentas. Klasifikavome, ar kiekviena O*NET nurodyta profesijos užduotis yra žinių darbas, ar fizinis darbas / rankų darbas (reikalaujantis veiksmų fiziniame pasaulyje). Profesija bendrai buvo kvalifikuojama kaip „daugiausia žinių darbas“, jei bent 60 proc. jos sudedamųjų užduočių buvo klasifikuojamos kaip neapimančios fizinio ar rankų darbo. Šią 60 proc. ribą pasirinkome kaip atspirties tašką pirmajai „GDPval“ versijai, daugiausia dėmesio skirdami profesijoms, kuriose DI galėtų turėti didžiausią poveikį realaus pasaulio produktyvumui.

Šiame procese įtrauktos 44 profesijos.

Nekilnojamasis turtas, nuoma ir išperkamoji nuoma

Konsjeržai
Turto, nekilnojamojo turto ir bendrijų valdytojai
Nekilnojamojo turto pardavimo agentai
Nekilnojamojo turto brokeriai
Priimamojo ir nuomos darbuotojai

Valstybinis sektorius

Poilsio organizavimo darbuotojai
Atitikties pareigūnai
Policijos ir detektyvų tiesioginiai vadovai
Administracinių paslaugų vadovai
Vaikų, šeimos ir mokyklos socialiniai darbuotojai

Gamyba

Mechanikos inžinieriai
Pramonės inžinieriai
Pirkėjai ir pirkimo agentai
Siuntimo, priėmimo ir atsargų apskaitininkai
Gamybos ir operacijų darbuotojų tiesioginiai vadovai

Profesinės, mokslinės ir techninės paslaugos

Programinės įrangos kūrėjai
Teisininkai
Buhalteriai ir auditoriai
Kompiuterių ir informacinių sistemų vadovai
Projektų valdymo specialistai

Sveikatos priežiūra ir socialinė pagalba

Registruoti slaugytojai
Slaugytojai praktikai
Medicinos ir sveikatos paslaugų vadovai
Biuro ir administracinės pagalbos darbuotojų tiesioginiai vadovai
Medicinos sekretoriai ir administracijos asistentai

Finansai ir draudimas

Klientų aptarnavimo atstovai
Finansų ir investicijų analitikai
Finansų vadovai
Asmeniniai finansų patarėjai
Vertybinių popierių, žaliavų ir finansinių paslaugų pardavimo agentai

Mažmeninė prekyba

Vaistininkai
Mažmeninės prekybos darbuotojų tiesioginiai vadovai
Generaliniai ir operacijų vadovai
Privatūs detektyvai ir tyrėjai

Didmeninė prekyba

Pardavimų vadovai
Užsakymų priėmėjai
Ne mažmeninės prekybos pardavimų darbuotojų tiesioginiai vadovai
Pardavimų atstovai, didmeninė prekyba ir gamyba, išskyrus techninius ir mokslinius produktus
Pardavimų atstovai, didmeninė prekyba ir gamyba, techniniai ir moksliniai produktai

Informacija

Garso ir vaizdo technikai
Prodiuseriai ir režisieriai
Naujienų analitikai, reporteriai ir žurnalistai
Filmų ir vaizdo įrašų montuotojai
Redaktoriai

„GDPval“ apima 44 žinių darbo profesijas devyniuose sektoriuose, nuo programinės įrangos kūrėjų ir teisininkų iki registruotų slaugytojų ir mechanikos inžinierių. Šios profesijos atrinktos dėl jų ekonominės svarbos ir atstovauja kasdienio darbo tipams, kuriuose DI gali reikšmingai padėti specialistams.

Kaip sukūrėme duomenų rinkinį

Dirbome su patyrusiais specialistais, kad kiekvienai profesijai sukurtume reprezentatyvias užduotis, atspindinčias kasdienį darbą. Šie specialistai turėjo vidutiniškai 14 metų patirtį ir puikius karjeros pasiekimus. Sąmoningai pasitelkėme platų ekspertų ratą – pavyzdžiui, teisininkus iš skirtingų praktikos sričių ir įvairaus dydžio kontorų – kad maksimaliai padidintume reprezentatyvumą.

Kiekviena užduotis praėjo kelių etapų peržiūros procesą, siekiant užtikrinti, kad ji atitiktų realų darbą, būtų įvykdoma kitam specialistui ir aiški vertinimui. Vidutiniškai kiekviena užduotis gavo penkis ekspertų peržiūros raundus, įskaitant kitų užduočių rašytojų patikras, papildomus tos profesijos recenzentus ir modeliu pagrįstą patvirtinimą.

Gautą duomenų rinkinį sudaro 30 visiškai peržiūrėtų užduočių kiekvienai profesijai (pilnas rinkinys) ir penkios užduotys kiekvienai profesijai mūsų auksiniame atvirojo kodo rinkinyje, suteikiant tvirtą pagrindą modelio našumui vertinti atliekant realaus pasaulio žinių darbą.

„GDPval“ užduočių pavyzdžiai

Raginimas + užduoties kontekstas

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Patyrusio žmogaus rezultatas

Kabelio ritės dizaino išskleistas vaizdas

Kiekviena „GDPval“ užduotis yra sukurta patyrusio specialisto ir atspindi realų žinių darbą jo profesijoje. Raginimas yra reali darbo užduotis, sukurta srities eksperto, o auksinis rezultatas yra paties eksperto sprendimas.

Kaip vertiname modelio našumą

Vertindami modelio našumą atliekant „GDPval“ užduotis, remiamės ekspertais „vertintojais“ – patyrusių specialistų grupe iš tų pačių profesijų, kurios atstovaujamos duomenų rinkinyje. Šie vertintojai aklai (nežinodami, kuris yra DI, o kuris – žmogaus darbas) lygina modelio sugeneruotus rezultatus su užduočių rašytojų parengtais rezultatais ir pateikia kritiką bei reitingus. Tuomet vertintojai reitinguoja žmogaus ir DI rezultatus ir klasifikuoja kiekvieną DI rezultatą kaip „geresnį“, „tokį pat gerą“ arba „blogesnį“ vienas kito atžvilgiu.

Užduočių rengėjai taip pat sukūrė išsamias vertinimo rubrikas savo profesijoms, kurios suteikia vertinimo procesui nuoseklumo ir skaidrumo. Taip pat sukūrėme „automatinį vertintoją“ – DI sistemą, išmokytą įvertinti, kaip ekspertai žmonės vertintų tam tikrą rezultatą. Kitaip tariant, užuot kaskart atlikus išsamią ekspertų peržiūrą, automatinis vertintojas gali greitai nuspėti, kuriam rezultatui žmonės greičiausiai teiktų pirmenybę. Šį įrankį išleidžiame adresu evals.openai.com kaip eksperimentinę tyrimų paslaugą, tačiau ji dar nėra tokia patikima kaip ekspertai vertintojai, todėl nenaudojame jos jiems pakeisti.

Pirmieji rezultatai

Nustatėme, kad šiandieniniai geriausi pasienio modeliai jau artėja prie pramonės ekspertų darbo kokybės. Norėdami tai patikrinti, atlikome aklus vertinimus, kuriuose pramonės ekspertai lygino kelių pirmaujančių modelių – GPT‑4o, o4-mini, „OpenAI o3“, GPT‑5, „Claude Opus 4.1“, „Gemini 2.5 Pro“ ir „Grok 4“ – rezultatus su žmonių atliktu darbu. Per 220 užduočių „GDPval“ auksiniame rinkinyje fiksavome atvejus, kai modelio rezultatai buvo įvertinti geriau („laimėjimai“) arba lygiaverčiai („lygiosios“) pramonės ekspertų rezultatams, kaip parodyta toliau esančioje stulpelinėje diagramoje. „Claude Opus 4.1“ buvo geriausiai pasirodęs modelis rinkinyje, ypač pasižymėjęs estetika (pvz., dokumentų formatavimu, skaidrių išdėstymu), o GPT‑5 ypač pasižymėjo tikslumu (pvz., randant specifines srities žinias). Taip pat pastebime aiškią pažangą laikui bėgant atliekant šias užduotis. Našumas padidėjo daugiau nei dvigubai nuo „GPT‑4o“ (išleisto 2024 m. pavasarį) iki GPT‑5 (išleisto 2025 m. vasarą) – aiški tiesinė tendencija.

Be to, nustatėme, kad pažangiausi modeliai gali atlikti „GDPval“ užduotis maždaug 100 kartų greičiau ir 100 kartų pigiau nei pramonės ekspertai. Vis dėlto šie skaičiai atspindi gryną modelio vykdymo laiką ir API įkainius, todėl neapima žmogaus priežiūros, iteracijos ir integracijos veiksmų, reikalingų naudojant mūsų modelius realiose darbo vietose. Visgi, ypač tose užduočių grupėse, kur modeliai yra ypač stiprūs, tikimės, kad užduoties perdavimas modeliui prieš bandant ją atlikti žmogui sutaupytų laiko ir pinigų.

Ekspertai vertintojai lygino pirmaujančių modelių rezultatus su žmonių ekspertų rezultatais. Šiandienos pažangiausi modeliai jau artėja prie kokybės, kurią pasiekia pramonės ekspertai. „Claude Opus 4.1“ sugeneravo rezultatus, įvertintus taip pat gerai arba geriau nei žmonių, beveik pusėje užduočių.

Nuo „GPT‑4o“ iki GPT‑5 našumas atliekant „GDPval“ užduotis padidėjo daugiau nei trigubai per metus.

Galiausiai, laipsniškai mokėme vidinę, eksperimentinę GPT‑5 versiją, siekdami įvertinti, ar galėtume pagerinti našumą „GDPval“. Nustatėme, kad šis procesas pagerino našumą, sukurdamas kelią tolesniam potencialiam tobulėjimui. Kiti kontroliuojami eksperimentai tai patvirtina: didinant modelio dydį, skatinant daugiau samprotavimo žingsnių ir suteikiant turtingesnį užduoties kontekstą, buvo pasiekta apčiuopiamų laimėjimų.

Visus rezultatus galite perskaityti mūsų straipsnyje. Taip pat išleidžiame auksinį „GDPval“ užduočių poaibį ir viešą vertinimo paslaugą, kad kiti tyrėjai galėtų remtis šiuo darbu.

Darbo ateitis ir DI

DI tampant vis pajėgesniam, jis greičiausiai sukels pokyčių darbo rinkoje. Ankstyvieji „GDPval“ rezultatai rodo, kad modeliai jau gali atlikti kai kurias pasikartojančias, gerai apibrėžtas užduotis greičiau ir pigiau nei ekspertai. Tačiau dauguma darbų yra daugiau nei tik užduočių rinkinys, kurį galima užrašyti. „GDPval“ išryškina sritis, kur DI gali atlikti įprastas užduotis, kad žmonės galėtų skirti daugiau laiko kūrybiškoms, sprendimų priėmimo reikalaujančioms darbo dalims. Kai DI papildo darbuotojus tokiu būdu, tai gali lemti reikšmingą ekonomikos augimą. Mūsų tikslas – išlaikyti visus DI „kylančiame lifte“, demokratizuojant prieigą prie šių įrankių, remiant darbuotojus pokyčių metu ir kuriant sistemas, kurios atlygina už platų indėlį.

Apribojimai ir ateities perspektyvos

„GDPval“ yra ankstyvas žingsnis. Nors jis apima 44 profesijas ir šimtus užduočių, mes toliau tobuliname savo požiūrį, siekdami išplėsti testavimo aprėptį ir padaryti rezultatus prasmingesnius. Dabartinė vertinimo versija taip pat yra vienkartinė (angl. one-shot), todėl neapima atvejų, kai modeliui reikėtų kaupti kontekstą arba tobulėti per kelis juodraščius – pavyzdžiui, peržiūrėti teisinę santrauką gavus kliento atsiliepimų arba kartoti duomenų analizę pastebėjus anomaliją. Be to, realiame pasaulyje užduotys ne visada aiškiai apibrėžtos raginimu ir informaciniais failais; pavyzdžiui, teisininkui gali tekti orientuotis neapibrėžtume ir pasikalbėti su klientu prieš nusprendžiant, kad teisinės santraukos kūrimas yra tinkamas būdas jam padėti. Planuojame išplėsti „GDPval“, įtraukdami daugiau profesijų, pramonės šakų ir užduočių tipų su didesniu interaktyvumu ir daugiau užduočių, apimančių orientavimąsi neapibrėžtume, turėdami ilgalaikį tikslą geriau matuoti pažangą įvairiame žinių darbe.

Įsitraukite

Jei esate pramonės ekspertas, norintis prisidėti prie „GDPVal“, išreikškite savo susidomėjimą čia.
Jei esate klientas, dirbantis su „OpenAI“, ir norėtumėte prisidėti prie būsimo „GDPVal“ etapo, išreikškite susidomėjimą čia.

Bendruomenės dalyvavimas yra būtinas – džiaugiamės galėdami kurti „GDPval“ kartu su tyrėjais, praktikais ir organizacijomis, kurie dalijasi mūsų tikslu padaryti AGI naudingesnį žmonėms darbe.

Autorius

OpenAI

Skaityti toliau

Peržiūrėti viską

GPT-Red: atsparumo savitobulinimo atrakinimas

Sauga2026-07-15

Atskiriant signalą nuo triukšmo programavimo vertinimuose

Moksliniai tyrimai2026-07-08

Pristatome „GeneBench-Pro“

Moksliniai tyrimai2026-06-30