Mūsu modeļu veiktspējas novērtēšana reālās pasaules uzdevumos
Mēs ieviešam GDPval, jaunu novērtējumu, kas mēra modeļa veiktspēju ekonomiski vērtīgos, reālās pasaules uzdevumos 44 dažādās profesijās.
Mūsu uzdevums ir panākt to, ka mākslīgais vispārējais intelekts sniedz labumu visai cilvēcei. Kā daļu no mūsu misijas mēs vēlamies skaidri komunicēt par progresu, kā mākslīgā intelekta modeļi var palīdzēt cilvēkiem reālajā pasaulē. Tāpēc mēs ieviešam GDPval: jaunu novērtējumu, kas izstrādāts, lai palīdzētu mums izsekot, cik labi mūsu un citu modeļi veic ekonomiski vērtīgus, reālās pasaules uzdevumus. Mēs šo novērtējumu saucam par GDPval, jo sākām ar Iekšzemes kopprodukta (IKP) koncepciju kā galveno ekonomisko rādītāju un izveidojām uzdevumus no galvenajām profesijām nozarēs, kas visvairāk veicina IKP.
Cilvēki bieži spekulē par MI plašāku ietekmi uz sabiedrību, bet skaidrākais veids, kā saprast tā potenciālu, ir aplūkot, ko modeļi jau spēj paveikt. Vēsture rāda, ka nozīmīgām tehnoloģijām—no interneta līdz viedtālruņiem—bija nepieciešams vairāk nekā desmit gadi, lai no izgudrojuma kļūtu par plaši izmantotām. Novērtējumi, piemēram, GDPval, palīdz balstīt sarunas par nākotnes MI uzlabojumiem uz pierādījumiem, nevis minējumiem, un var palīdzēt mums sekot modeļa uzlabojumiem laika gaitā.
Iepriekšējie MI novērtējumi, piemēram, izaicinoši akadēmiskie testi un konkurētspējīgi kodēšanas izaicinājumi, ir bijuši būtiski, lai paplašinātu modeļa domāšanas spēju robežas, taču tie bieži vien neatbilst uzdevumiem, ar kuriem daudzi cilvēki saskaras savā ikdienas darbā.
Lai pārvarētu šo plaisu, mēs esam izstrādājuši novērtējumus, kas mēra arvien reālistiskākas un ekonomiski nozīmīgas spējas. Šī attīstība ir pārgājusi no klasiskajiem akadēmiskajiem etaloniem, piemēram, MMLU (eksāmenu stila jautājumi dažādās tēmās), uz vairāk pielietojamiem novērtējumiem, piemēram, SWE-Bench (programmatūras inženierijas kļūdu labošanas uzdevumi), MLE-Bench (mašīnmācīšanās inženierijas uzdevumi, piemēram, modeļu mācības un analīze), un Paper-Bench (zinātniskā argumentācija un kritika par pētniecības darbiem), un nesen arī uz tirgus balstītiem novērtējumiem, piemēram, SWE-Lancer (freelance programmatūras inženierijas projekti, kas balstīti uz reāliem maksājumiem).
GDPval ir nākamais solis šajā progresā. Tas novērtē modeļa veiktspēju uzdevumos, kas tieši iegūti no pieredzējušu profesionāļu reālās pasaules zināšanu darba dažādās profesijās un nozarēs, sniedzot skaidrāku priekšstatu par to, kā modeļi darbojas ekonomiski vērtīgos uzdevumos. Modeļu novērtēšana reālistiskos profesionālos uzdevumos palīdz mums saprast ne tikai to, cik labi tie darbojas laboratorijā, bet arī, kā tie varētu atbalstīt cilvēkus viņu ikdienas darbā.
GDPval, šī novērtējuma pirmā versija, aptver 44 profesijas, kas izvēlētas no 9 galvenajām nozarēm, kas veicina ASV IKP. GDPval pilnais komplekts ietver 1,320 specializētus uzdevumus (220 zelta atvērtā koda komplektā), no kuriem katru rūpīgi izstrādājuši un pārbaudījuši pieredzējuši profesionāļi, kuriem ir vidēji vairāk nekā 14 gadu pieredze šajās jomās. Katrs uzdevums ir balstīts uz reāliem darba produktiem, piemēram, juridiskiem dokumentiem, inženiertehniskiem plāniem, klientu atbalsta sarunām vai aprūpes plāna.
GDPval ir atšķirīgs gan ar savu reālismu, gan ar uzdevumu dažādību, kas tiek vērtēti. Atšķirībā no citiem novērtējumiem, kas saistīti ar ekonomisko vērtību un koncentrējas uz konkrētiem domēniem (piemēram, SWE-Lancer), GDPval aptver daudzus uzdevumus un profesijas. Atšķirībā no etaloniem, kas ietver uzdevumu sintētisku izveidi akadēmiskā eksāmena vai testa stilā (piemēram, Humanity’s Last Exam vai MMLU), GDPval koncentrējas uz uzdevumiem, kas balstīti uz rezultātiem, kas ir vai nu reāls darbs vai produkts, kas pastāv šodien, vai arī līdzīgi izveidots darba produkts.
Atšķirībā no tradicionālajiem etaloniem, GDPval uzdevumi nav vienkāršas teksta uzvednes. Tiem ir pievienoti atsauces faili un konteksts, un sagaidāmie piegādes materiāli ietver dokumentus, slaidus, diagrammas, izklājlapas un multivides materiālus. Šis reālisms padara GDPval par reālistiskāku testu, kā modeļi varētu sniegt atbalstu profesionāļiem.
GDPval ir agrīns solis, kas neatspoguļo daudzu ekonomisko uzdevumu pilnās nianses. Lai gan tas aptver 44 profesijas un simtiem zināšanu darba uzdevumu, tas ir ierobežots ar vienreizējām novērtēšanām, tāpēc tas neaptver gadījumus, kad modelim būtu nepieciešams veidot kontekstu vai uzlaboties, veicot vairākus melnrakstus. Nākotnes versijas paplašināsies uz interaktīvākām darba plūsmām un kontekstu bagātiem uzdevumiem, lai labāk atspoguļotu reālās pasaules zināšanu darba sarežģītību (skatīt vairāk mūsu Ierobežojumu sadaļā zemāk).
GDPval aptver uzdevumus 9 nozarēs un 44 profesijās, un nākotnes versijas turpinās paplašināt aptvērumu. Sākotnējās 9 nozares tika izvēlētas, pamatojoties uz tām, kas veido vairāk nekā 5% no ASV IKP, kā noteikts pēc Sentluisas Federālās Rezervju bankas datiem. Pēc tam mēs izvēlējāmies 5 profesijas katrā nozarē, kas visvairāk veicina kopējo algu un kompensāciju un pārsvarā ir zināšanu darba profesijas, izmantojot algu un nodarbinātības datus no 2024. gada maija ASV Darba statistikas biroja (BLS) profesionālās nodarbinātības ziņojuma(atveras jaunā logā). Lai noteiktu, vai profesijas pārsvarā bija zināšanu darbs, mēs izmantojām uzdevumu datus no O*NET(atveras jaunā logā), ASV Darba departamenta sponsorētas datubāzes par ASV profesiju informāciju. Mēs klasificējām, vai katrs uzdevums katrai profesijai O*NET bija zināšanu darbs vai fizisks darbs/rokas darbs (prasot veikt rīcību fiziskajā pasaulē). Nodarbošanās tiek kvalificēta kā "pārsvarā zināšanu darbs", ja vismaz 60% tās sastāvdaļu uzdevumu tiek klasificēti kā tādi, kas neietver fizisku vai manuālu darbu. Mēs izvēlējāmies šo 60% slieksni kā sākumpunktu pirmajai GDPval versijai, koncentrējoties uz profesijām, kurās MI varētu būt vislielākā ietekme uz reālo pasaules produktivitāti.
Šis proces uzrādīja iekļaujamas 44 profesijas.
Nekustamais īpašums, izīrēšana un noma
Dežuranti
Īpašumu, nekustamā īpašuma un kopienas asociāciju vadītāji
Nekustamā īpašuma pārdošanas aģenti
Nekustamo īpašumu aģenti
Nomas pakalpojumu darbinieki
Valdība
Atpūtas jomas darbinieki
Atbilstības speciālisti
Tiešie policistu un detektīvu uzraugi
Administratīvo pakalpojumu vadītāji
Bērnu, ģimenes un skolu sociālie darbinieki
Ražošana
Mehānikas inženieri
Industriālie inženieri
Pircēji un iepirkumu aģenti
Piegādes, saņemšanas un krājumu darbinieki
Ražošanas un ekspluatācijas darbinieku pirmās līnijas vadītāji
Profesionālie, zinātniskie un tehniskie pakalpojumi
Programmatūras izstrādātāji
Juristi
Grāmatveži un revidenti
Datoru un informācijas sistēmu vadītāji
Projektu vadības speciālisti
Veselības aprūpe un sociālā palīdzība
Vispārējās aprūpes medmāsas
Medmāsas ar specializāciju
Medicīnas un veselības aprūpes pakalpojumu vadītāji
Tiešie biroja un administratīvā atbalsta darbinieku uzraugi
Medicīnas sekretāri un administratīvie asistenti
Finanses un apdrošināšana
Klientu apkalpošanas pārstāvji
Finanšu un investīciju analītiķi
Finanšu vadītāji
Personīgie finanšu konsultanti
Vērtspapīru, preču un finanšu pakalpojumu pārdošanas aģenti
Mazumtirdzniecība
Farmaceiti
Mazumtirdzniecības pārdošanas darbinieku tieši vadītāji
Vispārējie un operāciju vadītāji
Privātie detektīvi un izmeklētāji
Vairumtirdzniecības tirdzniecība
Pārdošanas vadītāji
Pasūtījumu ierēdņi
Pārdevēju ārpus mazumtirdzniecības tiešie uzraugi
Pārdošanas pārstāvji, vairumtirdzniecība un ražošana, izņemot tehniskos un zinātniskos produktus
Pārdošanas pārstāvji, vairumtirdzniecības un ražošana, tehniskie un zinātniskie produkti
Informācija
Audio un video tehniķi
Producenti un režisori
Ziņu analītiķi, reportieri un žurnālisti
Filmu un video montāžas speciālisti
Redaktori
Katrai profesijai mēs sadarbojāmies ar pieredzējušiem profesionāļiem, lai izveidotu reprezentatīvus uzdevumus, kas atspoguļo viņu ikdienas darbu. Šiem profesionāļiem vidēji bija 14 gadu pieredze ar spēcīgiem karjeras izaugsmes ierakstiem. Mēs apzināti piesaistījām plašu ekspertu loku, piemēram, juristus no dažādām prakses jomām un dažāda lieluma firmām, lai maksimāli palielinātu pārstāvniecību.
Katrs uzdevums tika pakļauts daudzpakāpju pārskatīšanas procesam, lai nodrošinātu, ka tas atspoguļo reālu darbu, to var veikt cits profesionālis, un to var skaidri novērtēt. Vidēji katrs uzdevums saņēma 5 ekspertu pārskatu kārtas, ieskaitot pārbaudes no citiem uzdevumu autoriem papildu profesionāliem recenzentiem un uz modeļiem balstītu validāciju.
Iegūtais datu kopums ietver 30 pilnībā pārskatītus uzdevumus katrai profesijai (pilns komplekts) ar 5 uzdevumiem katrai profesijai mūsu atvērtā koda zelta komplektā, nodrošinot stabilu pamatu modeļa veiktspējas novērtēšanai reālās pasaules zināšanu darbā.
GDPval uzdevumu piemēri
Uzvedne + uzdevuma konteksts
Pieredzējuša cilvēka sniegums

Lai novērtētu modeļa veiktspēju GDPval uzdevumos, mēs paļaujamies uz ekspertu "vērtētājiem" — pieredzējušu profesionāļu grupu no tām pašām profesijām, kas ir pārstāvētas datu kopā. Šie vērtētāji akli salīdzina modeļa ģenerētos rezultātus ar tiem, ko radījuši uzdevumu autori (nezinot, kuri ir mākslīgā intelekta un kuri cilvēka radīti), un sniedz kritiku un vērtējumus. Vērtētāji pēc tam ierindo cilvēku un mākslīgā intelekta sniegumus un klasificē katru mākslīgā intelekta sniegumu kā "labāku", "tikpat labu kā" vai "sliktāku par" vienam otru.
Uzdevumu autori arī izveidoja detalizētas vērtēšanas rubrikas savām profesijām, kas nodrošina konsekvenci un caurskatāmību vērtēšanas procesā. Mēs arī izveidojām "automatizētu vērtētāju", MI sistēmu, kas apmācīta, lai novērtētu, kā cilvēku eksperti vērtētu konkrētu piegādājumu. Citiem vārdiem sakot, tā vietā, lai katru reizi veiktu pilnu ekspertu pārskatu, automatizētais vērtētājs var ātri paredzēt, kuru izvadi cilvēki, visticamāk, izvēlētos. Mēs izlaižam šo rīku vietnē evals.openai.com kā eksperimentālu pētniecības pakalpojumu, taču tas vēl nav tik uzticams kā ekspertu vērtētāji, tāpēc mēs to neizmantojam, lai tos aizstātu.
Mēs atklājām, ka mūsdienu labākie pirmrindas modeļi jau tuvojas kvalitātei, ko rada nozares eksperti. Lai to pārbaudītu, mēs veicām aklos novērtējumus, kuros nozares eksperti salīdzināja vairāku vadošo modeļu—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro un Grok 4—piegādātos rezultātus ar cilvēku radītiem darbiem. 220 uzdevumu ietvaros GDPval zelta komplektā mēs reģistrējām, kad modeļa izvades tika novērtētas kā labākas par (“uzvaras”) vai līdzvērtīgas (“neizšķirti”) nozares ekspertu sniegumiem, kā parādīts zemāk esošajā joslu diagrammā. Claude Opus 4.1 bija vislabāk izpildītais modelis komplektā, īpaši izceļoties estētikā (piemēram, dokumentu formatēšanā, slaidu izkārtojumā), un GPT‑5 izcēlās precizitātē (piemēram, domēna specifisku zināšanu atrašanā). Mēs arī redzam skaidru progresu šo uzdevumu izpildē laika gaitā. Veiktspēja ir vairāk nekā divkāršojusies no GPT‑4o (izlaists 2024. gada pavasarī) līdz GPT‑5 (izlaists 2025. gada vasarā), sekojot skaidrai lineārai tendencei.
Turklāt mēs atklājām, ka jaunākie modeļi var pabeigt GDPval uzdevumus aptuveni 100 reizes ātrāk un 100 reizes lētāk nekā nozares eksperti. Tomēr šie skaitļi atspoguļo tikai tīru modeļa secinājumu laiku un API norēķinu likmes un tādējādi neietver cilvēka uzraudzību, iterāciju un integrācijas soļus, kas nepieciešami, lai mūsu modeļus izmantotu reālās darba vietas apstākļos. Tomēr, īpaši tajā uzdevumu apakškopā, kur modeļi ir īpaši spēcīgi, mēs sagaidām, ka uzdevuma piešķiršana modelim pirms tā izmēģināšanas ar cilvēku ietaupīs laiku un naudu.
Ekspertu vērtētāji salīdzināja vadošo modeļu rezultātus ar cilvēku ekspertu sniegumu. Mūsdienu robežmodeļi jau tuvojas kvalitātei, ko nodrošina nozares eksperti. Claude Opus 4.1 radīja rezultātus, kas tika novērtēti tikpat labi vai labāk nekā cilvēku sniegums mazliet mazāk nekā pusē uzdevumu.
No GPT‑4o līdz GPT‑5, veiktspēja GDPval uzdevumos vairāk nekā trīskāršojās gada laikā.
Visbeidzot, mēs pakāpeniski apmācījām iekšēju, eksperimentālu GPT‑5 versiju, lai novērtētu, vai varam uzlabot veiktspēju ar GDPval. Mēs atklājām, ka šis process uzlaboja veiktspēju, izveidojot iespēju turpmākai potenciālai uzlabošanai. Citi kontrolēti eksperimenti to apstiprina: modeļa lieluma palielināšana, vairāk loģisko soļu veicināšana un bagātāka uzdevuma konteksta nodrošināšana katrs noveda pie izmērāmiem uzlabojumiem.
Tu vari izlasīt pilnos rezultātus mūsu dokumentā. Mēs arī izlaižam zelta apakškopu no GDPval uzdevumiem un publisku vērtēšanas pakalpojumu, lai citi pētnieki varētu turpināt šo darbu.
Tā kā mākslīgais intelekts kļūst spējīgāks, tas, iespējams, izraisīs izmaiņas darba tirgū. Agrīnie GDPval rezultāti rāda, ka modeļi jau var veikt dažus atkārtotus, labi definētus uzdevumus ātrāk un par zemākām izmaksām nekā eksperti. Tomēr lielākā daļa darbu ir vairāk nekā tikai uzdevumu kopums, ko var pierakstīt. GDPval izceļ, kur mākslīgais intelekts var pārņemt rutīnas uzdevumus, lai cilvēki varētu vairāk laika veltīt radošajām un spriedumu prasošajām darba daļām. Kad mākslīgais intelekts šādā veidā papildina darbiniekus, tas var veicināt ievērojamu ekonomisko izaugsmi. Mūsu mērķis ir nodrošināt, ka ikviens var izmantot mākslīgā intelekta "augšupejošo liftu", padarot šos rīkus pieejamus visiem, atbalstot darbiniekus pārmaiņu laikā un veidojot sistēmas, kas atalgo plašu ieguldījumu.
GDPval ir agrīns solis. Lai gan tas aptver 44 profesijas un simtiem uzdevumu, mēs turpinām pilnveidot savu pieeju, lai paplašinātu testēšanas apjomu un padarītu rezultātus nozīmīgākus. Pašreizējā novērtējuma versija ir arī vienreizēja, tāpēc tā neaptver gadījumus, kad modelim būtu nepieciešams veidot kontekstu vai uzlaboties caur vairākiem melnrakstiem—piemēram, pārskatot juridisko dokumentu pēc klienta atsauksmēm vai veicot datu analīzes iterāciju pēc anomālijas pamanīšanas. Turklāt reālajā pasaulē uzdevumi ne vienmēr ir skaidri definēti ar uzvedni un atsauces failiem; piemēram, juristam var nākties orientēties neskaidrībās un runāt ar savu klientu, pirms izlemt, ka juridiskā dokumenta izveidošana ir pareizā pieeja, lai viņam palīdzētu. Mēs plānojam paplašināt GDPval, lai iekļautu vairāk profesiju, nozaru un uzdevumu veidu, ar palielinātu interaktivitāti un vairāk uzdevumiem, kas saistīti ar neskaidrību pārvarēšanu, ar ilgtermiņa mērķi labāk novērtēt progresu dažādos zināšanu darbos.
- Ja esi nozares eksperts un vēlies sniegt ieguldījumu GDPval, lūdzu, izrādi savu interesi šeit.
- Ja esi klients, kas sadarbojas ar OpenAI un vēlies piedalīties nākamajā GDPval kārtā, lūdzu, izsaki interesi šeit.
Kopienas līdzdalība ir būtiska — mēs esam sajūsmināti par iespēju veidot GDPval kopā ar pētniekiem, praktiķiem un organizācijām, kas dalās mūsu mērķī padarīt AGI noderīgāku cilvēkiem darbā.


