Qed inkejlu l-prestazzjoni tal-mudelli tagħna fuq kompiti tad-dinja reali
Qed nintroduċu GDPval, evalwazzjoni ġdida li tkejjel il-prestazzjoni tal-mudell fuq kompiti tad-dinja reali u ta’ valur ekonomiku f’44 okkupazzjoni.
Il-missjoni tagħna hija li niżguraw li l-intelliġenza artifiċjali ġenerali tkun ta’ benefiċċju għall-umanità kollha. Bħala parti mill-missjoni tagħna, irridu nikkomunikaw b’mod trasparenti l-progress dwar kif il-mudelli tal-IA jistgħu jgħinu lin-nies fid-dinja reali. Huwa għalhekk li qed nintroduċu GDPval: evalwazzjoni ġdida mfassla biex tgħinna nsegwu kemm il-mudelli tagħna u oħrajn iwettqu tajjeb fuq kompiti tad-dinja reali u ta’ valur ekonomiku. Insejħulha GDPval għax bdejna mill-kunċett tal-Prodott Gross Domestiku (GDP) bħala indikatur ekonomiku ewlieni u ġbidna kompiti mill-okkupazzjonijiet ewlenin fl-industriji li jikkontribwixxu l-aktar għall-GDP.
In-nies spiss jispekulaw dwar l-impatt usa’ tal-IA fuq is-soċjetà, iżda l-aktar mod ċar biex nifhmu l-potenzjal tagħha huwa billi nħarsu lejn dak li l-mudelli diġà kapaċi jagħmlu. L-istorja turi li teknoloġiji kbar—mill-internet sal-ismartphones—ħadu aktar minn għaxar snin biex għaddew mill-invenzjoni għall-adozzjoni mifruxa. Evalwazzjonijiet bħal GDPval jgħinu biex id-diskussjonijiet dwar titjib futur tal-IA jkunu msejsa fuq evidenza aktar milli fuq suppożizzjonijiet, u jistgħu jgħinuna nsegwu t-titjib tal-mudell maż-żmien.
Evalwazzjonijiet preċedenti tal-IA bħal testijiet akkademiċi diffiċli u sfidi kompetittivi tal-coding kienu essenzjali biex jimbuttaw il-limiti tal-kapaċitajiet ta’ raġunament tal-mudell, iżda ħafna drabi ma jilħqux it-tip ta’ kompiti li ħafna nies jieħdu ħsieb fix-xogħol tagħhom ta’ kuljum.
Biex nagħlqu dan id-distakk, ilna niżviluppaw evalwazzjonijiet li jkejlu kapaċitajiet dejjem aktar realistiċi u ekonomikament rilevanti. Din il-progressjoni mxiet minn benchmarks akkademiċi klassiċi bħal MMLU (mistoqsijiet stil eżami fuq għexieren ta’ suġġetti), għal evalwazzjonijiet aktar applikati bħal SWE-Bench (kompiti ta’ tiswija ta’ bugs fl-inġinerija tas-software), MLE-Bench (kompiti ta’ inġinerija tat-tagħlim awtomatiku bħal taħriġ u analiżi tal-mudell), u Paper-Bench (raġunament xjentifiku u kritika fuq karti ta’ riċerka), u aktar reċentement għal evalwazzjonijiet ibbażati fuq is-suq bħal SWE-Lancer (proġetti freelance ta’ inġinerija tas-software ibbażati fuq ħlasijiet reali).
GDPval huwa l-pass li jmiss f’dik il-progressjoni. Huwa jkejjel il-prestazzjoni tal-mudell fuq kompiti meħuda direttament mix-xogħol intellettwali tad-dinja reali ta’ professjonisti b’esperjenza f’firxa wiesgħa ta’ okkupazzjonijiet u setturi, u jagħti stampa aktar ċara ta’ kif il-mudelli jwettqu fuq kompiti ta’ valur ekonomiku. L-evalwazzjoni tal-mudelli fuq kompiti okkupazzjonali realistiċi tgħinna nifhmu mhux biss kemm iwettqu tajjeb fil-laboratorju, iżda kif jistgħu jappoġġaw lin-nies fix-xogħol li jagħmlu kuljum.
GDPval, l-ewwel verżjoni ta’ din l-evalwazzjoni, tkopri 44 okkupazzjoni magħżula mill-aqwa 9 industriji li jikkontribwixxu għall-GDP tal-Istati Uniti. Is-sett sħiħ ta’ GDPval jinkludi 1,320 kompitu speċjalizzat (220 fis-sett gold open-sourced), kull wieħed maħdum u vverifikat bir-reqqa minn professjonisti b’esperjenza b’aktar minn 14-il sena esperjenza bħala medja f’dawn l-oqsma. Kull kompitu huwa bbażat fuq prodotti tax-xogħol reali, bħal nota legali, blueprint ta’ inġinerija, konverżazzjoni ta’ appoġġ lill-klijenti, jew pjan ta’ kura infermieristika.
GDPval huwa distint kemm fir-realiżmu tiegħu kif ukoll fid-diversità tal-kompiti li qed jiġu evalwati. B’differenza minn evalwazzjonijiet oħra marbuta mal-valur ekonomiku li jikkonċentraw fuq oqsma speċifiċi (eż. SWE-Lancer), GDPval ikopri ħafna kompiti u okkupazzjonijiet. U b’differenza minn benchmarks li jinvolvu l-ħolqien sintetiku ta’ kompiti fl-istil ta’ eżami jew test akkademiku (eż. Humanity’s Last Exam jew MMLU), GDPval jiffoka fuq kompiti bbażati fuq deliverables li huma jew biċċa xogħol jew prodott reali li jeżisti llum jew biċċa xogħol simili mibnija bl-istess mod.
B’differenza minn benchmarks tradizzjonali, il-kompiti GDPval mhumiex prompts sempliċi ta’ test. Jiġu b’fajls ta’ referenza u kuntest, u d-deliverables mistennija jinkludu dokumenti, slides, dijagrammi, spreadsheets u multimedia. Dan ir-realiżmu jagħmel lil GDPval test aktar realistiku ta’ kif il-mudelli jistgħu jappoġġaw lill-professjonisti.
GDPval huwa pass bikri li ma jirriflettix l-isfumaturi kollha ta’ ħafna kompiti ekonomiċi. Filwaqt li jkopri 44 okkupazzjoni u mijiet ta’ kompiti ta’ xogħol intellettwali, huwa limitat għal evalwazzjonijiet one-shot, għalhekk ma jaqbadx każijiet fejn mudell ikollu bżonn jibni kuntest jew itejjeb ruħu permezz ta’ diversi abbozzi. Verżjonijiet futuri se jestendu għal workflows aktar interattivi u kompiti b’kuntest aktar rikk biex jirriflettu aħjar il-kumplessità tax-xogħol intellettwali fid-dinja reali (ara aktar fit-taqsima Limitazzjonijiet hawn taħt).
GDPval ikopri kompiti f’9 industriji u 44 okkupazzjoni, u verżjonijiet futuri se jkomplu jespandu l-kopertura. Id-9 industriji inizjali ntgħażlu abbażi ta’ dawk li jikkontribwixxu aktar minn 5% għall-GDP tal-Istati Uniti, kif determinat minn data mill-Federal Reserve Bank of St. Louis. Imbagħad, għażilna l-5 okkupazzjonijiet fi ħdan kull industrija li jikkontribwixxu l-aktar għall-pagi u l-kumpens totali u li huma prinċipalment okkupazzjonijiet ta’ xogħol intellettwali, billi użajna data dwar il-pagi u l-impjiegi mir-rapport tal-impjiegi okkupazzjonali ta’ Mejju 2024 tal-US Bureau of Labor Statistics (BLS)(jinfetaħ f’tieqa ġdida). Biex niddeterminaw jekk l-okkupazzjonijiet kinux prinċipalment xogħol intellettwali, użajna data dwar il-kompiti minn O*NET(jinfetaħ f’tieqa ġdida), database ta’ informazzjoni dwar okkupazzjonijiet fl-Istati Uniti sponsorjata mid-Dipartiment tax-Xogħol tal-Istati Uniti. Ikklassifikajna jekk kull kompitu għal kull okkupazzjoni f’O*NET kienx xogħol intellettwali jew xogħol fiżiku/xogħol manwali (li jeħtieġ azzjonijiet fid-dinja fiżika). Okkupazzjoni kkwalifikat b’mod ġenerali bħala “predominantement xogħol intellettwali” jekk mill-inqas 60% mill-kompiti komponenti tagħha ġew ikklassifikati bħala li ma jinvolvux xogħol fiżiku jew xogħol manwali. Għażilna dan il-limitu ta’ 60% bħala punt tat-tluq għall-ewwel verżjoni ta’ GDPval, b’enfasi fuq okkupazzjonijiet fejn l-IA jista’ jkollha l-ogħla impatt fuq il-produttività fid-dinja reali.
Dan il-proċess irriżulta f’44 okkupazzjoni għall-inklużjoni.
Proprjetà immobbli u kiri u leasing
Concierges
Maniġers tal-proprjetà, proprjetà immobbli u assoċjazzjonijiet komunitarji
Aġenti tal-bejgħ tal-proprjetà immobbli
Sensara tal-proprjetà immobbli
Skrivani tal-bank u tal-kiri
Gvern
Ħaddiema tar-rikreazzjoni
Uffiċjali tal-konformità
Superviżuri tal-ewwel livell tal-pulizija u d-ditektifs
Maniġers tas-servizzi amministrattivi
Ħaddiema soċjali tat-tfal, tal-familja u tal-iskejjel
Manifattura
Inġiniera mekkaniċi
Inġiniera industrijali
Xerrejja u aġenti tax-xiri
Skrivani tat-tbaħħir, riċeviment u inventarju
Superviżuri tal-ewwel livell tal-ħaddiema tal-produzzjoni u tal-operat
Servizzi professjonali, xjentifiċi u tekniċi
Żviluppaturi tas-software
Avukati
Kontabilisti u awdituri
Maniġers tas-sistemi tal-kompjuter u tal-informazzjoni
Speċjalisti fil-ġestjoni tal-proġetti
Kura tas-saħħa u assistenza soċjali
Infermiera reġistrati
Nurse practitioners
Maniġers tas-servizzi mediċi u tas-saħħa
Superviżuri tal-ewwel livell tal-ħaddiema tal-uffiċċju u tal-appoġġ amministrattiv
Segretarji mediċi u assistenti amministrattivi
Finanzi u assigurazzjoni
Rappreżentanti tas-servizz tal-konsumatur
Analisti finanzjarji u tal-investiment
Maniġers finanzjarji
Konsulenti finanzjarji personali
Aġenti tal-bejgħ ta’ titoli, komoditajiet u servizzi finanzjarji
Kummerċ bl-imnut
Ispiżjara
Superviżuri tal-ewwel livell tal-ħaddiema tal-bejgħ bl-imnut
Maniġers ġenerali u tal-operazzjonijiet
Ditektifs privati u investigaturi
Kummerċ bl-ingrossa
Maniġers tal-bejgħ
Skrivani tal-ordnijiet
Superviżuri tal-ewwel livell tal-ħaddiema tal-bejgħ mhux bl-imnut
Rappreżentanti tal-bejgħ, bl-ingrossa u manifattura, minbarra prodotti tekniċi u xjentifiċi
Rappreżentanti tal-bejgħ, bl-ingrossa u manifattura, prodotti tekniċi u xjentifiċi
Informazzjoni
Tekniċi tal-awdjo u l-vidjo
Produtturi u diretturi
Analisti tal-aħbarijiet, reporters u ġurnalisti
Edituri tal-films u l-vidjo
Edituri
Għal kull okkupazzjoni, ħdimna ma’ professjonisti b’esperjenza biex noħolqu kompiti rappreżentattivi li jirriflettu x-xogħol tagħhom ta’ kuljum. Dawn il-professjonisti kellhom medja ta’ 14-il sena esperjenza, b’rekords b’saħħithom ta’ progress fil-karriera. Aħna rreklutajna apposta firxa wiesgħa ta’ esperti—bħal avukati minn oqsma differenti ta’ prattika u minn ditti ta’ daqsijiet differenti—biex nimmassimizzaw ir-rappreżentattività.
Kull kompitu għadda minn proċess ta’ reviżjoni f’diversi passi biex niżguraw li kien rappreżentattiv ta’ xogħol reali, fattibbli biex professjonist ieħor itemmu, u ċar għall-evalwazzjoni. Bħala medja, kull kompitu rċieva 5 rawnds ta’ reviżjoni esperta, inklużi kontrolli minn kittieba oħra tal-kompiti, reviżuri okkupazzjonali addizzjonali, u validazzjoni bbażata fuq mudell.
Id-dataset li rriżulta jinkludi 30 kompitu kompletament rivedut għal kull okkupazzjoni (sett sħiħ) b’5 kompiti għal kull okkupazzjoni fis-sett gold open-sourced tagħna, u jipprovdi bażi soda biex tiġi evalwata l-prestazzjoni tal-mudell fuq xogħol intellettwali tad-dinja reali.
Eżempji ta’ kompiti GDPval
Prompt + kuntest tal-kompiti
Riżultat uman b'esperjenza

Biex nivvalutaw il-prestazzjoni tal-mudell fuq il-kompiti GDPval, niddependu fuq “graders” esperti—grupp ta’ professjonisti b’esperjenza mill-istess okkupazzjonijiet rappreżentati fid-dataset. Dawn il-graders iqabblu b’mod blind deliverables iġġenerati mill-mudell ma’ dawk prodotti mill-kittieba tal-kompiti (mingħajr ma jkunu jafu liema huwa ġġenerat mill-IA u liema mill-bniedem), u joffru kritiki u klassifiki. Il-graders imbagħad jikklassifikaw id-deliverables umani u tal-IA u jikklassifikaw kull deliverable tal-IA bħala “aħjar”, “tajjeb daqs”, jew “agħar minn” xulxin.
Il-kittieba tal-kompiti ħolqu wkoll rubriki ta’ punteġġ dettaljati għall-okkupazzjonijiet tagħhom, li jżidu l-konsistenza u t-trasparenza fil-proċess tal-valutazzjoni. Bnejna wkoll “grader awtomatizzat”, sistema ta’ IA mħarrġa biex tistma kif esperti umani jiġġudikaw deliverable partikolari. Fi kliem ieħor, minflok ma nwettqu reviżjoni esperta sħiħa kull darba, il-grader awtomatizzat jista’ jbassar malajr liema output x’aktarx jippreferu n-nies. Qed noħorġu din l-għodda fuq evals.openai.com bħala servizz ta’ riċerka sperimentali, iżda għadha mhix affidabbli daqs graders esperti, għalhekk ma nużawhiex biex nibdluhom.
Sibna li l-aqwa mudelli tal-fruntiera tal-lum diġà qed joqorbu lejn il-kwalità tax-xogħol prodott minn esperti tal-industrija. Biex nittestjaw dan, għamilna evalwazzjonijiet blind fejn esperti tal-industrija qabblu deliverables minn diversi mudelli ewlenin—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, u Grok 4—ma’ xogħol prodott mill-bniedem. Matul 220 kompitu fis-sett gold ta’ GDPval, irreġistrajna meta outputs tal-mudell ġew ivvalutati bħala aħjar minn (“rebħiet”) jew fuq l-istess livell (“pari”) mad-deliverables minn esperti tal-industrija, kif muri fil-graff b’vireg hawn taħt. Claude Opus 4.1 kien il-mudell bl-aħjar prestazzjoni fis-sett, u spikka b’mod partikolari fl-estetika (eż. ifformattjar tad-dokumenti, tqassim tas-slides), u GPT‑5 spikka b’mod partikolari fl-eżattezza (eż. li jsib għarfien speċifiku għad-dominju). Naraw ukoll progress ċar maż-żmien fuq dawn il-kompiti. Il-prestazzjoni aktar milli rdoppjat minn GPT‑4o (rilaxxat fir-rebbiegħa 2024) għal GPT‑5 (rilaxxat fis-sajf 2025), skont xejra lineari ċara.
Barra minn hekk, sibna li mudelli tal-fruntiera jistgħu jwettqu kompiti GDPval madwar 100 darba aktar malajr u 100 darba orħos minn esperti tal-industrija. Madankollu, dawn iċ-ċifri jirriflettu biss il-ħin pur tal-inferenza tal-mudell u r-rati tal-kontijiet tal-API, u għalhekk ma jaqbdux is-superviżjoni umana, l-iterazzjoni, u l-passi ta’ integrazzjoni meħtieġa f’ambjenti ta’ xogħol reali biex jintużaw il-mudelli tagħna. Xorta waħda, speċjalment fuq is-sottogrupp ta’ kompiti fejn il-mudelli huma partikolarment b’saħħithom, nistennew li l-għoti ta’ kompitu lil mudell qabel ma tipprovah ma’ bniedem jiffranka ħin u flus.
Evalwaturi esperti qabblu d-deliverables minn mudelli ewlenin ma’ esperti umani. Il-mudelli tal-fruntiera tal-lum diġà qed joqorbu lejn il-kwalità tax-xogħol prodott minn esperti tal-industrija. Claude Opus 4.1 ipproduċa outputs ivvalutati tajbin daqs jew aħjar mill-bnedmin f’ftit inqas minn nofs il-kompiti.
Minn GPT‑4o sa GPT‑5, il-prestazzjoni fuq il-kompiti GDPval aktar milli ttriplikat f’sena.
Fl-aħħar nett, ħarriġna b’mod inkrementali verżjoni interna u sperimentali ta’ GPT‑5 biex nivvalutaw jekk stajniex intejbu l-prestazzjoni fuq GDPval. Sibna li dan il-proċess tejjeb il-prestazzjoni, u ħoloq triq għal aktar titjib potenzjali. Esperimenti kontrollati oħra jikkonfermaw dan: iż-żieda fid-daqs tal-mudell, l-inkoraġġiment ta’ aktar passi ta’ raġunament, u l-għoti ta’ kuntest tal-kompitu aktar rikk wasslu kull wieħed għal titjib li jista’ jitkejjel.
Tista’ taqra r-riżultati sħaħ fil-karta tagħna. Qed noħorġu wkoll sottogrupp gold ta’ kompiti GDPval u servizz pubbliku ta’ valutazzjoni sabiex riċerkaturi oħra jkunu jistgħu jibnu fuq dan ix-xogħol.
Hekk kif l-IA ssir aktar kapaċi, x’aktarx tikkawża bidliet fis-suq tax-xogħol. Ir-riżultati bikrin ta’ GDPval juru li l-mudelli diġà jistgħu jieħdu f’idejhom xi kompiti ripetittivi u definiti tajjeb aktar malajr u bi spiża inqas mill-esperti. Madankollu, il-biċċa l-kbira tal-impjiegi huma aktar minn sempliċi ġabra ta’ kompiti li jistgħu jinkitbu. GDPval jenfasizza fejn l-IA tista’ tieħu ħsieb kompiti ta’ rutina biex in-nies ikunu jistgħu jqattgħu aktar ħin fuq il-partijiet kreattivi u mimlijin ġudizzju tax-xogħol. Meta l-IA tikkomplementa lill-ħaddiema b’dan il-mod, dan jista’ jissarraf fi tkabbir ekonomiku sinifikanti. L-għan tagħna huwa li nżommu lil kulħadd fuq l-“up elevator” tal-IA billi niddemokratizzaw l-aċċess għal dawn l-għodod, nappoġġaw lill-ħaddiema waqt il-bidla, u nibnu sistemi li jippremjaw kontribut wiesa’.
GDPval huwa pass bikri. Filwaqt li jkopri 44 okkupazzjoni u mijiet ta’ kompiti, qed inkomplu nirfinaw l-approċċ tagħna biex nespandu l-ambitu tal-ittestjar tagħna u nagħmlu r-riżultati aktar sinifikanti. Il-verżjoni attwali tal-evalwazzjoni hija wkoll one-shot, għalhekk ma taqbadx każijiet fejn mudell ikollu bżonn jibni kuntest jew itejjeb ruħu permezz ta’ diversi abbozzi—pereżempju, jirrevedi nota legali wara feedback tal-klijent jew itejjeb analiżi tad-data wara li jinduna b’anomalija. Barra minn hekk, fid-dinja reali, il-kompiti mhux dejjem ikunu definiti b’mod ċar bi prompt u fajls ta’ referenza; pereżempju, avukat jista’ jkollu jinnaviga l-ambigwità u jitkellem mal-klijent tiegħu qabel ma jiddeċiedi li l-ħolqien ta’ nota legali huwa l-approċċ it-tajjeb biex jgħinu. Nippjanaw li nespandu GDPval biex jinkludi aktar okkupazzjonijiet, industriji, u tipi ta’ kompiti, b’aktar interattività, u aktar kompiti li jinvolvu n-navigazzjoni tal-ambigwità, bl-għan fit-tul li nkejlu aħjar il-progress fuq xogħol intellettwali divers.
- Jekk int espert tal-industrija interessat tikkontribwixxi għal GDPval, jekk jogħġbok uri l-interess tiegħek hawn.
- Jekk inti klijent li qed taħdem ma’ OpenAI u tixtieq tikkontribwixxi għal rawnd futur ta’ GDPval, jekk jogħġbok esprimi l-interess tiegħek hawn.
Il-parteċipazzjoni tal-komunità hija essenzjali—ninsabu eċċitati nibnu GDPval flimkien ma’ riċerkaturi, prattikanti, u organizzazzjonijiet li jaqsmu l-għan tagħna li nagħmlu l-AGI aktar utli għan-nies fuq il-post tax-xogħol.


