Aqbeż għall-kontenut prinċipali
OpenAI

25 ta’ Settembru 2025

PubblikazzjoniRiċerka

Qed inkejlu l-prestazzjoni tal-mudelli tagħna fuq kompiti tad-dinja reali

Qed nintroduċu GDPval, evalwazzjoni ġdida li tkejjel il-prestazzjoni tal-mudell fuq kompiti tad-dinja reali u ta’ valur ekonomiku f’44 okkupazzjoni.

Il-missjoni tagħna hija li niżguraw li l-intelliġenza artifiċjali ġenerali tkun ta’ benefiċċju għall-umanità kollha. Bħala parti mill-missjoni tagħna, irridu nikkomunikaw b’mod trasparenti l-progress dwar kif il-mudelli tal-IA jistgħu jgħinu lin-nies fid-dinja reali. Huwa għalhekk li qed nintroduċu GDPval: evalwazzjoni ġdida mfassla biex tgħinna nsegwu kemm il-mudelli tagħna u oħrajn iwettqu tajjeb fuq kompiti tad-dinja reali u ta’ valur ekonomiku. Insejħulha GDPval għax bdejna mill-kunċett tal-Prodott Gross Domestiku (GDP) bħala indikatur ekonomiku ewlieni u ġbidna kompiti mill-okkupazzjonijiet ewlenin fl-industriji li jikkontribwixxu l-aktar għall-GDP.

In-nies spiss jispekulaw dwar l-impatt usa’ tal-IA fuq is-soċjetà, iżda l-aktar mod ċar biex nifhmu l-potenzjal tagħha huwa billi nħarsu lejn dak li l-mudelli diġà kapaċi jagħmlu. L-istorja turi li teknoloġiji kbar—mill-internet sal-ismartphones—ħadu aktar minn għaxar snin biex għaddew mill-invenzjoni għall-adozzjoni mifruxa. Evalwazzjonijiet bħal GDPval jgħinu biex id-diskussjonijiet dwar titjib futur tal-IA jkunu msejsa fuq evidenza aktar milli fuq suppożizzjonijiet, u jistgħu jgħinuna nsegwu t-titjib tal-mudell maż-żmien.

Evalwazzjonijiet preċedenti tal-IA bħal testijiet akkademiċi diffiċli u sfidi kompetittivi tal-coding kienu essenzjali biex jimbuttaw il-limiti tal-kapaċitajiet ta’ raġunament tal-mudell, iżda ħafna drabi ma jilħqux it-tip ta’ kompiti li ħafna nies jieħdu ħsieb fix-xogħol tagħhom ta’ kuljum.

Biex nagħlqu dan id-distakk, ilna niżviluppaw evalwazzjonijiet li jkejlu kapaċitajiet dejjem aktar realistiċi u ekonomikament rilevanti. Din il-progressjoni mxiet minn benchmarks akkademiċi klassiċi bħal MMLU (mistoqsijiet stil eżami fuq għexieren ta’ suġġetti), għal evalwazzjonijiet aktar applikati bħal SWE-Bench (kompiti ta’ tiswija ta’ bugs fl-inġinerija tas-software), MLE-Bench (kompiti ta’ inġinerija tat-tagħlim awtomatiku bħal taħriġ u analiżi tal-mudell), u Paper-Bench (raġunament xjentifiku u kritika fuq karti ta’ riċerka), u aktar reċentement għal evalwazzjonijiet ibbażati fuq is-suq bħal SWE-Lancer (proġetti freelance ta’ inġinerija tas-software ibbażati fuq ħlasijiet reali).

GDPval huwa l-pass li jmiss f’dik il-progressjoni. Huwa jkejjel il-prestazzjoni tal-mudell fuq kompiti meħuda direttament mix-xogħol intellettwali tad-dinja reali ta’ professjonisti b’esperjenza f’firxa wiesgħa ta’ okkupazzjonijiet u setturi, u jagħti stampa aktar ċara ta’ kif il-mudelli jwettqu fuq kompiti ta’ valur ekonomiku. L-evalwazzjoni tal-mudelli fuq kompiti okkupazzjonali realistiċi tgħinna nifhmu mhux biss kemm iwettqu tajjeb fil-laboratorju, iżda kif jistgħu jappoġġaw lin-nies fix-xogħol li jagħmlu kuljum. 

X’jkejjel GDPval

GDPval, l-ewwel verżjoni ta’ din l-evalwazzjoni, tkopri 44 okkupazzjoni magħżula mill-aqwa 9 industriji li jikkontribwixxu għall-GDP tal-Istati Uniti. Is-sett sħiħ ta’ GDPval jinkludi 1,320 kompitu speċjalizzat (220 fis-sett gold open-sourced), kull wieħed maħdum u vverifikat bir-reqqa minn professjonisti b’esperjenza b’aktar minn 14-il sena esperjenza bħala medja f’dawn l-oqsma. Kull kompitu huwa bbażat fuq prodotti tax-xogħol reali, bħal nota legali, blueprint ta’ inġinerija, konverżazzjoni ta’ appoġġ lill-klijenti, jew pjan ta’ kura infermieristika.

GDPval huwa distint kemm fir-realiżmu tiegħu kif ukoll fid-diversità tal-kompiti li qed jiġu evalwati. B’differenza minn evalwazzjonijiet oħra marbuta mal-valur ekonomiku li jikkonċentraw fuq oqsma speċifiċi (eż. SWE-Lancer), GDPval ikopri ħafna kompiti u okkupazzjonijiet. U b’differenza minn benchmarks li jinvolvu l-ħolqien sintetiku ta’ kompiti fl-istil ta’ eżami jew test akkademiku (eż. Humanity’s Last Exam jew MMLU), GDPval jiffoka fuq kompiti bbażati fuq deliverables li huma jew biċċa xogħol jew prodott reali li jeżisti llum jew biċċa xogħol simili mibnija bl-istess mod. 

B’differenza minn benchmarks tradizzjonali, il-kompiti GDPval mhumiex prompts sempliċi ta’ test. Jiġu b’fajls ta’ referenza u kuntest, u d-deliverables mistennija jinkludu dokumenti, slides, dijagrammi, spreadsheets u multimedia. Dan ir-realiżmu jagħmel lil GDPval test aktar realistiku ta’ kif il-mudelli jistgħu jappoġġaw lill-professjonisti.

GDPval huwa pass bikri li ma jirriflettix l-isfumaturi kollha ta’ ħafna kompiti ekonomiċi. Filwaqt li jkopri 44 okkupazzjoni u mijiet ta’ kompiti ta’ xogħol intellettwali, huwa limitat għal evalwazzjonijiet one-shot, għalhekk ma jaqbadx każijiet fejn mudell ikollu bżonn jibni kuntest jew itejjeb ruħu permezz ta’ diversi abbozzi. Verżjonijiet futuri se jestendu għal workflows aktar interattivi u kompiti b’kuntest aktar rikk biex jirriflettu aħjar il-kumplessità tax-xogħol intellettwali fid-dinja reali (ara aktar fit-taqsima Limitazzjonijiet hawn taħt).

Kif għażilna l-okkupazzjonijiet

GDPval ikopri kompiti f’9 industriji u 44 okkupazzjoni, u verżjonijiet futuri se jkomplu jespandu l-kopertura. Id-9 industriji inizjali ntgħażlu abbażi ta’ dawk li jikkontribwixxu aktar minn 5% għall-GDP tal-Istati Uniti, kif determinat minn data mill-Federal Reserve Bank of St. Louis. Imbagħad, għażilna l-5 okkupazzjonijiet fi ħdan kull industrija li jikkontribwixxu l-aktar għall-pagi u l-kumpens totali u li huma prinċipalment okkupazzjonijiet ta’ xogħol intellettwali, billi użajna data dwar il-pagi u l-impjiegi mir-rapport tal-impjiegi okkupazzjonali ta’ Mejju 2024 tal-US Bureau of Labor Statistics (BLS)(jinfetaħ f’tieqa ġdida). Biex niddeterminaw jekk l-okkupazzjonijiet kinux prinċipalment xogħol intellettwali, użajna data dwar il-kompiti minn O*NET(jinfetaħ f’tieqa ġdida), database ta’ informazzjoni dwar okkupazzjonijiet fl-Istati Uniti sponsorjata mid-Dipartiment tax-Xogħol tal-Istati Uniti. Ikklassifikajna jekk kull kompitu għal kull okkupazzjoni f’O*NET kienx xogħol intellettwali jew xogħol fiżiku/xogħol manwali (li jeħtieġ azzjonijiet fid-dinja fiżika). Okkupazzjoni kkwalifikat b’mod ġenerali bħala “predominantement xogħol intellettwali” jekk mill-inqas 60% mill-kompiti komponenti tagħha ġew ikklassifikati bħala li ma jinvolvux xogħol fiżiku jew xogħol manwali. Għażilna dan il-limitu ta’ 60% bħala punt tat-tluq għall-ewwel verżjoni ta’ GDPval, b’enfasi fuq okkupazzjonijiet fejn l-IA jista’ jkollha l-ogħla impatt fuq il-produttività fid-dinja reali. 

Dan il-proċess irriżulta f’44 okkupazzjoni għall-inklużjoni.

Proprjetà immobbli u kiri u leasing

  • Concierges

  • Maniġers tal-proprjetà, proprjetà immobbli u assoċjazzjonijiet komunitarji

  • Aġenti tal-bejgħ tal-proprjetà immobbli

  • Sensara tal-proprjetà immobbli

  • Skrivani tal-bank u tal-kiri

Gvern

  • Ħaddiema tar-rikreazzjoni

  • Uffiċjali tal-konformità

  • Superviżuri tal-ewwel livell tal-pulizija u d-ditektifs

  • Maniġers tas-servizzi amministrattivi

  • Ħaddiema soċjali tat-tfal, tal-familja u tal-iskejjel

Manifattura

  • Inġiniera mekkaniċi

  • Inġiniera industrijali

  • Xerrejja u aġenti tax-xiri

  • Skrivani tat-tbaħħir, riċeviment u inventarju

  • Superviżuri tal-ewwel livell tal-ħaddiema tal-produzzjoni u tal-operat

Servizzi professjonali, xjentifiċi u tekniċi

  • Żviluppaturi tas-software

  • Avukati

  • Kontabilisti u awdituri

  • Maniġers tas-sistemi tal-kompjuter u tal-informazzjoni

  • Speċjalisti fil-ġestjoni tal-proġetti

Kura tas-saħħa u assistenza soċjali

  • Infermiera reġistrati

  • Nurse practitioners

  • Maniġers tas-servizzi mediċi u tas-saħħa

  • Superviżuri tal-ewwel livell tal-ħaddiema tal-uffiċċju u tal-appoġġ amministrattiv

  • Segretarji mediċi u assistenti amministrattivi

Finanzi u assigurazzjoni

  • Rappreżentanti tas-servizz tal-konsumatur

  • Analisti finanzjarji u tal-investiment

  • Maniġers finanzjarji

  • Konsulenti finanzjarji personali

  • Aġenti tal-bejgħ ta’ titoli, komoditajiet u servizzi finanzjarji

Kummerċ bl-imnut

  • Ispiżjara

  • Superviżuri tal-ewwel livell tal-ħaddiema tal-bejgħ bl-imnut

  • Maniġers ġenerali u tal-operazzjonijiet

  • Ditektifs privati u investigaturi

Kummerċ bl-ingrossa

  • Maniġers tal-bejgħ

  • Skrivani tal-ordnijiet

  • Superviżuri tal-ewwel livell tal-ħaddiema tal-bejgħ mhux bl-imnut

  • Rappreżentanti tal-bejgħ, bl-ingrossa u manifattura, minbarra prodotti tekniċi u xjentifiċi

  • Rappreżentanti tal-bejgħ, bl-ingrossa u manifattura, prodotti tekniċi u xjentifiċi

Informazzjoni

  • Tekniċi tal-awdjo u l-vidjo

  • Produtturi u diretturi

  • Analisti tal-aħbarijiet, reporters u ġurnalisti

  • Edituri tal-films u l-vidjo

  • Edituri

GDPval ikopri 44 okkupazzjoni ta’ xogħol intellettwali f’9 setturi, minn żviluppaturi tas-software u avukati sa infermiera reġistrati u inġiniera mekkaniċi. Dawn l-okkupazzjonijiet intgħażlu għas-sinifikat ekonomiku tagħhom u jirrappreżentaw it-tipi ta’ xogħol ta’ kuljum fejn l-IA tista’ tgħin b’mod sinifikanti lill-professjonisti.

Kif bnejna d-dataset

Għal kull okkupazzjoni, ħdimna ma’ professjonisti b’esperjenza biex noħolqu kompiti rappreżentattivi li jirriflettu x-xogħol tagħhom ta’ kuljum. Dawn il-professjonisti kellhom medja ta’ 14-il sena esperjenza, b’rekords b’saħħithom ta’ progress fil-karriera. Aħna rreklutajna apposta firxa wiesgħa ta’ esperti—bħal avukati minn oqsma differenti ta’ prattika u minn ditti ta’ daqsijiet differenti—biex nimmassimizzaw ir-rappreżentattività.

Kull kompitu għadda minn proċess ta’ reviżjoni f’diversi passi biex niżguraw li kien rappreżentattiv ta’ xogħol reali, fattibbli biex professjonist ieħor itemmu, u ċar għall-evalwazzjoni. Bħala medja, kull kompitu rċieva 5 rawnds ta’ reviżjoni esperta, inklużi kontrolli minn kittieba oħra tal-kompiti, reviżuri okkupazzjonali addizzjonali, u validazzjoni bbażata fuq mudell. 

Id-dataset li rriżulta jinkludi 30 kompitu kompletament rivedut għal kull okkupazzjoni (sett sħiħ) b’5 kompiti għal kull okkupazzjoni fis-sett gold open-sourced tagħna, u jipprovdi bażi soda biex tiġi evalwata l-prestazzjoni tal-mudell fuq xogħol intellettwali tad-dinja reali.

Eżempji ta’ kompiti GDPval

Prompt + kuntest tal-kompiti

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Riżultat uman b'esperjenza

Veduta espluża ta’ disinn għal rukkell tal-kejbil
Kull kompitu f’GDPval huwa mfassal minn professjonist b’esperjenza u jirrifletti xogħol intellettwali reali mill-okkupazzjoni tiegħu. Il-prompt huwa inkarigu realistiku tax-xogħol maħluq minn espert tad-dominju, u d-deliverable gold hija s-soluzzjoni tal-espert innifsu.

Kif nivvalutaw il-prestazzjoni tal-mudell

Biex nivvalutaw il-prestazzjoni tal-mudell fuq il-kompiti GDPval, niddependu fuq “graders” esperti—grupp ta’ professjonisti b’esperjenza mill-istess okkupazzjonijiet rappreżentati fid-dataset. Dawn il-graders iqabblu b’mod blind deliverables iġġenerati mill-mudell ma’ dawk prodotti mill-kittieba tal-kompiti (mingħajr ma jkunu jafu liema huwa ġġenerat mill-IA u liema mill-bniedem), u joffru kritiki u klassifiki. Il-graders imbagħad jikklassifikaw id-deliverables umani u tal-IA u jikklassifikaw kull deliverable tal-IA bħala “aħjar”, “tajjeb daqs”, jew “agħar minn” xulxin.

Il-kittieba tal-kompiti ħolqu wkoll rubriki ta’ punteġġ dettaljati għall-okkupazzjonijiet tagħhom, li jżidu l-konsistenza u t-trasparenza fil-proċess tal-valutazzjoni. Bnejna wkoll “grader awtomatizzat”, sistema ta’ IA mħarrġa biex tistma kif esperti umani jiġġudikaw deliverable partikolari. Fi kliem ieħor, minflok ma nwettqu reviżjoni esperta sħiħa kull darba, il-grader awtomatizzat jista’ jbassar malajr liema output x’aktarx jippreferu n-nies. Qed noħorġu din l-għodda fuq evals.openai.com bħala servizz ta’ riċerka sperimentali, iżda għadha mhix affidabbli daqs graders esperti, għalhekk ma nużawhiex biex nibdluhom. 

Riżultati bikrin

Sibna li l-aqwa mudelli tal-fruntiera tal-lum diġà qed joqorbu lejn il-kwalità tax-xogħol prodott minn esperti tal-industrija. Biex nittestjaw dan, għamilna evalwazzjonijiet blind fejn esperti tal-industrija qabblu deliverables minn diversi mudelli ewlenin—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, u Grok 4—ma’ xogħol prodott mill-bniedem. Matul 220 kompitu fis-sett gold ta’ GDPval, irreġistrajna meta outputs tal-mudell ġew ivvalutati bħala aħjar minn (“rebħiet”) jew fuq l-istess livell (“pari”) mad-deliverables minn esperti tal-industrija, kif muri fil-graff b’vireg hawn taħt. Claude Opus 4.1 kien il-mudell bl-aħjar prestazzjoni fis-sett, u spikka b’mod partikolari fl-estetika (eż. ifformattjar tad-dokumenti, tqassim tas-slides), u GPT‑5 spikka b’mod partikolari fl-eżattezza (eż. li jsib għarfien speċifiku għad-dominju). Naraw ukoll progress ċar maż-żmien fuq dawn il-kompiti. Il-prestazzjoni aktar milli rdoppjat minn GPT‑4o (rilaxxat fir-rebbiegħa 2024) għal GPT‑5 (rilaxxat fis-sajf 2025), skont xejra lineari ċara.

Barra minn hekk, sibna li mudelli tal-fruntiera jistgħu jwettqu kompiti GDPval madwar 100 darba aktar malajr u 100 darba orħos minn esperti tal-industrija. Madankollu, dawn iċ-ċifri jirriflettu biss il-ħin pur tal-inferenza tal-mudell u r-rati tal-kontijiet tal-API, u għalhekk ma jaqbdux is-superviżjoni umana, l-iterazzjoni, u l-passi ta’ integrazzjoni meħtieġa f’ambjenti ta’ xogħol reali biex jintużaw il-mudelli tagħna. Xorta waħda, speċjalment fuq is-sottogrupp ta’ kompiti fejn il-mudelli huma partikolarment b’saħħithom, nistennew li l-għoti ta’ kompitu lil mudell qabel ma tipprovah ma’ bniedem jiffranka ħin u flus.

Evalwaturi esperti qabblu d-deliverables minn mudelli ewlenin ma’ esperti umani. Il-mudelli tal-fruntiera tal-lum diġà qed joqorbu lejn il-kwalità tax-xogħol prodott minn esperti tal-industrija. Claude Opus 4.1 ipproduċa outputs ivvalutati tajbin daqs jew aħjar mill-bnedmin f’ftit inqas minn nofs il-kompiti.

Minn GPT‑4o sa GPT‑5, il-prestazzjoni fuq il-kompiti GDPval aktar milli ttriplikat f’sena. 

Fl-aħħar nett, ħarriġna b’mod inkrementali verżjoni interna u sperimentali ta’ GPT‑5 biex nivvalutaw jekk stajniex intejbu l-prestazzjoni fuq GDPval. Sibna li dan il-proċess tejjeb il-prestazzjoni, u ħoloq triq għal aktar titjib potenzjali. Esperimenti kontrollati oħra jikkonfermaw dan: iż-żieda fid-daqs tal-mudell, l-inkoraġġiment ta’ aktar passi ta’ raġunament, u l-għoti ta’ kuntest tal-kompitu aktar rikk wasslu kull wieħed għal titjib li jista’ jitkejjel.

Tista’ taqra r-riżultati sħaħ fil-karta tagħna. Qed noħorġu wkoll sottogrupp gold ta’ kompiti GDPval u servizz pubbliku ta’ valutazzjoni sabiex riċerkaturi oħra jkunu jistgħu jibnu fuq dan ix-xogħol.

Il-futur tax-xogħol u l-IA 

Hekk kif l-IA ssir aktar kapaċi, x’aktarx tikkawża bidliet fis-suq tax-xogħol. Ir-riżultati bikrin ta’ GDPval juru li l-mudelli diġà jistgħu jieħdu f’idejhom xi kompiti ripetittivi u definiti tajjeb aktar malajr u bi spiża inqas mill-esperti. Madankollu, il-biċċa l-kbira tal-impjiegi huma aktar minn sempliċi ġabra ta’ kompiti li jistgħu jinkitbu. GDPval jenfasizza fejn l-IA tista’ tieħu ħsieb kompiti ta’ rutina biex in-nies ikunu jistgħu jqattgħu aktar ħin fuq il-partijiet kreattivi u mimlijin ġudizzju tax-xogħol. Meta l-IA tikkomplementa lill-ħaddiema b’dan il-mod, dan jista’ jissarraf fi tkabbir ekonomiku sinifikanti. L-għan tagħna huwa li nżommu lil kulħadd fuq l-“up elevator” tal-IA billi niddemokratizzaw l-aċċess għal dawn l-għodod, nappoġġaw lill-ħaddiema waqt il-bidla, u nibnu sistemi li jippremjaw kontribut wiesa’. 

Limitazzjonijiet u x’inhu ġej

GDPval huwa pass bikri. Filwaqt li jkopri 44 okkupazzjoni u mijiet ta’ kompiti, qed inkomplu nirfinaw l-approċċ tagħna biex nespandu l-ambitu tal-ittestjar tagħna u nagħmlu r-riżultati aktar sinifikanti. Il-verżjoni attwali tal-evalwazzjoni hija wkoll one-shot, għalhekk ma taqbadx każijiet fejn mudell ikollu bżonn jibni kuntest jew itejjeb ruħu permezz ta’ diversi abbozzi—pereżempju, jirrevedi nota legali wara feedback tal-klijent jew itejjeb analiżi tad-data wara li jinduna b’anomalija. Barra minn hekk, fid-dinja reali, il-kompiti mhux dejjem ikunu definiti b’mod ċar bi prompt u fajls ta’ referenza; pereżempju, avukat jista’ jkollu jinnaviga l-ambigwità u jitkellem mal-klijent tiegħu qabel ma jiddeċiedi li l-ħolqien ta’ nota legali huwa l-approċċ it-tajjeb biex jgħinu. Nippjanaw li nespandu GDPval biex jinkludi aktar okkupazzjonijiet, industriji, u tipi ta’ kompiti, b’aktar interattività, u aktar kompiti li jinvolvu n-navigazzjoni tal-ambigwità, bl-għan fit-tul li nkejlu aħjar il-progress fuq xogħol intellettwali divers.

Involvi ruħek

Il-parteċipazzjoni tal-komunità hija essenzjali—ninsabu eċċitati nibnu GDPval flimkien ma’ riċerkaturi, prattikanti, u organizzazzjonijiet li jaqsmu l-għan tagħna li nagħmlu l-AGI aktar utli għan-nies fuq il-post tax-xogħol.