Feidhmíocht ár samhlacha ar thascanna fíorshaoil a thomhas
Táimid ag tabhairt isteach GDPval, meastóireacht nua a thomhaiseann feidhmíocht samhla ar thascanna fíorshaoil a bhfuil luach eacnamaíoch leo ar fud 44 gairm.
Is é ár misean a chinntiú go rachaidh intleacht shaorga ghinearálta chun tairbhe don chine daonna ar fad. Mar chuid dár misean, ba mhaith linn dul chun cinn a chur in iúl go trédhearcach maidir leis an gcaoi ar féidir le samhlacha IS cabhrú le daoine sa saol fíor. Sin an fáth go bhfuil GDPval á thabhairt isteach againn: meastóireacht nua atá deartha chun cabhrú linn rian a choinneáil ar cé chomh maith agus a fheidhmíonn ár samhlacha agus samhlacha eile ar thascanna fíorshaoil a bhfuil luach eacnamaíoch leo. Tugaimid GDPval ar an measúnú seo mar gur thosaíomar leis an gcoincheap Olltáirgeacht Intíre (OTI) mar phríomhtháscaire eacnamaíoch agus gur tharraingíomar tascanna ó na príomhghairmeacha sna tionscail is mó a chuireann le OTI.
Is minic a dhéanann daoine tuairimíocht faoi thionchar níos leithne IS ar an tsochaí, ach is é an bealach is soiléire lena hacmhainneacht a thuiscint ná féachaint ar a bhfuil samhlacha in ann a dhéanamh cheana féin. Léiríonn an stair gur thóg sé níos mó ná deich mbliana ar mhórtheicneolaíochtaí—ón idirlíon go fóin chliste—dul ón aireagán go huchtú forleathan. Cabhraíonn measúnuithe cosúil le GDPval le comhráite faoi fheabhsuithe IS amach anseo a bhunú ar fhianaise seachas ar thuairimíocht, agus is féidir leo cabhrú linn feabhsú samhla a rianú le himeacht ama.
Bhí measúnuithe IS roimhe seo cosúil le tástálacha acadúla dúshlánacha agus dúshláin iomaíocha códaithe riachtanach chun teorainneacha chumas réasúnaíochta samhla a bhrú chun cinn, ach is minic nach mbaineann siad leis an gcineál tascanna a láimhseálann a lán daoine ina gcuid oibre laethúla.
Chun an bhearna seo a líonadh, táimid ag forbairt measúnuithe a thomhaiseann cumais atá níos réadúla agus níos ábhartha ó thaobh na heacnamaíochta de. Bhog an dul chun cinn seo ó thagarmharcanna acadúla clasaiceacha cosúil le MMLU (ceisteanna i stíl scrúdaithe ar fud na ndeicheanna ábhar), go measúnuithe níos feidhmí cosúil le SWE-Bench (tascanna innealtóireachta bogearraí chun fabhtanna a cheartú), MLE-Bench (tascanna innealtóireachta meaisínfhoghlama amhail oiliúint agus anailís samhla), agus Paper-Bench (réasúnaíocht eolaíoch agus cáineadh ar pháipéir thaighde), agus le gairid chuig measúnuithe margadhbhunaithe cosúil le SWE-Lancer (tionscadail shaorinnealtóireachta bogearraí bunaithe ar íocaíochtaí fíora).
Is é GDPval an chéad chéim eile sa dul chun cinn sin. Tomhaiseann sé feidhmíocht samhla ar thascanna a thagann go díreach ó obair eolais fhíorshaoil ghairmithe le taithí thar raon leathan gairmeacha agus earnálacha, agus tugann sé pictiúr níos soiléire ar an gcaoi a bhfeidhmíonn samhlacha ar thascanna a bhfuil luach eacnamaíoch leo. Cuidíonn measúnú samhlacha ar thascanna gairme réadúla linn a thuiscint ní hamháin cé chomh maith agus a fheidhmíonn siad sa tsaotharlann, ach conas a d’fhéadfaidís tacú le daoine san obair a dhéanann siad gach lá.
Clúdaíonn GDPval, an chéad leagan den mheastóireacht seo, 44 gairm a roghnaíodh as na 9 dtionscal is mó a chuireann le OTI na Stát Aontaithe. Áirítear i sraith iomlán GDPval 1,320 tasc speisialaithe (220 sa tsraith óir foinse oscailte), agus tá gach ceann díobh ceaptha agus grinnfhíoraithe go cúramach ag gairmithe le taithí a bhfuil breis agus 14 bliana taithí acu ar an meán sna réimsí seo. Tá gach tasc bunaithe ar tháirgí oibre fíora, amhail achoimre dhlíthiúil, líníocht innealtóireachta, comhrá tacaíochta custaiméirí, nó plean cúraim altranais.
Tá GDPval sainiúil mar gheall ar a réadúlacht agus ar éagsúlacht na dtascanna atá á meas. Murab ionann agus measúnuithe eile atá nasctha le luach eacnamaíoch agus a dhíríonn ar fhearainn shonracha (m.sh. SWE-Lancer), clúdaíonn GDPval go leor tascanna agus gairmeacha. Agus murab ionann agus tagarmharcanna ina gcruthaítear tascanna go sintéiseach i stíl scrúdaithe acadúil nó tástála (m.sh. Humanity’s Last Exam nó MMLU), díríonn GDPval ar thascanna bunaithe ar tháirgí insoláthartha arb éard iad píosaí oibre nó táirgí atá ann inniu i ndáiríre nó píosaí oibre atá tógtha ar bhealach cosúil leis sin.
Murab ionann agus tagarmharcanna traidisiúnta, ní leideanna téacs simplí iad tascanna GDPval. Tagann siad le comhaid thagartha agus comhthéacs, agus cuimsíonn na táirgí insoláthartha a bhfuiltear ag súil leo cáipéisí, sleamhnáin, léaráidí, scarbhileoga agus ilmheáin. Fágann an réadúlacht seo gur tástáil níos réadúla í GDPval ar an gcaoi a bhféadfadh samhlacha tacú le gairmithe.
Is céim luath í GDPval nach léiríonn an nuance iomlán a bhaineann le go leor tascanna eacnamaíocha. Cé go gclúdaíonn sí 44 gairm agus na céadta tasc oibre eolais, tá sí teoranta do mheasúnuithe aon iarracht, agus mar sin ní ghabhann sí cásanna ina mbeadh ar shamhail comhthéacs a thógáil nó feabhsú trí iliomad dréachtaí. Leathnóidh leaganacha amach anseo chuig sreafaí oibre níos idirghníomhaí agus tascanna níos saibhre ó thaobh comhthéacs de chun castacht na hoibre eolais fíorshaoil a léiriú níos fearr (féach tuilleadh inár rannán Teorainneacha thíos).
Clúdaíonn GDPval tascanna ar fud 9 dtionscal agus 44 gairm, agus leanfaidh leaganacha amach anseo de bheith ag leathnú an chlúdaigh. Roghnaíodh na 9 dtionscal tosaigh bunaithe orthu siúd a chuireann níos mó ná 5% le OTI na Stát Aontaithe, de réir sonraí ó Bhanc Cúlchiste Feidearálach St. Louis. Ansin, roghnaíomar na 5 ghairm laistigh de gach tionscal a chuireann is mó le pá iomlán agus cúiteamh agus ar gairmeacha oibre eolais iad den chuid is mó, ag baint úsáide as sonraí pá agus fostaíochta ón tuarascáil fostaíochta gairme de chuid Bhiúró Staidrimh Saothair SAM (BLS) do Bhealtaine 2024(osclaíonn i bhfuinneog nua). Chun a chinneadh an raibh na gairmeacha den chuid is mó ina ngairmeacha oibre eolais, bhaineamar úsáid as sonraí tascanna ó O*NET(osclaíonn i bhfuinneog nua), bunachar sonraí d’fhaisnéis gairme sna Stáit Aontaithe atá urraithe ag Roinn Saothair na Stát Aontaithe. Rangaíomar cibé acu a bhí gach tasc do gach gairm in O*NET ina obair eolais nó ina obair fhisiciúil/saothar láimhe (a éilíonn gníomhartha sa domhan fisiciúil). Cháiligh gairm ar an iomlán mar “obair eolais den chuid is mó” dá ndéanfaí ar a laghad 60% dá cuid tascanna comhpháirte a aicmiú mar thascanna nach mbaineann le hobair fhisiciúil ná saothar láimhe. Roghnaíomar an tairseach 60% seo mar phointe tosaigh don chéad leagan de GDPval, ag díriú ar ghairmeacha ina bhféadfadh IS an tionchar is mó a bheith aici ar tháirgiúlacht fhíorshaoil.
Mar thoradh ar an bpróiseas seo, fuarthas 44 gairm lena gcur san áireamh.
Eastát réadach agus cíos agus léasú
Concierges
Bainisteoirí maoine, eastáit réadaigh agus cumainn phobail
Gníomhairí díolacháin eastáit réadaigh
Bróicéirí eastáit réadaigh
Cléirigh cuntair agus cíosa
Rialtas
Oibrithe fóillíochta
Oifigigh chomhlíonta
Maoirseoirí céadlínte ar phóilíní agus ar bhleachtairí
Bainisteoirí seirbhísí riaracháin
Oibrithe sóisialta leanaí, teaghlaigh agus scoile
Déantúsaíocht
Innealtóirí meicniúla
Innealtóirí tionsclaíocha
Ceannaitheoirí agus gníomhairí ceannaigh
Cléirigh loingseoireachta, glactha agus fardail
Maoirseoirí céadlínte ar oibrithe táirgthe agus oibriúcháin
Seirbhísí gairmiúla, eolaíochta agus teicniúla
Forbróirí bogearraí
Dlíodóirí
Cuntasóirí agus iniúchóirí
Bainisteoirí córas ríomhaireachta agus faisnéise
Speisialtóirí bainistíochta tionscadail
Cúram sláinte agus cúnamh sóisialta
Altraí cláraithe
Cleachtóirí altra
Bainisteoirí seirbhísí leighis agus sláinte
Maoirseoirí céadlínte ar oibrithe tacaíochta oifige agus riaracháin
Rúnaithe leighis agus cúntóirí riaracháin
Airgeadas agus árachas
Ionadaithe seirbhíse do chustaiméirí
Anailísithe airgeadais agus infheistíochta
Bainisteoirí airgeadais
Comhairleoirí airgeadais pearsanta
Gníomhairí díolacháin urrús, tráchtearraí agus seirbhísí airgeadais
Miondíol
Cógaiseoirí
Maoirseoirí céadlínte ar oibrithe díolacháin mhiondíola
Bainisteoirí ginearálta agus oibríochtaí
Bleachtairí príobháideacha agus imscrúdaitheoirí
Mórdhíol
Bainisteoirí díolacháin
Cléirigh orduithe
Maoirseoirí céadlínte ar oibrithe díolacháin neamh-mhiondíola
Ionadaithe díolacháin, mórdhíol agus déantúsaíocht, seachas táirgí teicniúla agus eolaíochta
Ionadaithe díolacháin, mórdhíol agus déantúsaíocht, táirgí teicniúla agus eolaíochta
Faisnéis
Teicneoirí fuaime agus físe
Léiritheoirí agus stiúrthóirí
Anailísithe nuachta, tuairisceoirí agus iriseoirí
Eagarthóirí scannán agus físe
Eagarthóirí
Do gach gairm, d’oibríomar le gairmithe le taithí chun tascanna ionadaíocha a chruthú a léiríonn a gcuid oibre ó lá go lá. Bhí 14 bliana taithí acu ar an meán, agus taifid láidre dul chun cinn acu. D’earcaíomar go feasach raon leathan saineolaithe—mar shampla dlíodóirí ó réimsí éagsúla cleachtais agus ó ghnólachtaí de mhéideanna éagsúla—chun ionadaíocht a uasmhéadú.
Chuaigh gach tasc trí phróiseas athbhreithnithe ilchéime chun a chinntiú go raibh sé ionadaíoch ar fhíorobair, go raibh sé indéanta do ghairmí eile a chur i gcrích, agus go raibh sé soiléir le haghaidh meastóireachta. Ar an meán, fuair gach tasc 5 bhabhta athbhreithnithe saineolaithe, lena n-áirítear seiceálacha ó scríbhneoirí tascanna eile, athbhreithneoirí gairme breise, agus bailíochtú bunaithe ar shamhail.
Áirítear sa tacar sonraí a tháinig as seo 30 tasc atá athbhreithnithe go hiomlán in aghaidh na gairme (an tsraith iomlán) agus 5 thasc in aghaidh na gairme inár sraith óir foinse oscailte, rud a sholáthraíonn bonn láidir chun feidhmíocht samhla ar obair eolais fhíorshaoil a mheas.
Samplaí de thascanna GDPval
Leid agus comhthéacs tasc
Inseachadta daonna le taithí

Chun feidhmíocht samhla ar thascanna GDPval a mheas, braithimid ar “ghrádálaithe” saineolacha—grúpa gairmithe le taithí ó na gairmeacha céanna atá ionadaithe sa tacar sonraí. Cuireann na grádálaithe seo táirgí insoláthartha a ghineann samhlacha i gcomparáid go dall leo siúd a tháirgeann scríbhneoirí tascanna (gan a bheith ar an eolas cé acu IS nó duine a ghineann iad), agus tugann siad cáineadh agus ranguithe. Ansin déanann na grádálaithe na táirgí insoláthartha daonna agus IS a rangú agus aicmíonn siad gach táirge insoláthartha IS mar “níos fearr”, “chomh maith le”, nó “níos measa ná” a chéile.
Chruthaigh scríbhneoirí tascanna rúibricí scórála mionsonraithe dá ngairmeacha freisin, a chuireann comhsheasmhacht agus trédhearcacht leis an bpróiseas grádála. Thógamar “grádálaí uathoibrithe” freisin, córas IS a cuireadh oiliúint air chun meastachán a dhéanamh ar conas a mheasfadh saineolaithe daonna táirge insoláthartha ar leith. I bhfocail eile, in ionad athbhreithniú saineolach iomlán a reáchtáil gach uair, is féidir leis an ngrádálaí uathoibrithe a thuar go tapa cén t-aschur is dóichí a bheadh níos fearr le daoine. Táimid ag scaoileadh an uirlis seo trí at evals.openai.com mar sheirbhís thaighde thurgnamhach, ach níl sí chomh hiontaofa fós le grádálaithe saineolacha, mar sin ní úsáidimid í chun iad a ionadú.
Fuaireamar amach go bhfuil samhlacha teorainn is fearr an lae inniu ag druidim cheana féin le cáilíocht na hoibre a tháirgeann saineolaithe tionscail. Chun é seo a thástáil, reáchtálamar measúnuithe dall inar chuir saineolaithe tionscail táirgí insoláthartha ó roinnt príomhsamhlacha—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, agus Grok 4—i gcomparáid le hobair a rinne daoine. Ar fud 220 tasc i sraith óir GDPval, thaifeadamar nuair a measadh aschuir samhla a bheith níos fearr ná (“buaiteanna”) nó ar chomhchéim le (“comhscóir”) táirgí insoláthartha ó shaineolaithe tionscail, mar a thaispeántar sa bharrachairt thíos. Ba é Claude Opus 4.1 an tsamhail ab fhearr feidhmíocht sa tsraith, agus bhí sí ar fheabhas go háirithe ó thaobh aeistéitic de (m.sh. formáidiú cáipéise, leagan amach sleamhnán), agus bhí GPT‑5 ar fheabhas go háirithe ó thaobh cruinnis de (m.sh. eolas fearainn-shonrach a aimsiú). Feicimid dul chun cinn soiléir le himeacht ama ar na tascanna seo freisin. Tá an fheidhmíocht níos mó ná faoi dhó ó GPT‑4o (eisithe in earrach 2024) go GPT‑5 (eisithe i samhradh 2025), ag leanúint treocht líneach shoiléir.
Ina theannta sin, fuaireamar amach gur féidir le samhlacha teorainn tascanna GDPval a chur i gcrích thart ar 100x níos tapúla agus 100x níos saoire ná saineolaithe tionscail. Mar sin féin, léiríonn na figiúirí seo am íon tátail samhla agus rátaí billeála API, agus dá bhrí sin ní chuimsíonn siad na céimeanna maoirseachta daonna, athdhéanta agus comhtháthaithe atá riachtanach i suíomhanna fíor-oibre chun ár samhlacha a úsáid. Fós féin, go háirithe ar fho-thacar na dtascanna ina bhfuil samhlacha an-láidir, táimid ag súil go sábhálfadh sé am agus airgead tasc a thabhairt do shamhail sula ndéanfaí iarracht air le duine.
Chuir grádálaithe saineolacha táirgí insoláthartha ó phríomhsamhlacha i gcomparáid le saineolaithe daonna. Tá samhlacha teorainn an lae inniu ag druidim cheana féin le cáilíocht na hoibre a dhéanann saineolaithe tionscail. Tháirg Claude Opus 4.1 aschuir a measadh a bheith chomh maith le daoine nó níos fearr ná iad i mbeagnach leath de na tascanna.
Ó GPT‑4o go GPT‑5, níos mó ná thrí oiread feidhmíocht ar thascanna GDPval i mbliain amháin.
Ar deireadh, rinneamar leagan inmheánach, turgnamhach de GPT‑5 a oiliúint de réir a chéile chun measúnú a dhéanamh an bhféadfaimis feidhmíocht ar GDPval a fheabhsú. Fuaireamar amach gur fheabhsaigh an próiseas seo feidhmíocht, rud a chruthaigh cosán chun tuilleadh feabhsúcháin fhéideartha a dhéanamh. Tacaíonn turgnaimh rialaithe eile leis seo: thug méadú ar mhéid samhla, spreagadh do níos mó céimeanna réasúnaíochta, agus comhthéacs tascanna níos saibhre gnóthachain intomhaiste ar fad.
Is féidir leat na torthaí iomlána a léamh inár bpáipéar. Táimid ag scaoileadh fo-thacar óir de thascanna GDPval agus seirbhís grádála phoiblí freisin ionas gur féidir le taighdeoirí eile tógáil ar an obair seo.
De réir mar a éiríonn IS níos cumasaí, is dócha go mbeidh athruithe sa mhargadh fostaíochta mar thoradh air. Léiríonn torthaí luatha GDPval gur féidir le samhlacha cheana féin cuid de na tascanna athchleachtacha, dea-shonraithe a dhéanamh níos tapúla agus ar chostas níos ísle ná saineolaithe. Mar sin féin, is mó atá i bhformhór na bpost ná bailiúchán tascanna is féidir a scríobh síos. Léiríonn GDPval cá háit ar féidir le IS gnáththascanna a láimhseáil ionas gur féidir le daoine níos mó ama a chaitheamh ar na codanna cruthaitheacha den obair a éilíonn breithiúnas. Nuair a chomhlánaíonn IS oibrithe ar an mbealach seo, féadfaidh sé sin fás eacnamaíoch suntasach a chruthú. Is é ár gcuspóir gach duine a choinneáil ar “ardaitheoir suas” na hIntleachta Saorga trí rochtain ar na huirlisí seo a dhaonlathú, tacú le hoibrithe trí athrú, agus córais a thógáil a thugann luach saothair do rannchuidiú leathan.
Is céim luath í GDPval. Cé go gclúdaíonn sí 44 gairm agus na céadta tasc, táimid fós ag mionchoigeartú ár gcur chuige chun raon ár dtástála a leathnú agus na torthaí a dhéanamh níos bríomhaire. Tá an leagan reatha den mheastóireacht aon iarracht freisin, mar sin ní ghabhann sé cásanna ina mbeadh ar shamhail comhthéacs a thógáil nó feabhsú trí iliomad dréachtaí—mar shampla, achoimre dhlíthiúil a athbhreithniú tar éis aiseolais ó chliant nó anailís sonraí a athdhéanamh tar éis aimhrialtacht a thabhairt faoi deara. Ina theannta sin, sa saol fíor, ní bhíonn tascanna sainmhínithe go soiléir i gcónaí le leid agus comhaid thagartha; mar shampla, b’fhéidir go mbeadh ar dhlíodóir déileáil le débhríocht agus labhairt lena chliant sula gcinnfeadh sé gurbh é achoimre dhlíthiúil a chruthú an cur chuige ceart chun cabhrú leo. Tá sé beartaithe againn GDPval a leathnú chun níos mó gairmeacha, tionscal agus cineálacha tasc a áireamh, le níos mó idirghníomhaíochta, agus níos mó tascanna a bhaineann le déileáil le débhríocht, agus an sprioc fhadtéarmach againn dul chun cinn ar obair eolais éagsúil a thomhas níos fearr.
- Más saineolaí tionscail thú agus spéis agat cur le GDPval, léirigh do spéis anseo.
- Más custaiméir thú ag obair le OpenAI agus más mian leat cur le babhta GDPval amach anseo, léirigh spéis anseo.
Tá rannpháirtíocht an phobail riachtanach—táimid ar bís GDPval a thógáil le chéile le taighdeoirí, cleachtóirí agus eagraíochtaí a roinneann ár sprioc IGS a dhéanamh níos úsáidí do dhaoine san obair.


