Léim go dtí an príomhábhar
OpenAI

25 Meán Fómhair 2025

FoilsiúTaighde

Feidhmíocht ár samhlacha ar thascanna fíorshaoil a thomhas

Táimid ag tabhairt isteach GDPval, meastóireacht nua a thomhaiseann feidhmíocht samhla ar thascanna fíorshaoil a bhfuil luach eacnamaíoch leo ar fud 44 gairm.

Is é ár misean a chinntiú go rachaidh intleacht shaorga ghinearálta chun tairbhe don chine daonna ar fad. Mar chuid dár misean, ba mhaith linn dul chun cinn a chur in iúl go trédhearcach maidir leis an gcaoi ar féidir le samhlacha IS cabhrú le daoine sa saol fíor. Sin an fáth go bhfuil GDPval á thabhairt isteach againn: meastóireacht nua atá deartha chun cabhrú linn rian a choinneáil ar cé chomh maith agus a fheidhmíonn ár samhlacha agus samhlacha eile ar thascanna fíorshaoil a bhfuil luach eacnamaíoch leo. Tugaimid GDPval ar an measúnú seo mar gur thosaíomar leis an gcoincheap Olltáirgeacht Intíre (OTI) mar phríomhtháscaire eacnamaíoch agus gur tharraingíomar tascanna ó na príomhghairmeacha sna tionscail is mó a chuireann le OTI.

Is minic a dhéanann daoine tuairimíocht faoi thionchar níos leithne IS ar an tsochaí, ach is é an bealach is soiléire lena hacmhainneacht a thuiscint ná féachaint ar a bhfuil samhlacha in ann a dhéanamh cheana féin. Léiríonn an stair gur thóg sé níos mó ná deich mbliana ar mhórtheicneolaíochtaí—ón idirlíon go fóin chliste—dul ón aireagán go huchtú forleathan. Cabhraíonn measúnuithe cosúil le GDPval le comhráite faoi fheabhsuithe IS amach anseo a bhunú ar fhianaise seachas ar thuairimíocht, agus is féidir leo cabhrú linn feabhsú samhla a rianú le himeacht ama.

Bhí measúnuithe IS roimhe seo cosúil le tástálacha acadúla dúshlánacha agus dúshláin iomaíocha códaithe riachtanach chun teorainneacha chumas réasúnaíochta samhla a bhrú chun cinn, ach is minic nach mbaineann siad leis an gcineál tascanna a láimhseálann a lán daoine ina gcuid oibre laethúla.

Chun an bhearna seo a líonadh, táimid ag forbairt measúnuithe a thomhaiseann cumais atá níos réadúla agus níos ábhartha ó thaobh na heacnamaíochta de. Bhog an dul chun cinn seo ó thagarmharcanna acadúla clasaiceacha cosúil le MMLU (ceisteanna i stíl scrúdaithe ar fud na ndeicheanna ábhar), go measúnuithe níos feidhmí cosúil le SWE-Bench (tascanna innealtóireachta bogearraí chun fabhtanna a cheartú), MLE-Bench (tascanna innealtóireachta meaisínfhoghlama amhail oiliúint agus anailís samhla), agus Paper-Bench (réasúnaíocht eolaíoch agus cáineadh ar pháipéir thaighde), agus le gairid chuig measúnuithe margadhbhunaithe cosúil le SWE-Lancer (tionscadail shaorinnealtóireachta bogearraí bunaithe ar íocaíochtaí fíora).

Is é GDPval an chéad chéim eile sa dul chun cinn sin. Tomhaiseann sé feidhmíocht samhla ar thascanna a thagann go díreach ó obair eolais fhíorshaoil ghairmithe le taithí thar raon leathan gairmeacha agus earnálacha, agus tugann sé pictiúr níos soiléire ar an gcaoi a bhfeidhmíonn samhlacha ar thascanna a bhfuil luach eacnamaíoch leo. Cuidíonn measúnú samhlacha ar thascanna gairme réadúla linn a thuiscint ní hamháin cé chomh maith agus a fheidhmíonn siad sa tsaotharlann, ach conas a d’fhéadfaidís tacú le daoine san obair a dhéanann siad gach lá. 

Cad a thomhaiseann GDPval

Clúdaíonn GDPval, an chéad leagan den mheastóireacht seo, 44 gairm a roghnaíodh as na 9 dtionscal is mó a chuireann le OTI na Stát Aontaithe. Áirítear i sraith iomlán GDPval 1,320 tasc speisialaithe (220 sa tsraith óir foinse oscailte), agus tá gach ceann díobh ceaptha agus grinnfhíoraithe go cúramach ag gairmithe le taithí a bhfuil breis agus 14 bliana taithí acu ar an meán sna réimsí seo. Tá gach tasc bunaithe ar tháirgí oibre fíora, amhail achoimre dhlíthiúil, líníocht innealtóireachta, comhrá tacaíochta custaiméirí, nó plean cúraim altranais.

Tá GDPval sainiúil mar gheall ar a réadúlacht agus ar éagsúlacht na dtascanna atá á meas. Murab ionann agus measúnuithe eile atá nasctha le luach eacnamaíoch agus a dhíríonn ar fhearainn shonracha (m.sh. SWE-Lancer), clúdaíonn GDPval go leor tascanna agus gairmeacha. Agus murab ionann agus tagarmharcanna ina gcruthaítear tascanna go sintéiseach i stíl scrúdaithe acadúil nó tástála (m.sh. Humanity’s Last Exam nó MMLU), díríonn GDPval ar thascanna bunaithe ar tháirgí insoláthartha arb éard iad píosaí oibre nó táirgí atá ann inniu i ndáiríre nó píosaí oibre atá tógtha ar bhealach cosúil leis sin. 

Murab ionann agus tagarmharcanna traidisiúnta, ní leideanna téacs simplí iad tascanna GDPval. Tagann siad le comhaid thagartha agus comhthéacs, agus cuimsíonn na táirgí insoláthartha a bhfuiltear ag súil leo cáipéisí, sleamhnáin, léaráidí, scarbhileoga agus ilmheáin. Fágann an réadúlacht seo gur tástáil níos réadúla í GDPval ar an gcaoi a bhféadfadh samhlacha tacú le gairmithe.

Is céim luath í GDPval nach léiríonn an nuance iomlán a bhaineann le go leor tascanna eacnamaíocha. Cé go gclúdaíonn sí 44 gairm agus na céadta tasc oibre eolais, tá sí teoranta do mheasúnuithe aon iarracht, agus mar sin ní ghabhann sí cásanna ina mbeadh ar shamhail comhthéacs a thógáil nó feabhsú trí iliomad dréachtaí. Leathnóidh leaganacha amach anseo chuig sreafaí oibre níos idirghníomhaí agus tascanna níos saibhre ó thaobh comhthéacs de chun castacht na hoibre eolais fíorshaoil a léiriú níos fearr (féach tuilleadh inár rannán Teorainneacha thíos).

Conas a roghnaíomar gairmeacha

Clúdaíonn GDPval tascanna ar fud 9 dtionscal agus 44 gairm, agus leanfaidh leaganacha amach anseo de bheith ag leathnú an chlúdaigh. Roghnaíodh na 9 dtionscal tosaigh bunaithe orthu siúd a chuireann níos mó ná 5% le OTI na Stát Aontaithe, de réir sonraí ó Bhanc Cúlchiste Feidearálach St. Louis. Ansin, roghnaíomar na 5 ghairm laistigh de gach tionscal a chuireann is mó le pá iomlán agus cúiteamh agus ar gairmeacha oibre eolais iad den chuid is mó, ag baint úsáide as sonraí pá agus fostaíochta ón tuarascáil fostaíochta gairme de chuid Bhiúró Staidrimh Saothair SAM (BLS) do Bhealtaine 2024(osclaíonn i bhfuinneog nua). Chun a chinneadh an raibh na gairmeacha den chuid is mó ina ngairmeacha oibre eolais, bhaineamar úsáid as sonraí tascanna ó O*NET(osclaíonn i bhfuinneog nua), bunachar sonraí d’fhaisnéis gairme sna Stáit Aontaithe atá urraithe ag Roinn Saothair na Stát Aontaithe. Rangaíomar cibé acu a bhí gach tasc do gach gairm in O*NET ina obair eolais nó ina obair fhisiciúil/saothar láimhe (a éilíonn gníomhartha sa domhan fisiciúil). Cháiligh gairm ar an iomlán mar “obair eolais den chuid is mó” dá ndéanfaí ar a laghad 60% dá cuid tascanna comhpháirte a aicmiú mar thascanna nach mbaineann le hobair fhisiciúil ná saothar láimhe. Roghnaíomar an tairseach 60% seo mar phointe tosaigh don chéad leagan de GDPval, ag díriú ar ghairmeacha ina bhféadfadh IS an tionchar is mó a bheith aici ar tháirgiúlacht fhíorshaoil. 

Mar thoradh ar an bpróiseas seo, fuarthas 44 gairm lena gcur san áireamh.

Eastát réadach agus cíos agus léasú

  • Concierges

  • Bainisteoirí maoine, eastáit réadaigh agus cumainn phobail

  • Gníomhairí díolacháin eastáit réadaigh

  • Bróicéirí eastáit réadaigh

  • Cléirigh cuntair agus cíosa

Rialtas

  • Oibrithe fóillíochta

  • Oifigigh chomhlíonta

  • Maoirseoirí céadlínte ar phóilíní agus ar bhleachtairí

  • Bainisteoirí seirbhísí riaracháin

  • Oibrithe sóisialta leanaí, teaghlaigh agus scoile

Déantúsaíocht

  • Innealtóirí meicniúla

  • Innealtóirí tionsclaíocha

  • Ceannaitheoirí agus gníomhairí ceannaigh

  • Cléirigh loingseoireachta, glactha agus fardail

  • Maoirseoirí céadlínte ar oibrithe táirgthe agus oibriúcháin

Seirbhísí gairmiúla, eolaíochta agus teicniúla

  • Forbróirí bogearraí

  • Dlíodóirí

  • Cuntasóirí agus iniúchóirí

  • Bainisteoirí córas ríomhaireachta agus faisnéise

  • Speisialtóirí bainistíochta tionscadail

Cúram sláinte agus cúnamh sóisialta

  • Altraí cláraithe

  • Cleachtóirí altra

  • Bainisteoirí seirbhísí leighis agus sláinte

  • Maoirseoirí céadlínte ar oibrithe tacaíochta oifige agus riaracháin

  • Rúnaithe leighis agus cúntóirí riaracháin

Airgeadas agus árachas

  • Ionadaithe seirbhíse do chustaiméirí

  • Anailísithe airgeadais agus infheistíochta

  • Bainisteoirí airgeadais

  • Comhairleoirí airgeadais pearsanta

  • Gníomhairí díolacháin urrús, tráchtearraí agus seirbhísí airgeadais

Miondíol

  • Cógaiseoirí

  • Maoirseoirí céadlínte ar oibrithe díolacháin mhiondíola

  • Bainisteoirí ginearálta agus oibríochtaí

  • Bleachtairí príobháideacha agus imscrúdaitheoirí

Mórdhíol

  • Bainisteoirí díolacháin

  • Cléirigh orduithe

  • Maoirseoirí céadlínte ar oibrithe díolacháin neamh-mhiondíola

  • Ionadaithe díolacháin, mórdhíol agus déantúsaíocht, seachas táirgí teicniúla agus eolaíochta

  • Ionadaithe díolacháin, mórdhíol agus déantúsaíocht, táirgí teicniúla agus eolaíochta

Faisnéis

  • Teicneoirí fuaime agus físe

  • Léiritheoirí agus stiúrthóirí

  • Anailísithe nuachta, tuairisceoirí agus iriseoirí

  • Eagarthóirí scannán agus físe

  • Eagarthóirí

Clúdaíonn GDPval 44 gairm oibre eolais ar fud 9 n-earnáil, ó fhorbróirí bogearraí agus dlíodóirí go haltraí cláraithe agus innealtóirí meicniúla. Roghnaíodh na gairmeacha seo mar gheall ar a dtábhacht eacnamaíoch agus léiríonn siad na cineálacha oibre laethúla inar féidir le IS cuidiú go bríoch le gairmithe.

Conas a thógamar an tacar sonraí

Do gach gairm, d’oibríomar le gairmithe le taithí chun tascanna ionadaíocha a chruthú a léiríonn a gcuid oibre ó lá go lá. Bhí 14 bliana taithí acu ar an meán, agus taifid láidre dul chun cinn acu. D’earcaíomar go feasach raon leathan saineolaithe—mar shampla dlíodóirí ó réimsí éagsúla cleachtais agus ó ghnólachtaí de mhéideanna éagsúla—chun ionadaíocht a uasmhéadú.

Chuaigh gach tasc trí phróiseas athbhreithnithe ilchéime chun a chinntiú go raibh sé ionadaíoch ar fhíorobair, go raibh sé indéanta do ghairmí eile a chur i gcrích, agus go raibh sé soiléir le haghaidh meastóireachta. Ar an meán, fuair gach tasc 5 bhabhta athbhreithnithe saineolaithe, lena n-áirítear seiceálacha ó scríbhneoirí tascanna eile, athbhreithneoirí gairme breise, agus bailíochtú bunaithe ar shamhail. 

Áirítear sa tacar sonraí a tháinig as seo 30 tasc atá athbhreithnithe go hiomlán in aghaidh na gairme (an tsraith iomlán) agus 5 thasc in aghaidh na gairme inár sraith óir foinse oscailte, rud a sholáthraíonn bonn láidir chun feidhmíocht samhla ar obair eolais fhíorshaoil a mheas.

Samplaí de thascanna GDPval

Leid agus comhthéacs tasc

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Inseachadta daonna le taithí

Radharc pléasctha de dhearadh do ríl chábla
Dearann gairmí le taithí gach tasc in GDPval agus léiríonn sé fíorobair eolais óna ghairm. Is sannadh oibre réadúil é an leid a chruthaigh saineolaí fearainn, agus is é an táirge insoláthartha óir réiteach an tsaineolaí féin é.

Conas a ghrádálaimid feidhmíocht samhla

Chun feidhmíocht samhla ar thascanna GDPval a mheas, braithimid ar “ghrádálaithe” saineolacha—grúpa gairmithe le taithí ó na gairmeacha céanna atá ionadaithe sa tacar sonraí. Cuireann na grádálaithe seo táirgí insoláthartha a ghineann samhlacha i gcomparáid go dall leo siúd a tháirgeann scríbhneoirí tascanna (gan a bheith ar an eolas cé acu IS nó duine a ghineann iad), agus tugann siad cáineadh agus ranguithe. Ansin déanann na grádálaithe na táirgí insoláthartha daonna agus IS a rangú agus aicmíonn siad gach táirge insoláthartha IS mar “níos fearr”, “chomh maith le”, nó “níos measa ná” a chéile.

Chruthaigh scríbhneoirí tascanna rúibricí scórála mionsonraithe dá ngairmeacha freisin, a chuireann comhsheasmhacht agus trédhearcacht leis an bpróiseas grádála. Thógamar “grádálaí uathoibrithe” freisin, córas IS a cuireadh oiliúint air chun meastachán a dhéanamh ar conas a mheasfadh saineolaithe daonna táirge insoláthartha ar leith. I bhfocail eile, in ionad athbhreithniú saineolach iomlán a reáchtáil gach uair, is féidir leis an ngrádálaí uathoibrithe a thuar go tapa cén t-aschur is dóichí a bheadh níos fearr le daoine. Táimid ag scaoileadh an uirlis seo trí at evals.openai.com mar sheirbhís thaighde thurgnamhach, ach níl sí chomh hiontaofa fós le grádálaithe saineolacha, mar sin ní úsáidimid í chun iad a ionadú. 

Torthaí tosaigh

Fuaireamar amach go bhfuil samhlacha teorainn is fearr an lae inniu ag druidim cheana féin le cáilíocht na hoibre a tháirgeann saineolaithe tionscail. Chun é seo a thástáil, reáchtálamar measúnuithe dall inar chuir saineolaithe tionscail táirgí insoláthartha ó roinnt príomhsamhlacha—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, agus Grok 4—i gcomparáid le hobair a rinne daoine. Ar fud 220 tasc i sraith óir GDPval, thaifeadamar nuair a measadh aschuir samhla a bheith níos fearr ná (“buaiteanna”) nó ar chomhchéim le (“comhscóir”) táirgí insoláthartha ó shaineolaithe tionscail, mar a thaispeántar sa bharrachairt thíos. Ba é Claude Opus 4.1 an tsamhail ab fhearr feidhmíocht sa tsraith, agus bhí sí ar fheabhas go háirithe ó thaobh aeistéitic de (m.sh. formáidiú cáipéise, leagan amach sleamhnán), agus bhí GPT‑5 ar fheabhas go háirithe ó thaobh cruinnis de (m.sh. eolas fearainn-shonrach a aimsiú). Feicimid dul chun cinn soiléir le himeacht ama ar na tascanna seo freisin. Tá an fheidhmíocht níos mó ná faoi dhó ó GPT‑4o (eisithe in earrach 2024) go GPT‑5 (eisithe i samhradh 2025), ag leanúint treocht líneach shoiléir.

Ina theannta sin, fuaireamar amach gur féidir le samhlacha teorainn tascanna GDPval a chur i gcrích thart ar 100x níos tapúla agus 100x níos saoire ná saineolaithe tionscail. Mar sin féin, léiríonn na figiúirí seo am íon tátail samhla agus rátaí billeála API, agus dá bhrí sin ní chuimsíonn siad na céimeanna maoirseachta daonna, athdhéanta agus comhtháthaithe atá riachtanach i suíomhanna fíor-oibre chun ár samhlacha a úsáid. Fós féin, go háirithe ar fho-thacar na dtascanna ina bhfuil samhlacha an-láidir, táimid ag súil go sábhálfadh sé am agus airgead tasc a thabhairt do shamhail sula ndéanfaí iarracht air le duine.

Chuir grádálaithe saineolacha táirgí insoláthartha ó phríomhsamhlacha i gcomparáid le saineolaithe daonna. Tá samhlacha teorainn an lae inniu ag druidim cheana féin le cáilíocht na hoibre a dhéanann saineolaithe tionscail. Tháirg Claude Opus 4.1 aschuir a measadh a bheith chomh maith le daoine nó níos fearr ná iad i mbeagnach leath de na tascanna.

Ó GPT‑4o go GPT‑5, níos mó ná thrí oiread feidhmíocht ar thascanna GDPval i mbliain amháin. 

Ar deireadh, rinneamar leagan inmheánach, turgnamhach de GPT‑5 a oiliúint de réir a chéile chun measúnú a dhéanamh an bhféadfaimis feidhmíocht ar GDPval a fheabhsú. Fuaireamar amach gur fheabhsaigh an próiseas seo feidhmíocht, rud a chruthaigh cosán chun tuilleadh feabhsúcháin fhéideartha a dhéanamh. Tacaíonn turgnaimh rialaithe eile leis seo: thug méadú ar mhéid samhla, spreagadh do níos mó céimeanna réasúnaíochta, agus comhthéacs tascanna níos saibhre gnóthachain intomhaiste ar fad.

Is féidir leat na torthaí iomlána a léamh inár bpáipéar. Táimid ag scaoileadh fo-thacar óir de thascanna GDPval agus seirbhís grádála phoiblí freisin ionas gur féidir le taighdeoirí eile tógáil ar an obair seo.

Todhchaí na hoibre agus IS 

De réir mar a éiríonn IS níos cumasaí, is dócha go mbeidh athruithe sa mhargadh fostaíochta mar thoradh air. Léiríonn torthaí luatha GDPval gur féidir le samhlacha cheana féin cuid de na tascanna athchleachtacha, dea-shonraithe a dhéanamh níos tapúla agus ar chostas níos ísle ná saineolaithe. Mar sin féin, is mó atá i bhformhór na bpost ná bailiúchán tascanna is féidir a scríobh síos. Léiríonn GDPval cá háit ar féidir le IS gnáththascanna a láimhseáil ionas gur féidir le daoine níos mó ama a chaitheamh ar na codanna cruthaitheacha den obair a éilíonn breithiúnas. Nuair a chomhlánaíonn IS oibrithe ar an mbealach seo, féadfaidh sé sin fás eacnamaíoch suntasach a chruthú. Is é ár gcuspóir gach duine a choinneáil ar “ardaitheoir suas” na hIntleachta Saorga trí rochtain ar na huirlisí seo a dhaonlathú, tacú le hoibrithe trí athrú, agus córais a thógáil a thugann luach saothair do rannchuidiú leathan. 

Teorainneacha agus an chéad rud eile

Is céim luath í GDPval. Cé go gclúdaíonn sí 44 gairm agus na céadta tasc, táimid fós ag mionchoigeartú ár gcur chuige chun raon ár dtástála a leathnú agus na torthaí a dhéanamh níos bríomhaire. Tá an leagan reatha den mheastóireacht aon iarracht freisin, mar sin ní ghabhann sé cásanna ina mbeadh ar shamhail comhthéacs a thógáil nó feabhsú trí iliomad dréachtaí—mar shampla, achoimre dhlíthiúil a athbhreithniú tar éis aiseolais ó chliant nó anailís sonraí a athdhéanamh tar éis aimhrialtacht a thabhairt faoi deara. Ina theannta sin, sa saol fíor, ní bhíonn tascanna sainmhínithe go soiléir i gcónaí le leid agus comhaid thagartha; mar shampla, b’fhéidir go mbeadh ar dhlíodóir déileáil le débhríocht agus labhairt lena chliant sula gcinnfeadh sé gurbh é achoimre dhlíthiúil a chruthú an cur chuige ceart chun cabhrú leo. Tá sé beartaithe againn GDPval a leathnú chun níos mó gairmeacha, tionscal agus cineálacha tasc a áireamh, le níos mó idirghníomhaíochta, agus níos mó tascanna a bhaineann le déileáil le débhríocht, agus an sprioc fhadtéarmach againn dul chun cinn ar obair eolais éagsúil a thomhas níos fearr.

Glac páirt

Tá rannpháirtíocht an phobail riachtanach—táimid ar bís GDPval a thógáil le chéile le taighdeoirí, cleachtóirí agus eagraíochtaí a roinneann ár sprioc IGS a dhéanamh níos úsáidí do dhaoine san obair.