Léim go dtí an príomhábhar
OpenAI

19 Samhain 2025

Taighde

Conas a spreagann evals an chéad chaibidil eile in AI do ghnólachtaí

Múineann an réamheolas seo do cheannairí gnó conas a iompraíonn creataí meastóireachta (“evals”) cuspóirí gnó ina dtorthaí comhsheasmhacha.

Ag lódáil…

Tá breis agus milliún gnólacht ar fud an domhain ag baint leas as AI chun éifeachtúlacht níos fearr agus cruthú luacha a thiomáint. Ach bhí sé deacair ar roinnt eagraíochtaí na torthaí a raibh siad ag súil leo a fháil. Cad is cúis leis an mbearna?

Ag OpenAI, táimid ag úsáid AI go hinmheánach chun ár spriocanna uaillmhianacha a bhaint amach. Sraith uirlisí thábhachtacha amháin a úsáidimid ná evals, modhanna chun cumas córais AI ionchais a chomhlíonadh a thomhas agus a fheabhsú. 

Cosúil le doiciméid riachtanas táirge, déanann evals spriocanna doiléire agus smaointe teibí sonrach agus follasach. Má úsáidtear evals go straitéiseach, is féidir táirge a bhíonn os comhair custaiméirí nó uirlis inmheánach a dhéanamh níos iontaofa ar scála, earráidí tromchúiseacha a laghdú, cosaint ar riosca anuas a chur ar fáil, agus cosán intomhaiste chuig ROI níos airde a thabhairt d’eagraíocht. 

Ag OpenAI, is iad ár samhlacha ár dtáirgí, mar sin úsáideann ár dtaighdeoirí evals teorainn(osclaíonn i bhfuinneog nua) 1 dian chun a thomhas cé chomh maith is a fheidhmíonn na samhlacha i réimsí éagsúla. Cé go gcuidíonn evals teorainn linn samhlacha níos fearr a sheoladh níos tapúla, ní féidir leo na mionsonraí uile is gá chun a chinntiú go bhfeidhmeoidh an tsamhail ar shreabhadh oibre sonrach i suíomh gnó sonrach a nochtadh. Sin é an fáth ar chruthaigh foirne inmheánacha mórán evals comhthéacsúla freisin atá deartha chun feidhmíocht a mheas laistigh de tháirge ar leith nó de shreabhadh oibre inmheánach. Sin é freisin an fáth ar cheart do cheannairí gnó foghlaim conas evals comhthéacsúla a chruthú atá sonrach do riachtanais agus do thimpeallacht oibriúcháin a n-eagraíochta. 

Is réamheolas é seo do cheannairí gnó atá ag iarraidh evals a chur i bhfeidhm ina n-eagraíochtaí. Is réimse forbartha gníomhach iad evals comhthéacsúla, gach ceann acu ceaptha do shreabhadh oibre nó do tháirge eagraíochta ar leith, agus níl próisis chinnte tagtha chun cinn fós. Mar thoradh air sin, cuireann an t-alt seo creat leathan ar fáil a chonaiceamar ag obair i go leor cásanna. Táimid ag súil go bhforbróidh an réimse seo agus go dtiocfaidh tuilleadh creat chun cinn a thugann aghaidh ar chomhthéacsanna agus spriocanna gnó ar leith. Mar shampla, d’fhéadfadh go mbeadh próiseas difriúil ag teastáil ó eval den scoth do tháirge tomhaltóra ceannródaíoch atá cumasaithe ag AI ná mar a bheadh ag eval d’uathoibriú inmheánach atá bunaithe ar ghnáthnós imeachta oibriúcháin. Creidimid go bhfeidhmeoidh an creat a chuirtear i láthair thíos mar bhailiúchán dea-chleachtas sa dá chás, agus go mbeidh sé ina threoir úsáideach agus tú ag tógáil evals atá oiriúnaithe do riachtanais d’eagraíochta.

Conas a oibríonn evals: Sonraigh → Tomhais → Feabhsaigh

Léaráid dar teideal “Eval Blog” a thaispeánann sreabhadh comhpháirteanna agus próiseas meastóireachta, ar chúlra éadrom le bloic dhaite agus saigheada a léiríonn loighic mheasúnaithe samhla.

1. Sonraigh: Sainigh cad is brí le “sármhaith”

Tosaigh le foireann bheag chumhachtaithe ar féidir léi cuspóir do chórais AI a scríobh síos i dtéarmaí simplí, mar shampla: “Tiontaigh ríomhphoist isteach incháilithe ina ndemos sceidealaithe agus an branda á choinneáil slán.”

Ba cheart go mbeadh meascán de dhaoine aonair le saineolas teicniúil agus saineolas fearainn san fhoireann seo (sa sampla thuas, bheadh saineolaithe díolacháin de dhíth ort ar an bhfoireann). Ba cheart go mbeidís in ann na torthaí is tábhachtaí le tomhas a lua, an sreabhadh oibre a leagan amach ó thús go deireadh, agus gach pointe cinnteoireachta tábhachtach a aithint a thiocfaidh os comhair do chórais AI. I gcás gach céime den sreabhadh oibre sin, ba cheart don fhoireann a shainiú cén chuma atá ar rath agus cad ba cheart a sheachaint. Cruthóidh an próiseas seo mapáil de na mórán ionchur samplach (m.sh. ríomhphoist isteach) chuig na haschuir is mian leo go gcruthóidh an córas. Ba cheart go mbeadh an tacar órga samplaí a thiocfaidh as sin ina thagairt bheo, údarásach do bhreithiúnas agus do bhlas na saineolaithe is oilte atá agat maidir le cuma “sármhaith”.

Ná bí rósháraithe le tosú fuar ná ná déan iarracht gach rud a réiteach in aon iarracht amháin. Tá an próiseas atriallach agus praiseach ann. Is féidir le luathfhréamhshamhaltú cuidiú go mór. Nochtfaidh athbhreithniú ar 50 go 100 aschur ó leagan luath den chóras conas agus cathain atá ag teip ar do chóras. Mar thoradh ar an “anailís earráide” seo beidh tacsanomaíocht earráidí éagsúla (agus a minicíochtaí) le rianú de réir mar a fheabhsaíonn do chóras.

Ní próiseas teicniúil amháin é seo—tá sé trasfheidhmeach agus dírithe ar spriocanna gnó agus próisis inmhianaithe a shainiú. Níor cheart iarraidh ar fhoirne teicniúla ina n-aonar breithiúnas a thabhairt ar an méid is fearr a fhreastalaíonn ar chustaiméirí ná ar riachtanais foirne eile amhail táirge, díolacháin nó AD. Dá bhrí sin, ba cheart go roinnfeadh saineolaithe fearainn, ceannairí teicniúla, agus príomhpháirtithe leasmhara eile úinéireacht. 

2. Tomhais: Tástáil i gcoinne dálaí an fhíorshaoil

Is é an chéad chéim eile ná tomhas. Is é sprioc an tomhais samplaí nithiúla den chaoi agus den am a bhfuil an córas ag teip a thabhairt chun solais go hiontaofa. Chun é sin a dhéanamh, cruthaigh timpeallacht tástála tiomnaithe a léiríonn dálaí an fhíorshaoil go dlúth—ní hamháin demo ná clós súgartha leid. Déan feidhmíocht a mheas i gcoinne do thacair órga agus d’anailíse earráide faoi na brúanna agus na cásanna imeallacha céanna a bheidh roimh do chóras i ndáiríre.

Is féidir le rúibricí cuidiú le nithiúlacht a thabhairt do bhreithiúnas ar aschuir do chórais, ach is féidir béim iomarcach a chur ar nithe dromchlacha ar chostas do spriocanna foriomlána. Ina theannta sin, tá sé deacair nó dodhéanta roinnt cáilíochtaí a thomhas. I gcásanna áirithe, beidh méadrachtaí gnó traidisiúnta tábhachtach. I gcásanna eile, beidh ort méadrachtaí nua a chumadh. Coinnigh do shaineolaithe ábhair páirteach tríd síos, agus ailínigh an próiseas go dlúth le do chroíchuspóirí.

Chun an córas a thástáil i ndáiríre, bain úsáid as samplaí a tharraingítear ó chásanna fíorshaoil whenever possible, agus cuir isteach nó ceap cásanna imeallacha atá annamh ach costasach má láimhseáiltear go mícheart iad. 

Is féidir roinnt evals a scálú trí úsáid a bhaint as grádóir LLM, samhail AI a ghrádálann aschuir ar an mbealach céanna a dhéanfadh saineolaí; fós féin, tá sé tábhachtach duine a choinneáil sa lúb. Ní mór do do shaineolaí fearainn iniúchadh rialta a dhéanamh ar ghrádóirí LLM ar mhaithe le cruinneas agus ba cheart dó nó di logaí d’iompar do chórais a athbhreithniú go díreach freisin. 

Is féidir le evals cabhrú leat cinneadh a dhéanamh cathain atá córas réidh le seoladh, ach ní chríochnaíonn siad ag an seoladh. Ba cheart duit cáilíocht aschur fíor do chórais a ghintear ó ionchuir fhíora a thomhas go leanúnach. Mar is amhlaidh le haon táirge, tá comharthaí ó d’úsáideoirí deiridh (bíodh siad seachtrach nó inmheánach) thar a bheith tábhachtach agus ba cheart iad a ionsuite i d’eval.

3. Feabhsaigh: Foghlaim ó earráidí

Is é an chéim dheireanach próiseas a chur ar bun le haghaidh feabhsaithe leanúnaigh. Is féidir go leor foirmeacha éagsúla a bheith ag baint le tabhairt faoi fhadhbanna a nochtann d’eval: leideanna a mhionchoigeartú, rochtain ar shonraí a choigeartú, an eval féin a nuashonrú chun do spriocanna a léiriú níos fearr, agus mar sin de. De réir mar a aimsíonn tú cineálacha nua earráidí, cuir le d’anailís earráide iad agus tabhair aghaidh orthu. Tógann gach atriall ar an gceann roimhe: cuidíonn critéir nua agus ionchais níos soiléire maidir le hiompar an chórais le cásanna imeallacha nua agus saincheisteanna caolchúiseacha ach diongbháilte a nochtadh le ceartú.

Chun tacú leis an atriall seo, tóg rothaí sonraí. Logáil ionchuir, aschuir, agus torthaí; tóg samplaí de na logaí sin de réir sceidil agus seol cásanna débhríocha nó costasacha go huathoibríoch chuig athbhreithniú saineolach. Cuir na breithiúnais shaineolacha seo le d’eval agus le d’anailís earráide, ansin bain úsáid astu chun leideanna, uirlisí, nó samhlacha a nuashonrú. Tríd an lúb seo sainmhíneoidh tú d’ionchais don chóras níos soiléire, ailíneoidh tú níos dlúithe leis na hionchais sin é, agus aithneoidh tú aschuir agus torthaí ábhartha breise le rianú. Trí an próiseas seo a imscaradh ar scála, cruthaítear tacar sonraí mór, difreáilte, comhthéacs-sonrach atá deacair a chóipeáil—sócmhainn luachmhar ar féidir le d’eagraíocht leas a bhaint aisti agus tú ag tógáil an táirge nó an phróisis is fearr i do mhargadh. 

Cé go gcruthaíonn evals bealach córasach chun do chóras AI a fheabhsú, is féidir modhanna teipe nua teacht chun cinn. I gcleachtas, de réir mar a fhorbraíonn samhlacha, sonraí, agus spriocanna gnó, ní mór evals a chothabháil, a leathnú, agus a strus-thástáil go leanúnach freisin.

I gcás imscaradh atá os comhair an phobail lasmuigh, ní thagann evals in ionad tástálacha A/B níos traidisiúnta ná turgnamh táirgí. Is comhlántáin iad do thurgnamh traidisiúnta ar féidir leo cabhrú lena chéile a threorú agus infheictheacht a thabhairt ar an gcaoi a mbíonn tionchar ag athruithe a dhéanann tú ar fheidhmíocht sa saol fíor. 

Cad is brí le evals do cheannairí gnó

Athmhúnlaíonn gach mórathrú teicneolaíochta sármhaitheas oibríochtúil agus buntáiste iomaíoch. Chabhraigh creataí cosúil le OKRanna agus KPIanna le heagraíochtaí iad féin a dhíriú timpeall ar “an rud atá tábhachtach” dá ngnó a thomhas in aois na hanailíse sonraí móra. Is síneadh nádúrtha den tomhas iad evals d’aois AI.

Teastaíonn cineálacha nua tomhais agus machnamh níos doimhne ar chomhbhabhtálacha chun oibriú le córais dhóchúlachtacha. Ní mór do cheannairí cinneadh a dhéanamh cathain a bhíonn beachtas riachtanach, cathain is féidir leo a bheith níos solúbtha, agus conas luas agus iontaofacht a chothromú.

Tá evals deacair a chur i bhfeidhm ar an gcúis chéanna go bhfuil sé deacair táirgí den scoth a thógáil; teastaíonn déine, fís, agus blas uathu. Má dhéantar go maith iad, éiríonn evals ina ndifreálaithe uathúla. I ndomhan ina bhfuil faisnéis ar fáil go saor ar fud an domhain agus saineolas daonlathaithe, braitheann do bhuntáiste ar cé chomh maith agus is féidir le do chórais feidhmiú laistigh de do chomhthéacs. Cruthaíonn evals láidre buntáistí carnacha agus fios gnó institiúideach de réir mar a fheabhsaíonn do chórais. 

Ag a gcroílár, baineann evals le tuiscint dhomhain ar chomhthéacs agus ar chuspóirí gnó. Mura féidir leat a shainiú cad is brí le “sármhaith” i do chás úsáide, ní dócha go mbainfidh tú amach é. Sa chiall seo, leagann evals béim ar phríomhcheacht d’aois AI: is scileanna AI iad scileanna bainistíochta. Tá tábhacht fós ag baint le spriocanna soiléire, aiseolas díreach, breithiúnas stuama, agus tuiscint shoiléir ar do thairiscint luacha, do straitéis, agus do phróisis, agus b’fhéidir níos mó ná riamh.

De réir mar a thagann níos mó dea-chleachtas agus creat chun cinn, beimid á roinnt. Idir an dá linn, molaimid duit triail a bhaint as evals agus fáil amach cé na próisis is fearr a oibríonn do do riachtanais. Chun tosú, sainaithin an fhadhb atá le réiteach agus do shaineolaí fearainn, cuir do fhoireann bheag le chéile, agus, má tá tú ag tógáil ar ár API, déan iniúchadh ar ár Doiciméid Ardáin(osclaíonn i bhfuinneog nua).

Ná bí ag súil le “sármhaith.” Sonraigh é, tomhais é, agus feabhsaigh ina threo é.

Údar

OpenAI

Fonótaí

  1. 1

    Más mian leat tacú lenár gcuid oibre ag tógáil an chéad ghlúin eile de shamhail AI, tugaimid cuireadh duit cur le GDPVal, ár mbinse tagarmhairc is déanaí ar an gcaoi a bhfeidhmíonn samhlacha AI ar thascanna sa saol fíor. Más saineolaí tionscail thú agus suim agat cur le GDPval, léirigh do spéis anseo, le do thoil. Más custaiméir thú ag obair le OpenAI agus más mian leat cur le babhta GDPval amach anseo, léirigh spéis anseo, le do thoil.