Léim go dtí an príomhábhar
OpenAI

5 Meán Fómhair 2025

TaighdeFoilsiú

Cén fáth a dtugann samhlacha teanga siabhránachtaí

Íomhá theibí le grádáin leathana de dhath glasghorm, gorm agus laibheann, ag cumasc go trasnánach trasna an fhráma i stríoca boga, sreabhacha.
Ag lódáil…

Ag OpenAI, táimid ag obair go dian chun córais IS a dhéanamh níos úsáideacha agus níos iontaofa. Fiú agus samhlacha teanga ag éirí níos cumasaí, tá dúshlán amháin fós thar a bheith deacair a réiteach go hiomlán: siabhránachtaí. Is é atá i gceist againn leis seo ná cásanna ina ngineann samhail freagra go muiníneach nach bhfuil fíor. Áitíonn ár bpáipéar taighde nua(osclaíonn i bhfuinneog nua) go dtugann samhlacha teanga siabhránachtaí toisc go dtugann nósanna imeachta caighdeánacha oiliúna agus meastóireachta luach saothair don tomhas seachas don neamhchinnteacht a admháil.

Tugann ChatGPT siabhránachtaí freisin. Tá i bhfad níos lú siabhránachtaí ag GPT‑5 go háirithe agus réasúnaíocht á déanamh, ach tarlaíonn siad fós. Is bunchúshlán iad siabhránachtaí fós do gach samhail mhór teanga, ach táimid ag obair go dian chun iad a laghdú níos mó fós.

Cad is siabhránachtaí ann?

Is ráitis inchreidte ach bhréagacha iad siabhránachtaí a ghineann samhlacha teanga. Is féidir leo teacht chun cinn ar bhealaí iontasacha, fiú i gcás ceisteanna a fheictear sách simplí. Mar shampla, nuair a d’iarramar ar chatbot a úsáidtear go forleathan teideal thráchtas PhD Adam Tauman Kalai (údar an pháipéir seo) a thabhairt, chuir sé trí fhreagra éagsúla ar fáil go muiníneach—agus ní raibh ceann ar bith díobh ceart. Nuair a d’iarramar a dháta breithe, thug sé trí dháta éagsúla freisin, agus iad ar fad mícheart arís.

Múineadh don triail

Maireann siabhránachtaí i bpáirt mar go gcuireann modhanna meastóireachta reatha na dreasachtaí míchearta ar bun. Cé nach gcuireann meastóireachtaí féin siabhránachtaí faoi deara go díreach, tomhaiseann formhór na meastóireachtaí feidhmíocht samhla ar bhealach a spreagann tomhas seachas macántacht faoin neamhchinnteacht.

Smaoinigh air mar thriail ilrogha. Mura bhfuil an freagra ar eolas agat ach go dtugann tú buille faoi thuairim fiáin, b’fhéidir go n-éireoidh an t-ádh leat agus go mbeidh an ceart agat. Má fhágtar bán í, ráthaítear nialas. Ar an gcaoi chéanna, nuair nach ndéantar samhlacha a ghrádú ach ar chruinneas, is é sin céatadán na gceisteanna a fhaigheann siad go hiomlán ceart, spreagtar iad chun tomhas seachas a rá “Níl a fhios agam.”

Mar shampla eile, samhlaigh go n-iarrtar ar shamhail teanga breithlá duine éigin ach nach bhfuil sé ar eolas aici. Má thugann sí “10 Meán Fómhair” mar thomhas, tá seans 1 as 365 ann go mbeidh an ceart aici. Má deir sí “Níl a fhios agam”, ráthaítear nialas pointe. Thar na mílte ceist tástála, bíonn cuma níos fearr ar an tsamhail a dhéanann tomhas ar na cláir scórála ná ar shamhail chúramach a admhaíonn neamhchinnteacht.

I gcás ceisteanna ina bhfuil aon “fhreagra ceart” amháin, is féidir trí chatagóir freagraí a mheas: freagraí cruinne, earráidí, agus staonadh nuair nach dtugann an tsamhail buille faoi thuairim. Is cuid den umhlaíocht é staonadh, ceann de croíluachanna OpenAI. Tugann formhór na gclár scórála tosaíocht do shamhlacha agus cuireann siad in ord iad bunaithe ar chruinneas, ach tá earráidí níos measa ná staonadh. Deir ár Model Spec(osclaíonn i bhfuinneog nua) gur fearr neamhchinnteacht a chur in iúl nó soiléiriú a iarraidh ná faisnéis mhuiníneach a sholáthar a d’fhéadfadh a bheith mícheart.

Mar shampla nithiúil, féach ar an meastóireacht SimpleQA mar shampla ón gCárta Córais GPT5(osclaíonn i bhfuinneog nua).

Méadracht

gpt-5-thinking-mini

OpenAI o4-mini

Ráta staonadh
(ní thugtar freagra sonrach)

52%

1%

Ráta cruinnis
(freagra ceart, is fearr níos airde)

22%

24%

Ráta earráide
(freagra mícheart, is fearr níos ísle)

26%

75%

Iomlán

100%

100%

Maidir le cruinneas, feidhmíonn an tsamhail níos sine OpenAI o4-mini beagán níos fearr. Mar sin féin, tá a ráta earráide (is é sin, ráta siabhránachtaí) i bhfad níos airde. Feabhsaíonn tomhas straitéiseach nuair a bhíonn neamhchinnteacht ann an cruinneas ach méadaíonn sé earráidí agus siabhránachtaí.

Nuair a dhéantar torthaí a mheánú thar na dosaenacha meastóireachtaí, tarraingíonn formhór na mbinsephointí amach an mhéadracht chruinnis, ach cruthaíonn sé sin déroinnt bhréagach idir ceart agus mícheart. Ar mheastóireachtaí simplí mar SimpleQA, sroicheann roinnt samhlacha cruinneas gar do 100% agus mar sin cuireann siad deireadh le siabhránachtaí. Ach ar mheastóireachtaí níos dúshlánaí agus in úsáid fhíorshaoil, tá an cruinneas teoranta faoi bhun 100% mar tá ceisteanna ann nach féidir a bhfreagra a chinneadh ar chúiseanna éagsúla, amhail faisnéis nach bhfuil ar fáil, cumais theoranta smaointeoireachta i samhlacha beaga, nó débhríochtaí ar gá iad a shoiléiriú.

Mar sin féin, tá smacht ag cláir scórála atá bunaithe ar chruinneas amháin ar na cláir cheannairí agus ar chártaí samhail, rud a spreagann forbróirí samhlacha a thógáil a dhéanann tomhas seachas coimeád siar. Sin cúis amháin gur féidir le samhlacha, fiú agus iad ag éirí níos forbartha, siabhránachtaí a thabhairt fós, agus freagraí míchearta a thabhairt go muiníneach in ionad neamhchinnteacht a admháil.

Bealach níos fearr chun meastóireachtaí a ghrádú

Tá réiteach simplí ann. Pionósaigh earráidí muiníneacha níos mó ná mar a phionósaíonn tú neamhchinnteacht, agus tabhair creidiúint pháirteach do chur in iúl cuí na neamhchinnteachta. Ní smaoineamh nua é seo. Tá leaganacha de mharcáil dhiúltach do fhreagraí míchearta nó creidiúint pháirteach as ceisteanna a fhágáil bán úsáidte le fada i roinnt tástálacha caighdeánaithe chun buille faoi thuairim dall a dhíspreagadh. Tá iniúchadh déanta freisin ag roinnt grúpaí taighde ar mheastóireachtaí a chuireann neamhchinnteacht agus calabrú san áireamh.

Tá ár bpointe difriúil. Ní leor cúpla tástáil nua atá feasach ar neamhchinnteacht a chur leis ar an taobh. Ní mór na meastóireachtaí a úsáidtear go forleathan agus atá bunaithe ar chruinneas a nuashonrú ionas go ndíspreagfaidh a scóráil tomhas. Má leanann na príomhchláir scórála de luach saothair a thabhairt do thomhais ádhúla, leanfaidh samhlacha orthu ag foghlaim conas tomhas. Is féidir le cláir scórála a cheartú glacadh níos leithne a chothú le teicnící chun siabhránachtaí a laghdú, idir theicnící nuafhorbartha agus theicnící ó thaighde roimhe seo.

Conas a eascraíonn siabhránachtaí as tuar an chéad fhocail eile

Labhraíomar faoi cén fáth go bhfuil sé chomh deacair fáil réidh le siabhránachtaí, ach cá as a dtagann na míchruinnis fhíorasacha an-sonracha seo ar an gcéad dul síos? Tar éis an tsaoil, is annamh a léiríonn samhlacha móra réamhoilte cineálacha eile earráidí ar nós botúin litrithe agus lúibíní nach meaitseálann. Tá an difríocht bainteach leis na cineálacha patrún atá sna sonraí.

Foghlaimíonn samhlacha teanga ar dtús trí réamhoiliúint, próiseas ina ndéantar an chéad fhocal eile a thuar i méideanna ollmhóra téacs. Murab ionann agus fadhbanna traidisiúnta meaisínfhoghlama, níl lipéid “fíor/bréagach” ceangailte le gach ráiteas. Ní fheiceann an tsamhail ach samplaí dearfacha de theanga líofa agus caithfidh sí an dáileadh foriomlán a neastú.

Tá sé faoi dhó chomh deacair ráitis bhailí a idirdhealú ó ráitis neamhbhailí nuair nach bhfuil aon samplaí agat atá lipéadaithe mar neamhbhailí. Ach fiú le lipéid, tá roinnt earráidí dosheachanta. Chun a fheiceáil cén fáth, smaoinigh ar analaí níos simplí. I dtaca le haithint íomhánna, má lipéadaítear na milliúin grianghraf de chait agus de mhadraí mar “cat” nó “madra”, is féidir le halgartaim foghlaim conas iad a rangú go hiontaofa. Ach samhlaigh ina ionad sin go lipéadaítear gach grianghraf peata de réir bhreithlá an pheata. Toisc go bhfuil breithlaethanta randamach go bunúsach, thabharfadh an tasc seo earráidí i gcónaí, is cuma cé chomh hardchéime is a bheadh an algartam.

Baineann an prionsabal céanna le réamhoiliúint. Leanann litriú agus lúibíní patrúin chomhsheasmhacha, mar sin imíonn earráidí ansin de réir scála. Ach ní féidir fíricí treallacha ísealmhinicíochta, cosúil le breithlá peata, a thuar ó phatrúin amháin agus mar sin is cúis leo siabhránachtaí. Míníonn ár n-anailís cé na cineálacha siabhránachtaí ar cheart dóibh eascairt as tuar an chéad fhocail eile. Go hidéalach, ba cheart do chéimeanna eile i ndiaidh réamhoiliúna iad a bhaint, ach ní éiríonn leis sin go hiomlán ar na cúiseanna a thuairiscítear sa rannán roimhe seo.

Conclúidí

Tá súil againn go gcuirfidh an lionsa staidrimh inár bpáipéar soiléireacht ar nádúr na siabhránachtaí agus go gcuirfidh sé in aghaidh roinnt míthuiscintí coitianta:

  • Maíomh: Cuirfear deireadh le siabhránachtaí trí chruinneas a fheabhsú mar ní thugann samhail atá 100% cruinn siabhránachtaí riamh.
    Toradh:
    Ní shroichfidh cruinneas 100% go deo mar, beag beann ar mhéid na samhla, ar chumais chuardaigh agus réasúnaíochta, tá roinnt ceisteanna fíorshaoil dofhreagrach ó nádúr.
  • Maíomh: Tá siabhránachtaí dosheachanta.
    Toradh:
    Níl siad, mar is féidir le samhlacha teanga staonadh nuair a bhíonn siad neamhchinnte.
  • Maíomh: Teastaíonn leibhéal intleachta chun siabhránachtaí a sheachaint nach féidir a bhaint amach ach le samhlacha níos mó.
    Toradh:
    D’fhéadfadh sé a bheith níos éasca do shamhail bheag a teorainneacha a aithint. Mar shampla, nuair a iarrtar uirthi ceist i Māori a fhreagairt, is féidir le samhail bheag nach bhfuil aon Māori aici a rá go simplí “Níl a fhios agam”, ach caithfidh samhail a bhfuil roinnt Māori aici a muinín a mheas. Mar a phléitear sa pháipéar, éilíonn a bheith “calabraithe” i bhfad níos lú ríomhaireachta ná a bheith cruinn.
  • Maíomh: Is locht mistéireach iad siabhránachtaí i samhlacha teanga nua-aimseartha.
    Toradh:
    Tuigimid na meicníochtaí staidrimh trína n-eascraíonn siabhránachtaí agus trína dtugtar luach saothair dóibh i meastóireachtaí.
  • Maíomh: Chun siabhránachtaí a thomhas, níl de dhíth orainn ach meastóireacht mhaith ar shíabhránachtaí.
    Toradh:
    Foilsíodh meastóireachtaí ar shíabhránachtaí. Mar sin féin, is beag éifeacht atá ag meastóireacht mhaith ar shíabhránachtaí i gcoinne na gcéadta meastóireacht thraidisiúnta atá bunaithe ar chruinneas agus a phionósaíonn umhlaíocht agus a thugann luach saothair don tomhas. Ina ionad sin, ní mór gach ceann de na príomhmhéadrachtaí meastóireachta a athoibriú chun luach saothair a thabhairt do léirithe neamhchinnteachta.

Tá rátaí níos ísle siabhránachtaí ag ár samhlacha is déanaí, agus leanaimid orainn ag obair go dian chun rátaí earráidí muiníneacha a aschuireann ár samhlacha teanga a laghdú tuilleadh.

Rannpháirtithe san fhógra

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke