29 Deireadh Fómhair 2025

Ag tabhairt isteach gpt-oss-safeguard

Samhail nua réasúnaíochta sábháilteachta oscailte (120b agus 20b) a thacaíonn le beartais shábháilteachta saincheaptha.

Ag lódáil…

Inniu, tá réamhamharc taighde á eisiúint againn ar gpt-oss-safeguard, ár samhlacha réasúnaíochta meáchain oscailte do thascanna rangaithe sábháilteachta, ar fáil i dhá mhéid: gpt-oss-safeguard-120b agus gpt-oss-safeguard-20b. Is leaganacha mionchoigeartaithe dár gpt-oss⁠ samhlacha oscailte iad na samhlacha seo agus tá siad ar fáil faoin gceadúnas ceadaitheach Apache 2.0 céanna, rud a ligeann d’aon duine iad a úsáid, a mhodhnú agus a imscaradh go saor. Is féidir an dá shamhail a íoslódáil inniu ó Hugging Face⁠(osclaíonn i bhfuinneog nua).

Úsáideann na samhlacha gpt-oss-safeguard réasúnaíocht chun beartas a sholáthraíonn forbróir a léirmhíniú go díreach ag am inferens—ag rangú teachtaireachtaí úsáideora, comhlánuithe agus comhráite iomlána de réir riachtanais an fhorbróra. Is é an forbróir a chinneann i gcónaí cén beartas le húsáid, mar sin bíonn freagraí níos ábhartha agus níos saincheaptha do chás úsáide an fhorbróra. Úsáideann an tsamhail sraith smaointe, ar féidir leis an bhforbróir a athbhreithniú chun tuiscint a fháil ar an gcaoi a bhfuil an tsamhail ag teacht ar a cinntí. Ina theannta sin, cuirtear an beartas ar fáil le linn inferens, seachas é a oiliúint isteach sa tsamhail, mar sin is furasta d’fhorbróirí beartais a athbhreithniú go hiterach chun feidhmíocht a mhéadú. Tá an cur chuige seo, a d’fhorbraíomar ar dtús le haghaidh úsáide inmheánaí, i bhfad níos solúbtha ná an modh traidisiúnta maidir le haicmitheoir a oiliúint chun teorainn chinnidh a thuiscint go hindíreach ó líon mór samplaí lipéadaithe.

Tugann gpt-oss-safeguard ar chumas forbróirí na línte beartais is fearr a oireann dá gcás úsáide a tharraingt. Mar shampla, d’fhéadfadh fóram plé faoi fhíschluichí a bheith ag iarraidh beartas a fhorbairt chun postálacha a phléann faoi chaimiléireacht sa chluiche a rangú, nó d’fhéadfadh suíomh léirmheasanna táirgí a bheith ag iarraidh a bheartas féin a úsáid chun léirmheasanna ar dócha go bhfuil siad falsa a scagadh.

Tógann an tsamhail dhá ionchur ag an am céanna—beartas agus an t-ábhar atá le rangú faoin mbeartas sin—agus cuireann sí conclúid amach faoi cén áit a dtagann an t-ábhar, chomh maith lena réasúnaíocht. Is iad na forbróirí a chinneann conas, más ann ar chor ar bith, na conclúidí sin a úsáid ina bpíblínte sábháilteachta féin. Chonaiceamar go bhfeidhmíonn an cur chuige seo bunaithe ar réasúnaíocht thar a bheith maith go háirithe i gcásanna ina bhfuil:

An dochar féideartha ag teacht chun cinn nó ag athrú, agus beartais ag teastáil le hoiriúnú go tapa.
An fearann thar a bheith miondealaithe agus deacair d’aicmitheoirí níos lú a láimhseáil.
Níl go leor samplaí ag forbróirí chun aicmitheoir ardchaighdeáin a oiliúint do gach riosca ar a n-ardán.
Níl moill chomh tábhachtach le lipéid ardchaighdeáin, inmhínithe a tháirgeadh.

Tá an réamhamharc seo de gpt-oss-safeguard á eisiúint againn chun aiseolas a fháil ón bpobal taighde agus sábháilteachta agus chun tuilleadh atriallta a dhéanamh ar fheidhmíocht na samhla. Thar roinnt míonna, d’oibríomar ar an eisiúint mheáchain oscailte seo le ROOST⁠(osclaíonn i bhfuinneog nua) chun riachtanais chriticiúla forbróirí a aithint, an tsamhail a thástáil agus cáipéisíocht d’fhorbróirí a tháirgeadh. Mar chuid den seoladh seo beidh pobal samhlacha⁠(osclaíonn i bhfuinneog nua) á bhunú ag ROOST, a sheoltar inniu freisin, chun samhlacha oscailte IS a iniúchadh chun spásanna ar líne a chosaint. In éineacht leis an eisiúint seo, tá tuarascáil theicniúil⁠ ghearr á foilsiú againn a thugann mionsonraí ar fheidhmíocht sábháilteachta an tsamhail réamhamhairc seo.

Sábháilteacht ar leibhéal an chórais: ról na n-aicmitheoirí sábháilteachta

Maidir le sábháilteacht de, creidimid i cosaint i ndoimhneacht⁠. Déanaimid ár samhlacha a oiliúint chun freagairt go sábháilte, agus cuirimid sraitheanna cosanta breise i bhfeidhm chun ionchuir agus aschuir a d’fhéadfadh a bheith neamhshábháilte a bhrath agus aghaidh a thabhairt orthu faoinár mbeartais. Le fada an lá is príomhshraith cosanta dár samhlacha móra teanga féin agus do shamhlacha eile iad aicmitheoirí sábháilteachta, a dhéanann idirdhealú idir ábhar sábháilte agus neamhshábháilte i réimse riosca ar leith.

Forbraítear aicmitheoirí sábháilteachta traidisiúnta, amhail na cinn atá ar fáil trínár Moderation API⁠(osclaíonn i bhfuinneog nua), trí na mílte sampla d’ábhar sábháilte agus neamhshábháilte a chur le chéile de láimh, faoi bheartais sábháilteachta réamhshainithe. Ón sonraí oiliúna seo, foghlaimíonn an t-aicmitheoir idirdhealú a dhéanamh idir aschuir shábháilte agus neamhshábháilte. Sa chur chuige traidisiúnta seo, ní fheiceann an t-aicmitheoir an beartas sábháilteachta i ndáiríre riamh. Ina ionad sin, déanann sé iarracht an beartas bunúsach a úsáideadh chun na samplaí a lipéadú a thuiscint trí chosúlachtaí a aimsiú san ábhar a lipéadaíodh mar neamhshábháilte agus difríochtaí idir an t-ábhar neamhshábháilte agus an t-ábhar sábháilte.

Is féidir le haicmitheoirí traidisiúnta ardfheidhmíocht a bheith acu, le moill íseal agus costas oibriúcháin íseal. Ach is féidir go mbeadh bailiú líon leordhóthanach samplaí oiliúna am-íditheach agus costasach, agus éilíonn nuashonrú nó athrú an bheartais an t-aicmitheoir a athoiliúint.

Tá gpt-oss-safeguard difriúil mar go gceadaíonn a chumais réasúnaíochta d’fhorbróirí aon bheartas a chur i bhfeidhm, lena n-áirítear cinn a scríobhann siad féin nó a tharraingíonn siad ó fhoinsí eile, agus cabhraíonn réasúnaíocht leis na samhlacha ginearálú thar bheartais nua-scríofa. Taobh amuigh de bheartais sábháilteachta, is féidir gpt-oss-safeguard a úsáid chun ábhar a lipéadú ar bhealaí eile atá tábhachtach do tháirgí agus d’ardáin shonracha.

Léaráid sreafa dar teideal ‘Réasúnaíocht bunaithe ar bheartais le gpt-oss-safeguard.’ Cuirtear beartais a sholáthraíonn an forbróir agus ábhar a sholáthraíonn an t-úsáideoir isteach in GPT-OSS-Safeguard. Cruthaíonn an tsamhail sraith smaointe agus ansin cinneadh beartais, le lúb darb ainm ‘atriall beartais’ ag filleadh chun beartais a bheachtú. Léiríonn eochair ionchur forbróra, ionchur úsáideora, agus aschur samhla.

Conas a úsáidimid réasúnaíocht sábháilteachta go hinmheánach

Foghlaimíonn ár bpríomhsamhlacha réasúnaíochta ár mbeartais sábháilteachta go díreach anois, agus úsáideann siad a gcumais réasúnaíochta chun réasúnú a dhéanamh faoi cad atá sábháilte. Feabhsaíonn an cur chuige seo, ar a dtugaimid ailíniú breithniúcháin⁠, go suntasach ar mhodhanna oiliúna sábháilteachta níos luaithe agus déanann sé ár samhlacha réasúnaíochta níos sábháilte ar roinnt aiseanna ná a réamhtheachtaithe neamh-réasúnaíochta, fiú agus a gcumais ag méadú. Ach ní hamháin go bhfuil réasúnaíocht úsáideach chun na samhlacha féin a oiliúint. Cruthaíonn sí féidearthachtaí nua freisin do chosaint i ndoimhneacht. Tá cur chuige bunaithe ar réasúnaíocht níos solúbtha agus níos lú teoranta ag sonraí a n-oiliúna roimhe seo, buntáistí a thugann údar uaireanta níos mó ná go leor don chostas ríomhaireachta agus don mhoill bhreise a bhaineann leo.

Is cur i bhfeidhm meáchain oscailte de chur chuige a d’fhorbraíomar go hinmheánach é gpt-oss-safeguard, in uirlis a dtugaimid Safety Reasoner uirthi. Thosaíomar le mionchoigeartú atreisiúcháin ar thascanna lipéadaithe beartais, ag tabhairt luaíochta don tsamhail as breithiúnais chearta ó shaineolaithe daonna a léiriú. Mhúin sé seo don tsamhail réasúnú a dhéanamh ar an gcaoi a dtagann a breithiúnas as an mbeartas. Inniu, cuireann Safety Reasoner ar ár gcumas ár mbeartais sábháilteachta a nuashonrú go dinimiciúil i dtáirgeadh i níos lú ama ná mar a thógfadh sé aicmitheoir a athoiliúint. Déanann sé seo Safety Reasoner ina phríomhuirlis don imscaradh atriallach⁠: nuair a imscaraimid samhlacha nua go táirgeadh, is minic a thosaímid le beartais níos déine agus úsáidimid méideanna sách mó ríomha chun cur ar chumas Safety Reasoner na beartais sin a chur i bhfeidhm go cúramach. Ansin coigeartaímid ár mbeartais de réir mar a fheabhsaíonn ár dtuiscint ar na rioscaí i dtáirgeadh. I gcuid dár seoltaí le déanaí, bhí an codán den ríomha iomlán a caitheadh ar réasúnaíocht sábháilteachta chomh hard le 16%.

Tá Safety Reasoner ina chomhpháirt lárnach dár gcruach sábháilteachta. Maidir le giniúint íomhá agus Sora 2, déanann sé measúnuithe dinimiciúla céim ar chéim ar aschuir chun giniúintí neamhshábháilte a aithint agus a bhac i bhfíor-am. I réimsí amhail bitheolaíocht agus féindíobháil, rithimid samhlacha cosúil leo siúd a úsáidtear sa Moderation API mar aicmitheoirí beaga, thapa agus ard-aisghairme chun a chinneadh cén t-ábhar atá laistigh de fhearann spéise, agus ansin úsáidimid Safety Reasoner chun an t-ábhar sin a athbhreithniú. Rangaíonn Safety Reasoner aschuir samhla i gcoinne tacsanomaíocht mhionsonraithe chun a chinneadh conas is fearr freagairt, rud a chruthaíonn cuid dár gcosaintí ilsraitheacha trasna córas cosúil le GPT‑5 agus ChatGPT Agent. Agus anois, cuireann na samhlacha gpt-oss-safeguard an cur chuige céanna seo ar fáil do chách.

Conas a fheidhmíonn gpt-oss-safeguard

Rinneamar na samhlacha gpt-oss-safeguard a mheas ar shraitheanna meastóireachta inmheánacha agus seachtracha araon.

Sa mheasúnú inmheánach, chuireamar ilbheartais ar fáil ag an am céanna do gpt-oss-safeguard le linn inferens. I gcás gach ionchuir thástála, déanaimid measúnú ar cibé an rangóidh gpt-oss-safeguard an téacs i gceart faoi na beartais go léir atá san áireamh. Is tasc dúshlánach é seo—ní áirítear an tsamhail mar chruinn ach amháin má mheaitseálann sí go beacht lipéid an tacair órga do na beartais go léir atá san áireamh.

Sáraíonn ár samhlacha gpt-oss-safeguard agus an Safety Reasoner inmheánach gpt-5-thinking agus na samhlacha oscailte gpt-oss maidir le cruinneas ilbheartais. Is ábhar iontais go háirithe é go sáraíonn na samhlacha gpt-oss-safeguard gpt-5-thinking i bhfianaise mhéid beag na gcéad samhlacha.

Rinneamar measúnú breise ar na samhlacha seo ar an tacar sonraí modhnóireachta⁠(osclaíonn i bhfuinneog nua) a d’eisíomar lenár bpáipéar taighde 2022⁠(osclaíonn i bhfuinneog nua) agus ar ToxicChat⁠(osclaíonn i bhfuinneog nua), tagarmharc poiblí bunaithe ar fhiosruithe úsáideoirí chuig comhróbait foinse oscailte.

Ar an tacar measúnaithe modhnóireachta 2022, rinneamar meastóireacht ag úsáid ár mbeartais sábháilteachta inmheánacha (ag oiriúnú beartais amháin chun athruithe ina dhiaidh sin a chur san áireamh). D’fheidhmigh gpt-oss-safeguard beagán níos fearr ná na samhlacha eile go léir a tástáladh, lena n-áirítear ár Safety Reasoner inmheánach agus gpt-5-thinking, cé nach bhfuil an difríocht seo idir Safety Reasoner agus gpt-oss-safeguard suntasach go staitistiúil.

Do ToxicChat, rinneamar meastóireacht ag úsáid leid ghearr lámhscríofa a cuireadh in oiriúint ó chuid dár mbeartais inmheánacha. D’fheidhmigh ár Safety Reasoner inmheánach níos fearr arís ná gpt-5-thinking, agus tá gpt-5-thinking agus Safety Reasoner araon beagáinín níos fearr ná gpt-oss-safeguard-120b agus gpt-oss-safeguard-20b. Táimid ag súil go ndéanann méid sách beag gpt-oss-safeguard fós níos fearr é don chineál seo tasc.

Teorainneacha

Tá dhá theorainn shonracha ag gpt-oss-safeguard. Ar an gcéad dul síos, thugamar faoi deara gur féidir le haicmitheoirí a oiliúnaíodh ar na deicheanna mílte sampla ardchaighdeáin lipéadaithe feidhmiú níos fearr fós maidir le hábhar a rangú ná mar a dhéanann gpt-oss-safeguard agus é ag réasúnú go díreach ón mbeartas. D’fhéadfadh sé a bheith níos fearr an t-am a ghlacadh chun aicmitheoir tiomnaithe a oiliúint chun feidhmíocht níos airde a fháil ar rioscaí níos casta.

Ar an dara dul síos, is féidir le gpt-oss-safeguard a bheith dian ar am agus ar ríomha, rud a fhágann go bhfuil sé dúshlánach scála a chur i bhfeidhm ar fud ábhar uile an ardáin. Go hinmheánach, láimhseálaimid é seo ar roinnt bealaí le Safety Reasoner: (1) úsáidimid aicmitheoirí níos lú agus níos tapúla chun a chinneadh cén t-ábhar atá le measúnú agus (2) in imthosca áirithe, úsáidimid Safety Reasoner go haisioncronach chun eispéireas úsáideora íseal-mhoille a sholáthar agus an cumas idirghabháil a dhéanamh a choinneáil má aimsímid ábhar neamhshábháilte.

An bóthar chun cinn: ag leanúint den tógáil leis an bpobal

Is é gpt-oss-safeguard an chéad sraith de shamhlacha sábháilteachta oscailte de chuid OpenAI a tógadh leis an bpobal. Rinneamar atriallta ar gpt-oss-safeguard le speisialtóirí muiníne agus sábháilteachta ag SafetyKit, ROOST, Tomoro, agus Discord mar chuid de thástáil luath. Deir CTO ROOST Vinay Rao, “is é gpt-oss-safeguard an chéad samhail réasúnaíochta foinse oscailte le dearadh ‘tabhair leat do bheartais agus do shainmhínithe díobhála féin’. Tá sé tuillte ag eagraíochtaí staidéar, modhnú agus úsáid saor a bhaint as teicneolaíochtaí sábháilteachta criticiúla agus a bheith in ann nuálaíocht a dhéanamh. Inár dtástáil, bhí sé oilte ar bheartais éagsúla a thuiscint, a réasúnaíocht a mhíniú, agus nuance a léiriú agus na beartais á gcur i bhfeidhm, rud a chreidimid a bheidh tairbheach do thógálaithe agus d’fhoirne sábháilteachta.”

Leanfaimid orainn ag déanamh atriallta leis an bpobal chun uirlisiú sábháilteachta oscailte a fheabhsú, lena n-áirítear tríd an ROOST Model Community (RMC). Tugann an RMC cleachtóirí agus taighdeoirí sábháilteachta le chéile chun dea-chleachtais a roinnt maidir le samhlacha IS foinse oscailte a chur i sreafaí oibre sábháilteachta, lena n-áirítear torthaí meastóireachta agus aiseolas ar shamhlacha. Tabhair cuairt ar stór GitHub an RMC⁠(osclaíonn i bhfuinneog nua) chun tuilleadh a fhoghlaim faoin gcomhpháirtíocht seo agus faoin gcaoi le páirt a ghlacadh.

Chun tosú ag tógáil leis na samhlacha seo, íoslódáil iad ó Hugging Face⁠(osclaíonn i bhfuinneog nua).

2025

Údar

OpenAI

Lean ort ag léamh

Féach gach rud

tuarascáil theicniúil gpt-oss-safeguard

Sábháilteacht29 DFómh 2025

gpt-oss á chur i láthair

Eisiúint5 Lún 2025

Cárta samhail gpt-oss-120b & gpt-oss-20b

Foilsiú5 Lún 2025