Ordlathas treoracha a fheabhsú i LLManna teorainn
Ag tabhairt isteach IH-Challenge, tacar sonraí oiliúna a neartaíonn ordlathas treoracha, inrialaitheacht sábháilteachta agus seasmhacht in aghaidh ionsaithe treoracha.
Is minic a fhaigheann córais IS treoracha ó fhoinsí iomadúla. D’fhéadfadh beartais sábháilteachta ó theachtaireachtaí córais, treoir táirge ó fhorbróirí, iarratais ó úsáideoirí, agus faisnéis a fhaightear ar líne a bheith san áireamh orthu seo. Is cuid lárnach den imscaradh sábháilte é samhlacha a oiliúint chun tosaíocht iontaofa a thabhairt do na treoracha is iontaofa i measc na bhfoinsí sin.
Is féidir go dtiocfaidh go leor fadhbanna sábháilteachta agus iontaofachta IS chun cinn nuair a theipeann ar an tosaíocht seo. D’fhéadfadh samhlacha iarratais ar ábhar nach gceadaítear a fháil, iarrachtaí chun faisnéis phríobháideach a nochtadh, nó ionsaithe treoracha atá leabaithe i sonraí ar líne. Tá bunchúis chéanna ag teip ar iompar cuí i ngach ceann de na cásanna seo: d’fhéadfadh an tsamhail an treoir mhícheart a leanúint.
Nuair a thagann na treoracha seo salach ar a chéile, caithfidh an tsamhail cinneadh a dhéanamh cé acu díobh ar chóir tosaíocht a thabhairt dóibh. Má chaitheann sí le treoir neamhiontaofa mar threoir údarásach, d’fhéadfadh an tsamhail iompar ar bhealaí a sháraíonn beartais nó intinn an fhorbróra agus an úsáideora.
Taispeánaimid go bhfeabhsaíonn tascanna ordlathais treoracha atá deartha i gceart, a oileann samhlacha chun tosaíocht a thabhairt do threoracha de réir a leibhéal iontaoibhe, roinnt airíonna sábháilteachta sa saol fíor. Éiríonn samhlacha atá oilte ar na tascanna seo níos freagrúla do shonraíochtaí sábháilteachta i leideanna córais (ag feabhsú inrialaitheacht sábháilteachta) agus níos seasmhaí in aghaidh ionsaithe treoracha atá leabaithe in aschuir uirlisí.
Chun coinbhleachtaí a láimhseáil, cuirtear oiliúint ar shamhlacha OpenAI ordlathas soiléir treoracha a leanúint:
Córas > forbróir > úsáideoir > uirlis
Bíonn níos mó iontaoibhe i dtreoracha ardtosaíochta. Níor cheart don tsamhail treoracha ísealtosaíochta a leanúint ach amháin nuair nach dtagann siad salach ar shrianta ardtosaíochta. Leagtar amach na prionsabail seo sa tSonraíocht Samhail OpenAI(osclaíonn i bhfuinneog nua).
Mar shampla, má áirítear beartas sábháilteachta i dteachtaireacht chórais agus má iarrann úsáideoir ar an tsamhail é a shárú, ba cheart don tsamhail diúltú. Má tá treoracha mailíseacha in aschur uirlise, ba cheart don tsamhail neamhaird a dhéanamh díobh seachas caitheamh leo mar orduithe.
Tá sé bunriachtanach don tsábháilteacht, don tslándáil agus don iontaofacht é seo a dhéanamh i gceart.
Leanann an tsamhail ar dheis treoir an Fhorbróra i gceart, a bhfuil tosaíocht níos airde aici, thar threoir an Úsáideora nuair a thagann an dá threoir salach ar a chéile.
Is rogha nádúrtha í foghlaim atreisiúcháin chun ordlathas na dtreoracha a mhúineadh. Is féidir linn comhráite le treoracha contrártha a ghiniúint, leid a thabhairt don tsamhail freagairt, agus luach saothair a thabhairt di nuair a leanann sí an treoir cheart.
Tá trí bhaol aimsithe againn a bhaineann leis an oideas sin a chur i bhfeidhm go simplí:
- Is féidir le teipeanna i leanúint treoracha a bheith ina dteipeanna ordlathais treoracha freisin: b’fhéidir nach n-éireoidh leis an tsamhail coinbhleacht treoracha a réiteach, ní toisc nach dtuigeann sí ordlathas na róil, ach toisc go bhfuil na treoracha féin róchasta.
- Is féidir le coinbhleachtaí treoracha a bheith mínchiallach agus fiú suibiachtúil. Cur chuige coitianta is ea ligean do LLM ar leith duaiseanna a shannadh don LLM atá á oiliúint, ach tá breithiúna féin so-ghabhálach do bhotúin.
- Is gnách go bhfoghlaimíonn samhlacha aicearraí a mbíonn luach saothair ard mar thoradh orthu, ach atá gan úsáid sa chleachtas(osclaíonn i bhfuinneog nua). Is é an sampla clasaiceach ná ródhiúltuithe: is féidir le samhlacha foghlaim sábháilteacht a uasmhéadú trí dhiúltú d’iarratais neamhurchóideacha fiú.
Dearaimid IH-Challenge, tacar sonraí oiliúna foghlama atreisiúcháin, chun aghaidh a thabhairt ar gach ceann de na gaistí sin. Cloímid leis na prionsabail seo a leanas:
- Tá na tascanna simplí ó thaobh leanúint treoracha de
- Is féidir iad a ghrádú go hoibiachtúil le script shimplí Python
- Níl aon aicearraí fánacha ann a ráthaíonn luach saothair ard thar na tascanna uile
Go bunúsach is comhrá é gach tasc in IH-Challenge leis na teachtaireachtaí seo a leanas:
- Teachtaireacht treorach ó ról ardphribhléide, m.sh. “Ná freagair ach le ‘Tá’ nó ‘Níl’”.
- Teachtaireacht treorach ó ról níos ísle pribhléide, a dhéanann iarracht a chur ar an tsamhail na treoracha sa teachtaireacht ardphribhléide a shárú.
Gineann an tsamhail atá á hoiliúint an chéad teachtaireacht eile. Scríobhaimid na tascanna/na timpeallachtaí sa chaoi go bhfuil sé indéanta a sheiceáil go ríomhchláraithe an gcomhlíonann freagra na samhla an srian ardleibhéil.
Déanaimid samhail a oiliúint ar IH‑Challenge agus táirgimid samhail inmheánach, a dtugaimid GPT‑5 Mini-R uirthi, leis na feabhsuithe seo a leanas:
- Feidhmíonn sí níos fearr ar thagarmharcanna ordlathais treoracha
- Ginearálann an fheidhmíocht fheabhsaithe chuig tástálacha ordlathais treoracha coimeádta ar leith agus tástálacha naimhdeacha
- Coinníonn sí úsáideacht fhoriomlán, gan titim isteach i ródhiúltú
Sin é a fhágann go bhfuil an cur chuige thar a bheith láidir don tsábháilteacht: trí shamhlacha a oiliúint go díreach chun coinbhleachtaí treoracha a réiteach i gceart ar thascanna IH-challenge, faighimid feabhsuithe IH a ghinearálann chuig ionsaithe nua agus cásanna nua.
Seasmhacht ar thagarmharcanna acadúla
Meastóireacht | GPT‑5‑Mini | GPT‑5 Mini-R |
Pasfhocal Gandalf (sys-user) | 0.99 | 0.99 (+0) |
Pasfhocal Gandalf (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Seachráin) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Scríofa de láimh) | 0.82 | 0.89 (+0.07) |
Córas IFEval | 0.92 | 0.96 (+0.04) |
Seasmhacht ar thagarmharcanna inmheánacha
Meastóireacht | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
Coimhlint Córas <> Úsáideoir | 0.84 | 0.95 (+0.11) |
Coimhlint Córas <> Forbróir | 0.86 | 0.86 (+0) |
Coimhlint Forbróir <> Úsáideoir | 0.83 | 0.95 (+0.12) |
Gan aon aischéimeanna cumais
Meastóireacht | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (ródhiúltú) | 0.79 | 1.00 (+0.21) |
TensorTrust (ródhiúltú) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Ráta Bua Comhrá i gcoinne o1 | 0.71 | 0.66 (-0.05) |
Scór Tosaíochta | 0.46 | 0.40 (-0.06) |
Cuireann ordlathas treoracha níos láidre buntáistí iomadúla sábháilteachta ar fáil ag an am céanna, lena n-áirítear inrialaitheacht sábháilteachta agus seasmhacht in aghaidh ionsaithe treoracha.
Déanaimid inrialaitheacht sábháilteachta a mheas trí shonraíochtaí sábháilteachta a bhaineann go sonrach le catagóirí a chur leis an leid chórais agus iompar a thomhas ar Tagarmharcanna Táirgthe sábháilteachta OpenAI (sraith comhráite atá íogair ó thaobh sábháilteachta de agus atá ionadaíoch ar ChatGPT i dtáirgeadh).
Léiríonn an tsamhail oilte ar IH feabhas comhsheasmhach: agus an sonraíocht sábháilteachta i láthair, baineann sí rátaí diúltaithe agus críochnaithe sábháilte níos airde amach thar chatagóirí nach gceadaítear, rud a thugann le fios go bhfágann iompar ordlathais treoracha níos láidre go bhfuil sí níos fearr coinbhleachtaí a réiteach nuair a thagann iarratais neamhshábháilte ó threoracha ar thosaíocht níos ísle. Go suntasach, ní thagann laghdú comhfhreagrach ar an ráta cabhrachta leis an bhfeabhas seo (i.e., níl sí ag éirí níos lú “cabhrach” trí níos mó a dhiúltú ar an iomlán).


Sampla den chaoi a seasann an tsamhail atá oilte ar IH in aghaidh ionsaithe treoracha a ngéilleann GPT‑5 Mini (Bunlíne) dóibh.
Tá ordlathas treoracha lárnach freisin chun seasamh in aghaidh ionsaí treoracha, nuair a leabaítear treoracha mailíseacha in aschuir uirlisí. Déanaimid an tsamhail oilte ar IH a mheas ar dhá thagarmharc ionsaithe treoracha—tagarmharc acadúil CyberSecEval 2 agus tagarmharc inmheánach OpenAI d’ionsaithe treoracha ina bhfuil ionsaithe cosúil leis an gceann a léiríodh ar leagan níos sine de ChatGPT Atlas.
I gcomparáid leis an mbunlíne, feabhsaíonn an tsamhail GPT‑5 Mini-R atá oilte ar IH seasmhacht in aghaidh ionsaithe treoracha ar an dá thagarmharc agus feabhsaíonn sí feidhmíocht go suntasach ar ár meastóireacht inmheánach statach ar ionsaithe treoracha sna turgnaimh seo.
De réir mar a éiríonn samhlacha níos gníomhaire—ag glaoch ar uirlisí, ag léamh cáipéisí neamhiontaofa, agus ag déanamh gníomhartha sa domhan—éiríonn an cumas tosaíocht chomhsheasmhach a thabhairt do threoracha iontaofa thar threoracha neamhiontaofa ina phríomh-airí sábháilteachta.
Léiríonn an obair seo gur féidir roinnt de na gaistí a bhaineann le hoiliúint seasmhachta IH a shárú trí thimpeallachtaí oiliúna a dhearadh a thugann aghaidh orthu. Cé gur cosúil go bhfuil ár dtacar sonraí IH-Challenge simplí, ginearálann an t-iompar IH a fhoghlaimíonn samhlacha ó na timpeallachtaí seo chuig tagarmharcanna níos réadúla nach mbíonn grádaithe go hoibiachtúil go minic.
Ní hamháin go bhfeabhsaíonn neartú ordlathais treoracha iontaofacht, ach díghlasálann sé iliomad gnóthachan sábháilteachta agus slándála ag an am céanna—bunús a éiríonn níos tábhachtaí de réir mar a fhásann córais IS níos cumasaí agus níos uathrialaithí.
Chun tacú le tuilleadh taighde sa réimse seo, táimid ag scaoileadh tacar sonraí IH‑Challenge anseo(osclaíonn i bhfuinneog nua).


