Hagaajinta kala-sarraynta tilmaamaha ee LLM-yada ugu casriyeysan
Soo bandhigista IH-Challenge, xog-tababar xoojinaysa kala-sarraynta tilmaamaha, hagidda badbaadada, iyo adkeysiga weerarka weydiinta.
Nidaamyada AI badanaa waxay tilmaamo ka helaan ilo badan. Kuwaas waxaa ka mid noqon kara siyaasadahooda badbaadada ee farriimaha system-ka, hagista badeecadda ee developer-rada, codsiyada user-rada, iyo macluumaad laga helo internetka. Tababarka noocyada si ay si lagu kalsoonaan karo u kala hormariyaan tilmaamaha ugu kalsoonida badan ee ka imanaya ilahan waa qayb muhiim ah oo ka mid ah hirgelinta ammaan ah.
Arrimo badan oo la xiriira badbaadada iyo kalsoonida AI ayaa soo bixi kara marka kala hormarintani jabto. Noocyadu waxay heli karaan codsiyo ku saabsan waxyaabo aan la oggolayn, isku dayo lagu doonayo in lagu muujiyo xog gaar ah, ama weerarro weydiin lagu dhex daray xogta internetka. Ku guuldarreysiga in si habboon loola dhaqmo mid kasta oo ka mid ah xaaladahani wuxuu wadaagaa isla sababta asaasiga ah: noocku wuxuu raaci karaa tilmaanta khaldan.
Marka tilmaamahani is-khilaafaan, noocku waa inuu go'aamiyaa kuwa mudnaanta la siinayo. Haddii uu tilmaamo aan la aamini karin ula dhaqmo kuwo amar ah, noocku wuxuu u dhaqmi karaa siyaabo jebiya siyaasadaha ama ujeeddooyinka developer-ka iyo user-ka.
Waxaan muujineynaa in hawlaha kala-sarraynta tilmaamaha ee si habboon loo qaabeeyey, kuwaas oo noocyada u tababara inay mudnaan siiyaan tilmaamaha iyadoo loo eegayo heerka kalsoonidooda, ay hagaajiyaan dhowr sifo oo badbaado oo dunida dhabta ah ah. Noocyada lagu tababaray hawlahan waxay noqdaan kuwo si fiican uga jawaaba qeexitaannada badbaadada ee system prompts-ka (taas oo hagaajinaysa hagidda badbaadada) kana adkaysi badan weerarrada weydiinta ee ku dhex jira wax-soo-saarka qalabka.
Si loo maareeyo khilaafaadka, noocyada OpenAI waxaa loo tababaraa inay raacaan kala-sarrayn tilmaameed cad:
System > developer > user > tool
Tilmaamaha mudnaanta sare leh ayaa aad loogu kalsoon yahay. Noocku waa inuu raaco oo keliya tilmaamaha mudnaanta hoose leh marka aysan khilaafayn xaddidaadaha mudnaanta sare leh. Mabaadi'dan waxaa lagu qeexay sifooyinka nooca ee OpenAI(ku furmaa daaqad cusub).
Tusaale ahaan, haddii farriinta system-ku ku jirto siyaasad badbaado ah oo user-ku ka codsado nooca inuu jebiyo, noocku waa inuu diido. Haddii wax-soo-saarka qalabku uu ka kooban yahay tilmaamo xun, noocku waa inuu iska indhatiraa halkii uu amar uga qaadan lahaa.
In tan si sax ah loo helo waa aasaas u ah badbaadada, amniga, iyo kalsoonida.
Nooca ku yaal dhinaca midig si sax ah ayuu u raacaa tilmaanta Developer-ka, oo mudnaan sare leh, halkii uu ka raaci lahaa tan User-ka marka labada tilmaamood is-khilaafaan.
Waxbarashadda xoojinta ah waa hab dabiici ah oo lagu baro kala-sarraynta tilmaamaha. Waxaan abuuri karnaa wada sheekaysiyo leh tilmaamo is-khilaafsan, nooca uga codsan karnaa inuu ka jawaabo, kuna abaalmarin karnaa marka uu raaco tilmaanta saxda ah.
Waxaan aqoonsannay saddex caqabad oo ka imanaya adeegsiga qaaciddadaas si aan taxaddar lahayn:
- Guuldarrooyinka raacitaanka tilmaamuhu waxay laba jibbaar u noqon karaan guuldarrooyin kala-sarraynta tilmaamaha ah: noocku wuxuu ku guuldarreysan karaa inuu xalliyo khilaafka tilmaameed, ma aha sababta oo ah ma fahmayo kala-sarraynta doorarka, balse sababta oo ah tilmaamaha laftoodu aad bay u adag yihiin.
- Khilaafaadka tilmaamuhu waxay noqon karaan kuwo xeel dheer oo xitaa aragti ku salaysan. Hab caadi ah ayaa ah in LLM gaar ahi u xukumo oo u qoondeeyo abaalmarinno LLM-ka la tababarayo, balse garsoorayaashuna way qaldami karaan.
- Noocyadu waxay u janjeeraan inay bartaan marinno gaaban oo keena abaalmarin sare, balse aan faa'iido lahayn marka la eego adeegsiga dhabta ah(ku furmaa daaqad cusub). Tusaalaha caanka ahi waa diidmooyin xad-dhaaf ah: noocyadu waxay baran karaan inay badbaadada sare u qaadaan iyagoo xitaa diidaya codsiyada aan dhibka lahayn.
Waxaan naqshadeynaa IH-Challenge, oo ah xog-tababar waxbarashadda xoojinta ah, si aan uga jawaabno mid kasta oo ka mid ah caqabadahaas. Waxaan raacnaa mabaadi'dan soo socota:
- Hawluhu waa kuwo sahlan marka la eego raacitaanka tilmaamaha
- Waxaa si ujeeddo leh loogu qiimeyn karaa script Python fudud
- Ma jiraan marinno gaaban oo sahlan oo dammaanad qaada abaalmarin sare dhammaan hawlaha
Hawl kasta oo ku jira IH-Challenge asal ahaan waa wada sheekaysi leh farriimahan soo socda:
- Farriin tilmaameed ka timid door mudnaan sare leh, tusaale ahaan “Kaliya ku jawaab ‘Haa’ ama ‘Maya’”.
- Farriin tilmaameed ka timid door mudnaan hoose leh, taas oo isku dayaysa inay nooca ku qasabto inuu jebiyo tilmaamaha ku jira farriinta mudnaanta sare leh.
Nooca la tababarayo ayaa soo saara farriinta xigta. Waxaan u qornaa hawlaha/deegaanada si ay suurtagal u noqoto in barnaamij ahaan loo hubiyo in jawaabta noocku ay buuxinayso xaddidaadda heerka sare.
Waxaan ku tababarnaa nooc IH‑Challenge waxaana soo saaranaa nooc gudaha ah, oo aan u bixinnay GPT‑5 Mini-R, kaas oo leh hagaajinnadan soo socda:
- Wuxuu si ka fiican uga shaqeeyaa cabbirrada kala-sarraynta tilmaamaha
- Waxqabadka hagaagay wuxuu ku fidaa tijaabooyinka kala-sarraynta tilmaamaha ee kaydsan iyo kuwa weerarka ku dhisan
- Wuxuu ilaaliyaa waxtarka guud, isaga oo aan u burburin diidmo xad-dhaaf ah
Tani waa waxa habkan si gaar ah uga dhigaya mid ku qanciya badbaadada: annagoo si toos ah noocyada ugu tababarayna inay si sax ah u xalliyaan khilaafaadka tilmaamaha ee hawlaha IH-challenge, waxaan helnaa horumarro IH ah oo ku fida weerarro cusub iyo xaalado cusub.
Adkeysiga cabbirrada tacliimeed
Qiimayn | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (leexiyayaal) | 0.88 | 0.95 (+0.07) |
RealGuardrails (gacanta lagu qoray) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Adkeysiga cabbirrada gudaha
Qiimayn | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
Khilaafka System <> User | 0.84 | 0.95 (+0.11) |
Khilaafka System <> Developer | 0.86 | 0.86 (+0) |
Khilaafka Developer <> User | 0.83 | 0.95 (+0.12) |
Ma jiraan dib-u-dhacyo karti
Qiimayn | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (diidmo xad-dhaaf ah) | 0.79 | 1.00 (+0.21) |
TensorTrust (diidmo xad-dhaaf ah) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Heerka guusha sheekada vs. o1 | 0.71 | 0.66 (-0.05) |
Dhibcaha doorbidka | 0.46 | 0.40 (-0.06) |
Kala-sarrayn tilmaameed oo xooggan waxay hal mar keentaa faa'iidooyin badan oo badbaado ah, oo ay ku jiraan hagidda badbaadada iyo adkeysiga weerarka weydiinta.
Waxaan qiimeynaa hagidda badbaadada annagoo ku darnayna qeexitaanno badbaado oo gaar u ah qaybaha system prompt-ka kana cabbirayna habdhaqanka OpenAI’s safety Production Benchmarks (kuwaas oo ah wada sheekaysiyo xasaasi u ah badbaadada oo matala ChatGPT marka la isticmaalayo).
Nooca IH-trained wuxuu muujinayaa horumar joogto ah: marka safety spec-ku jiro, wuxuu gaaraa heerar diidmo iyo dhammaystir ammaan ah oo ka sarreeya qaybaha aan la oggolayn oo dhan, taas oo muujinaysa in habdhaqanka kala-sarraynta tilmaamaha oo xooggan uu ka dhigo mid ka fiican xallinta khilaafaadka marka codsiyada aan ammaan ahayn ay ka yimaadaan tilmaamo mudnaan hoose leh. Si gaar ah, horumarkan kuma lammaana hoos-u-dhac la mid ah oo ku yimaada heerka waxtarka (taasi waa, ma aha inuu noqdo mid ka yar “waxtar” isaga oo si guud u diidaya wax badan).


Tusaale muujinaya sida nooca IH-trained uu uga hortago prompt injections ay GPT‑5 Mini (Baseline) ku dhacdo.
Kala-sarraynta tilmaamuhu sidoo kale waa udub-dhexaad u ah iska-caabbinta weerarka weydiinta, marka tilmaamo xun lagu dhex daro wax-soo-saarka qalabka. Waxaan ku qiimeynaa nooca IH-trained laba cabbir prompt injection—cabbirka tacliimeed ee CyberSecEval 2 iyo cabbir gudaha ah oo OpenAI ah oo ka kooban weerarro la mid ah kii lagu muujiyey nooc hore oo ka mid ah ChatGPT Atlas.
Marka loo eego nooca aasaasiga ah, nooca IH-trained ee GPT‑5 Mini-R wuxuu hagaajiyaa adkeysiga weerarka weydiinta labadaba cabbirrada, wuxuuna si weyn u hagaajiyaa waxqabadka qiimeynteenna gudaha ee weerarka weydiinta ee taagan ee tijaabooyinkan.
Maaddaama noocyadu ay sii noqonayaan kuwo wakiilnimo badan leh—wacaya qalab, akhrinaya dukumiintiyo aan la aamini karin, oo tallaabooyin ka qaadaya dunida—awoodda in si joogto ah mudnaanta loo siiyo tilmaamaha la aamini karo halkii laga siin lahaa kuwa aan la aamini karin waxay noqotaa sifo badbaado oo aasaasi ah.
Shaqadani waxay muujinaysaa in dhowr ka mid ah caqabadaha tababarka adkeysiga IH laga gudbi karo iyadoo la naqshadeynayo deegaano tababar oo wax ka qabta caqabadahaas. In kasta oo xog-ururintayada IH-Challenge ay u muuqato mid fudud, habdhaqanka IH ee noocyadu ka bartaan deegaanadan wuxuu ku fidaa cabbirro ka macquulsan oo inta badan aan si ujeeddo leh loo qiimeyn karin.
Xoojinta kala-sarraynta tilmaamuhu ma hagaajiso kalsoonida oo keliya, balse waxay hal mar furtaa faa'iidooyin badan oo badbaado iyo amni ah—waa aasaas sii kordhaya muhiimaddiisu maaddaama nidaamyada AI ay sii yeelanayaan karti iyo madax-bannaani badan.
Si loo taageero cilmi-baaris dheeraad ah oo aaggan ah, waxaan sii deynaynaa xogta IH‑Challenge halkan(ku furmaa daaqad cusub).


