በግንባር ቀደም የLLM ውስጥ የመመሪያ ተዋረድን ማሻሻል
የIH-Challenge ስልጠናን በማስተዋወቅ ላይ፣ የመመሪያ ተዋረድን፣ የደኅንነት መምራትን እና ፈጣን የመርፌ ጥንካሬን የሚያጠናክር የሥልጠና የውሂብ ስብስብ።
የሰው ሠራሽ አስተውሎት (AI) ሥርዓቶች ብዙውን ጊዜ መመሪያዎችን ከብዙ ምንጮች ይቀበላሉ። እነዚህ ከሥርዓት መልዕክቶች የተገኙ የደኅንነት መመሪያዎችን፣ ከገንቢዎች የሚመጡ የምርት መመሪያዎችን፣ ከተጠቃሚዎች የሚመጡ ጥያቄዎችን እና በመስመር ላይ የሚገኙ መረጃዎችን ሊያካትቱ ይችላሉ። ከእነዚህ ምንጮች መካከል በጣም ታማኝ የሆኑ መመሪያዎችን በአስተማማኝ ሁኔታ ቅድሚያ እንዲሰጡ ሞዴሎችን ማሰልጠን ደኅንነቱ የተጠበቀ ማሰማራት ቁልፍ አካል ነው።
ይህ ቅድሚያ የሚሰጠው ነገር ሲበላሽ ብዙ የሰው ሠራሽ አስተውሎት (AI) ደኅንነት እና አስተማማኝነት ችግሮች ሊነሱ ይችላሉ። ሞዴሎች ያልተፈቀደ ይዘት፣ የግል መረጃን ለመግለጥ የሚደረጉ ሙከራዎች ወይም በመስመር ላይ ውሂብ ውስጥ የተካተቱ ፈጣን መርፌ ጥቃቶችን የሚጠይቁ‑ጥያቄዎችን ሊቀበሉ ይችላሉ። በእያንዳንዱ በእነዚህ ሁኔታዎች ውስጥ በአግባቡ አለመምራት ተመሳሳይ ዋና ምክንያት አለው፡ ሞዴሉ የተሳሳተውን መመሪያ ሊከተል ይችላል።
እነዚህ መመሪያዎች ሲጋጩ፣ ሞዴሉ የትኞቹን ቅድሚያ መስጠት እንዳለበት መወሰን አለበት። የማይታመን መመሪያን እንደ ባለስልጣን አድርጎ የሚቆጥረው ከሆነ፣ ሞዴሉ ፖሊሲዎችን ወይም የገንቢውን እና የተጠቃሚውን ፍላጎት የሚጥስ ባህሪ ሊኖረው ይችላል።
ሞዴሎች መመሪያዎችን እንደ እምነት ደረጃቸው ቅድሚያ እንዲሰጡ የሚያሠለጥኑት በአግባቡ የተነደፉ የማስተማሪያ-ተዋረድ ተግባራት በርካታ የእውነተኛ ዓለም የደኅንነት ባህሪያትን እንደሚያሻሽሉ እናሳያለን። በእነዚህ ተግባራት ላይ የሰለጠኑ ሞዴሎች በሥርዓት ጥያቄዎች (የደኅንነት መሪነትን ማሻሻል) ውስጥ ላሉ የደኅንነት ዝርዝሮች የበለጠ ምላሽ ሰጪ ይሆናሉ እና በመሣሪያ ውጤቶች ውስጥ ለተካተቱ ፈጣን መርፌ ጥቃቶች የበለጠ ጠንካራ ይሆናሉ።
ግጭቶችን ለመፍታት የOpenAI ሞዴሎች ግልጽ የሆነ የመመሪያ ተዋረድ እንዲከተሉ የሰለጠኑ ናቸው፦
ሥርዓት > ገንቢ > ተጠቃሚ > መሣሪያ
ከፍተኛ‑ቅድሚያ የሚሰጣቸው መመሪያዎች የበለጠ አስተማማኝ ናቸው። ሞዴሉ ዝቅተኛ ቅድሚያ የሚሰጣቸውን መመሪያዎች መከተል ያለበት ከከፍተኛ‑ቅድሚያ ከሚሰጣቸው ገደቦች ጋር በማይጋጩበት ጊዜ ብቻ ነው። እነዚህ መርሆች በOpenAI ሞዴል ዝርዝር ውስጥ ተዘርዝረዋል።(በአዲስ መስኮት ውስጥ ይክፈታል)
ለምሳሌ፣ የሥርዓት መልእክት የደኅንነት ፖሊሲን የሚያካትት ከሆነ እና ተጠቃሚው ሞዴሉን እንዲጥስ ከጠየቀ፣ ሞዴሉ እምቢ ማለት አለበት። የመሣሪያ ውጤት ተንኮል አዘል መመሪያዎችን የያዘ ከሆነ፣ ሞዴሉ እንደ ትዕዛዞች ከመቁጠር ይልቅ ችላ ማለት አለበት።
ይህንን በትክክል ማግኘት ለደኅንነት፣ ለጥበቃ እና ለአስተማማኝነት መሰረት ነው።
በቀኝ በኩል ያለው ሞዴል የገንቢውን መመሪያ በትክክል ይከተላል፣ ይህም ሁለቱ መመሪያዎች በሚጋጩበት ጊዜ ከተጠቃሚው ይልቅ ቅድሚያ የሚሰጠው ነው።
የማጠናከሪያ ትምህርት ለትምህርት ተዋረድ ለማስተማር ተፈጥሯዊ ተስማሚ ነው። እርስ በርስ የሚጋጩ መመሪያዎችን የያዙ ውይይቶችን መፍጠር፣ ሞዴሉ ምላሽ እንዲሰጥ እርምጃ እና ትክክለኛውን መመሪያ ሲከተል ሽልማት መስጠት እንችላለን።
ያንን የምግብ አሠራር በቸልተኝነት ተግባራዊ ማድረግ የሚያስከትላቸውን ሦስት ችግሮች ለይተናል፦
- መመሪያ መከተል ውድቀቶች እንደ መመሪያ ተዋረድ ውድቀቶችም ሊቆጠሩ ይችላሉ፦ ሞዴሉ የመመሪያ ግጭትን ሊፈታ ሊያልቅ ይችላል፣ ይህም የሚናዎችን ተዋረድ አይረዳም ስለሆነ ሳይሆን፣ መመሪያዎቹ ራሳቸው በጣም ውስብስብ ስለሆኑ ነው።
- የመማሪያ ግጭቶች የተለያዩ እና እንዲያውም ተጨባጭ ሊሆኑ ይችላሉ። የተለመደው አካሄድ የተለየ የLLM ዳኛ ለLLM ስልጠና ለሚሰጠው ሽልማት እንዲሰጥ መፍቀድ ነው፣ ነገር ግን ዳኞቹ እራሳቸው ሊሳሳቱ ይችላሉ።
- ሞዴሎች ከፍተኛ ሽልማት የሚያስገኙ አቋራጮችን የመማር ዝንባሌ አላቸው፣ ነገር ግን በተግባር ምንም ፋይዳ የላቸውም(በአዲስ መስኮት ውስጥ ይክፈታል)። ክላሲኩ ምሳሌ ከልክ በላይ ውድቅ ማድረግ ነው፦ ሞዴሎች ለደኅንነትታቸው ተስማሚ የሆኑ ጥያቄዎችን እንኳን በመቃወም ደኅንነትን ከፍ ማድረግን መማር ይችላሉ።
እያንዳንዱን ወጥመዶች ለመፍታት የማጠናከሪያ ትምህርት ስልጠና የውሂብ ስብስብ የሆነውን IH-Challenge እንነድፋለን። እኛ የሚከተሉትን መርሆዎች እንከተላለን፦
- ተግባራት መመሪያን በመከተል ቀላል ናቸው
- በቀላል የፓይዘን ስክሪፕት በተጨባጭ ሊሻሻሉ የሚችሉ ናቸው
- በሁሉም ተግባራት ላይ ከፍተኛ ሽልማት የሚያረጋግጡ ቀላል አቋራጮች የሉም
በIH-Challenge ውስጥ ያለው እያንዳንዱ ተግባር በመሠረቱ ከሚከተሉት መልእክቶች ጋር የሚደረግ ውይይት ነው፦
- ከከፍተኛ መብት ሚና የተሰጠ የማስተማሪያ መልእክት፣ ለምሳሌ «‹አዎ› ወይም ‹አይደለም› ብቻ መልስ።»
- ሞዴሉ በከፍተኛ መብት ባለው መልእክት ውስጥ ያሉትን መመሪያዎች እንዲጥስ ለማድረግ የሚሞክር ዝቅተኛ መብት ካለው ሚና የተሰጠ የማስተማሪያ መልእክት።
እየተሰለጠነ ያለው ሞዴል የሚቀጥለውን መልእክት ያመነጫል። የሞዴሉ ምላሽ ከፍተኛ ደረጃ ያለውን ገደብ የሚያሟላ መሆኑን በፕሮግራም ማረጋገጥ እንዲቻል ተግባሮቹን/አካባቢዎችን እንጽፋለን።
በIH-Challenge ላይ ሞዴልን እናሠለጥናለን እና ውስጣዊ ሞዴልን እናመርታለን፣ እሱም GPT‑5 Mini-R ብለን የምንጠራው ሲሆን የሚከተሉትን ማሻሻያዎች አሉት፦
- በመመሪያ‑ደረጃ ተዋረድ መለኪያዎች ላይ የተሻለ አፈፃፀም አለው
- የተሻሻለ አፈጻጸም ወደ held‑out እና የጠላት የመመሪያ ተዋረድ ፈተናዎች ይሰፋል
- ከመጠን በላይ እምቢታ ሳይፈጠር አጠቃላይ ጥቅምን ይጠብቃል
ይህ አካሄድ ለደኅንነት በጣም ማራኪ የሚያደርገው ነገር ነው፦ በIH-ተግዳሮት ተግባራት ላይ የማስተማሪያ ግጭቶችን በትክክል ለመፍታት ሞዴሎችን በቀጥታ በማሰልጠን፣ አዳዲስ ጥቃቶችን እና አዳዲስ ሁኔታዎችን የሚያጠቃልሉ የIH ማሻሻያዎችን እናገኛለን።
በአካዳሚክ መመዘኛዎች ላይ ጠንካራነት
ግምገማ | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf የይለፍ ቃል (sys-ተጠቃሚ) | 0.99 | 0.99 (+0) |
የGandalf የይለፍ ቃል (ገንቢ-ተጠቃሚ) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-ተጠቃሚ) | 0.86 | 0.94 (+0.08) |
TensorTrust (ከልክ ያለፈ እምቢታ) | 0.76 | 0.91 (+0.15) |
እውነተኛ ጠባቂዎች (ትኩረት የሚከፋፍሉ) | 0.88 | 0.95 (+0.07) |
እውነተኛ ጠባቂዎች (በእጅ የተጻፈ) | 0.82 | 0.89 (+0.07) |
ሥርዓት IFEval | 0.92 | 0.96 (+0.04) |
በውስጣዊ መለኪያዎች ላይ ጠንካራነት
ግምገማ | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-ተጠቃሚ) | 0.96 | 0.99 (+0.03) |
አስተማሪ ጄልብሬክ (የገንቢ-ተጠቃሚ) | 0.97 | 0.99 (+0.02) |
ሥርዓት <> የተጠቃሚ ግጭት | 0.84 | 0.95 (+0.11) |
ሥርዓት <> አበልፃጊ ግጭት | 0.86 | 0.86 (+0) |
ገንቢ <> የተጠቃሚ ግጭት | 0.83 | 0.95 (+0.12) |
ምንም የአቅም ተመላሾች የሉም
ግምገማ | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (ከልክ ያለፈ እምቢታ) | 0.79 | 1.00 (+0.21) |
TensorTrust (ከልክ ያለፈ እምቢታ) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
የቻት የማሸነፍ መጠን ከo1 ጋር ሲነጻጸር | 0.71 | 0.66 (-0.05) |
የምርጫ ውጤት | 0.46 | 0.40 (-0.06) |
ጠንካራ የማስተማሪያ ተዋረድ በአንድ ጊዜ በርካታ የደኅንነት ጥቅሞችን ይሰጣል፣ ይህም የደኅንነት መምራት እና ፈጣን መርፌ ጥንካሬን ያካትታል።
የደኅንነት መቆጣጠሪያን የምንገመግመው በሥርዓቱ መጠየቂያ ላይ ምድብ-ተኮር የደኅንነት ዝርዝሮችን በመጨመር እና በOpenAI የደኅንነት የምርት መለኪያዎች (በምርት ውስጥ የChatGPT ተወካይ የደኅንነት-ስሜታዊ ውይይቶች ስብስብ) ላይ ባህሪን በመለካት ነው።
በIH የሰለጠነው ሞዴል ወጥ የሆነ መሻሻል ያሳያል፦ የደኅንነት ዝርዝር መረጃው ሲኖር፣ በተከለከሉ ምድቦች ውስጥ ከፍተኛ ውድቅ ማድረግ እና ደኅንነቱ የተጠበቀ የማጠናቀቂያ መጠን ያገኛል፣ ይህም ጠንካራ የማስተማሪያ ተዋረድ ባህሪ ደኅንነታቸው ያልተጠበቁ ጥያቄዎች ዝቅተኛ ቅድሚያ ከሚሰጣቸው መመሪያዎች ሲመጡ ግጭቶችን ለመፍታት የተሻለ እንደሚያደርገው ያሳያል። የሚገርመው፣ ይህ መሻሻል ከሚመጣው የረዳትነት መጠን ጋር ተመሳሳይ የሆነ መቀነስ ጋር አብሮ አይመጣም (ማለትም፣ በአጠቃላይ የበለጠ ውድቅ በማድረግ «ጠቃሚ» እየሆነ አይደለም)።


በIH የሰለጠነው ሞዴል GPT‑5 Mini (Baseline) የሚወድለትን ፈጣን መርፌ እንዴት እንደሚቋቋም የሚያሳይ ምሳሌ።
የመመሪያ ተዋረድም ፈጣን መርፌን በመቋቋም ረገድ ማዕከላዊ ነው፣ ተንኮል አዘል መመሪያዎች በመሣሪያ ውጤቶች ውስጥ ይካተታሉ። በIH የሰለጠነውን ሞዴል በሁለት ፈጣን መርፌ መለኪያዎች እንገመግማለን—የአካዳሚክ መለኪያ CyberSecEval 2 እና በአሮጌ የChatGPT አትላስ ስሪት ላይ እንደሚታየው ጥቃቶችን ያካተተ የOpenAI ውስጣዊ ፕሮምፕ ኢንጀክሽን መለኪያ።
ከመነሻው ጋር ሲነጻጸር፣ በIH የሰለጠነው GPT‑5 Mini-R ሞዴል በሁለቱም መለኪያዎች ላይ ፈጣን የመርፌ ጥንካሬን ያሻሽላል እና በእነዚህ ሙከራዎች ውስጥ በውስጣዊ የማይንቀሳቀስ ፕሮምፕ ኢንጀክሽን ግምገማችን ላይ ያለውን አፈጻጸም በእጅጉ ያሻሽላል።
ሞዴሎች የበለጠ ወኪል እየሆኑ ሲሄዱ—መሣሪያዎችን መጥራት፣ የማይታመኑ ሰነዶችን ማንበብ እና በዓለም ላይ እርምጃ መውሰድ—ታማኝ ያልሆኑ መመሪያዎችን ከማያምኑ መመሪያዎች ይልቅ በተከታታይ ቅድሚያ የመስጠት ችሎታ ዋና የደኅንነት ባህሪ ይሆናል።
ይህ ሥራ እንደሚያሳየው የIH ጥንካሬ ስልጠና በርካታ ወጥመዶች እነዚያን ወጥመዶች የሚፈቱ የስልጠና አካባቢዎችን በመንደፍ ሊወገዱ ይችላሉ። የIH-Challenge የውሂብ ስብስብ ቀላል ቢመስልም፣ የIH ባህሪ ሞዴሎች ከእነዚህ አካባቢዎች የሚማሩት ወደ ይበልጥ ተጨባጭ፣ ብዙውን ጊዜ በተጨባጭ ደረጃ ሊሻሻሉ የማይችሉ መለኪያዎችን ነው።
የመማሪያ ተዋረድን ማጠናከር አስተማማኝነትን ከማሻሻል ባለፈ በአንድ ጊዜ በርካታ የደኅንነት እና የጥበቃ ውጤቶችን ይከፍታል—ይህ መሰረታዊ መሰረት የሰው ሠራሽ አስተውሎት (AI) ሥርዓቶች የበለጠ ብቃት እና ራስን ችሎ እየሠሩ ሲሄዱ እየጨመረ የሚሄድ ነው።
በዚህ አካባቢ ተጨማሪ ምርምርን ለመደገፍ፣ የIH-Challenge የውሂብ ስብስብን እዚህ(በአዲስ መስኮት ውስጥ ይክፈታል) እያወጣን ነው።


