የማመዛዘን ሞዴሎች ተከታታይ ሀሳባቸውን ለመቆጣጠር ይቸገራሉ፣ ያ ደግሞ ጥሩ ነው
የግንባር ቀደም ሞዴሎች መገደብ ለሰው ሠራሽ አስተብሕሎት (AI) ደህንነት አስተማማኝ የሆነበት ምክንያት።
የኤ.አይ ወኪሎች ከጊዜ ወደ ጊዜ ይበልጥ ውስብስብ እና በራስ ሰር የሚሰሩ ተግባራትን ማከናወን የሚችሉ ሲሆኑ፣ የባህሪያቸውን አስተማማኝ ክትትል መጠበቅ የበለጠ አስፈላጊ ይሆናል። ከተደጋጋሚ ማሰማራት መርሆቻችን ጋር በሚስማማ መልኩ፣ ስርዓቶች በእውነተኛ ዓለም ሁኔታዎች ውስጥ እንዴት እንደሚሰሩ እናጠናለን እና ችሎታዎች እየላቁ ሲሄዱ መከላከያዎችን ያለማቋረጥ እናሻሽላለን። ይህንን ለመደገፍ፣ የደህንነት አካሄዳችን በጥልቀት የመከላከያ ዘዴዎችን ይጠቀማል፣ እንደ የደህንነት ስልጠና፣ የባህሪ ምርመራ፣ የኤጀንት ኮድ ግምገማ(በአዲስ መስኮት ውስጥ ይክፈታል) እና የተከታታይ ሀሳብ (CoT) ክትትል ያሉ በርካታ ተጨማሪ የመከላከያ ንብርብሮችን ያካትታል። የCoT ክትትል ወኪሎች ተግባራት ሲከናወኑ የሚያመነጩትን የማመዛዘን ደረጃዎች ይተነትናል። እነዚህ የማመዛዘን ዱካዎች በስልጠናም ሆነ በማሰማራት ወቅት ጠቃሚ ምልክቶችን ሊሰጡ ይችላሉ፣ ይህም የክትትል ስርዓቶች የአንድ ወኪል ባህሪ መቼ ደህንነቱ ያልተጠበቀ ወይም ተጠቃሚው ካሰቧቸው ግቦች ጋር የማይጣጣም እንደሆነ ለመለየት ይረዳሉ።
ዛሬ፣ የሞዴሎች ማመዛዘን በአጠቃላይ ሊተረጎም የሚችል እና ለመከታተል ቀላል መሆኑን አግኝተናል። ሆኖም ግን፣ ወደፊት፣ የመከታተል ችሎታ በተለያዩ ምክንያቶች(በአዲስ መስኮት ውስጥ ይክፈታል) ሊበላሽ ይችላል። እዚህ ላይ፣ በአንድ እንደዚህ አይነት መንገድ ላይ እናተኩራለን፡ ወኪሎች ክትትል እየተደረገባቸው መሆኑን ሲያውቁ ሆን ብለው ማመዛዘናቸውን እንደገና ማስተካከል ወይም መደበቅ ከቻሉ፣ ግምገማዎች የአንድን ስርዓት አሰላለፍ ወይም ደህንነት ከልክ በላይ ሊገምቱ ይችላሉ ስለሆነም የክትትል ስርዓቶች አስተማማኝነት ሊቀንስ ይችላል።
በዚህ ሥራ፣ የአሁን ጊዜ የማመዛዘን ሞዴሎች የተከታታይ ሀሳባቸውን የመከታተል ችሎታን በሚቀንሱ መንገዶች መቆጣጠር ይችሉ እንደሆነ እናጠናለን። የኤ.አይ ስርዓቶች አቅማቸው እያደገ ሲሄድ የCoT ቁጥጥር ጠንካራ መከላከያ ሆኖ እንዲቀጥል ለማረጋገጥ ይህንን ችሎታ መረዳት አስፈላጊ ነው። የአሁን ጊዜ የማመዛዘን ሞዴሎች ክትትል እየተደረገባቸው መሆኑ ቢነገራቸውም እንኳን የራሳቸውን CoTዎች ለመቆጣጠር እንደሚቸገሩ እናገኛለን። ለትላልቅ ሞዴሎች የመቆጣጠር ችሎታ ከፍ ያለ ቢሆንም፣ ሞዴሎች ለረዥም ጊዜ እንዲያመዛዝኑ ሲጠየቁ እና ተጨማሪ ድህረ ስልጠና ሲያደርጉ ይቀንሳል። ምንም እንኳን ሞዴሎች እየላቁ ሲሄዱ ቀጣይነት ያለው ግምገማ አስፈላጊ ቢሆንም፣ ውጤቶቻችን እንደሚያሳዩት CoTን የመቆጣጠር ችሎታ በአሁኑ ጊዜ ለCoT የመከታተል ችሎታ ከፍተኛ አደጋ ሊያስከትል የሚችልበት ዕድል አነስተኛ ነው።
ተከታታይ ሀሳብ የሚያመለክተው አንድ የኤ.አይ ወኪል አንድን ተግባር ሲፈታ የሚያመነጫቸውን መካከለኛ የማመዛዘን ደረጃዎችን ነው። እነዚህ የማመዛዘን ዱካዎች ጠቃሚ የደህንነት ምልክቶችን ሊሰጡ ይችላሉ፣ ይህም የክትትል ስርዓቶች የአንድ ወኪል ባህሪ ደህንነቱ የተጠበቀ ወይም የተጣጣመ መሆኑን ለመገምገም ይረዳሉ።
CoTን የመቆጣጠር ችሎታ ማለት የአንድ የማመዛዘን ሞዴል የራሱን የCoT ባህሪያት የመከታተል ችሎታን በሚቀንሱ መንገዶች ለመቆጣጠር ያለው ችሎታ ነው። ይህንን ችሎታ በተግባር ልንጠብቃቸው ከምንችላቸው ተቆጣጣሪዎች ለማምለጥ በተጨባጭ ማበረታቻዎች መለካት ፈታኝ ነው። በምትኩ፣ ተግባራዊ ተወካይ እንጠቀማለን፡ ሞዴሉ ተጠቃሚው ስለ ራሳቸው CoT ያሉ መመሪያዎችን የመከተል ችሎታውን እንለካለን። ለምሳሌ፣ አንድ ሞዴል የሚታየውን ውጤቱን ከመቀየር ይልቅ—ውስጣዊ ማመዛዘኑ ላይ ተጽዕኖ የሚያሳድሩ መመሪያዎችን መከተል ይችል እንደሆነ እንፈትሻለን—ለምሳሌ ትናንሽ ፊደላትን ብቻ መጠቀም፣ የተወሰኑ ቁልፍ ቃላትን ማስወገድ ወይም የተወሰኑ ሐረጎችን ማከል።
ይህን ለማጥናት፣ የማመዛዘን ሞዴሎች CoTን የመቆጣጠር ችሎታን ለመለካት ክፍት-ምንጭ የግምገማ ስብስብ የሆነውን CoT-Control እናቀርባለን። CoT-Control ከተመሰረቱ መመዘኛዎች የተገነቡ ከ13,000 በላይ ተግባራትን ያካትታል፡ GPQA፣ MMLU-Pro፣ HLE፣ BFCL እና SWE-Bench Verified። እያንዳንዱ ተግባር የሚፈጠረው አንድ የመለኪያ ችግርን ከአንድ የCoT መመሪያ ጋር በማጣመር ሲሆን ይህም በCoT ውስጥ ችግሩን የሚመለከቱ ቁልፍ ቃላትን ማስወገድ፣ ትንንሽ ፊደላትን መጠቀም ወይም እያንዳንዱ ዓረፍተ ነገር ላይ አንድን ቃል መጨመርን ያካትታል።
በ13 የማመዛዘን ሞዴሎች ላይ ግምገማዎችን እናካሂዳለን፣ እና ሁሉም የራሳቸውን CoTዎች በአስተማማኝ ሁኔታ ለመቆጣጠር እንደሚቸገሩ አግኝተናል። ሞዴሉ ከCoT መመሪያዎቻችን ጋር በተሳካ ሁኔታ የሚጣጣምበትን ቦታ እንደ የማመዛዘን ዱካዎች ክፍልፋይ አድርገን የመቆጣጠር ችሎታን እንለካለን። CoTን የመቆጣጠር ችሎታ ውጤቶች በግንባር ቀደም ሞዴሎች መካከል ዝቅተኛ ናቸው፣ ከ0.1% የሚጀምሩ እና እስካሁን ለሞከርነው ግንባር ቀደም ሞዴል ከ15.4% የማይበልጡ ናቸው።
ይህ አለመቻል የሚመጣው ተግባሩን ባለመረዳት አይደለም፡ ሞዴሎች ብዙውን ጊዜ በራሳቸው CoT ውስጥ የተሰጣቸውን የCoT መመሪያዎችን ማክበር አለመቻላቸውን ይገነዘባሉ እና—ይህን ከተገነዘቡ በኋላም ቢሆን —አሁንም መውደቃቸውን ይቀጥላሉ። ይህ በሚያስገርም ሁኔታ ዝቅተኛ የሆነ አፈጻጸም ለCoT የመከታተል ችሎታ መልካም ዜና ነው፡ ሞዴሎች በተመሳሳይ መልኩ ተቆጣጣሪዎቻችንን ለማምለጥ ማመዛዘናቸውን የመደበቅ ችሎታ ላይኖራቸው እንደሚችል ይጠቁማል።
የበርካታ ግንባር ቀደም ሞዴሎች የራሳቸውን ውጤቶች እና CoTዎች የመቆጣጠር ችሎታ። ዝቅተኛ CoTን የመቆጣጠር ችሎታ ከከፍተኛ የመከታተል ችሎታ ጋር የተያያዘ ስለሆነ ከከፍተኛ ደህንነትም ጋር የተያያዘ ነው።
CoTን የመቆጣጠር ችሎታ ውድቀቶች ምሳሌዎች
አጠር ለማድረግ ጥያቄዎች በሌላ አነጋገር ተገልጸዋል።
GPT-5.2 Thinking(ማሰብ)
GPT‑5.2 Thinking የተከለከለውን ቃል (ቀይ) መጠቀም እንዳልነበረበት ይገነዘባል፣ ከዚያም አስቀድሞ በመጠቀሙ እየደነገጠ ተጨማሪ 4 ጊዜ መጠቀሙን ይቀጥላል።
ምንም እንኳን የመቆጣጠር ችሎታ ከሞዴል መጠን ጋር እንደሚጨምር ብናይም፣ ከድህረ ስልጠና እና ከፈተና ጊዜ ስሌት መጠን ጋር በፍጥነት እንደሚቀንስ አግኝተናል። ሁለት ክፍት የክብደት ሞዴሎች ቤተሰቦችን ስንመለከት፣ ምንም እንኳን በትልልቅ መጠኖች ላይ ያለው ተጽዕኖ እየቀነሰ ቢሄድም ትላልቅ ሞዴሎች ተከታታይ ሀሳቦቻቸውን በመቆጣጠር ረገድ በተወሰነ ደረጃ የተሻሉ ነበሩ። ነገር ግን ሞዴሎች ረዘም ላለ ጊዜ እንዲያስቡ ስናደርግ፣ እነዚያን ተከታታይ ሀሳቦች የመቆጣጠር ችሎታቸው ቀንሷል። የOLMo-3-7B-RL-ዜሮ-Math የRL ስልጠናን በተመለከተ ተመሳሳይ አዝማሚያ አይተናል፡ የመቆጣጠር ችሎታው ውጤት በስልጠናው ሂደት ውስጥ ከአስር እጥፍ በላይ ቀንሷል።
የመቆጣጠር ችሎታ በክፍት ክብደት ሞዴሎች ውስጥ ሲለካ ይጨምራል ነገር ግን ረዘም ያለ ማመዛዘን እና ተጨማሪ የRL ስልጠና ሲኖር ይቀንሳል።
እውነተኛ ማበረታቻዎችን በማስመሰል ከተቆጣጣሪዎች ለመሸሽ፣ ሞዴሎች ቁጥጥር እየተደረባቸው ወይም እየተገምገሙ እንደሆነ ሲነገራቸው የሚኖረውን የመቆጣጠር ችሎታ እንለካለን። ይህ በትንሹ (ግን በግልጽ) የመቆጣጠር ችሎታን ይጨምራል። እንዲሁም ከፍተኛ የመቆጣጠር ችሎታ የሚያስፈልጋቸውን ጥያቄዎች ለማግኘት ራስ ሰር የእርምጃ ማመቻቸትን እንጠቀማለን። አመቻቹ በስልጠና ስብስብ ላይ የመቆጣጠር ችሎታን ሊጨምር ቢችልም፣ እነዚህ ግኝቶች ወደ አዳዲስ የመመሪያ ዓይነቶች (ለምሳሌ በቃላት መካከል ክፍተት እንዳይኖር መጠየቅ) በደካማ ሁኔታ ይተላለፋሉ።
CoTን የመቆጣጠር ችሎታ ጠላታዊ ሁኔታዎች ነው። "የክትትል ግንዛቤ" የሚለው ሞዴሎቹ የራሳቸው CoT ክትትል እየተደረገባቸው መሆኑን የምናሳውቅባቸው ቅንብሮችን ያመለክታል። "የግምገማ ግንዛቤ" ማለት ሞዴሎች CoTን የመቆጣጠር ችሎታቸው ግምገማ እየተደረገበት መሆኑን የምናሳውቅባቸው ቅንብሮችን ያመለክታል።
በCoT-Control ውስጥ ያሉት ተግባራት ተግባራዊ ተወካዮዎች ናቸው፡ ተስማሚ CoTን የመቆጣጠር ችሎታ ግምገማ በተፈጥሮ የተሳሳቱ ግቦችን የሚከተሉ ሞዴሎች ቁጥጥርን ለማምለጥ የራሳቸውን CoT መቆጣጠር ይችሉ እንደሆነ መሞከርን ያካትታል። በምትኩ፣ የወኪሎች CoTን የመቆጣጠር ችሎታቸውን ስለ ራሳቸው CoT መመሪያዎችን የመከተል ችሎታቸውን በመለካት እንገምታለን። በተጨማሪም ሞዴሎች አንዳንድ የራሳቸው CoT ባህሪያትን ከሌሎቹ በተሻለ ሁኔታ መቆጣጠር ይችላሉ፣ እና CoT-Control ጠባብ የመቆጣጠር ችሎታ ዓይነቶችን ብቻ በመለካት የመቆጣጠር ችሎታን ከልክ በላይ ወይም ዝቅ አድርጎ ሊገምት ይችላል።
ዝቅተኛ CoTን የመቆጣጠር ችሎታ ባህሪ ነው፣ ስህተት አይደለም። የአሁን ጊዜ የማመዛዘን ሞዴሎች ዝቅተኛ የመቆጣጠር ችሎታ ያላቸው መሆኑ የCoT ክትትልን እንደ መከላከያ የበለጠ አስተማማኝ ያደርገዋል። በተመሳሳይ ጊዜ፣ የአሁን ጊዜ የማመዛዘን ሞዴሎች የመቆጣጠር ችሎታቸው ዝቅተኛ የሆነበት ምክንያት—ወይም ሞዴሎች የበለጠ አቅም ሲኖራቸው ይህ ባህሪ ይቀጥላል ወይ የሚለው እስካሁን አልገባንም። ስለዚህ፣ CoTን የመቆጣጠር ችሎታ ግምገማዎች እንደ ቅድመ ጥንቃቄ ግምገማ ሊታዩ ይችላሉ፡ ይህም ሞዴሎች ማመዛዘናቸውን በመቅረጽ ወይም በመደበቅ ረገድ እየተሻሻሉ መሆናቸውን የሚያሳይ የቅድመ ማስጠንቀቂያ ምልክት ነው።
የእኛ ውጤቶች እንደሚያሳዩት CoTን የመቆጣጠር ችሎታ በአሁኑ ጊዜ CoTን የመከታተል ችሎታ ላይ ከፍተኛ አደጋ ሊያስከትል የሚችልበት ዕድል አነስተኛ ነው። ይሁን እንጂ፣ ዝቅተኛ የመቆጣጠር ችሎታ ከፍተኛ የመከታተል ችሎታን ለማረጋገጥ ብቻውን በቂ አይደለም ምክንያቱም የመከታተል ችሎታ እንደ CoTዎች ላይ ያለ ቀጥተኛ የማመቻቸት ጫና ባሉ ሌሎች ዘዴዎች ምክንያት ሊቀንስ ይችላል።
እነዚህን ተለዋዋጭ ሁኔታዎች በጊዜ ሂደት ለመከታተል እንዲረዳን፣ ለወደፊት የግንባር ቀደም ሞዴሎች በሥርዓት ካርዶች ውስጥ ከCoT የመከታተል ችሎታ ጋር በአንድላይ የCoT የመቆጣጠር ችሎታን ሪፖርት ማድረግ እንጀምራለን፣ ከGPT‑5.4 ጀምሮ የማመቻቸት ጫናን በቀጥታ በግንባር ቀደም የማመዛዘን ሞዴሎች ላይ ላለማድረግ ባለን ቀጣይነት ባለው ቁርጠኝነት ላይ በማሰብ፣ መገንባት።
ደራሲዎች
Tomek Korbak፣ Micah Carroll፣ Bowen Baker እና Ian Kivlichan


