13 ኖቬምበር 2025

የተንጣለሉ ሰርኪውቶች በኩል የነርቭ አውታረ መረቦችን መረዳት

ሞዴሎችን በቀላል እና በቀላሉ ሊታወቁ በሚችሉ እርምጃዎች እንዲያስቡ አሰልጥነናል—ስለዚህ እንዴት እንደሚሰሩ በተሻለ ሁኔታ መረዳት እንችላለን።

በመጫን ላይ…

የነርቭ አውታረ መረቦች ዛሬ ያሉትን በጣም አቅም ያላቸውን የሰው ሰራሽ አስተውሎት (AI) ስርዓቶች ያንቀሳቅሳሉ፣ ነገር ግን ለመረዳት አስቸጋሪ ሆነው ይቆያሉ። እነዚህን ሞዴሎች ከግልጽ፣ ደረጃ በደረጃ መመሪያዎች ጋር አንጽፍም። ይልቁንም፣ አንድን ተግባር በደንብ እስኪያውቁት ድረስ በቢሊዮን የሚቆጠሩ ውስጣዊ ግንኙነቶችን ወይም "ክብደቶችን" በማስተካከል ይማራሉ። የሥልጠና ደንቦችን እንነድፋለን፣ ነገር ግን የሚታዩትን የተወሰኑ ባህሪያት አናወጣም፣ ውጤቱም ማንም ሰው በቀላሉ ሊገነዘበው የማይችለው ጥቅጥቅ ያለ የግንኙነት መረብ ነው።

የመተርጎም ችሎታን እንዴት እንደምንመለከት

የሰው ሰራሽ አስተውሎት (AI) ስርዓቶች ብቃት እያደገ እና በሳይንስ፣ በትምህርት እና በጤና አጠባበቅ ውሳኔዎች ላይ እውነተኛ ተጽዕኖ እያሳደሩ ሲሄዱ፣ እንዴት እንደሚሰሩ መረዳት አስፈላጊ ነው። የመተርጎም ችሎታ አንድ ሞዴል የተወሰነ ውጤት ለምን እንዳስገኘ ለመረዳት የሚረዱንን ዘዴዎች ያመለክታል። ይህን ለማሳካት የምንችልባቸው ብዙ መንገዶች አሉ።

ለምሳሌ፣ የማመዛዘን ሞዴሎች የመጨረሻ መልስ ለማግኘት በሚወስዱት መንገድ ላይ ስራቸውን እንዲያብራሩ ይበረታታሉ። የአስተሳሰብ ሰንሰለት የመተርጎም ችሎታ የሞዴሉን ባህሪ ለመከታተል እነዚህን ማብራሪያዎች ይጠቀማል። ይህ ወዲያውኑ ጠቃሚ ነው፦ የአሁኑ የማመዛዘን ሞዴሎች የአስተሳሰብ ሰንሰለቶች እንደ ማታለል ባሉ ባህሪያት ረገድ መረጃ የሚሰጡ ይመስላሉ። ይሁን እንጂ፣ በዚህ ባህሪ ላይ ሙሉ በሙሉ መተማመን ደካማ ስልት ነው፣ እና ይህ በጊዜ ሂደት ሊፈርስ ይችላል።

በሌላ በኩል፣ የእዚህ ሥራ ትኩረት የሆነው ሜካኒካል የመተርጎም ችሎታ የአንድን ሞዴል ስሌቶች ሙሉ በሙሉ ወደኋላ ኢንጂኒር ለማድረግ ይፈልጋል። እስካሁን ድረስ በቀጥታ ጠቃሚ አልነበረም፣ ነገር ግን በመርህ ደረጃ፣ የሞዴሉን ባህሪ የበለጠ የተሟላ ማብራሪያ ሊሰጥ ይችላል። የሞዴል ባህሪን በጣም ታች ወርዶ ለማብራራት በመፈለግ፣ ሜካኒካል የመተርጎም ችሎታ አነስተኛ ግምቶችን ሊያደርግ እና የበለጠ በራስ መተማመን ሊሰጠን ይችላል። ነገር ግን ከዝቅተኛ ደረጃ ዝርዝሮች እስከ ውስብስብ ባህሪያት ማብራሪያዎች ድረስ ያለው መንገድ በጣም ረጅም እና የበለጠ አስቸጋሪ ነው።

የመተርጎም ችሎታ በርካታ ቁልፍ ግቦችን ይደግፋል፣ ለምሳሌ የተሻለ ቁጥጥር እንዲኖር ማድረግ እና ደህንነቱ ያልተጠበቀ ወይም ስልታዊ በሆነ መልኩ የተዛባ ባህሪን አስቀድሞ የማስጠንቀቂያ ምልክቶችን መስጠት። እንዲሁም እንደ ሊሰፋ የሚችል ቁጥጥር፣ የተቃዋሚ ስልጠና እና ሬድ-ቲሚንግ ያሉ ሌሎች የደህንነት ጥረቶቻችንን ያሟላል።

በዚህ ሥራ፣ ሞዴሎችን ለመተርጎም ቀላል በሚያደርጉ መንገዶች ብዙ ጊዜ ማሰልጠን እንደምንችል እናሳያለን። ስራችንን ጥቅጥቅ ባሉ አውታረ መረቦች ላይ ከተደረገው የድህረ-ሆክ ትንተና ጋር የሚያጠናክር ተስፋ ሰጪ ማሟያ አድርገን እንመለከተዋለን።

ይህ በጣም ትልቅ ውርርድ ነው፤ ከስራችን ጀምሮ እጅግ በጣም ኃይለኛ የሆኑ ሞዴሎቻችንን ውስብስብ ባህሪያት ሙሉ በሙሉ እስከ መረዳት ድረስ ረጅም መንገድ አለ። አሁንም፣ ለቀላል ባህሪያት፣ በእኛ ዘዴ የሰለጠኑ የተንጣጠሉ ሞዴሎች ለመረዳት የሚያስችሉ እና ባህሪውን ለማከናወን በቂ የሆኑ ትናንሽ፣ የተነጣጠሉ ሰርኪውቶች እንደያዙ እናገኛለን። ይህ የሚያሳየው ስልቶቻቸውን ልንረዳቸው የምንችላቸው ትላልቅ ስርዓቶችን ለማሰልጠን የሚያስችል መንገድ ሊኖር እንደሚችል ነው።

አዲስ አቀራረብ፡- የተንጣለሉ ሞዴሎችን መማር

የቀድሞው ሜካኒካል የመተርጎም ችሎታ ሥራ ጥቅጥቅ ካሉ ውስብስብ አውታረ መረቦች ስራውን የሚጀምር የነበረ ሲሆን ከዛም እነሱን ለማፍታት ይሞክራል። በእነዚህ አውታረ መረቦች ውስጥ፣ እያንዳንዱ የነርቭ ሴል በሺዎች ከሚቆጠሩ ሌሎች የነርቭ ሴሎች ጋር የተገናኘ ነው። አብዛኞቹ የነርቭ ሴሎች ብዙ የተለዩ ተግባራትን የሚያከናውኑ ይመስላሉ፣ ይህም ለመረዳት የማይቻል ያደርገዋል።

ግን ብዙ ተጨማሪ የነርቭ ሴሎች ያሏቸውን ያልተወሳሰቡ የነርቭ አውታረ መረቦችን ብናሠለጥን፣ ነገር ግን እያንዳንዱ የነርቭ ሴል ጥቂት ደርዘን ግንኙነቶች ብቻ ያሉት ቢሆንስ? ከዚያ ምናልባት የተፈጠረው አውታረ መረብ ቀላል እና ለመረዳት የማያስቸግር ይሆናል። ይህ የሥራችን ማዕከላዊ የምርምር ውርርድ ነው።

ይህንን መርህ በአዕምሯችን ይዘን፣ እንደ GPT‑2 ካሉ ነባር የቋንቋ ሞዴሎች ጋር በጣም ተመሳሳይ የሆነ አርክቴክቸር ያላቸውን የቋንቋ ሞዴሎችን ከአንድ ትንሽ ማሻሻያ ጋር አሰልጥነናል፦ የሞዴሉን አብዛኛዎቹን ክብደቶች ዜሮ እንዲሆኑ እናስገድዳለን። ይህ ሞዴሉ በነርቭ ሴሎች መካከል ሊኖሩ ከሚችሉት ግንኙነቶች ውስጥ በጣም ጥቂቶቹን ብቻ እንዲጠቀም ገድቦታል። ይህ የሞዴሉን ውስጣዊ ስሌቶች በእጅጉ የሚያለያይ ቀላል ለውጥ ነው ብለን እንከራከራለን።

ጥቅጥቅ ያሉ ሰርኪውቶችን እና የተነጣጠሉ ሰርኪውቶችን የሚያወዳድር ዲያግራም። ጥቅጥቅ ያለው ስሪት ብዙ እርስ በርስ የሚገናኙ መስመሮች ያሏቸው የኖዶች ሁለት ረድፎችን ያሳያል፣ የተነጣጠለው ስሪት ደግሞ ተመሳሳይ አቀማመጥ ያሳያል ነገር ግን ጥቂት፣ የበለጠ የተመረጡ ግንኙነቶች አሉት።

በመደበኛ ጥቅጥቅ ባሉ የነርቭ አውታረ መረቦች ውስጥ፣ እያንዳንዱ የነርቭ ሴል በሚቀጥለው ንብርብር ውስጥ ካለው እያንዳንዱ የነርቭ ሴል ጋር የተገናኘ ነው። በእኛ የተነጣጠሉ ሞዴሎቻችን ውስጥ፣ እያንዳንዱ የነርቭ ሴል በሚቀጥለው ንብርብር ውስጥ ካሉት ጥቂት የነርቭ ሴሎች ጋር ብቻ ይገናኛል። ይህ የነርቭ ሴሎችን እና በአጠቃላይ አውታረ መረቡን ለመረዳት ቀላል እንደሚያደርጋቸው ተስፋ እናደርጋለን።

የመተርጎም ችሎታን መገምገም

የእኛ የተንጣጠሉ የሞዴሎቻችን ስሌቶች ምን ያህል እንደተከፋፈሉ ለመለካት እንፈልጋለን። የተለያዩ ቀላል የሞዴል ባህሪያትን ተመልክተናል፣ እና ለእያንዳንዱ ባህሪ ተጠያቂ የሆኑትን የሞዴሉን ክፍሎች መለየት እንችል እንደሆነ አረጋግጠናል—እነዚህም ሰርኪውቶች ብለን የምንጠራቸው ናቸው።

ቀላል የሆኑ ስልተ ቀመራዊ ተግባራትን መርጠን አዘጋጅተናል። ለእያንዳንዱ፣ ሞዴሉን አሁንም ስራውን ማከናወን ወደሚችል ወደ ትንሹ ሰርኪውት ቆርጠን አሳንሰነዋል፣ እና ያ ሰርኪውት ምን ያህል ቀላል እንደሆነ መርምረናል። (ለዝርዝር መረጃ የእኛን ወረቀት⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።) ትላልቅና የተነጣጠሉ ሞዴሎችን በማሰልጠን፣ ከጊዜ ወደ ጊዜ ቀላል የሆኑ ሰርኪውቶችን በመጠቀም አቅም ያላቸው ሞዴሎችን ማምረት እንደምንችል ተገንዝበናል።

በx-ዘንግ ላይ የሞዴል አቅም (ቅድመ-ስልጠና ኪሳራ) ከy-ዘንግ ላይ የመተርጎም ችሎታ (የተቆረጠ የሰርኪውት መጠን) ጋር በማነፃፀር የሚያሳይ የመበታተን ንድፍ። ነጥቦች የተለያዩ መጠኖች እና የዝርዝር ደረጃዎች ሞዴሎችን የሚወክሉ ሲሆን፣ ቀለም አጠቃላይ መለኪያዎችን ያመለክታል እና የማርከር መጠን ዜሮ ያልሆኑ መለኪያዎችን ብዛት ያመለክታል። ቀስቶች የላይኛውን ቀኝ አቅጣጫ “የተሻለ” ብለው ይሰይማሉ።

በተለያዩ ሞዴሎች ላይ የመተርጎም ችሎታን ከአቅምን አንጻር ንድፍ እናወዳለን (የግራ-ግርጌ የተሻለ ነው)። ለቋሚ የተለያዩ ክብደቶች ያለው ሞዴል መጠን፣ ብርጭትን ማሳደግ - ክብደቶችን ወደ ዜሮ ማድረግ ችሎታን ያነሳል ነገር ግን መተረጎም ያሳድጋል። የሞዴል መጠን መጠን ማሳደግ ይህንን ድንበር ወደ ውጭ ይለውጣል፣ ይህም ችሎታ ያላቸው እና ሊተረጎሙ የሚችሉ ትልቅ ሞዴሎችን መገንባት እንችላለን።

ይህንን ተጨባጭ ለማድረግ፣ በPython ኮድ የሰለጠነ ሞዴል አንድን ሕብረቁምፊ በትክክለኛው ትእምርተ ጥቅስ አይነት መጠናቀቅ ያለበትን ተግባር ያስቡ። በPython ውስጥ 'ሄሎ' በአንድ ትእምርተ ጥቅስ ማለቅ አለበት፣ እና "ሄሎ" ደግሞ በድርብ ትእምርተ ጥቅስ ማለቅ አለበት። ሞዴሉ የትኛው የትእምርተ ጥቅስ አይነት ሕብረቁምፊውን እንደከፈተ በማስታወስ እና በመጨረሻው ላይ እንደገና በመድገም ይህንን ሊፈታ ይችላል።

በጣም ሊተረጎሙ የሚችሉ ሞዴሎቻችን ያንን ስልተ ቀመር በትክክል የሚተገብሩ የተበታተኑ ሰርኪውቶችን የያዙ ይመስላሉ።

በተነጣጠለ ትራንስፎርመር ውስጥ ያለ ሰርኪውት ምሳሌ የሚያሳይ ዲያግራም። እንደ “(” እና “ሰርኪውቶች” ያሉ የግቤት ቶከኖችን ምላሽ ለመስጠት የተወሰኑ የነርቭ ሴሎች እና የትኩረት ራሶች እንዴት እንደሚነቃቁ ያሳያል፣ ይህም አዎንታዊ እና አሉታዊ ክብደቶችን፣ ማባዛቶችን፣ መስመራዊ ያልሆኑ ነገሮችን እና በMLP እና በትኩረት ንብርብሮች መካከል ያሉ ግንኙነቶችን ለመለየት የተሰየሙ መንገዶችን የሚያካትት ሲሆን ይህም በውጤት ቶከን እድሎች ላይ ያበቃል።

በነጠላ ወይም በድርብ ትእምርተ ጥቅስ ውስጥ ሕብረቁምፊን ማጠናቀቅ እንዳለበት የሚተነብይ በተነጣጠለ ትራንስፎርመር ውስጥ ያለ ሰርኪውት ምሳሌ። ይህ ሰርኪውት አምስት የቀሩ ቻናሎችን (ቀጥ ያለ ግራጫ መስመሮችን)፣ ሁለት የMLP ነርቮችን በንብርብር 0 እና አንድ የትኩረት ጥያቄ-ቁልፍ ቻናል እና አንድ የዋጋ ቻናል በንብርብር 10 ውስጥ ይጠቀማል። ሞዴሉ (1) በአንድ ቀሪ ቻናል ውስጥ ነጠላ ትእምርተ ጥቅሶችን እና በሌላኛው ደግሞ ድርብ ትእምርተ ጥቅሶችን ይመዘግባል፤ (2) ይህንን፣ ማንኛውንም ትእምርተ ጥቅስ መለየት ወደሚችል አንድ ቻናል እና በነጠላ እና በድርብ ትእምርተ ጥቅሶች መካከል የሚመደብ ሌላ ቻናል ለመቀየር የMLP ንብርብር ይጠቀማል፤ (3) የሚጠላለፉ ቶከኖችን ችላ ለማለት፣ ቀዳሚውን ትእምርተ ጥቅስ ለማግኘት እና አይነቱን ወደ መጨረሻው ቶከን ለመቅዳት የትኩረት ክወና ይጠቀማል፤ እና (4) ተዛማጅ የመዝጊያ ትእምርተ ጥቅስን ይተነብያል።

በእኛ ፍቺ፣ ከላይ የተጠቀሱት ትክክለኛ ግንኙነቶች ተግባሩን ለማከናወን በቂ ናቸው—የቀረውን የሞዴሉን ክፍል ብናስወግደው፣ ይህ ትንሽ ሰርኪውት አሁንም ይሰራል። እነሱ አሁንም አስፈላጊ ናቸው–እነዚህን ጥቂት ጠርዞች ማስወገድ ሞዴሉ እንዲበላሽ ያደርገዋል።

እንዲሁም አንዳንድ ይበልጥ ውስብስብ ባህሪያትን ተመልክተናል። የእነዚህ ባህሪያት (ለምሳሌ ከታች የሚታየው ተለዋዋጭ ትስስር) ሰርኪውቶቻችን ሙሉ በሙሉ ለማብራራት አስቸጋሪ ናቸው። እንደዚያም ሆኖ፣ የሞዴል ባህሪን የሚተነብዩ በአንጻራዊነት ቀላል ከፊል ማብራሪያዎችን ማግኘት እንችላለን።

በPython ተግባር ውስጥ የ get_neighbors ውስጥ የተነጣጠለ-ትራንስፎርመር ሰርኪውት ምሳሌን የሚያሳይ ዲያግራም። ሁለት ተግባራት ወደ current = set() ሳጥን ውስጥ ተይዘዋል፣ ባለቀለም ቀስቶች የትኞቹ የትኩረት ራሶች (በQ/K/V ኢንዴክሶች የተሰየሙ) ተለዋዋጭ ዋጋ ያለው connect እያንዳንዱን ክስተት በዑደት ውስጥ ካለው አጠቃቀም ጋር ለማገናኘት እንደሚነቃ ያሳያሉ።

ሌላ የምሳሌ ዑደት፣ በአነስተኛ ዝርዝር። current የሚባለውን ተለዋዋጭ ዋጋ ያለውን ለመወሰን፣ አንድ የትኩረት ኦፕሬሽን የተለዋዋጭ ዋጋውን ስም ሲገለጽ ወደ set() ቶከን ይገለብጣል፣ እና ሌላ በኋላ ላይ ያለው ኦፕሬሽን የ set() ቶከን አይነት ወደ ተለዋዋጭ ዋጋው ቀጣይ አጠቃቀም ይገለብጣል፣ ይህም ሞዴሉ ትክክለኛውን ቀጣይ ቶከን እንዲገምት ያስችለዋል።

ወደፊት የሚወስደው መንገድ

ይህ ሥራ፣ የሞዴል ስሌቶችን ለመረዳት ቀላል ማድረግ ወደሆነው ትልቅ ግብ የሚወስደን የመጀመሪያ እርምጃ ነው። ነገር ግን፣ አሁንም ረጅም መንገድ ይቀራል። የእኛ የተነጣጠሉ ሞዴሎች ከዋና ሞዴሎች በጣም ያነሱ ናቸው፣ እና የስሌታቸው ትላልቅ ክፍሎች አሁንም አልተተረጎሙም።

በመቀጠል፣ ቴክኒኮቻችንን ወደ ትላልቅ ሞዴሎች ለማሳደግ እና የሞዴሎቹን ባህሪ የበለጠ ለማብራራት ተስፋ እናደርጋለን። ብቃት ባላቸው የተነጣጠሉ ሞዴሎች ውስጥ ይበልጥ ውስብስብ የሆኑ አመክንዮዎችን መሰረት የሚገነቡ የሰርኪውት ሀሳቦችን በመዘርዘር፣ የዋና ሞዴሎችን ምርመራዎች በተሻለ ሁኔታ ለማነጣጠር የሚረዳን ግንዛቤ ማዳበር እንችላለን።

የተነጣጠሉ ሞዴሎችን ማሰልጠን ውጤታማ አለመሆንን ለማሻሻል ሁለት መንገዶችን እናያለን። አንደኛው፣ የተነጣጠሉ ሰርኪውቶችን ከባዶ ከማሰልጠን ይልቅ ከነባር ጥቅጥቅ ያሉ ሞዴሎች ላይ የተነጣጠሉ ሰርኪውቶችን ማውጣት ነው። ጥቅጥቅ ያሉ ሞዴሎች ከተነጣጠሉ ሞዴሎች ይልቅ ለመተግበር በመሠረታዊ ደረጃ የበለጠ ውጤታማ ናቸው። ሌላኛው መንገድ ለመተርጎም ችሎታ ሞዴሎችን ለማሰልጠን የበለጠ ቀልጣፋ ቴክኒኮችን ማዘጋጀት ሲሆን ይህም ወደ ምርት ለማስገባት ቀላል ሊሆን ይችላል።

እዚህ ያሉ ግኝቶቻችን ይህ አካሄድ ወደ ይበልጥ አቅም ያላቸው ስርዓቶች እንደሚዘልቅ ዋስትና እንደማይሆን ልብ ይበሉ፣ ነገር ግን እነዚህ የመጀመሪያ ውጤቶች ተስፋ ሰጪ ናቸው። ዓላማችን አንድን ሞዴል በአስተማማኝ ሁኔታ ምን ያህል መተርጎም እንደምንችል ቀስ በቀስ ማስፋት እና የወደፊት ስርዓቶችን ለመተንተን፣ ለማረም እና ለመገምገም ቀላል የሚያደርጉ መሳሪያዎችን መገንባት ነው።

ደራሲዎች

Leo Gao፣ Achyuta Rajaram፣ Jacob Coxon፣ Soham V. Govande፣ Bowen Baker እና Dan Mossing

ማንበብዎን ይቀጥሉ

ሁሉንም ይመልከቱ

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

ሕትመትኦገስ 1 2026

ሁለት ቅንብሮችን ማንቃት የARC-AGI-3 ውጤታችንን እንዴት በሦስት እጥፍ እንዳሳደገው

ምርምርጁላይ 29 2026

oai Science Academic Research Academic Research 1x1

በChatGPT for Academic Researchers ሳይንሳዊ ግኝትን ማፋጠን

ኩባንያጁላይ 29 2026