ለታማኝ የሶስተኛ ወገን ግምገማዎች የጋራ መመሪያ
ለግንባር ቀደም ሞዴሎች የጥበቃ መንገዶችን እና ችሎታዎችን በብቃት ለመገምገም በገለልተኛ ግምገማዎች ውስጥ ወሳኝ የሆኑ ነገሮች።
ገለልተኛ እና ታማኝ የሶስተኛ ወገን ግምገማዎች የደህንነት ሥነ-ምህዳሩን ለማጠናከር ወሳኝ ሚና ይጫወታሉ። እነዚህ ግምገማዎች በግንባር ቀደም ሞዴሎች ላይ የሚካሄዱ ሲሆን ስለ ወሳኝ ችሎታዎች እና የደህንነት መቀነሻዎች አቤቱታዎች ተጨማሪ ማስረጃ ለማቅረብ ነው። በዚህ ጽሑፍ ውስጥ እስካሁን የተማርናቸውን ትምህርቶች እናጋራለን፣ እንዲሁም በዚህ መስክ እየተፈጠሩ ያሉ መስፈርቶችን ለማሳወቅ ይረዳሉ ብለን የምንጠብቃቸውን ግንባር ቀደም ሞዴሎች በትክክል ሊገመግሙ የሚችሉ ግምገማዎችን ለመንደፍ አቀራረቦችን እንመክራለን።
ቀደም ሲል ብዙ ግምገማዎች ሞዴሎችን እንደ ቻትቦቶች ይመለከቱ ነበር፦ ግምገማው ሞዴሉን እንደ ጥያቄ የሚጠይቅ ተጠቃሚ አድርጎ እርምጃ ይሰጠው ነበር፣ ሞዴሉም ይመልስ ነበር፣ ከዚያም ገምጋሚ ውጤቱን ይፈርድ ነበር። የዛሬዎቹ ግንባር ቀደም ሞዴሎች ከዚህ በላይ ብዙ ነገር ማድረግ ይችላሉ፦ መሳሪያዎችን መጠቀም፣ መረጃን በብዙ ደረጃዎች ላይ መከታተል እና በትልቅ የስራ ፍሰት ውስጥ መስራት ይችላሉ። ይህ ማለት አፈጻጸም በሞዴሉ ብቻ ሳይሆን ተግባሩ በሚካሄድበት አካባቢ እና ድርጊቶቹን በሚያመቻች ማዋቀር ላይም እንደሚመረኮዝ ነው። ይህ ዙሪያዊ ማዋቀር፣ እኛ “ሀርነስ” ብለን የምንጠራው፣ ስርዓቱ መሳሪያዎችን እንዴት እንደሚጠቀም፣ መረጃን እንዴት እንደሚከታተል ወይም ከስህተቶች እንዴት እንደሚያገግም ጨምሮ የስርዓቱን አፈጻጸም ቁልፍ ገጽታዎች ሊቀይር ይችላል።
ይህ ግምገማዎች እንዴት መካሄድ እንዳለባቸው እና አንባቢዎች በግምገማ ሪፖርቶች ውስጥ ምን መፈለግ እንዳለባቸው ይቀይራል። በእኛ እይታ፣ ከውጤቱ ራሱ ባሻገር ሁለት ነገሮችን በግልጽ የሚገልጹ ሪፖርቶች በጣም ጠቃሚ ናቸው፦ መጀመሪያ፣ የግምገማ ማዋቀሩ ለመፈተን የተነደፈው ምን አይነት አቤቱታ እንደሆነ ይገልጻሉ፣ ሁለተኛም የግምገማው ውጤት ትክክለኛ መሆኑን የሚያሳይ ያለውን ማስረጃ ያጋራሉ።
በግምገማዎች የሚፈተኑ አቤቱታዎች ብዙውን ጊዜ ከሶስት ምድቦች በአንዱ ውስጥ ይወድቃሉ1፦
- የችሎታ ማውጣት፦ ሞዴል እየተገመገመ ያለውን ችሎታ በምክንያታዊነት ሊያሳይ ይችላልን?
- የጥበቃ መንገድ አፈጻጸም፦ የተፈተኑት የጥበቃ መንገዶች እየተገመገመ ካለው ባህሪ ወይም ጥቃት አንጻር ምን ያህል ጠንካራ ናቸው?
- ንጽጽር፦ የተለያዩ ሞዴሎች በተመጣጣኝ ሁኔታዎች ስር እንዴት ያሳያሉ?
የግምገማ ሪፖርቶች እንዲሁም ገምጋሚዎች የውጤት ትክክለኛነትን ሊጎዱ የሚችሉ ተጽእኖዎችን እንዴት እንደፈተሹ ማብራራት ያስፈልጋቸዋል። እነዚህ የሚካተቱት፦
- ሽልማት ጠለፋ፦ ስርዓቱ ግምገማው ሊለካው የታሰበውን ባህሪ ሳያሳይ ክሬዲት እንዲያገኝ በተግባሩ ወይም በነጥብ አሰጣጡ ውስጥ ያሉ አቋራጮችን መጠቀም።
- እምቢታዎች፦ እየተፈተነ ያለውን ባህሪ በሚያደብቅ መንገድ እምቢ ማለት።
- ብክለት፦ የግምገማ ተግባሮች፣ መልሶች ወይም ቅርብ ተለዋጮች በስልጠና መረጃ ውስጥ ስለታዩ ወይም በግምገማ ጊዜ ሊገኙ ስለቻሉ፣ ለምሳሌ በbrowsing በኩል፣ ከሚገባው በላይ አፈጻጸም ማሳየት።
- የተበላሹ ችግኝቶች፦ ተግባሮች ትክክል ስላልሆኑ ዝቅተኛ አፈጻጸም ማሳየት። ምክንያቶቹ የማይፈትህ ነጥብ አሰጣጥን (ለምሳሌ፦ ትክክለኛ መልስ ያልተገለጹ የአተገባበር ዝርዝሮችን ሲፈልግ) እና ሊፈቱ የማይችሉ አካባቢዎችን (ለምሳሌ፦ አስፈላጊ ፋይሎች ሲጎድሉ ወይም መሳሪያዎች የማይታመኑ ሲሆኑ) ሊያካትቱ ይችላሉ።
- ሳንድባጊንግ፦ እየተገመገመ መሆኑን ግንዛቤ ሲያሳዩ በተፈጥሮ ዝቅተኛ አፈጻጸም ማሳየት።
የሀርነስ ሚና በተለይ በረዘሙ መንገዶች ላይ ለሚሰሩ ስርዓቶች እጅግ አስፈላጊ መሆኑን ተመልክተናል። ሞዴሎች መሳሪያዎችን መጠቀም፣ ሁኔታን መጠበቅ እና ከስህተቶች በብዙ ደረጃዎች ላይ ማገገም ሲችሉ፣ ሀርነስ የሚታየውን የአፈጻጸም ደረጃ ሊቀይር ይችላል፣ እንዲሁም እየተገመገመ ያለው ችሎታ በግምገማው ውስጥ ፈጽሞ ይታያል ወይስ አይታይም የሚለውንም ሊወስን ይችላል። ለምሳሌ፣ ሁኔታን የሚጠብቅ እና ያልተሳኩ ድርጊቶችን ደግሞ የሚሞክር ሀርነስ አንድ ሞዴል በቀላል ሀርነስ ውስጥ ፈጽሞ የማያጠናቅቀውን ባለብዙ ደረጃ ተግባር እንዲጨርስ ሊያስችለው ይችላል።
ከታች ባለው ሰንጠረዥ ውስጥ፣ ገምጋሚዎች ሊያቀርቧቸው የሚፈልጉትን ሶስት ዓይነት አቤቱታዎች እና እያንዳንዱ ዓይነት አቤቱታ የሚፈልገውን ሀርነስ ለይተናል።
ግምገማው ሊደግፈው የሚሞክረው አቤቱታ | ተገቢ የሀርነስ ምርጫ | ሪፖርት ሊደረግ የሚገባ ማስረጃ |
ጠንካራ ችሎታ ማውጣት ስር ያለ ችሎታ፦ ማዋቀሩ በጣም ጠንካራ እና እምነት የሚጣልበትን አፈጻጸም ለማውጣት በተነደፈ ጊዜ ስርዓት A የአይነት X ተግባሮችን ማጠናቀቅ ይችላል። | ብቃት ያለው ተጠቃሚ በምክንያታዊነት የሚጠቀመውን ሀርነስ፣ መሳሪያዎች፣ ስካፎልዲንግ እና በጀት ጨምሮ ለስርዓቱ በጣም ጠንካራ እና እምነት የሚጣልበትን የችሎታ ማውጣት ማዋቀር ይጠቀሙ። | የሀርነስ እና የመሳሪያ ማዋቀር፣ የችሎታ ማውጣት መመሪያ፣ የተፈቀደ በጀት/ጥረት፣ ቶክኖች/ወጪ/ጊዜ፣ እና ማዋቀሩ ለተጠየቀው ችሎታ እምነት የሚጣልበት ተወካይ ለምን እንደሆነ። ስርዓቶችን በተለያዩ የተመቻቹ ማዋቀሮች ስር እያነጻጸሩ ከሆነ፣ እንደ ስርዓት-ከስርዓት ወይም ጠንካራ-ችሎታ-ማውጣት ንጽጽር መለያ ይስጡት። |
ቁጥጥር ያለው ንጽጽር፦ ስርዓት ሀ በተጋራ የግምገማ ማዋቀር ስር ከስርዓት ለ የተሻለ አፈጻጸም ያሳያል። | ተግባሮቹን፣ ነጥብ አሰጣጡን እና በጀቱን ቋሚ ያድርጉ። የሚነጻጸሩትን ስርዓቶች ምክንያታዊ ከፍተኛ ችሎታ ማውጣት ለማቅረብ አስቀድሞ የተመረጡ የመደበኛ ሀርነስ ስብስቦችን ወይም የተጋራ ሀርነስ/መሳሪያ ማዋቀርን ይጠቀሙ። | የተጋራው የተግባር ስብስብ፣ መሳሪያዎች፣ የነጥብ አሰጣጥ ዘዴ፣ ሀርነስ፣ በጀት፣ የቶክን ብቃት/ወጪ፣ እና የሚታወቁ ገደቦች። ለኮድ ወኪል ግምገማዎች፣ እንደ Codex CLI ያለ ክፍት-ምንጭ ሀርነስ በስርዓቶች ሁሉ ላይ ቋሚ የወኪል ዙር እና የመሳሪያ በይነገጽ ሊያቀርብ ይችላል። ለከፍተኛ ችሎታ ማውጣት ተስማሚው አቀራረብ ለእያንዳንዱ ተግባር እና ስርዓት ልዩ ሀርነስ ማመቻቸት ነበር፣ ግን ይህ በአሁኑ ጊዜ በተግባር አይቻልም። |
በተነሳ ጥቃት ስር ያለ የጥበቃ መንገድ ጽናት፦ ስርዓት A የጥበቃ መንገዶች ለተዛማጅ የሞዴል ባህሪ ወይም ለተነሳ ጥቃት በቂ ናቸው። | በተዛማጅ የተቃዋሚ ሞዴል ስር በጣም ጠንካራ እና እምነት የሚጣልበትን ጥቃት ለማውጣት የተነደፈ የጥበቃ መንገድ-ሙከራ ማዋቀር ይጠቀሙ። | ገምጋሚዎች ተዛማጅ የሞዴል ባህሪን እንዴት እንደገለጹት፣ የተፈተነው የጥበቃ መንገድ ውቅረት፣ የችሎታ ማውጣት ስትራቴጂ፣ እሱን ለማስፈጸም የተጠቀሙት ሀርነስ፣ እና የተፈቀደው በጀት ወይም ጥረት። |
የችሎታ አቤቱታዎች ከኋላቸው ባለው የችሎታ ማውጣት ጥንካሬ ብቻ ያህል ጠንካራ ናቸው፦ ገምጋሚዎች ተግባሩን እና ግምገማው ሊለካው የሚሞክረውን ችሎታ በተሻለ ሁኔታ የሚስማማውን ሀርነስ መምረጥ ያስፈልጋቸዋል። መደበኛ ሀርነስ በተመሳሳይ ሁኔታዎች ስር ስርዓቶችን ለማነጻጸር ተገቢ ሊሆን ይችላል፣ ነገር ግን ሞዴሉ ተግባሩን እንዲፈጽም የሚያግዙ የተወሰኑ የሀርነስ ባህሪያትን ሲተው ችሎታን ከሚገባው በታች ሊያሳይ ይችላል። ለምሳሌ፣ GPT‑5.5 በOpenAI የcyber ranges ላይ ያሳየው አፈጻጸም የሀርነስ ምርጫ ረጅም እና ባለብዙ ደረጃ የመሳሪያ አጠቃቀም በሚፈልጉ ተግባሮች ላይ የተለካውን ችሎታ በተጨባጭ እንዴት ሊቀይር እንደሚችል ያሳያል፦ ግንኙነቱ ሲረዝም ከተግባሩ ጋር ተዛማጅ አውድን ለማስጠበቅ ሀርነስ ኮምፓክሽን ሲጠቀም ሞዴሉ የተሻለ አፈጻጸም ያሳያል። ይህ ለተወሰኑ ሞዴሎች compaction የማያካትት ሀርነስ አፈጻጸምን በቂ ሁኔታ እንደማያወጣ ያሳያል።
ከፍ ያለ የስኬት መጠን የተሻለ ነው
ሌሎች የታተሙ ግምገማዎች2 ደግሞ የሀርነስ እና የበጀት ምርጫዎች የግምገማ ውጤቶችን እንደሚቀይሩ ያሳያሉ። በፈተና ጊዜ የሚጨመር ኮምፒውት ግምገማ የሚያወጣውን ችሎታ በከፍተኛ ሁኔታ ሊቀይር ይችላል፣ በተለይም ስኬት ማረጋገጥ ቀላል በሆነባቸው መስኮች፣ እንደ ብዙ የcyber ተግባሮች። በUK ኤ.አይSI የcyber range ግምገማ(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ በጀቱን ከ10M ወደ 100M ቶክኖች ማሳደግ አፈጻጸምን እስከ 59% ድረስ አሻሽሏል፣ እና አፈጻጸም በተፈተነው ከፍተኛ በጀት ላይም እየጨመረ ነበር። ይህን በዝርዝር መግለጽ ግምገማውን የበለጠ ለመተርጎም ያስችላል፦ ውጤቱ በተፈተነው የችሎታ ማውጣት ማዋቀር ላይ እንዴት እንደሚመረኮዝ ለአንባቢዎች ያሳያል። አፈጻጸም በተጨማሪ በጀት ሲሻሻል ከቀጠለ፣ ነጥቡ በዚያ ሀርነስ እና በጀት ስር ያለ አፈጻጸም ተብሎ መገለጽ አለበት፣ እንጂ የተለካ የችሎታ ጣሪያ እንደሆነ አይደለም። ችሎታ ብዙ ጊዜ በሀብት ላይ የሚመረኮዝ ነው እንጂ አንድ ጊዜ ብቻ በንጹህ ሁኔታ ሊለካ የሚችል ቋሚ መጠን አይደለም። ስኬት በተደጋጋሚ ሙከራዎች ላይ ሊለካ በሚችልበት ቦታ፣ ሪፖርቶች በቋሚ ቶክን በጀት ላይ ያለውን የስኬት መጠን ብቻ ሳይሆን ለእያንዳንዱ የተሳካ መፍትሄ የሚጠበቀውን ወጪም ሊያስቡ ይገባል። ይህ ክብደትን ለመተርጎም ቀላል ሊያደርገው ይችላል፦ የተደጋጋሚ ሙከራዎች ወጪ በተዛማጅ የስጋት ሞዴል ውስጥ ከሆነ፣ ዝቅተኛ የስኬት መጠን እንኳን በተግባር ትርጉም ሊኖረው ይችላል። ለችሎታ አቤቱታዎች፣ ሊወገድ የሚችል ዝቅተኛ ችሎታ ማውጣት የመለኪያ ውድቀት ነው፦ ሀርነስ ወይም በጀት ስርዓቱ በሌላ ሁኔታ ሊያሳየው የሚችለውን ባህሪ እንዳያሳይ ከከለከለው፣ ነጥቡ የተጠየቀውን ችሎታ አይለካም። ገምጋሚዎች ችሎታ ማውጣትን በተቻለ መጠን እስከ መጨረሻ ድረስ ካደረጉ እና አፈጻጸም አሁንም እየተሻሻለ ከሆነ፣ ሪፖርቶች ይህን በግልጽ መናገር እና ውጤቱ ዝቅተኛ-ወሰን ግምት ብቻ መሆኑን ግልጽ ማድረግ አለባቸው።
የጥበቃ መንገድ ሙከራ ጥቃት ሊሳካ መቻሉን እና ምን ያህል ከባድ ሊሆን እንደሚችል ከሚገባው በታች ሊያሳይ ይችላል፣ ጥቃት አድራሾች ያላቸውን ሀብቶች ጨምሮ ልዩ ሀርነስ ዎችን ካላስተዋለ። በUK AISI የGPT‑5.5 cyber ግምገማ(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ የእነሱ የባለሙያ red teaming በOpenAI በቀረቡ ክፉ ጥያቄዎች ሁሉ ላይ፣ ባለብዙ-ዙር ወኪላዊ ሁኔታዎችንም ጨምሮ፣ የሚጣስ የcyber ይዘት ያወጣ አንድ universal jailbreak አግኝተዋል። የሞዴሉን የጥቃት አፈጻጸም ለማጠናከር ልዩ ሀርነስ ለመፍጠር Codex ተጠቅመዋል፦ ደጋግሞ ሊጠቀም የሚችል የጥበቃ-መንገድ ማለፊያ ንድፍን በግንኙነቱ ውስጥ አስገብቷል፣ ያንን ንድፍ በዙሮችና ብሎኮች ላይ ጠብቆታል፣ እና OpenAI በቀረቡ ክፉ የcyber ጥያቄዎች ላይ ተግባራዊ አድርጎታል። የጥበቃ መንገድ ሙከራ ከተቃዋሚው ጋር መጣጣም አለበት። አቤቱታው ስለ ባለሙያ አላግባብ አጠቃቀም ጽናት ከሆነ፣ ሙከራው በተወሰነ በጀት ስር ያለውን በጣም ጠንካራ እና እምነት የሚጣልበትን ከመጨረሻ እስከ መጨረሻ የጥቃት ስትራቴጂ መገምገም አለበት፣ ያንን ስትራቴጂ ለማስጠበቅ እና ደግሞ ለመጠቀም የሚያስፈልግ ማንኛውንም ሀርነስ ጨምሮ። አለበለዚያ ውጤቶቹ የተሳሳተ መለኪያ አደጋ አላቸው፦ ለቀላል እርምጃ መቋቋም ብቻ የሚመለከት የተጠበበ አቤቱታ ብቻ ሊደግፉ ይችላሉ፣ የችሎታ ማውጣት ዘዴው በተግባር ሲውል ጥቃቱ ምን ያህል ከባድ እንደሚሆን እና የስኬት እድሉን ሁለቱንም ሊያመልጡ ይችላሉ፣ እንዲሁም በጣም ብዙ በጀት ከተሰጠ ችግኝት ምን ያህል የሚከሰት ወይም ከባድ እንደሆነ ከሚገባው በላይ ሊያሳዩ ይችላሉ።
ለመደበኛ ሀርነስ ንጽጽሮች የሚሆን ጊዜና ቦታ አለ፣ ነገር ግን ገምጋሚዎች ተመሳሳይ የሀርነስ ስብስብ መጠቀም ለምን ተገቢ እንደሆነ እና ምን አይነት አቤቱታ ሊደግፍ እንደሚችል ግልጽ መሆን አለባቸው። የMETR የጊዜ-አድማስ ግምገማ(በአዲስ መስኮት ውስጥ ይክፈታል) የሰፊ እና በተገቢ ሁኔታ የተቋረጠ የግምገማ ማዋቀር ምሳሌ ነው፦ የተገመገሙት ስርዓቶች መካከል ተነጻጻሪ ውጤቶችን ለማምጣት የተነደፈ ነው። METR አንድ የጋራ ውጤት ይገልጻል፣ ማለትም የAI ወኪል በተወሰነ የታማኝነት ደረጃ ሊሳካበት ይችላል ተብሎ የሚገመተው የሰው ተግባር የተለመደ ቆይታ። በአንድ ላይ በሚሪፖርቱ የግምት ስብስቦች ውስጥ የተጋራ የተግባር ስብስብ፣ የነጥብ አሰጣጥ ዘዴ፣ የማስማማት ዘዴ፣ እና እንደ Triframe and ReAct(በአዲስ መስኮት ውስጥ ይክፈታል) ያሉ ትንሽ ዳግም ሊጠቀሙ የሚችሉ scaffolds ይተገብራል። METR የተግባር ስብስቡን ሲያሰፋ እና የግምገማ መሠረተ ልማቱን Vivaria ከተባለ ፍሬምወርክ ወደ Inspect ከተባለ ሌላ ሲያንቀሳቅስ፣ ለውጡን ሪፖርት አድርጓል (Time Horizon 1.1 update(በአዲስ መስኮት ውስጥ ይክፈታል)) እና ሞዴሎችን በአዲሱ የግምገማ ማዋቀር ስር እንደገና ገምግሟል። ይህ የመደበኛ የግምገማ ማዋቀር እሴት ነው፣ ተመሳሳይ የሀርነስ ስብስብንም ጨምሮ፦ በነጥቦች ውስጥ ያለው ልዩነት በእውነት በሚነጻጸሩት ስርዓቶች መካከል ያለ ልዩነትን እንጂ በመለኪያ ማዋቀሩ ለውጥ እንዳይወክል ለአንባቢዎች እምነት ሊሰጥ ይችላል።
የሶስተኛ ወገን የግምገማ ሪፖርቶች የግምገማ ማዋቀራቸው ሊደግፈው የታሰበው ምን አይነት አቤቱታ እንደሆነ እንዲገልጹ፣ የተፈተነው ነገር ያንን ሰፊ አቤቱታ ምን ያህል እንደሚወክል እንዲገልጹ፣ ውጤቱን የቀረጹትን የሀርነስ ምርጫዎች እንዲገልጹ፣ እነዚያ ምርጫዎች በግምገማዎች መካከል ሲቀየሩ በዝርዝር እንዲገልጹ፣ እና ውጤቱ እንዴት እንደተፈጠረ እና ለአቤቱታው ምን ያህል እንደሚጠቅም ለማሳየት የሚደግፍ ማስረጃ እንዲያካትቱ እንመክራለን።
ሞዴሎች የበለጠ ችሎታ ሲኖራቸው፣ የግምገማ ነጥቦችን በትክክል መተርጎም የበለጠ አስቸጋሪ ይሆናል። ከእውነተኛ ችሎታዎች አንጻር፣ ሞዴል እየተገመገመ መሆኑን ካወቀ እና በስትራቴጂ ዝቅተኛ አፈጻጸም ካሳየ፣ የግምገማ ነጥቦች በሰው ሠራሽ መንገድ ሊቀንሱ ይችላሉ። ሞዴሉ በተግባሩ፣ በእርምጃው፣ በነጥብ አሰጣጡ ወይም በሀርነስ ውስጥ ያለ አቋራጭ ከተጠቀመ፣ እነሱ ሊጨምሩ ይችላሉ። እነሱ በብክለትም ሊዛቡ ይችላሉ (ሞዴል ተግባሩን ሳይፈታ መልሱን አስቀድሞ ሲያውቅ ወይም ሊያገኘው ሲችል) ወይም ግልጽ ያልሆኑ፣ በትክክል ያልተነጠቡ፣ ሊፈቱ የማይችሉ ወይም ያልታሰቡ አቋራጮችን ለሚፈቅዱ “የተበላሹ” ችግኝቶች ምክንያት። ስለዚህ የግምገማ ሪፖርቶች ዋና ነጥቦችን ከእነዚህ አደጋዎች ውይይት ጋር ማጣመር አለባቸው፣ እንዲሁም አንባቢዎች ነጥቦቹ የታሰበውን ባህሪ እንደሚያንጸባርቁ መገምገም ይችላሉ።
ሀርነስ ዎች፣ በጀቶች፣ መሳሪያዎች፣ የነጥብ አሰጣጥ ህጎች፣ መከታተያዎች እና የክለሳ ሂደቶች ሁሉ ወኪል የታሰበውን ተግባር እየፈታ እንደሆነ፣ እየሸሸው እንደሆነ፣ እየተዘከረው እንደሆነ ወይም በዙሪያው መንገድ እየፈለገ እንደሆነ ላይ ተጽእኖ ያሳድራሉ። ታማኝ ሪፖርት እነዚያን ምርመራዎች ግልጽ ያደርጋል፦ ገምጋሚዎች ግምገማ በሚካሄድበት ሁሉ ጊዜ እነዚህን ባህሪዎች ለማየት ናሙናዎችን መከለስ አለባቸው።
ሽልማት ጠለፋ
ሽልማት ጠለፋ ማለት የታሰበውን ችሎታ በማያንጸባርቁ መንገዶች ከፍተኛ የግምገማ ነጥቦችን ማግኘት ማለት ነው። እዚህ ያለው ስጋት ስርዓቱ ግምገማው ሊለካው የታሰበውን ስራ በመስራት ሳይሆን ተግባሩን፣ ነጥብ አሰጣጡን፣ እርምጃውን ወይም ሀርነስ ን በመጠቀም ክሬዲት ማግኘቱ ነው። METR የGPT 5.4 ግምገማ(በአዲስ መስኮት ውስጥ ይክፈታል) ይህ ለምን እንደሚያስፈልግ ያሳያል፦ ሞዴሉ በመጀመሪያ እይታ በግምት 13 ሰዓት የጊዜ አድማስ እንደሚያመለክት በሚታይ መጠን በተግባሮች ላይ ቢሳካም፣ የሰው ክለሳ ከእነዚያ ስኬቶች አንዳንዶቹ reward hacking እንደነበሩ አሳይቷል፣ እና reward hacking የሌለባቸውን ሁኔታዎች ብቻ ለማካተት ውጤቶቹን ማሻሻል ግምቱን ወደ 6 ሰዓት ገደማ አውርዶታል። ገምጋሚዎች እንዲህ ያሉ ማስተካከያዎች ያስፈልጋሉ ወይስ አያስፈልጉም መገምገም አለባቸው፣ እና ሲያስፈልጉ በግልጽ ሪፖርት ማድረግ አለባቸው፦ አንባቢዎች የትኞቹ የታዩ ስኬቶች እንደተሰረዙ፣ ለምን እንደተሰረዙ እና ውጤቱ በዚያ ፍርድ ምን ያህል እንደሚመረኮዝ ሲያዩ የችሎታ ግምት እጅግ የበለጠ ጠቃሚ ይሆናል።

እምቢታዎች
ሞዴሎች በጥበቃ መንገዶች ምክንያት በችሎታ ግምገማዎች ውስጥ ዝቅተኛ አፈጻጸም ሊያሳዩ ይችላሉ። ሞዴል የግምገማ ተግባሮችን ከማጠናቀቅ ይልቅ እምቢ ስለሚል ከሚችለው በታች የግምገማ አፈጻጸም ሊኖረው ይችላል። ስለዚህ ሪፖርቶች እምቢታዎች የግምገማ ውጤቶች አካል እንደነበሩ እና ከሆነም በእነሱ ምክንያት ስንት ናሙናዎች እንደተጎዱ ማብራራት አለባቸው።
ብክለት
ብክለት በተለይ የህዝብ ወይም ዳግም ጥቅም ላይ የዋሉ benchmark ዎች ላይ አስፈላጊ ነው። ተግባሮች፣ መልሶች ወይም ቅርብ ተለዋጮች በስልጠና መረጃ ውስጥ ከታዩ ወይም browsing ያለው ወኪል ሊያገኛቸው ከቻለ፣ አፈጻጸም ከሞዴል አፈጻጸም ይልቅ ማስታወስን ወይም መመለስን ሊያንጸባርቅ ይችላል። ገምጋሚዎች በሚቻልበት ጊዜ የግል ወይም አዲስ የተገነቡ ተግባሮችን መምረጥ አለባቸው፣ እና ሞዴሎች ከመፍታታቸው በፊት ለተግባሩ ልዩ ዝርዝሮችን እንደሚደግሙ መፈተሽ አለባቸው።
የተበላሹ ችግኝቶች
የተበላሹ ችግኝቶች በአጋጣሚ ሊፈታ የማይችል ችግኝት ያሉ ሁኔታዎችን ያካትታሉ። የተበላሹ ችግኝቶች በቂ መጠን የተለመዱ(በአዲስ መስኮት ውስጥ ይክፈታል) ስለሆኑ እንደ መደበኛ የትክክለኛነት አደጋ መቆጠር አለባቸው። እነዚህ የተሳሳተ መሰረታዊ እውነታ፣ ግልጽ ያልሆኑ እርምጃዎች፣ የጎደሉ ፋይሎች፣ የማይረጋጉ አገልግሎቶች፣ ፍትሃዊ ያልሆኑ የነጥብ አሰጣጥ መስፈርቶች፣ እና እንደ የተደበቁ የመልስ ፋይሎች ወይም መሰረታዊ-እውነታ ፓች ያለበት የማከማቻ ታሪክ ያሉ አቋራጮችን የሚያጋልጡ አካባቢዎችን ያካትታሉ።
ሳንድባጊንግ
በሞዴል ወይም በስርዓት የሚፈጸም ሳንድባጊንግ ማለት ጠንካራ አፈጻጸም ከአንዳንድ ዓላማ ጋር ሲጋጭ በስትራቴጂ ዝቅተኛ አፈጻጸም ማሳየት ማለት ነው። Apollo የ GPT‑5.5 ግምገማ(በአዲስ መስኮት ውስጥ ይክፈታል) ይህን የፈተነው ከፍተኛ የግምገማ ነጥቦች ያልተማረ ማድረግን ሊያስነሱ ወይም ማሰማራትን ሊያግዱ እንደሚችሉ ሞዴሉ የሚረዳበትን አውድ በመፍጠር ነው። GPT‑5.5 አሁንም ትክክለኛ መልስ ሰጥቷል፣ ይህም የስትራቴጂ ዝቅተኛ አፈጻጸም ባህሪያዊ ማስረጃ ትንሽ መሆኑን ያመለክታል3። ነገር ግን የማመዛዘን ዱካዎችን ያደረጉት ክለሳ አስፈላጊ አውድ ጨምሯል፦ Apollo በሳንድባጊንግ-ሁኔታ ናሙናዎች 52% ውስጥ መጠነኛ ወይም ከዚያ በላይ የalignment-evaluation awareness ምልክቶች አግኝቷል፣ ይህም በcounterfactuals ውስጥ 0% ነበር። ያ ማስረጃ የውጤቱን ትርጓሜ ያወሳስባል፣ ግን በመጨረሻ ለአንባቢዎች የበለጠ ምልክት ይሰጣል፦ አንባቢዎች ሁለቱንም የሚያረጋጋውን ባህሪያዊ ውጤት እና ከመጠን በላይ ለመተርጎም ጥንቃቄ ለማድረግ ያለውን ምክንያት ማየት ይችላሉ።
ጠንካራ አቤቱታዎች ባህሪውን ለማውጣት ትክክለኛውን ሀርነስ እና ውጤቱ ጤናማ መሆኑን ለማሳየት የትክክለኛነት ምርመራዎችን ሁለቱንም ይፈልጋሉ። ሀርነስ ዎች እና የትክክለኛነት ምርመራዎች የግምገማ ውጤት አካል ናቸው የሚለው እይታችን በተግባር የሶስተኛ ወገን ግምገማዎችን እንዴት እንደምንደግፍ ይቀርጻል፦
- ለገምጋሚዎች የተወሰነ የከፍተኛ ችሎታ ማውጣት መመሪያ እያጋራን ነው።
- የችሎታ ገምጋሚዎች የOpenAI ሞዴሎች ላይ Codex ን እንደ የጋራ ዝቅተኛ መስፈርት እንዲጠቀሙ እየጠየቅናቸው ነው፦ ፈተናዎች ቢያንስ መሠረታዊ መለኪያን ተጠቃሚዎች ሊተማመኑበት በሚችሉት ተመሳሳይ ወኪላዊ በይነገጽ ላይ ማስኬድ አለባቸው እንጂ በተቀነሰ የሞዴል በይነገጽ ብቻ አይደለም።
- እንዲሁም ማታለልን፣ ሳንድባጊንግ ን ወይም የግምገማ ግንዛቤን ለመገምገም በሚያስፈልጉበት ጊዜ የማመዛዘን ዱካዎችን እና ሌሎች መካከለኛ ማስረጃዎችን እንዲገኙ እያደረግን ነው። METR እና Apollo ይህን ተደራሽነት ከGPT‑5 ጀምሮ በOpenAI ግምገማዎች ውስጥ ተጠቅመዋል።
- በመጨረሻም፣ ከአውድ አስተዳደር እና ከመሳሪያ ተደራሽነት እስከ ድጋሚ ሙከራ ባህሪ፣ ነጥብ አሰጣጥ እና የሀብት በጀቶች ድረስ፣ የሀርነስ ምርጫዎች ውጤቶችን በተጨባጭ መቼ እና እንዴት እንደሚቀይሩ በጥልቀት ለመረዳት ምርምርን ቅድሚያ እየሰጠን ነው።
እነዚህ ምክሮች የተነደፉት የግለሰብ የግምገማ ሪፖርቶችን ለማሻሻል ብቻ ሳይሆን፣ ለግንባር ቀደም AI ግምገማ እና ሪፖርት እየተፈጠሩ ያሉ ብሔራዊ (በአዲስ መስኮት ውስጥ ይክፈታል)እና ዓለም አቀፍ (በአዲስ መስኮት ውስጥ ይክፈታል)መስፈርቶችን ለማሳወቅም ነው። ወደፊት፣ የሶስተኛ ወገን የግምገማ መስፈርቶች ውሳኔ ሰጪዎች የተወሰኑ ግምገማዎች ምን አይነት አቤቱታዎችን እንደሚደግፉ፣ የተፈተነው ስርዓት ምን እንደሆነ፣ ውጤቱ እንዴት እንደተወጣ እና ገምጋሚዎች ትክክለኛነቱን እንዴት እንደፈተሹ እንዲረዱ በቂ ዝርዝር መጠየቅ አለባቸው። ለግንባር ቀደም ስርዓቶች ወኪላዊ ችሎታዎች አስፈላጊ በሆኑ ተግባሮች ላይ ሲፈተኑ፣ ዝርዝሮቹ የሚካተቱት (ለማንኛውም የደህንነት ወይም የሚስጥር ጉዳዮች ተገዢ ሆነው)፦
- አቤቱታው፦ ግምገማው ስርዓቶችን ያነጻጽራልን፣ የችሎታ ጣሪያ ይገምታል ወይስ የጥበቃ መንገዶችን ይፈትናልን።
- የግምገማ ይዘት፦ አንባቢዎች ግምገማው በእውነት ምን አይነት ክህሎቶችን፣ ባህሪዎችን ወይም የውድቀት ሁኔታዎችን እየፈተነ እንደሆነ እንዲረዱ ስለ ተግባሮቹ ወይም ስለ ተግባር ስርጭቱ በቂ ዝርዝር።
- የተፈተነው ስርዓት፦ ሞዴሉ፣ የማመዛዘን ማዋቀር፣ የመሳሪያ ተደራሽነት፣ ሀርነስ እና የጥበቃ መንገዶች።
- በጀቱ፦ ዙሮች፣ ቶክኖች፣ ሙከራዎች/ድጋሚ ሙከራዎች፣ የግድግዳ-ሰዓት ጊዜ፣ የኢንፈረንስ ወጪ እና ተገቢ በሆነበት ቦታ ለእያንዳንዱ የተሳካ መፍትሄ የሚጠበቀው ወጪ።
- የችሎታ ማውጣት ዘዴዎች፦ ውጤቱን ለማውጣት የተጠቀሙት የሀርነስ ምርጫዎች፣ እና የተፈተነው ነገር የሚቀርበውን ሰፊ አቤቱታ ምን ያህል እንደሚወክል።
- የትክክለኛነት ምርመራዎች፦ ገምጋሚዎች ሽልማት ጠለፋ፣ የግምገማ ግንዛቤ፣ ብክለት፣ እምቢታዎች፣ ሳንድባጊንግ እና ውጤቱን ሊያዳክሙ የሚችሉ ሌሎች ባህሪዎችን እንዴት እንደፈለጉ፣ የተረጋገጡ ጉዳዮች በነጥብ አሰጣጥ ወይም በትርጓሜ ላይ እንዴት ተጽእኖ እንዳሳደሩ ጨምሮ።
የሀርነስ ምርጫዎችን ወይም የትክክለኛነት ምርመራዎችን የሚተዉ መስፈርቶች ስርዓት ምን ማድረግ እንደሚችል ከሚገባው በታች ሊያሳዩ ወይም በደህንነት አቤቱታ ላይ እምነትን ከሚገባው በላይ ሊያሳዩ ይችላሉ። ጠንካራ ሀርነስ ዎችን እና የችሎታ ማውጣት ዘዴዎችን መገንባት አሁንም ክፍት የምርምር መስክ ሲሆን ለተጨማሪ ምርመራ እና ኢንቨስትመንት ትኩረት ሊሆን ይገባል።
ደራሲ
የቃላት መፍቻ
በዚህ ጽሑፍ ውስጥ ብዙ ሙያዊ ቃላትን ስለምንጠቀም፣ ከታች የምንጠቀስባቸውን ነገሮች በቀላል ቋንቋ የሚያብራራ የቃላት መፍቻ አካትተናል፦
ወኪላዊ ስርዓት፦ መሳሪያዎችን በመጠቀም፣ የተግባር ሁኔታን በመጠበቅ እና በአካባቢ ውስጥ በመስራት አንድ ተግባርን በብዙ ደረጃዎች ሊያከናውን የሚችል ስርዓት ነው፣ ለእርምጃ አንድ ምላሽ ብቻ ከመመለስ ይልቅ።
ግምገማ፦ ማስረጃ አንድን አቤቱታ፣ የአደጋ ውሳኔ ወይም የማረጋገጫ አቋም ይደግፋል ወይስ አይደግፍም በሚለው ላይ የሚሰጥ ሰፊ ፍርድ ሲሆን፣ በግምገማ መረጃ፣ በሰነድ ክለሳ፣ በቃለ መጠይቅ፣ በሂደት ክለሳ እና በሌሎች ተዛማጅ ማስረጃዎች ላይ ሊመሠረት ይችላል።
ኮምፓክሽን፦ በረጅም ሂደቶች ውስጥ ከተግባሩ ጋር ተዛማጅ የሆነ አውድን ለማስጠበቅ የሚያገለግል ዘዴ።
ውቅረት፦ ከሞዴል ስም ባሻገር በትክክል የተፈተነ ስርዓት እና የግምገማ ሁኔታዎች።
ብክለት፦ የግምገማ ተግባሮች፣ መልሶች ወይም ቅርብ ተለዋጮች በሞዴል የስልጠና መረጃ ውስጥ ሲታዩ ወይም በግምገማ ጊዜ ሊገኙ ሲችሉ (ለምሳሌ እንደ browsing ያሉ መሳሪያዎች በኩል)፣ አፈጻጸሙ የሞዴሉን እውነተኛ አጠቃላይ ችሎታ ከሚገባው በላይ እንዲታይ ያደርጋል።
ችሎታ ማውጣት፦ በግምገማ ወቅት ከአንድ ስርዓት ችሎታ ወይም ባህሪ ለማውጣት የሚደረግ ሂደት።
አካባቢ፦ ስርዓት የሚፈተንበት የተግባር አውድ። ይህ በግምገማ ወቅት ወኪሉ የሚገናኝበትን እና የሚቀይረውን ውጫዊ ሁኔታ ያካትታል፣ ለምሳሌ የተርሚናል አካባቢ ወይም የቪዲዮ ጨዋታ።
ግምገማ ሙከራ፦ በአንድ ግምገማ ውስጥ የሚካሄድ የተለየ ፈተና ወይም መለኪያ።
የግምገማ ግንዛቤ፦ የግምገማ ግንዛቤ ማለት ሞዴል እየተገመገመ መሆኑን ማወቁን ወይም እንደሚያውቅ መታየቱን እና ለዚያ አውድ ምላሽ ባህሪውን ሊያስተካክል መቻሉን ያመለክታል። ይህ ሞዴሉ እየተፈተነ ስለመሆኑ በግልጽ ማመዛዘን፣ የግምገማውን ዓላማ መገመት፣ ወይም ውጤቱ እንዴት እንደሚፈረድበት ወይም እንደሚዘረጋ ላይ ተጽእኖ ያሳድራል ብሎ ስለሚጠብቅ ባህሪውን መቀየር ሊመስል ይችላል።
ሀርነስ፦ ሞዴል አንድ ተግባር እንዲያከናውን የሚያስችለው ሞዴል-ፊት ለፊት መዋቅር፦ እርምጃዎች፣ መሳሪያዎች፣ በይነገጾች፣ መቆጣጠሪያ ሎጂክ፣ ማህደረ ትውስታ፣ ድጋሚ ሙከራዎች፣ አረጋጋጮች እና በሞዴሉ ዙሪያ ያሉ ሌሎች የድጋፍ መዋቅሮችን ያካትታል።
ከፍተኛ ችሎታ ማውጣት፦ ስርዓት በተወሰነ በጀት ውስጥ ሊያሳይ የሚችለውን በጣም ጠንካራ እና እምነት የሚጣልበት አፈጻጸም ወይም የውድቀት ሁኔታ ለማግኘት የሚደረግ ሙከራ ነው፣ ስርዓቱን በመደበኛ ሀርነስ አንድ ጊዜ ብቻ ከማስኬድ ይልቅ።
የማመዛዘን ዱካዎች፦ በፈተና ወቅት የሞዴሉ መካከለኛ የማመዛዘን ሂደቶች መዝገቦች።
ሽልማት ጠለፋ፦ ከገምጋሚው ዓላማ ውጭ በሆነ አቋራጭ ወይም ባህሪ ከፍተኛ ነጥብ ማግኘት።
የጥበቃ መንገዶች፦ በሞዴል ወይም በምርት ዙሪያ የሚተገበሩ ማጣሪያዎች፣ መከታተያዎች፣ ማገጃ ስርዓቶች እና ሌሎች ጥበቃዎች።
ሳንድባጊንግ፦ ውጤቱን በሚያዳክም መልኩ በግምገማ ውስጥ በስትራቴጂ ዝቅተኛ አፈጻጸም ማሳየት።
ነጥብ አሰጣጥ፦ አፈጻጸም እንዴት እንደሚለካ ወይም አንድ ተግባር ተሳክቷል ወይስ አልተሳካም ለመወሰን የሚጠቀም ዘዴ።
መደበኛ ሀርነስ፦ ለተለየ ሞዴል ወይም ተግባር ከማበጀት ይልቅ በስርዓቶች ሁሉ ላይ ተመሳሳይ ሆኖ የሚቆይ ሀርነስ ሲሆን፣ በውጤቶች ያለውን ልዩነት ለተፈተነው ሞዴል ማመልከት ቀላል ያደርጋል።
የጊዜ አድማስ፦ ስርዓት በተወሰነ ታማኝነት ሊያጠናቅቀው የሚችለው የተግባር ርዝመት ሲሆን ብዙ ጊዜ ያው ተግባር ለሰው ምን ያህል ጊዜ እንደሚወስድ በሚለው ይገለጻል።
የመሳሪያ ተደራሽነት፦ በግምገማ ወቅት ለሞዴሉ የሚገኙ ውጫዊ መሳሪያዎች።
አቅጣጫዎች፦ ስርዓት አንድ ተግባር ሲያከናውን የሚከተላቸው ደረጃ በደረጃ መንገዶች።
ዩኒቨርሳል ጄልብሬክ፦ ስርዓት በብዙ እርምጃዎች ወይም ተግባሮች ላይ የጥበቃ መንገዶችን እንዲያልፍ የሚያደርግ አንድ የጥቃት ንድፍ።
የግርጌ ማስታወሻዎች
ይህ ጽሑፍ ሶስተኛ ወገኖች የአለመጣጣም ወይም ከዝንባሌ ጋር የተያያዙ አቤቱታዎችን እንዴት መገምገም እንዳለባቸው ለመወሰን አይሞክርም። በተለይም ረጅም-አድማስ ባህሪን የሚደግፉ ሀርነስ ዎች ገምጋሚዎች ሊከታተሏቸው የሚገቡ ያልታሰቡ ባህሪዎችን አይነት ሊቀይሩ ስለሚችሉ፣ የሀርነስ ምርጫዎች እነዚያን ግምገማዎች እንዴት እንደሚጎዱ ለመረዳት ተጨማሪ ስራ ያስፈልጋል። [[fn፦1]]
HAL(በአዲስ መስኮት ውስጥ ይክፈታል) ከወኪል ግምገማዎች ተጨማሪ ምሳሌ ይሰጣል፦ በCORE-Bench(በአዲስ መስኮት ውስጥ ይክፈታል) ላይ፣ ሀርነስ ን ወደ Claude Code መቀየር በተመሳሳይ መስፈርት ላይ የተለካውን አፈጻጸም እና የወጪ መገለጫውን ሁለቱንም ቀይሯል። ሌሎች የህዝብ ምሳሌዎች SWE-agent(በአዲስ መስኮት ውስጥ ይክፈታል)፣ SeeAct(በአዲስ መስኮት ውስጥ ይክፈታል)፣ ScienceAgentBench(በአዲስ መስኮት ውስጥ ይክፈታል)፣ CORE-Bench(በአዲስ መስኮት ውስጥ ይክፈታል) እና Inspect Cyber(በአዲስ መስኮት ውስጥ ይክፈታል) ን ያካትታሉ፤ እያንዳንዱም ነጥቡን ያመነጨው የትኛው በይነገጽ ወይም ሀርነስ እንደሆነ ለአንባቢዎች ይነግራል። [[fn፦2]]
በሁለቱም የሳንድባጊንግ QA ተለዋጮች 100% እና በስትራቴጂካዊ-ማታለል ሳንድባጊንግ ተግባር 99.6% ነጥብ ማግኘት። [[fn፦3]]


