በገሃዱ ዓለም ተግባራት ላይ የሞዴሎቻችንን አፈጻጸም መለካት
በ44 ሥራዎች ውስጥ በኢኮኖሚ ውድ እና በገሃዱ ዓለም ተግባራት ላይ የሞዴል አፈጻጸምን የሚለካ አዲስ ግምገማ GDPval እያስተዋወቅን ነው።
ተልዕኳችን ሰው ሰራሽ አጠቃላይ የማሰብ ችሎታ ለሰው ልጆች ሁሉ ጠቃሚ መሆኑን ማረጋገጥ ነው። እንደ ተልእኮአችን አካል፣ ሰው ሰራሽ አስተውሎት (AI) ሞዴሎች በእውነተኛ ዓለም ሰዎችን እንዴት እንደሚያግዙ ላይ እድገትን በግልጽ ለማስተላለፍ እንፈልጋለን። ለዚህ ነው GDPval፦ አዲሱን ግምገማ እያስተዋወቅን ያለነው ሞዴሎቻችን እና ሌሎች በኢኮኖሚ ውድ በሆኑ የገሃዱ አለም ተግባራት ላይ ምን ያህል በጥሩ ሁኔታ እንደሚሰሩ ለመከታተል የሚረዳን ነው። ይህንን ግምገማ GDPval ብለን የምንጠራው በጠቅላላ የሀገር ውስጥ ምርት (GDP) ፅንሰ-ሀሳብ እንደ ቁልፍ የኢኮኖሚ አመላካችነት በመነሳት እና ለጠቅላላ የሀገር ውስጥ ምርት በሚሰጡ ኢንዱስትሪዎች ውስጥ ካሉ ቁልፍ ሥራዎች በመነሳት ነው።
ሰዎች ብዙ ጊዜ ስለ ሰው ሠራሽ አስተውሎት (AI) በህብረተሰብ ላይ ያለው ሰፊ ተጽእኖ ይገምታሉ፣ ነገር ግን አቅሞቹን በግልጽ ለማወቅ የምንችለው ምን እንደሚያደርጉ የሚችሉ ሞዴሎችን በመመልከት ነው። ታሪክ ያሳያል እንደ በይነመረብ እና ስማርትፎኖች ያሉ ዋነኛ ቴክኖሎጂዎች—ከማህበረሰብ መገኘት እስከ በሰፊ የተለመደ—መቀበል ከአንድ አስር ዓመት በላይ ጊዜ ወስደዋል። እንደ GDPval ያሉ ግምገማዎች ውይይቶችን ስለ ወደፊት የሰው ሠራሽ አስተውሎት (AI) ማሻሻያዎች በማስረጃ ላይ ማስተካከል እና በጊዜ ሂደት የሞዴል ማሻሻያን ማከታተል ሊረዳ ይችላል።
እንደ አስቸጋሪ የትምህርት ፈተናዎች እና የውድድር ኮዲንግ እንቅስቃሴዎች ያሉ የቀደሙ የሰው ሠራሽ አስተውሎት (AI) ግምገማዎች የሞዴል አስተሳሰብ ችሎታዎችን ለማስፋፋት አስፈላጊ ሆነዋል፣ ነገር ግን ብዙ ሰዎች በዕለታዊ ሥራቸው የሚያከናውኑትን ዓይነት ተግባሮች ላይ ብዙ ጊዜ አይደርሱም።
ይህንን ክፍተት ለመቅረፍ፣ ከጊዜ ወደ ጊዜ ተጨባጭ እና ኢኮኖሚያዊ ጠቀሜታ ያላቸውን ችሎታዎች የሚለኩ ግምገማዎችን እያዘጋጀን ነበር። ይህ እድገት ከባህላዊ የትምህርት መደበኞች እንደ MMLU (በብዙ ርዕሶች ላይ የፈተና አይነት ጥያቄዎች) ጀምሮ፣ ወደ ተመሳሳይ ግምገማዎች እንደ SWE-Bench (የሶፍትዌር ምህንድስና የነቀል ማስተካከያ ተግባሮች)፣ MLE-Bench (የማሽን ማማረሻ ምህንድስና ተግባሮች እንደ ሞዴል ስልጠና እና ትንታኔ)፣ እና Paper-Bench (በምርምር ወረቀቶች ላይ ሳይንሳዊ ማመዘን እና እንቅስቃሴ) እና በቅርቡ ወደ ገበያ መሠረተ ግምገማዎች እንደ SWE-Lancer (በእውነተኛ ክፍያዎች ላይ የተመሠረተ የሶፍትዌር ምህንድስና ፕሮጀክቶች) ተመለሰ።
GDPval በዚህ እድገት ውስጥ ቀጣይ እርምጃ ነው። ይህ ሞዴል በተለያዩ ሙያዎች እና ዘርፎች ውስጥ ካሉ ልምድ ካላቸው ባለሙያዎች ከእውነተኛ ዓለም የእውቀት ሥራ በቀጥታ በተወሰዱ ተግባራት ላይ የሞዴል አፈጻጸምን ይለካል፣ ይህም ሞዴሎች በኢኮኖሚያዊ ዋጋ ባላቸው ተግባራት ላይ እንዴት እንደሚሰሩ የበለጠ ግልጽ የሆነ ምስል ይሰጣል። ሞዴሎችን በእውነተኛ የሙያ ተግባራት መገምገም በቤተ ሙከራ ውስጥ ምን ያህል ጥሩ አፈጻጸም እንዳላቸው ብቻ ሳይሆን ሰዎችን በየቀኑ በሚሰሩት ሥራ ድጋፍ እንዴት እንደሚሰጡ እንድንረዳ ይረዳናል።
የዚህ ግምገማ የመጀመሪያ እትም GDPval ከ9ቱ ምርጥ ኢንዱስትሪዎች የተመረጡ 44 ሥራዎችን ለUS GDP አስተዋፅዖ ያደርጋል። የGDPval ሙሉ ስብስብ 1,320 የተለየ ተግባሮችን (220 በክልል የተከፈተ ምንጭ ስብስብ ውስጥ) ይዟል፣ እያንዳንዱም በአስተማማኝ ሙያዎች በተመከረ እና በተጠናከረ ሁኔታ የተዘጋጀ ነው፣ እነዚህም በአማካይ 14 ዓመታት ተሞክሮ ያላቸው ናቸው። እያንዳንዱ ተግባር በሕጋዊ ጥቅልፍ፣ በምህንድስና ዕቅድ፣ በደንበኛ ድጋፍ ውይይት፣ ወይም በነርስ እንክብካቤ ዕቅድ ያለ እውነተኛ የሥራ ምርቶች ላይ የተመሠረተ ነው።
GDPval በእውነተኛነቱ እና በተግባራት ብዝሃነት ላይ የሚደረጉ ግምገማዎች ላይ የተለየ ነው። ከኢኮኖሚያዊ እሴት ጋር ከተያያዙ ሌሎች ግምገማዎች በተለየ በተወሰኑ ጎራዎች (ለምሳሌ SWE-Lancer) ላይ፣ GDPval ብዙ ተግባራትን እና ሥራዎችን ይሸፍናል። እና በአካዳሚክ ፈተና ወይም በፈተና ዘይቤ (ለምሳሌ የሰብአዊነት የመጨረሻ ፈተና ወይም MMLU) ሥራዎችን በተቀናጀ መልኩ መፍጠርን ከሚያካትቱት መመዘኛዎች በተለየ GDPval ዛሬ ባለው ትክክለኛ የሥራ ወይም ምርት በሆኑት ወይም በተመሳሳይ መልኩ በተሰራ የሥራ ምርት ላይ በተመሰረቱ ሥራዎች ላይ ያተኩራል።
ከተለምዷዊ መለኪያዎች በተለየ፣ የGDPval ተግባሮች ቀላል የእርምጃዎች አይደሉም። ከፋይሎች እና አውድ ጋር አብረው ይመጣሉ፣ እና የሚጠበቁ ማቅረቢያዎች ሰነዶችን፣ ስላይዶችን፣ ንድፎችን፣ የተመን ሉሆችን እና መልቲሚዲያዎችን ያካትታሉ። ይህ እውነተኛነት እንዴት ሞዴሎች ሙያዊዎችን ድጋፍ ሊያደርጉ እንደሚችሉ የሚያሳይ የGDPval ሙከራ የበለጠ እውነተኛ ያደርገዋል።
GDPval የቀደምት እርምጃ ነው እና የብዙ ኢኮኖሚያዊ ተግባራት ሙሉ ዝርዝርን አያሳይም። ሲሆንም በ44 ሥራዎች እና በብዙ የእውቀት ሥራ ተግባሮች ላይ የሚያስፋፋ ቢሆንም፣ የተወሰነ ወደ አንድ ጊዜ ግምገማዎች ብቻ የተወሰነ ነው፣ ስለዚህም ሞዴሉ አውድ ለመገንባት ወይም በብዙ ረቂቆች ውስጥ ለማሻሻል የሚያስፈልገውን ጉዳዮች አይዝም። የወደፊቶቹ ስሪቶች የገሃዱ ዓለም የእውቀት ሥራን ውስብስብነት በተሻለ ሁኔታ ለማንፀባረቅ ወደ በይነተገናኝ የሥራ ፍሰቶች እና በዐውደ-ጽሑፍ የበለጸጉ ተግባራትን ይዘልቃሉ (ከዚህ በታች ባለው ውስን ክፍል ውስጥ የበለጠ ይመልከቱ)።
GDPval በ9 ኢንዱስትሪዎች እና በ44 ሥራዎች ውስጥ ያሉ ተግባራትን ይሸፍናል እና የወደፊት ስሪቶች ሽፋንን ማስፋፋቱን ይቀጥላሉ። ከሴንት ሉዊስ የፌደራል ሪዘርቭ ባንክ ባገኘነው መረጃ መሰረት የመጀመሪያዎቹ 9 ኢንዱስትሪዎች ከ5% በላይ ለUS GDP አስተዋፅዖ ባደረጉት መሰረት ተመርጠዋል። ከዚያም በኢንዱስትሪ ውስጥ እያንዳንዱን የሥራ መደብ ላይ በጠቅላላ ደመወዝ እና ክፍያ ላይ በጣም የሚያስተዋውቁ እና በተለይም የእውቀት ሥራ የሆኑ 5 ሥራዎችን መርጠን ነበር፣ ይህም ከሜይ 2024 የUS የዕድሜ እና የሥራ አደርግ ቢሮ (BLS) የሥራ መደብ ሪፖርት(በአዲስ መስኮት ውስጥ ይክፈታል) የደመወዝ እና የተቀጠሩ መረጃ በመጠቀም ነው። ሙያዎች በተለይ እውቀት ሥራ እንደነበሩ ለማወቅ፣ በU.S. የሥራ ክፍል የተደገፈ የU.S. ሙያዊ መረጃ ዳታቤዝ O*NET(በአዲስ መስኮት ውስጥ ይክፈታል) ያለውን የተግባር መረጃ ተጠቅመን ነበር። በO*NET ውስጥ ለእያንዳንዱ ሥራ ሥርዓት የተያያዘ እያንዳንዱን ተግባር እንደ እውቀት ሥራ ወይም እንደ አካላዊ ሥራ/እጅ ሥራ (በአካላዊ ዓለም ውስጥ ድርጊት ማድረግ የሚጠይቅ) እንደ ተመደበ አድርገን እንመዝግባለን። ቢያንስ 60% የአካል ብቃት እንቅስቃሴ ወይም የእጅ ሥራን ያላሳተፈ ከተመደበ በአጠቃላይ እንደ «በዋነኛነት የእውቀት ሥራ» ብቁ የሆነ ሙያ። ሰው ሠራሽ አስተውሎት (AI) በእውነተኛው ዓለም ምርታማነት ላይ ከፍተኛ ተጽዕኖ በሚያሳድርባቸው ሙያዎች ላይ በማተኮር ይህንን የ60% ገደብ ለመጀመሪያው GDPval ስሪት እንደ መነሻ መረጥን።
ይህ ሂደት ለመካተት 44 ሥራዎችን አስገኝቷል።
የሪል እስቴት እና የኪራይ እና የሊዝ
አስተናጋጆች
የንብረት፣ የሪል እስቴት እና የማህበረሰብ ማህበራት አስተዳዳሪዎች
የየሪል እስቴት ሽያጭ ወኪሎች
የሪል እስቴት ደላላዎች
ቆጣሪ እና የኪራይ ፀሐፊዎች
መንግስት
የመዝናኛ ሰራተኞች
ተገዢነት ኃላፊዎች
የመጀመሪያ መስመር አስተዳዳሪዎች የፖሊስ እና የመረጃ መረመሪያ
አስተዳደራዊ አገልግሎት አስተዳዳሪዎች
የልጆች፣ ቤተሰብ እና ትምህርት ቤት ማህበራዊ ሰራተኞች
ማምረት
መካኒካል መሐንዲሶች
የኢንዱስትሪ መሐንዲሶች
ገዢዎች እና የግዢ ወኪሎች
የማጓጓዣ፣ የመቀበያ እና የእቃ ዝርዝር ጸሐፊዎች
የመጀመሪያ መስመር አስተዳዳሪዎች የምርትና የንቅናቄ ሰራተኞች
ሙያዊ፣ ሳይንሳዊ እና ቴክኒካዊ አገልግሎቶች
የሶፍትዌር አበልፃጊዎች
ጠበቆች
የሂሳብ አስተዳዳሪዎች እና ኦዲተሮች
የኮምፒውተር እና የመረጃ ስርዓቶች አስተዳዳሪዎች
የፕሮጀክት አስተዳደር ስፔሻሊስቶች
የጤና እንክብካቤ እና ማህበራዊ እርዳታ
የተመዘገቡ ነርሶች
ነርስ ባለሙያዎች
የህክምና እና የጤና አገልግሎት አስተዳዳሪዎች
የመጀመሪያ መስመር አስተዳዳሪዎች የቢሮ እና አስተዳደራዊ ድጋፍ ሰራተኞች
የሕክምና ጸሐፊዎች እና አስተዳደር ረዳቶች
ፋይናንስ እና ኢንሹራንስ
የደንበኛ አገልግሎት ተወካዮች
የፋይናንስ እና ኢንቬስትመንት ተንታኞች
የፋይናንስ አስተዳዳሪዎች
ግላዊ የፋይናንስ አማካሪዎች
ዋስትናዎች፣ ሸቀጦች እና የፋይናንስ አገልግሎቶች የሽያጭ ወኪሎች
የችርቻሮ ንግድ
ፋርማሲስቶች
የችርቻሮ ሽያጭ ሰራተኞች የመጀመሪያ መስመር አስተዳደር
አጠቃላይ እና የክወና አስተዳዳሪዎች
የግል መርማሪዎች እና መርማሪዎች
የጅምላ ንግድ
የሽያጭ አስተዳዳሪዎች
የትእዛዝ ደራሲዎች
የመጀመሪያ መስመር አስተዳዳሪዎች ያልተሸጠ ሽያጭ ሰራተኞች
ከቴክኒካዊ እና ሳይንሳዊ ምርቶች በስተቀር የሽያጭ ተወካዮች፣ የጅምላ እና የማምረቻ ምርቶች
የሽያጭ ተወካዮች፣ የጅምላ እና የማምረ፣ የቴክኒክ እና ሳይንሳዊ ምርቶች
መረጃ
የድምጽ እና ቪዲዮ ቴክኒሻኖች
አምራቾች እና ዳይሬክተሮች
ዜና ተንታኞች፣ ዘጋቢዎች እና ጋዜጠኞች
የፊልም እና የቪዲዮ አርታኢዎች
አርታኢዎች
ለእያንዳንዱ ሥራ ዘርፍ ከተሞክሮ ሙያዎች ጋር በማስተባበር የተወነጩ ተግባራትን ለመፍጠር ሥራ እንሰራለን፣ እነሱም የዕለት ተዕለት ሥራቸውን ይወክላሉ። እነዚህ ባለሙያዎች በመካከለኛ 14 ዓመታት የሥራ ልምድ ያላቸው ሲሆን በጠንካራ የእድገት መዝገቦች ይታወቃሉ። ውክልና ከፍ ለማድረግ ሆን—ብለን እንደ ከተለያዩ የተግባር ዘርፎች የተውጣጡ—ጠበቆች እና የተለያየ መጠን ያላቸው ድርጅቶች ያሉ ባለሙያዎችን ቀጥረናል።
እያንዳንዱ ተግባር የእውነተኛ ሥራ ተወካይ መሆኑን ለማረጋገጥ፣ ለሌላ ባለሙያ ማጠናቀቅ የሚችል እና ለግምገማ ግልጽ እንዲሆን ባለብዙ ደረጃ ግምገማ ሂደት ውስጥ አልፏል። በመነሻ እያንዳንዱ ተግባር ከሌሎች ተግባር ጸሐፊዎች፣ ተጨማሪ የሥራ አስተዳዳሪ ግምገማዎች እና በሞዴል የተመረመሩ ማረጋገጫዎች ጨምሮ 5 ዙሮች የባለሙያ ግምገማ ተቀብሏል።
የተወሰነው የመረጃ ስብስብ በእያንዳንዱ ሙያ 30 ተግባራትን (ሙሉ ስብስብ) እና በእኛ የተከፈተ የወርቅ ስብስብ ውስጥ በእያንዳንዱ ሙያ 5 ተግባራትን ይዟል፣ ይህም በእውነተኛ ዓለም የእውቀት ሥራ ላይ የሞዴል አፈጻጸምን ለማገምገም ጠንካራ መሠረት ይሰጣል።
የGDPval ተግባራት ምሳሌዎች
እርምጃ + ተግባር አውድ
ተሞክሮ ያለው የሰው ልጅ አቅርቦት

በGDPval ተግባራት ላይ የሞዴል አፈጻጸምን ለመገምገም፣ በባለሞያ «የደረጃ ሰጭዎች» እንመካለን—በመረጃ ቋቱ ውስጥ የተወከሉት ተመሳሳይ ሙያ ያላቸው ልምድ ያላቸው ባለሙያዎች ቡድን። እነዚህ የደረጃ ሰጭዎች በሞዴል የሚመነጩ አቅርቦቶችን በተግባር ፀሃፊዎች ከተመረቱት ጋር ያወዳድራሉ (የትኛው ሰው ሠራሽ አስተውሎት (AI) እና ከሰው የተፈጠረ መሆኑን ሳያውቁ) እና ትችቶችን እና ደረጃዎችን ይሰጣሉ። ከዚያም የደረጃ ሰጭዎች የሰውን እና የሰው ሠራሽ አስተውሎት (AI) አቅርቦትን ደረጃ ሰጥተው እያንዳንዱን ሰው ሠራሽ አስተውሎት (AI) ሊደርስ የሚችለውን «የተሻለ»፣ «እንደ ጥሩ» ወይም «የከፋ» በማለት ይመድባሉ።
የተግባር ፀሐፊዎችም ለሙያቸው ዝርዝር የውጤት መግለጫዎችን ፈጥረዋል፣ ይህም በደረጃ አሰጣጥ ሂደት ላይ ወጥነት ያለው እና ግልጽነትን ይጨምራል። እኛም አንድ «ራስ ሰር ደረጃ መስጫ»፣ የሰው ሠራሽ አስተውሎት (AI) ባለሙያዎች እንዴት እንደሚያስተዋውቁ ለመገመት የተማረ የሰው ሠራሽ አስተውሎት (AI) ስርዓት ገንብተናል። በሌላ አማራጭ፣ በየጊዜው ሙሉ የባለሙያ ግምገማ ሳይሰጥ የራስ-ሰር ደረጃ መስጫ ሰዎች የሚመርጡትን ውጤት በፍጥነት መተንተን ይችላል። ይህንን መሳሪያ በevals.openai.com በኩል እንደ የሙከራ ምርምር አገልግሎት እየለቀቅን ነው ነገርግን እንደ ባለሙያ ደረጃ ሰጭዎች እስካሁን አስተማማኝ ስላልሆነ እነሱን ለመተካት አንጠቀምበትም።
የዛሬዎቹ ምርጥ የድንበር ሞዴሎች ቀድሞውኑ በኢንዱስትሪ ባለሙያዎች ወደተመረተው የሥራ ጥራት እየተቃረበ መሆኑን ደርሰንበታል። ይህን ለማረጋገጥ፣ የኢንዱስትሪ ባለሙያዎች ከተለያዩ የምርጥ ሞዴሎች—GPT‑4o፣ o4-mini፣ OpenAI o3፣ GPT‑5፣ Claude Opus 4.1፣ Gemini 2.5 Pro፣ እና Grok 4—ከሰው ሰራሽ ሥራ ጋር በሚነጻጸሩ የተሰደዱ ግምገማዎችን አከናወንን። በGDPval ወርቅ ስብስብ ውስጥ ከ220 ተግባራት ውስጥ፣ የሞዴል ውጤቶች ከ(«አሸናፊዎች») ወይም ከኢንዱስትሪ ባለሙያዎች ከሚቀርቡት ምርቶች («ትስስር») ጋር ሲነፃፀሩ ከዚህ በታች ባለው የአሞሌ ገበታ ላይ እንደሚታየው ተመዝግበናል። Claude Opus 4.1 በስብስቡ ውስጥ በጣም የተሻለ ሞዴል ነበር፣ በተለይም በአስቸጋሪ ነገሮች (ምሳሌ፣ የሰነድ አቀማመጥ፣ የስላይድ አቀማመጥ) ላይ የላቀ ነበር፣ እና GPT‑5 በተለይም በትክክለኛነት (ምሳሌ፣ የጎራ እውቀት ማግኘት) ላይ የላቀ ነበር። በእነዚህ ተግባራት ላይ በጊዜ ሂደት ግልጽ የሆነ መሻሻል እናያለን። ግልጽ የሆነ የመስመር አዝማሚያን ተከትሎ አፈጻጸሙ ከGPT‑4o (የተለቀቀው እ.ኤ.አ የፀደይ 2024) ወደ GPT‑5 (የተለቀቀው እ.ኤ.አ በጋ 2025) ከእጥፍ በላይ ጨምሯል።
በተጨማሪም፣ የድንበር ሞዴሎች ከኢንዱስትሪ ባለሙያዎች በ100x ፍጥነት እና በ100x ርካሽ በሆነ የ GDPval ተግባራትን ማጠናቀቅ እንደሚችሉ ደርሰንበታል። ነገር ግን፣ እነዚህ አሃዞች የንፁህ የሞዴል ማጣቀሻ ጊዜን እና የAPI የክፍያ መጠየቂያ ተመኖችን ያንፀባርቃሉ፣ እና ስለዚህ ሞዴሎቻችንን ለመጠቀም በእውነተኛ የሥራ ቦታ መቼቶች ውስጥ የሚያስፈልጉትን የሰዎች ቁጥጥር፣ ድግግሞሽ እና የውህደት እርምጃዎችን አይይዙም። አሁንም፣ በተለይ ሞዴሎች በተለይ ጠንካራ በሆኑባቸው ተግባራት ንዑስ ክፍል ላይ፣ ለአንድ ሞዴል አንድን ተግባር ከሰው ጋር ከመሞከርዎ በፊት መስጠቱ ጊዜንና ገንዘብን ይቆጥባል ብለን እንጠብቃለን።
የደረጃ ሰጪ ባለሙያዎች ከዋና ሞዴሎች የተገኙ ምርቶችን ከሰው ባለሙያዎች ጋር አወዳድረው ነበር። የዛሬ ድንበር ሞዴሎች ቀድሞውኑ በኢንዱስትሪ ባለሙያዎች የሚያቀርቡትን የሥራ ጥራት እየተቃረቡ ነው። Claude Opus 4.1 በግማሽ ተግባራት ውስጥ ከሰዎች ጋር ተመካከር ወይም የተሻለ ደረጃ የተሰጣቸውን ውጤቶች አዘጋጅቷል።
ከGPT‑4o እስከ GPT‑5 በGDPval ተግባራት ላይ አፈፃፀም በአንድ ዓመት ውስጥ ሶስት እጥፍ በላይ ተጨምሯል።
በመጨረሻም፣ በGDPval ላይ አፈጻጸምን ማሻሻል እንችል እንደሆነ ለመገምገም ውስጣዊ፣ የሙከራ ስሪት GPT‑5ን በመጨመር አሰልጥነናል። ይህ ሂደት የተሻሻለ አፈጻጸም አግኝተናል፣ ይህም ለተጨማሪ እምቅ መሻሻል መንገድ ይፈጥራል። ሌሎች ቁጥጥር የሚደረግባቸው ሙከራዎች ይህንን ይደግፋሉ፦ የሞዴል መጠን መጨመር፣ ተጨማሪ የማመዛዘን እርምጃዎችን ማበረታታት እና የበለጸገ የተግባር አውድ መስጠት እያንዳንዳቸው ሊለካ የሚችል ትርፍ አስገኝተዋል።
ሙሉ ውጤቶችን በወረቀታችን ላይ ማንበብ ይችላሉ። ሌሎች ተመራማሪዎች በዚህ ሥራ ላይ እንዲገነቡ የGDVal ተግባራትን እና የህዝብ የውጤት አሰጣጥ አገልግሎትን እየለቀቅን ነው።
ሰው ሠራሽ አስተውሎት (AI) የበለጠ ብቃት ሲያገኝ፣ በሥራ ገበያ ላይ ለውጦችን ማምጣት ይችላል። የመጀመሪያ የGDPval ውጤቶች ሞዴሎች አንዳንድ ተደጋጋሚ እና በግልጽ የተገለጸ ተግባር ከባለሙያዎች ይልቅ በፍጥነት እና በቅናሽ ወጪ መወሰድ እንደሚችሉ ያሳያሉ። ይሁን እንጂ አብዛኞቹ ሥራዎች ሊጻፉ ከሚችሉት የተግባር ስብስብ በላይ ናቸው። GDPval ሰው ሠራሽ አስተውሎት (AI) የዕለት ተግባሮችን ማከናወን በሚችልበት ቦታን የሚያሳይ ሲሆን፣ ሰዎች በፈጠራ እና በፍርድ የተሰማሩ የሥራ ክፍሎች ላይ ብዙ ጊዜ እንዲያሳልፉ ይችላሉ። ሰው ሠራሽ አስተውሎት (AI) በዚህ መንገድ ሠራተኞችን ሲያስተዋውቅ ወደ አስፈላጊ ኢኮኖሚ እድገት ሊተረጎም ይችላል። ዓላማችን ሁሉንም ሰው በሰው ሠራሽ አስተውሎት (AI) «በከፍታ ላይ» ማቆም ሲሆን ይህን በመሳሪያዎቹ ላይ መዳረሻ ማስፋፋት፣ ሰራተኞችን በለውጥ ማገዝ እና ሰፊ አስተዋፅኦን የሚያከብሩ ስርዓቶችን መገንባት ነው።
GDPval የመጀመሪያ እርምጃ ነው። 44 ሥራዎችን እና በመቶዎች የሚቆጠሩ ሥራዎችን የሚሸፍን ቢሆንም የፈተናውን ወሰን ለማስፋት እና ውጤቶቹን የበለጠ ትርጉም ያለው ለማድረግ አቀራረባችንን ማሻሻል እንቀጥላለን። የአሁኑ የግምገማው ስሪት እንዲሁ አንድ-ምት ነው፣ ስለዚህ አንድ ሞዴል አውድ መገንባት ወይም በብዙ ረቂቆች መሻሻል ያለበትን ጉዳዮች አይይዝም—ለምሳሌ ከደንበኛ ግብረ መልስ በኋላ የሕግ አጭር መግለጫን ማሻሻል ወይም ያልተለመደ ችግር ካየ በኋላ በመረጃ ትንተና ላይ መድገም። በተጨማሪም፣ በገሃዱ ዓለም፣ ተግባራቶች ሁል ጊዜ በእርምጃ እና በማጣቀሻ ፋይሎች በግልፅ አይገለጹም፤ ለምሳሌ፣ አንድ ጠበቃ ሕጋዊ አጭር መግለጫ መፍጠር እነሱን ለመርዳት ትክክለኛው አካሄድ መሆኑን ከመወሰኑ በፊት አሻሚነትን ማሰስ እና ከደንበኛቸው ጋር መነጋገር ይኖርበታል። በተለያዩ የእውቀት ሥራዎች ላይ የተሻለ መሻሻልን ለመለካት የረዥም ጊዜ ግብ ይዘን ብዙ ሥራዎችን፣ ኢንዱስትሪዎችን እና የተግባር አይነቶችን፣ በይነተገናኝነት እና በዳሰሳ አሻሚነትን የሚያካትቱ ተጨማሪ ሥራዎችን ለማካተት GDPval ለማስፋፋት አቅደናል።
- ለGDPval አስተዋፅዖ ለማድረግ ፍላጎት ያለው የኢንዱስትሪ ባለሞያ ከሆኑ እባክዎን ፍላጎትዎን እዚህ ያሳዩ።
- በOpenAI የምትሰሩ ደንበኞች ከሆኑ እና ለወደፊቱ የGDPval ዙር አስተዋፅዖ ከፈለጉ፣ እባክዎ ፍላጎትዎን እዚህ ይግለጹ።
የማህበረሰብ ተሳትፎ አስፈላጊ ነው—AGIን በሥራ ላይ ላሉ ሰዎች የበለጠ ጠቃሚ ለማድረግ ግባችንን ከሚጋሩ ተመራማሪዎች፣ ባለሙያዎች እና ድርጅቶች ጋር በጋራ GDPval ለመገንባት ጓጉተናል።


