በOpenAI ውስጥ በጥልቀት ማስተማርን ለማሳደግ በሚደረገው ጥረት ውስጥ የቅርብ ጊዜ ወሳኝ ምዕራፍ የሆነውን GPT‑4 ፍጠረናል። GPT‑4 ትልቅ ባለብዙ ሞዳል ሞዴል (የምስል እና የጽሑፍ ግቤቶችን የሚቀበል፣ የጽሑፍ ውጤቶችን የሚያወጣ) ሲሆን፣ በብዙ የእውነተኛ ዓለም ሁኔታዎች ውስጥ ከሰዎች አቅም ያነሰ ቢሆንም በተለያዩ ሙያዊ እና አካዳሚክ መለኪያዎች ላይ የሰው ደረጃ አፈፃፀም ያሳያል። ለምሳሌ፣ የሙከራ የሆነውን የፍርድ ቤት ዳኞች ፈተና 10% የሚሆኑትን የፈተና ወሳጆች ውጤት በማስመዝገብ ያልፋል፤ በተቃራኒው ደግሞ የGPT‑3.5 ውጤት ከበታቾቹ 10% አካባቢ ነበር። ከተቃራኒ የመፈተኛ ፕሮግራማችን እንዲሁም ከChatGPT የተገኙ ትምህርቶችን በመጠቀም GPT‑4ን ለ6 ወራት ደጋግመን በማስተካከል አሳልፈናል፣ ይህም በእውነታ ላይ የተመሰረተ፣ የመምራት ችሎታ እና ከጥበቃ መንገዶች ውጭ ያለመሄድ (ምንም እንኳን ፍጹም ባይሆንም) ምርጡን ውጤታችንን አስገኝቷል።
ባለፉት ሁለት ዓመታት ውስጥ፣ ጥልቅ የመማሪያ ክምችታችንን እንደገና ገንብተናል፣ እና ከAzure ጋር በመሆን፣ ለስራ ጫናችን ከመሠረቱ ጀምሮ ሱፐር ኮምፒውተርን በጋራ ነድፈናል። ከአንድ ዓመት በፊት፣ GPT‑3.5ን እንደ የመጀመሪያው የስርዓቱ “የሙከራ ዙር” አሰልጥነናል። እኛ አንዳንድ ስህተቶችን አግኝተን አስተካክለናል እና የንድፈ-ሃሳባዊ መሰረቶቻችንን አሻሽለናል። በዚህም ምክንያት የGPT‑4 የስልጠና ሂደታችን (ቢያንስ ለእኛ!) ታይቶ በማይታወቅ ሁኔታ የተረጋጋ ነበር፣ ይህም የስልጠና አፈጻጸሙን አስቀድመን በትክክል መተንበይ የቻልንበት የመጀመሪያው ትልቅ ሞዴል ያደርገዋል። አስተማማኝ በሆነው የማስፋት ስራ ላይ ማተኮራችንን ስንቀጥል፣ ለወደፊት ችሎታዎች አስቀድሞ ለመተንበይ እና ለመዘጋጀት የሚረዳንን ዘዴ ለማሻሻል እንጥራለን—ይህም ለደህንነት ወሳኝ ነው ብለን የምናስበውን ነገር ነው።
የGPT‑4 የጽሑፍ ግቤት አቅምን በChatGPT እና በኤ.ፒ.አይ (የመጠባበቂያ ዝርዝር) በኩል እያወጣን ነው። የምስል ግቤት አቅምን ለሰፊ ተገኝነት ለማዘጋጀት፣ ለመጀመር ከ አንድ አጋር(በአዲስ መስኮት ውስጥ ይክፈታል) ጋር በቅርበት እየሰራን ነው። እንዲሁም ተጨማሪ ማሻሻያዎችን ለመምራት ማንኛውም ሰው በሞዴሎቻችን ላይ ያሉ ጉድለቶችን ሪፖርት እንዲያደርግ ለማስቻል OpenAI Evals(በአዲስ መስኮት ውስጥ ይክፈታል) የተባለውን የሰው ሰራሽ አስተውሎት ሞዴል አፈጻጸም የራስ-ሰር ግምገማ ማዕቀፍ ኦፕን ሶርስ እያደረግን ነው።
በተለመደው ውይይት ውስጥ በGPT‑3.5 እና በGPT‑4 መካከል ያለው ልዩነት ጥቂት ሊሆን ይችላል። ልዩነቱ የሚፈጠረው የሥራው ውስብስብነት በቂ ደረጃ ላይ ሲደርስ ነው—GPT‑4 የበለጠ አስተማማኝ፣ ፈጠራ ያለው እና ከGPT‑3.5 የበለጠ ጥርት ያሉ መመሪያዎችን ማስተናገድ የሚችል ነው።
በሁለቱ ሞዴሎች መካከል ያለውን ልዩነት ለመረዳት፣ መጀመሪያ ላይ ለሰዎች የተነደፉ የማስመሰል ፈተናዎችን ጨምሮ በተለያዩ መለኪያዎች ላይ ሞክረናል። በቅርብ ጊዜ በይፋ የሚገኙ ፈተናዎችን (በOlympiads እና በAP ነጻ የምላሽ ጥያቄዎች ረገድ) ወይም ከ2022–2023 የልምምድ ፈተናዎችን በመግዛት ቀጥለናል። ለእነዚህ ፈተናዎች ምንም አይነት የተለየ ስልጠና አላደረግንም። በፈተናዎቹ ውስጥ ካሉት ችግሮች ውስጥ ጥቂቶቹ በስልጠና ወቅት በሞዴሉ ታይተዋል፣ ነገር ግን ውጤቶቹ ሁኔታውን የሚወክሉ እንደሆኑ እናምናለን—ለዝርዝሮች የኛን ቴክኒካዊ ሪፖርታችንን(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።
ውስጣዊ ማጣቀሻ 1
እንዲሁም ለማሽን መማሪያ ሞዴሎች በተዘጋጁ ባህላዊ መለኪያዎች ላይ GPT‑4ን ገምግመናል። GPT‑4 ከዘመናዊ (SOTA) ሞዴሎች ጋር ሲነጻጸር አሁን ካሉት ትላልቅ የቋንቋ ሞዴሎች በእጅጉ የላቀ ውጤት ያስገኛል፤ እነዚህም በመለኪያ ላይ የተመሰረቱ የእጅ ጥበብ ስራዎችን ወይም ተጨማሪ የሥልጠና ፕሮቶኮሎችን ሊያካትቱ ይችላሉ።
ብዙ ነባር የኤም.ኤል መለኪያዎች በእንግሊዝኛ የተጻፉ ናቸው። በሌሎች ቋንቋዎች ችሎታን በመጀመሪያ ደረጃ ለመረዳት፣ የኤም.ኤም.ኤል.ዩ መለኪያን—57 ርዕሰ ጉዳዮችን የሚሸፍኑ 14,000 ባለብዙ ምርጫ ችግሮች ስብስብ—Azure Translateን በመጠቀም ወደተለያዩ ቋንቋዎች ተርጉመናል (አባሪን ይመልከቱ)። ከተሞከሩት 26 ቋንቋዎች ውስጥ በ24ቱ፣ GPT‑4 የGPT‑3.5 እና እንደ ላትቪኛ፣ ዌልሽ እና ስዋሂሊ ያሉ ዝቅተኛ ምንጭ ላላቸው ቋንቋዎችን ጨምሮ ከሌሎች ኤል.ኤል.ኤም (Chinchilla፣ PaLM) የእንግሊዝኛ ቋንቋ አፈፃፀም ይበልጣል፦
እንዲሁም GPT‑4ን በውስጥ እየተጠቀምን ሲሆን እንደ ድጋፍ፣ ሽያጭ፣ የይዘት ማወያየት እና ፕሮግራሚንግ ባሉ ተግባራት ላይ ከፍተኛ ተጽዕኖ አሳድሯል። እንዲሁም ሰዎች የሰው ሰራች አስተውሎት ውጤቶችን እንዲገመግሙ ለመርዳት እየተጠቀምንበት ነው፣ ሁለተኛውን ምዕራፍ በእኛ የአሰላለፍ ስትራቴጂ እንጀምራለን።
GPT‑4 የጽሑፍ እና የምስሎች ጥያቄን መቀበል የሚችል ሲሆን፣ ይህም—ከጽሑፍ ብቻ ቅንብር ጋር—ተጠቃሚው ማንኛውንም ራዕይ ወይም የቋንቋ ተግባር እንዲገልጽ ያስችለዋል። በተለይም፣ የጽሑፍ ውጤቶችን (ተፈጥሯዊ ቋንቋ፣ ኮድ፣ ወዘተ) የሚያመነጭ ሲሆን ይህም የተጠላለፉ ጽሑፎችን እና ምስሎችን ያካትታል። በተለያዩ ጎራዎች—ጽሑፍ እና ፎቶግራፎች፣ ዲያግራሞች ወይም የማያ-ገጽ ምስሎች ያሉባቸውን ሰነዶች ጨምሮ—GPT‑4 በጽሑፍ-ብቻ ግቤቶች ላይ እንዳለው ተመሳሳይ ችሎታዎችን ያሳያል። በተጨማሪም፣ ለጽሑፍ-ብቻ የቋንቋ ሞዴሎች የተዘጋጁ የፈተና ጊዜ ቴክኒኮችን በመጠቀም ሊለወጥ ይችላል፣ ይህም ጥቂት-ፎቶዎችን እና የአስተሳሰብ ሰንሰለት(በአዲስ መስኮት ውስጥ ይክፈታል) ጥያቄዎችን ያካትታል። የምስል ግቤቶች አሁንም የምርምር ቅድመ-ዕይታ ናቸው እና በይፋ አይገኙም።
የGPT‑4ን አፈጻጸም በጠባብ ደረጃዊ የአካዳሚክ እይታ መለኪያዎች ላይ በመገምገም ቅድመ-ዕይታ እንወስዳለን። ይሁን እንጂ፣ ሞዴሉ ሊያከናውናቸው የሚችላቸውን አዳዲስ እና አስደሳች ተግባራትን በየጊዜው ስለምናገኝ፣ እነዚህ ቁጥሮች የአቅም ገደቡን ሙሉ በሙሉ አያመለክቱም። በቅርቡ ተጨማሪ ትንታኔዎችን እና የግምገማ ቁጥሮችን እንዲሁም የፈተና ጊዜ ቴክኒኮችን ተጽእኖ በጥልቀት ለመመርመር አቅደናል።
የውስጥ የግርጌ ማስታወሻA
የመምራት ችሎታን ጨምሮ የሰው ሰራሽ አስተውሎት ባህሪን ስለመግለፅ በልጥፋችን ውስጥ በተጠቀሰው ዕቅድ እያንዳንዱ ገጽታ ላይ እየሰራን ቆይተናል። ቋሚ የሆነ የቃላት ዝርዝር፣ ቃና እና ቅጥ ያለው ክላሲክ የChatGPT ስብዕና ይልቅ፣ ሶፍትዌር ገንቢዎች (እና በቅርቡ የChatGPT ተጠቃሚዎች) አሁን በ"ስርዓት" መልእክት ውስጥ እነዚያን አቅጣጫዎች በመግለጽ የሰው ሰራሽ አስተውሎት ዘይቤያቸውን እና ተግባራቸውን ማዘዝ ይችላሉ። የስርዓት መልዕክቶች የኤ.ፒ.አይ ተጠቃሚዎች የተጠቃሚዎቻቸውን ተሞክሮ በወሰን ውስጥ(በአዲስ መስኮት ውስጥ ይክፈታል) በከፍተኛ ሁኔታ እንዲያበጁ ያስችላቸዋል። እዚህ ማሻሻያዎችን ማድረጋችንን እንቀጥላለን (በተለይም የስርዓት መልዕክቶች የአሁኑን ሞዴል "ጄልብሬክ" ለማድረግ ቀላሉ መንገድ መሆናቸውን እናውቃለን፣ ማለትም ገደቦቹን ማክበር ፍጹም አይደለም)፣ ነገር ግን እንዲሞክሩት እና ምን እንደሚያስቡ እንዲያሳውቁን እናበረታታዎታለን።
ምንም እንኳን አቅሙ ቢኖረውም፣ GPT‑4 ከቀደሙት የGPT ሞዴሎች ጋር ተመሳሳይ ገደቦች አሉት። ከሁሉም በላይ ደግሞ አሁንም ሙሉ በሙሉ አስተማማኝ አይደለም (እውነታዎችን "ይቃዣል" እና የማመዛዘን ስህተቶችን ያደርጋል)። የቋንቋ ሞዴል ውጤቶችን በተለይም ከፍተኛ ደረጃ ላይ ባሉ አውዶች ውስጥ፣ ትክክለኛውን ፕሮቶኮል (እንደ የሰው ግምገማ፣ ተጨማሪ አውድ መሰረት በማድረግ ወይም ከፍተኛ ደረጃ ላይ ያሉ አጠቃቀሞችን ሙሉ በሙሉ በማስወገድ) ሲጠቀሙ ከፍተኛ ጥንቃቄ መደረግ አለበት።
አሁንም እውነተኛ ችግር ቢሆንም፣ GPT‑4 ከቀደሙት ሞዴሎች ጋር ሲነጻጸር ቅዠቶችን በእጅጉ ይቀንሳል (እነሱም በእያንዳንዱ ድግግሞሽ እየተሻሻሉ ነው)። GPT‑4 በውስጣዊ የተቃራኒ እውነታ ግምገማዎቻችን ላይ ከቅርቡ ጊዜው GPT‑3.5 40% የበለጠ ውጤት አስመዝግቧል፦
እንደ TruthfulQA ባሉ ውጫዊ መለኪያዎች ላይ እድገት ያሳየን ሲሆን ይህም ሞዴሉ ከእውነታው በተቃራኒ የተመረጡ የተሳሳቱ መግለጫዎች ስብስብ የመለየት ችሎታውን የሚፈትሽ ነው። እነዚህ ጥያቄዎች በስታቲስቲክስ መሰረት ማራኪ ከሆኑ እውነታዎች ጋር የተጣመሩ እና የተሳሳቱ መልሶች ናቸው።
የGPT‑4 መሰረታዊ ሞዴል በዚህ ተግባር ከGPT‑3.5 ትንሽ የተሻለ ነው። ሆኖም፣ ከ አር.ኤል.ኤች.ኤፍ ድህረ-ስልጠና በኋላ (ከ GPT‑3.5 ጋር የተጠቀምንበትን ተመሳሳይ ሂደት በመተግበር)፦ ትልቅ ክፍተት አለ። ከዚህ በታች ያሉትን አንዳንድ ምሳሌዎች ስንመረምር፣ GPT‑4 የተለመዱ አባባሎችን ከመምረጥ ይቆጠባል (ለአሮጌ ውሻ አዲስ ብልሃቶችን ማስተማር አይችሉም)፣ ሆኖም ግን አሁንም ስውር ዝርዝሮችን ሊስት ይችላል (ኤልቪስ ፕሬስሊ የተዋናይ ልጅ አልነበረም)።
ሞዴሉ በውጤቶቹ ውስጥ የተለያዩ መድልዎዎች ሊኖሩት ይችላል—በእነዚህ ላይ እድገት አሳይተናል፣ ነገር ግን አሁንም ብዙ ማድረግ የሚገባን ነገር አለ። በቅርቡ በወጣው የብሎግ ልጥፋችን መሠረት፣ የምንገነባቸው የሰው ሰራሽ አስተውሎት ስርዓቶች የተጠቃሚዎችን ሰፊ እሴቶች የሚያንፀባርቁ ምክንያታዊ ነባሪ ባህሪያት እንዲኖራቸው፣ እነዚያ ስርዓቶች በሰፊው ወሰኖች ውስጥ እንዲበጁ እና እነዚህ ወሰኖች ምን መሆን እንዳለባቸው የህዝብ አስተያየት እንዲያገኙ ለማድረግ እንጥራለን።
GPT‑4 በአጠቃላይ አብዛኛው መረጃው ከተቆረጥበት (እ.ኤ.አ ሴፕቴምበር 2021) በኋላ ስለተከሰቱ ክስተቶች እውቀት የለውም፣ እና ከተሞክሮው መማር አይችልም። አንዳንድ ጊዜ በብዙ ዘርፎች ውስጥ ካለው የማስተዋል ብቃት ጋር የማይጣጣሙ ቀላል የማመዛዘን ስህተቶችን ሊያደርግ ይችላል፣ ወይም ከተጠቃሚ የሚቀርቡ ግልጽ የሆኑ የሐሰት መግለጫዎችን ለመቀበል ከመጠን በላይ ሊታለል የሚችል ይሆናል። እና አንዳንድ ጊዜ ሰዎች እንደሚያደርጉት ሁሉ ከባድ ችግሮችን ሊፈታ ይችላል፣ ለምሳሌ ወደሚያመነጨው ኮድ የደህንነት ተጋላጭነቶችን ማስገባት።
GPT‑4 በትንበያዎቹ ላይ በሙሉ የራስ መተማመን የተሳሳተ ሊሆን ይችላል፣ ስህተት ሊሠራ በሚችልበት ጊዜ ስራውን ደጋግሞ ለማረጋገጥ ጥንቃቄ አያደርግም። የሚገርመው ነገር፣ መሰረታዊው ቅድመ-ስልጠና የተሰጠው ሞዴል በከፍተኛ ደረጃ የተስተካከለ ነው (በመልስ ላይ ያለው የተነበየው በራስ መተማመን በአጠቃላይ ትክክል ከመሆን እድል ጋር ይዛመዳል)። ነገር ግን፣ በአሁኑ የድህረ-ስልጠና ሂደታችን በኩል፣ መለኪያው ተቀንሷል።
ከስልጠናው መጀመሪያ ጀምሮ ደህንነቱ የተጠበቀ እና የበለጠ ወጥነት እንዲኖረው በGPT‑4 ላይ ደጋግመን እየሰራን ሲሆን የቅድመ ስልጠና መረጃዎችን መምረጥ እና ማጣራት፣ ግምገማዎች እና የባለሙያ ተሳትፎ፣ የሞዴል ደህንነት ማሻሻያዎች እና ክትትል እና ማስፈጸምን ጨምሮ ጥረቶችን አካተናል።
GPT‑4 እንደ ቀደሙት ሞዴሎች ሁሉ እንደ ጎጂ ምክር፣ ስህተት ያለበት ኮድ ወይም የተሳሳተ መረጃ ማመንጨት ያሉ ተመሳሳይ አደጋዎችን ያስከትላል። ይሁን እንጂ የGPT‑4 ተጨማሪ ችሎታዎች አዳዲስ የአደጋ ገጽታዎችን ያስከትላሉ። የእነዚህን አደጋዎች ስፋት ለመረዳት፣ ሞዴሉን በተቃራኒ ለመፈተሽ እንደ የሰው ሰራሽ አስተውሎት አሰላለፍ አደጋዎች፣ የሳይበር ደህንነት፣ የባዮሪስክ፣ የእምነት እና የደህንነት ጉዳዮች እና የዓለም አቀፍ ደህንነት ካሉ ዘርፎች ከ50 በላይ ባለሙያዎችን ተነጋግረናል። ግኝቶቻቸው በተለይ ለመገምገም ሙያዊ ብቃት የሚጠይቁ ከፍተኛ አደጋ ባላቸው አካባቢዎች የሞዴል ባህሪን እንድንፈትሽ አስችሎናል። ከእነዚህ ባለሙያዎች የተሰጡ ግብረመልሶችና መረጃዎች ለሞዴሉ ላቀረብናቸውን ማስተካከያዎች እና ማሻሻያዎች ተጠቅመዋል፤ ለምሳሌ፣ የGPT‑4 አደገኛ ኬሚካሎችን እንዴት ማዋሃድ እንደሚቻል ጥያቄዎችን ውድቅ የማድረግ ችሎታን ለማሻሻል ተጨማሪ መረጃዎችን ሰብስበናል።
GPT‑4 ሞዴሉን ለእንደዚህ አይነት ይዘት ጥያቄዎችን ውድቅ እንዲያደርግ በማሰልጠን (በአጠቃቀም መመሪያዎቻችን(በአዲስ መስኮት ውስጥ ይክፈታል) እንደተገለጸው) ጎጂ ውጤቶችን ለመቀነስ በአር.ኤል.ኤች.ኤፍ ስልጠና ወቅት ተጨማሪ የደህንነት ሽልማት ምልክትን ያካትታል። ሽልማቱ የሚሰጠው ከደህንነት ጋር በተያያዙ ጥያቄዎች ላይ የደህንነት ወሰኖችን እና የማጠናቀቂያ ዘይቤን በሚገመግም GPT‑4 ዜሮ-ሾት ክላሲፋየር ነው። ሞዴሉ ትክክለኛ ጥያቄዎችን ካለመቀበል ለመከላከል፣ ከተለያዩ ምንጮች (ለምሳሌ፣ የተሰየመ የምርት መረጃ፣ የሰው ሬድ-ቲሚንግ፣ በሞዴል የመነጩ ጥያቄዎች) የተለያዩ የመረጃ ስብስቦችን እንሰበስባለን እና የደህንነት ሽልማት ምልክቱን (አዎንታዊ ወይም አሉታዊ ዋጋ ያለው) በተፈቀዱ እና በተከለከሉ ምድቦች ላይ እንተገብራለን።
ከGPT‑3.5 ጋር ሲነጻጸር የእኛ ማስተካከያዎች ብዙዎቹን የGPT‑4 የደህንነት ባህሪያት በእጅጉ አሻሽለዋል። ከGPT‑3.5 ጋር ሲነፃፀር ለማይፈቀዱ ይዘት ጥያቄዎች ምላሽ የመስጠት የሞዴሉን አዝማሚያ በ82% ቀንሰናል፣ እና GPT‑4 በፖሊሲዎቻችን መሠረት ጥንቃቄ ለሚፈልጉ ጥያቄዎች (ለምሳሌ፣ የሕክምና ምክር እና ራስን መጉዳት) 29% ብዙውን ጊዜ መልስ ይሰጣል።
በአጠቃላይ፣ የሞዴል ደረጃ ጣልቃ ገብነቶቻችን መጥፎ ባህሪን የማስከተል ችግርን ይጨምራሉ፣ ነገር ግን ይህን ማድረግ አሁንም ይቻላል። በተጨማሪም፣ የአጠቃቀም መመሪያዎቻችንን የሚጥሱ ይዘቶችን ለማመንጨት አሁንም "ጄልብሬኮች" አሉ። የሰው ሰራሽ አስተውሎት ስርዓቶች "አደጋ በአንድ ቶከን" እየጨመረ ሲሄድ፣ በእነዚህ ጣልቃ ገብነቶች ውስጥ እጅግ በጣም ከፍተኛ የሆነ አስተማማኝነት ማግኘት ወሳኝ ይሆናል፤ ለጊዜው እነዚህን ገደቦች እንደ አላግባብ መጠቀምን መከታተል ባሉ የማስፈጸሚያ ጊዜ የደህንነት ቴክኒኮችን መደገፍ አስፈላጊ ነው።
GPT‑4 እና ቀጣይ ሞዴሎች ህብረተሰቡ ላይ ጠቃሚም ሆነ ጎጂ በሆነ መልኩ ከፍተኛ ተጽዕኖ የማሳደር አቅም አላቸው። ሊከሰቱ የሚችሉ ተፅዕኖዎችን እንዴት እንደምንረዳ እና እንደምንገመግም ለማሻሻል፣ እንዲሁም ወደፊት በሚመጡ ስርዓቶች ውስጥ ሊከሰቱ የሚችሉ አደገኛ ችሎታዎችን ለመገምገም ከውጪ ተመራማሪዎች ጋር በመተባበር እየሰራን ነው። በቅርቡ GPT‑4 እና ሌሎች የሰው ሰራሽ አስተውሎት ስርዓቶች ሊኖሩ ስለሚችሉ ማህበራዊ እና ኢኮኖሚያዊ ተፅእኖዎች ያለንን ሀሳብ የበለጠ እናካፍላለን።
ልክ እንደ ቀደሙት የGPT ሞዴሎች፣ የGPT‑4 መሰረታዊ ሞዴል በሰነድ ውስጥ የሚቀጥለውን ቃል ለመተንበይ የሰለጠነ ሲሆን፣ በይፋ የሚገኝ መረጃን (እንደ የኢንተርኔት መረጃ) እንዲሁም በፈቃድ የተገኘን መረጃ በመጠቀም ስልጠና ተሰጥቶታል። መረጃው ለሂሳብ ችግሮች ትክክለኛ እና የተሳሳቱ መፍትሄዎችን፣ ደካማ እና ጠንካራ አመክንዮዎችን፣ እርስ በርስ የሚጋጩ እና ወጥነት ያላቸውን መግለጫዎችን እና የተለያዩ ርዕዮተ ዓለሞችን እና ሀሳቦችን የሚወክል የበይነመረብ ደረጃ የመረጃ ስብስብ ነው።
ስለዚህ ጥያቄ ሲቀርብለት፣ መሰረታዊ ሞዴሉ ከተጠቃሚው ፍላጎት የራቁ ሊሆኑ በሚችሉ የተለያዩ መንገዶች ምላሽ ሊሰጥ ይችላል። በመቆጣጠሪያዎች ገደብ ውስጥ ከተጠቃሚው ፍላጎት ጋር ለማስማማት፣ ከሰው ግብረመልስ (አር.ኤል.ኤች.ኤፍ) ጋር የማጠናከሪያ ትምህርት በመጠቀም የሞዴሉን ባህሪ እናስተካክላለን።
የሞዴሉ ችሎታዎች በዋናነት ከስልጠናው በፊት ከሚደረግ ሂደት የሚመጡ ይመስላሉ—አር.ኤል.ኤች.ኤፍ የፈተና አፈጻጸምን አያሻሽልም (ንቁ ጥረት ከሌለ፣ ይበልጥ ያወርደዋል)። ነገር ግን ሞዴሉን መምራት የሚመጣው ከስልጠና በኋላ ከሚደረገው ሂደት ነው—መሰረታዊ ሞዴሉ ለጥያቄዎቹ መልስ መስጠት እንዳለበት ለማወቅ የጥያቄ ምህንድስና ይፈልጋል።
የGPT‑4 ፕሮጀክት ዋና ትኩረት ሊገመት የሚችል ጥልቅ የመማሪያ ክምችት መገንባት ነው። ዋናው ምክንያት እንደ GPT‑4 ላሉ በጣም ትላልቅ የስልጠና ዙሮች፣ ሰፊ የሆነ ሞዴል ተኮር ማስተካከያ ማድረግ የማይቻል መሆኑ ነው። በተለያዩ ደረጃዎች በጣም ሊገመት የሚችል ባህሪ ያላቸው መሠረተ ልማቶችን እና ማመቻቸትን አዘጋጅተናል። ይህንን የመስፋፋት አቅም ለማረጋገጥ፣ በተመሳሳይ ዘዴ ከሰለጠኑ ሞዴሎች በመነሳት፣ ነገር ግን 10,000x ያነሰ ስሌት በመጠቀም፣ በውስጣዊ የኮድ ቤዝ (የስልጠናው አካል ያልሆነ) ላይ የGPT‑4 የመጨረሻ ኪሳራ እንደሚደርስ በትክክል አስቀድመን ተንብየናል፦
አሁን በስልጠና ወቅት የምናሻሽለውን መለኪያ (ኪሳራ) በትክክል መተንበይ ስለቻልን፣ የበለጠ ልንረዳችቸው የሚችሉ መለኪያዎችን ለመተንበይ ዘዴ ማዘጋጀት ጀምረናል። ለምሳሌ፣ ከ1,000x ያነሰ ስሌት ካላቸው ሞዴሎች በመነሳት፣ በ HumanEval(በአዲስ መስኮት ውስጥ ይክፈታል) የውሂብ ስብስብ ንዑስ ስብስብ ላይ የማለፊያ መጠንን በተሳካ ሁኔታ ተንብየናል፦
አንዳንድ ችሎታዎች አሁንም ለመተንበይ አስቸጋሪ ናቸው። ለምሳሌ፣ የኢንቨርስ ስኬሊንግ ሽልማት የሞዴል ስሌት እየጨመረ ሲሄድ የሚባባስ መለኪያ ለማግኘት የተደረገ ውድድር ነበር፣ እና የኋላ እያታ ቸልተኝነት(በአዲስ መስኮት ውስጥ ይክፈታል) ከአሸናፊዎቹ አንዱ ነበር። ልክ እንደ ሌላው የቅርብ ጊዜ ውጤት፣(በአዲስ መስኮት ውስጥ ይክፈታል) GPT‑4 አዝማሚያውን ይለውጠዋል፦
የወደፊቱን የማሽን መማሪያ ችሎታዎች በትክክል መተንበይ ከሚያስከትለው ተጽእኖ አንፃር በቂ ትኩረት የማያገኝ የደህንነት አስፈላጊ አካል ነው ብለን እናምናለን (ምንም እንኳን በተለያዩ ተቋማት ውስጥ ባሉ ጥረቶች ተበረታተናል)። ማህበረሰቡ ከወደፊት ስርዓቶች ምን መጠበቅ እንዳለበት የተሻለ መመሪያ የሚሰጡ ዘዴዎችን ለማዘጋጀት ጥረታችንን እያሳደግን ነው፣ እናም ይህ በዘርፉ የጋራ ግብ እንደሚሆን ተስፋ እናደርጋለን።
እንደ GPT‑4 ያሉ ሞዴሎችን ለመገምገም መለኪያዎችን ለመፍጠር እና ለማስኬድ የሶፍትዌር ማዕቀፋችን የሆነውን OpenAI Evals(በአዲስ መስኮት ውስጥ ይክፈታል) ኦፕን ሶርስ እያደረግን ሲሆን አፈጻጸማቸውን ናሙና በናሙና እንፈትሻለን። ሞዴሎቻችንን (ድክመቶችን ለመለየት እና ወደኋላ መመለስ ችግሮችን ለመከላከል) ለማዘጋጀት Evalsን እንጠቀማለን፣ እና ተጠቃሚዎቻችን በሞዴል ስሪቶች (አሁን በመደበኛነት የሚወጡት) ውስጥ ያለውን አፈጻጸም ለመከታተል እና የምርት ውህደቶችን ለማሻሻል ሊጠቀሙበት ይችላሉ። ለምሳሌ፣ Stripe በGPT የሚሰራ የሰነድ መሳሪያውን ትክክለኛነት ለመለካት የሚጠቀሙትን የሰው ግምገማዎቻቸውን ለመደገፍ Evalsን ተጠቅሟል።
ኮዱ ሙሉ በሙሉ ኦፕን ሶርስ ስለሆነ Evals ብጁ የግምገማ አመክንዮን(በአዲስ መስኮት ውስጥ ይክፈታል) ለመተግበር አዳዲስ ክፍሎችን መጻፍን ይደግፋል። ይሁን እንጂ፣ በራሳችን ልምድ ብዙ መለኪያዎች ከጥቂት “አብነቶች” አንዱን ይከተላሉ፣ ስለዚህ በውስጥ በጣም ጠቃሚ የሆኑትን አብነቶችንም አካተናል(በአዲስ መስኮት ውስጥ ይክፈታል) (ለ“ሞዴል-ደረጃ የተሰጣቸው ኢቫሎች” አብነት ጨምሮ) - GPT‑4 የራሱን ስራ በራሱ የመፈተሽ አስደናቂ ችሎታ እንዳለው ደርሰንበታል)። በአጠቃላይ አዲስ ኢቫል ለመገንባት(በአዲስ መስኮት ውስጥ ይክፈታል) በጣም ውጤታማው መንገድ ከእነዚህ አብነቶች ውስጥ አንዱን ከመረጃ አቅርቦት ጋር ማዋሃድ ነው። ሌሎች በእነዚህ አብነቶች እና በኤቫልስ በአጠቃላይ ምን መገንባት እንደሚችሉ ለማየት ጓጉተናል።
ኢቫልስ ሰፊ የሆነ የውድቀት ሁነታዎችን እና አስቸጋሪ ተግባራትን የሚወክሉ የመለኪያዎች ማጋሪያ እና ከህዝብ ማሰባሰቢያ የሚያቀርብ መጓጓዣ እንደሚሆን ተስፋ እናደርጋለን። መከተል እንዳለብዎት ምሳሌ፣ GPT‑4 የማይችሉበትን አስር ጥያቄዎች ያሉት የሎጂክ እንቆቅልሾች(በአዲስ መስኮት ውስጥ ይክፈታል) ኢቫል ፍጠረናል። Evals ነባር መለኪያዎችን ከመተግበር ጋር ተኳሃኝ ነው፤ የአካዳሚክ መለኪያዎችን ተግባራዊ የሚያደርጉ በርካታ የማስታወሻ ደብተሮችን(በአዲስ መስኮት ውስጥ ይክፈታል) እና ጥቂት (ትናንሽ ንዑስ ቡድኖች) የCoQA(በአዲስ መስኮት ውስጥ ይክፈታል) ውህደት አይነቶችን እንደ ምሳሌ አካትተናል።
ሞዴሎቻችንን ለመሞከር እና በጣም አስደሳች ምሳሌዎችን ለማቅረብ ሁሉንም ሰው Evals እንዲጠቀሙ እንጋብዛለን። Evals ሞዴሎቻችንን ለመጠቀምና ለመገንባት የሂደቱ ዋና አካል እንደሚሆን እናምናለን፣ እና ቀጥተኛ አስተዋጽዖዎችን፣ ጥያቄዎችን እና ግብረመልሶችን(በአዲስ መስኮት ውስጥ ይክፈታል) በደስታ እንቀበላለን።
የChatGPT Plus ተመዝጋቢዎች በ chatgpt.com(በአዲስ መስኮት ውስጥ ይክፈታል) ላይ የGPT‑4 መዳረሻ ከአጠቃቀም ገደብ ጋር ያገኛሉ። በተግባር እንደ ፍላጎት እና የስርዓት አፈጻጸም ላይ በመመስረት ትክክለኛውን የአጠቃቀም ገደብ እናስተካክላለን፣ ነገር ግን በአቅም ውስንነት በእጅጉ እንደሚወሰን እንጠብቃለን (ምንም እንኳን በሚቀጥሉት ወራት ውስጥ እናሳድጋለን እና እናሻሽላለን)።
በምናየው የትራፊክ ሁኔታ ላይ በመመስረት፣ ለከፍተኛ መጠን የGPT‑4 አጠቃቀም አዲስ የደንበኝነት ምዝገባ ደረጃ ልናስተዋውቅ እንችላለን፣ እንዲሁም የሆነ ጊዜ ላይ የደንበኝነት ምዝገባ የሌላቸው ሰዎችም እንዲሞክሩት የተወሰኑ ነጻ የGPT‑4 ጥያቄዎችን ለማቅረብ ተስፋ እናደርጋለን።
ወደ GPT‑4 ኤ.ፒ.አይ መዳረሻ ለማግኘት (እንደ gpt-3.5-turbo ተመሳሳይ ChatCompletions ኤ.ፒ.አይ(በአዲስ መስኮት ውስጥ ይክፈታል) የሚጠቀም)፣ እባክዎን ለመጠባበቂያ ዝርዝራችን ይመዝገቡ። ዛሬ አንዳንድ ገንቢዎችን መጋበዝ እንጀምራለን፣ እና አቅምን ከፍላጎት ጋር ለማመጣጠን ቀስ በቀስ እናሳድጋለን። የሰው ሰራሽ አስተውሎት (AI) ማህበረሰባዊ ተፅእኖ ወይም የሰው ሰራሽ አስተውሎት አሰላለፍ ጉዳዮችን የሚያጠኑ ተመራማሪ ከሆኑ፣ በተመራማሪ መዳረሻ ፕሮግራም በኩል ለድጎማ የተደራሽነት ማመልከቻ ማስገባት ይችላሉ።
መዳረሻ ካገኙ በኋላ፣ ለgpt-4 ሞዴል የጽሑፍ-ብቻ ጥያቄዎችን ማቅረብ የሚችሉ ሲሆን (የምስል ግቤቶች አሁንም በተወሰነ አልፋ ውስጥ ናቸው)፣ ይህም ከጊዜ በኋላ አዳዲስ ስሪቶችን ስናዘጋጅ ወደሚመከረው የተረጋጋ ሞዴላችን በራስ-ሰር እናዘምነዋለን (እ.ኤ.አ እስከ ጁን 14 ድረስ የምንደግፈውን gpt-4-0314 በመጥራት የአሁኑን ስሪት መሰካት ይችላሉ)። ዋጋው በ1ሺህ የጥያቄ ቶከኖች $0.03 እና በ1ሺህ የማጠናቀቂያ ቶከኖች $0.06 ነው። ነባሪ የዋጋ ገደቦች በደቂቃ 40ሺህ ቶከኖች እና በደቂቃ 200 ጥያቄዎች ናቸው።
gpt-4 የ8,192 ቶከኖች አውድ ርዝመት አለው። እንዲሁም ለእኛ የ32,768–አውድ (ወደ 50 ገጾች የጽሑፍ) ስሪታችን፣ gpt-4-32k የተወሰነ መዳረሻ እያቀረብን ሲሆን ይህም በጊዜ ሂደት በራስ-ሰር ይዘምናል (የአሁኑ የgpt-4-32k-0314 ስሪት፣ እንዲሁ እ.ኤ.አ እስከ ጁን 14 ድረስ ይደግፋል)። ዋጋው በ1ሺህ የጥያቄ ቶከኖች $0.06 እና በ1ሺህ የማጠናቀቂያ ቶከኖች $0.12 ነው። ለረጅም አውድ የሞዴል ጥራትን እያሻሻልን ነው፣ እና ለእርስዎ አጠቃቀም እንዴት እንደሚሰራ ግብረ መልስ ቢሰጡን እንወዳለን። የ8ሺ እና የ32ሺ ኤንጅኖች ጥያቄዎች በአቅም ላይ ተመስርተን በተለያየ ዋጋ እያስተናገድን ነው፣ ስለዚህ በተለያዩ ጊዜያት ለእነሱ መዳረሻ ሊያገኙ ይችላሉ።
GPT‑4 ብዙ መተግበሪያዎችን በማብቃት የሰዎችን ሕይወት ለማሻሻል ጠቃሚ መሣሪያ እንዲሆን በጉጉት እንጠብቃለን። አሁንም ብዙ የሚሰሩ ስራዎች አሉ፣ እና ይህንን ሞዴል በማህበረሰቡ ግንባታ፣ በማሰስ እና ለሞዴሉ አስተዋጽኦ በማድረግ በጋራ ጥረት ለማሻሻል በጉጉት እንጠብቃለን።
የኤም.ኤም.ኤል.ዩ ጥያቄዎች ምሳሌ፣ ወደ ሌሎች ቋንቋዎች ተተርጉመው። ማስታወሻ፣ ቀጣይ የሆኑ የምርጫ ቶክኖች እንጠቀማለን (A–D)፦
የግርጌ ማስታወሻዎች
- A
ይህንን መለኪያ የሃሳብ ሰንሰለት ጥያቄን በመጠቀም ከስልጠናው ስብስብ ውስጥ 4 ምሳሌዎችን በመጠቀም እንገመግማለን። የተወሰነው ጥያቄ በማረጋገጫ ስብስብ ላይ ተስተካክሏል።
ማጣቀሻዎች
- 1
P. Arredondo (Casetext/Stanford CodeX)፣ D. Katz (Stanford CodeX)፣ M. Bommarito (Stanford CodeX)፣ S. Gao (Casetext)። ተጨማሪ ትንተና በወረቀቱ ውስጥ(በአዲስ መስኮት ውስጥ ይክፈታል) ይገኛል።


