5 ጃንዋሪ 2021

DALL·E፦ ከጽሑፍ ምስሎችን መፍጠር

በተፈጥሮ ቋንቋ ለሚገለጽ ሰፊ ፅንሰ-ሀሳብ ከጽሑፍ መግለጫ ምስሎችን የሚፈጥር DALL·E የሚባል የነርቭ አውታረ መረብ አሰልጥነናል።

ምሳሌ፦ Justin Jay Wang

በመጫን ላይ…

DALL·E የ12 ቢሊዮን ፓራሜተር ያለው የGPT‑3⁠(በአዲስ መስኮት ውስጥ ይክፈታል) እትም ነው፣ ከጽሑፍ መግለጫዎች ምስሎችን ለመፍጠር የተማረ፣ እንዲሁም ከጽሑፍ–ምስል ጥምረት የተዘጋጀ ውሂብ ስብስብ በመጠቀም ያመነጫል። እኛ እንደምናገኘው ይህ በተለያዩ ክህሎቶች የተሞላ ነው፣ እነዚህም የእንስሳትና ዕቃዎችን የሰው ሠራሽ እትም ቅርጽ ፍጠር፣ የማይዛመዱ ሀሳቦችን በምንም እንኳን አስተማማኝ መንገድ ማዋሃድ፣ ጽሑፍ ማቅረብ እና ነባሪ ምስሎችን መቀየር ያካትታሉ።

እንዲሁም ይመልከቱ፦ DALL·E 2⁠፣ ከ4 እጥፍ የተሻለ ጥራት ጋር ይበልጥ እውነተኛና ትክክለኛ ምስሎችን ያመነጫል።

በመጫን ላይ...

GPT‑3 አስመለከተው ቋንቋ በተለያዩ የጽሑፍ ተግባሮች ላይ ለማስተማር ትልቅ የነርቭ አውታረ መረብ ማምረት እንደሚቻል አሳየ። Image GPT⁠ እንደዚሁ ዓይነት የነርቭ አውታረ መረብ ከፍተኛ ጥራት ያላቸው ምስሎችን ለመያመነጫት ሊጠቀም እንደሚችል አሳየ። የዕይታ ፅንሰ-ሀሳቦችን በቋንቋ መጠቀም አሁን ሊደረስበት የሚችል መሆኑን ለማሳየት እነዚህን ግኝቶች እናራዝማለን።

አጠቃላይ ዕይታ

እንደ GPT‑3፣ DALL·E ተለዋዋጭ የቋንቋ ሞዴል ነው። ጽሑፉንም ሆነ ምስሉን እስከ 1280 ቶከኖችን፣ የያዘ እንደ አንድ ዥረት ይቀበላል እና ሁሉንም ቶከኖች ለማመንጨት ከፍተኛ እድልን በመጠቀም የሰለጠኑ ናቸው። ^A

ይህ የስልጠና ሂደት DALL·E ከመጀመሪያ እንደ መሰረት ምስል ያመነጫል ብቻ ሳይሆን፣ ነባሪ ምስል ውስጥ ወደ ታችኛው-ቀኝ ማዕዘን የሚዘርጋ ማንኛውንም አራት ማዕዘን ክልል ከጽሑፍ እርምጃ ጋር ተመሳሳይ በሆነ መንገድ ማስተካከል ይችላል።

እኛ የጅምላ ሞዴሎችን የሚያካትቱ ሥራዎች ለማህበረሰብ ከፍተኛ እና ሰፊ ተፅእኖ ሊኖራቸው እንደሚችሉ እናውቃለን። ለወደፊቱ፣ እንደ DALL·E ያሉ ሞዴሎች ከህብረተሰቡ ጋር እንዴት እንደሚዛመዱ እንደ ኢኮኖሚያዊ ተፅእኖ በተወሰኑ የሥራ ሂደቶች እና ሙያዎች ላይ፣ በአምሳያው ውጤቶች ላይ ያለውን አድልዎ እና በዚህ ቴክኖሎጂ የረጅም ጊዜ የስነምግባር ፈተናዎችን ለመተንተን አቅደናል።

ችሎታዎች

እኛ እንደምናገኘው DALL·E ለተለያዩ ዓይነት ዐረፍተ ነገሮች እውነተኛ የሚመስሉ ምስሎችን ማፍጠር እንደሚችል እና የቋንቋ ቅንብር መዋቅርን ማሰስ እንደሚችል ነው። ይህንን በሚቀጥለው ክፍል ተከታታይ በይነተገናኝ ምስሎችን በመጠቀም እናሳያለን። በእያንዳንዱ ምስል ላይ የተቀመጡ ምሳሌዎች በCLIP⁠ ከተመረጡ 512 ውስጥ ከላይ 32 በመውሰድ ይገኛሉ፣ ነገር ግን ከተነጣጠሉ እና ከተለያዩ ምስሎች ውጭ ማንኛውም የእጅ መረጣ አንጠቀምም፣ ከተነጣጠሉ እና ከተለያዩ ምስሎች ውጭ የተለያዩ ምስሎች ይቀርባሉ።^B

ባህሪያትን መቆጣጠር

DALL·E የአንድ ነገር ባህሪዎችን እንዲሁም የተመለከተው ጊዜ ብዛት ለማሻሻል ችሎታውን እንፈትሻለን።

በመጫን ላይ...

ብዙ ነገሮችን መሳል

በተመሳሳይ ጊዜ ብዙ ነገሮችን፣ ባህሪያቸውን እና የቦታ ግንኙነታቸውን መቆጣጠር አዲስ ፈታኝ ሁነታ ያስከትላል። ለምሳሌ «ቀይ ኮፍያ፣ ቢጫ ጓንት፣ ሰማያዊ ሸሚዝ እና አረንጓዴ ሱሪ የለበሰ ጃርት» የሚለውን ሐረግ ተመልከት። ይህንን ዓረፍተ ነገር በትክክል ለመተርጎም፣ DALL·E እያንዳንዱን ልብስ ከእንስሳው ጋር በትክክል ማቀናበር ብቻ ሳይሆን ማኅበራትን (ኮፍያ፣ ቀይ)፣ (ጓንት፣ ቢጫ) (ሸሚዝ፣ ሰማያዊ) እና (ሱሪ፣ አረንጓዴ) ሳይቀላቀሉ ማኅበራት መፍጠር አለበት ^C

እኛ አንፃራዊ ቦታ ለማስቀመጥ፣ ነገሮችን ለመደርደር እና በርካታ ባህሪያትን ለመቆጣጠር የDALL·Eን ችሎታ እንፈትሻለን።

በመጫን ላይ...

ምንም እንኳን DALL·E በትንሽ ዕቃዎች ላይ ያሉ ባህሪያትን እና አቀማመጦችን ለመቆጣጠር ደረጃ ያለውን ተቆጣጠር ቢሰጥም፣ የስኬት መጠኑ ግን እንዴት እንደተጻፈ ከሚሰጥ ጽሑፍ ጋር ይተያያዣል። ሌሎች ነገሮች ሲጨመሩ፣ DALL·E በነገሮች እና ቀለሞቻቸው መካከል ግንኙነት ማስታረቅ ይችላል፣ እና የስኬት ተመን በፍጥነት ይቀንሳል። እንዲሁም በእነዚህ ሁኔታዎች ውስጥ ለመግለጫ ጽሑፍ መሸጋገብ በተመለከተ የDALL·E ድንጋጤን እንመለከታለን፤ ተዋሳኝ እና በስምምነት ተመሳሳይ የሆኑ መግለጫ ጽሑፎች ብዙ ጊዜ ትክክለኛ ትርጉሞችን አያመነጩም።

አመለካከትን እና ባለሶስት አቅጣጫዊነትን ማየት

በተጨማሪም DALL·E አንድን ትዕይንት ከየትኛው አቅጣጫ ማየት እንደሚቻል እንዲሁም አንድ ትዕይንት የሚቀርጸው በ3D ስታይል እንደሆነ እንገነዘባለን።

በመጫን ላይ...

ይህንን የበለጠ ለመግፋት የDALL·E ችሎታን እንፈትሻለን የአንድ ታዋቂ ሰው ጭንቅላትን በእያንዳንዱ ማዕዘን ላይ በእኩል ከተቀመጡ ማዕዘኖች በተከታታይ መሳል እና የሚሽከረከር ጭንቅላት ለስላሳ አኒሜሽን ማግኘት እንደምንችል እንገነዘባለን።

በመጫን ላይ...

«የአሳ አይን ሌንስ እይታ» እና «ሉላዊ ፓኖራማ» በሚሉት አማራጮች እንደምንመለከተው DALL·E አንዳንድ የኦፕቲካል መዛባትን ወደ ትዕይንቶች መተግበር የሚችል ይመስላል። ይህ ነጸብራቅ የማመንጨት ችሎታውን እንድናስስ አነሳስቶናል።

በመጫን ላይ...

ውስጣዊ እና ውጫዊ መዋቅርን ማየት

«እጅግ በጣም ቅርብ ዕይታ» እና «ኤክስሬይ» ቅጥ የተወሰዱ ናሙናቶች የDALL·E የውስጥ መዋቅርን በክፍተት እንዲያሳይ እና የውጭ መዋቅርን በማክሮ ፎቶግራፍ እንዲያቀርብ የሚችል እንደሆነ ማሰስ እንደምንችል አድርጎናል።

በመጫን ላይ...

አውዳዊ ዝርዝሮችን መረዳት

ጽሑፍን ወደ ምስሎች የመተርጎም ተግባር በዝርዝር ተገልጿል፦ ነጠላ መግለጫ ጽሑፍ በአጠቃላይ ከአሳማኝ ምስሎች ወሰን የለሽነት ጋር ይዛመዳል፣ ስለዚህ ምስሉ በልዩ ሁኔታ አልተወሰነም። ምሳሌ እንደ ምሳሌ ይወስዱ፣ «በፀሐይ መውጣት ላይ በሜዳ ላይ የተቀመጠ ካፒባራ ሥዕል» የሚለውን መግለጫ ይመልከቱ። በካፒቢባው አቅጣጫ ላይ በመመስረት፣ ይህ ዝርዝር በግልፅ ያልተጠቀሰ ቢሆንም፣ ጥላን መሳል አስፈላጊ ሊሆን ይችላል። እኛ የDALL·E ችሎታን በሦስት ጉዳዮች ውስጥ ያለውን የማልቀስ ችግር ማስተካከል ማሰስ፦ ቅጥ መቀየር፣ ማቋቋም እና ጊዜ፤ ተመሳሳይ ነገርን በተለያዩ ሁኔታዎች ማሳየት፤ እና በምስል ላይ የተገለጸ የተወሰነ ጽሑፍ ያለው ነገር ያመነጫል።

በመጫን ላይ...

በተለያዩ ደረጃዎች የተረጋጋነት ጋር፣ DALL·E በተፈጥሮ ቋንቋ የ3D ምስል ማቀነባበር ማህደር አካል የሆነ አንድ ክፍል መዳረሻ ይሰጣል። ራሱን የቻለ አነስተኛ ቁጥር ያላቸውን ነገሮች ባህሪያት፣ እና በተወሰነ መጠን፣ ስንት እንዳሉ እና እርስ በርስ እንዴት እንደሚደረደሩ መቆጣጠር ይችላል። እንዲሁም አንድ ትዕይንት የተሠራበትን ቦታ እና ማዕዘኑን ይቆጣጠራል፣ የማዕዘን እና የብርሃን ሁኔታዎችን ትክክለኛነት በማክበር የታወቁ ነገሮችን ማመንጨት ይችላል።

እንደ 3D ተርጓሚ ሞተር ሳይሆን ግብዓቶቹ በማያሻማ እና በተሟላ መልኩ መገለፅ አለባቸው፣ DALL·E ብዙውን ጊዜ «ባዶ መሙላት» ይችላል መግለጫ ጽሑፉ ምስሉ በግልፅ ያልተገለፀ የተወሰነ ዝርዝር መያዝ አለበት ሲል ያሳያል።

የቀደሙ ችሎታዎች መተግበሪያዎች

ቀጣይ፣ የቀደመውን ችሎታ ለፋሽን እና የውስጥ ንድፍ ማሰስ እንዴት እንደሚጠቀሙበት እንመለከታለን።

በመጫን ላይ...

የማይዛመዱ ፅንሰ-ሐሳቦችን በማጣመር

የቋንቋ ስብጥር ተፈጥሮ እውነተኛ እና ምናባዊ ነገሮችን ለመግለጽ ፅንሰ-ሀሳቦችን አንድ ላይ እንድናስቀምጥ ያስችለናል። DALL·E የተለያዩ ሐሳቦችን በማጣመር ዕቃዎችን የማዋሃድ ችሎታ እንዳለው አግኝተናል፣ አንዳንዶቹ በገሃዱ ዓለም ውስጥ ሊኖሩ የማይችሉ ናቸው። ይህንን ችሎታ በሁለት አጋጣሚዎች እናስሳለን፦ ከተለያዩ ፅንሰ-ሀሳቦች ወደ እንስሳት ዝውውር እና ከማይዛመዱ ፅንሰ-ሀሳቦች መነሳሻን በመውሰድ ምርቶችን መንደፍ።

በመጫን ላይ...

የእንስሳት ምስሎች

በቀደም ብሎ በተዘረዘረው ክፍል ውስጥ፣ DALL·E የእውነተኛ ዓለም ንብረቶች ምስሎችን ሲያመነጫ ያልተያያዙ ፅንሰ-ሀሳቦችን የማሰስ ችሎታውን እንመለከታለን። እዚህ በአርት አውድ ውስጥ ይህን ችሎታ ለሶስት አይነት ስዕላት ማሰስ እንደምንሠራ እንመልከታለን፦ የሰው ባህሪ ያላቸው የእንስሳት እና ዕቃዎች እትም፣ የእንስሳት ተዋሕዶች እና ኢሞጂዎች።

በመጫን ላይ...

ዜሮ-ሾት የዕይታ ማመዛዘን

GPT‑3 በማንኛውም ተጨማሪ ስልጠና ሳይፈልግ በመግለጫ እና በእርምጃ የተሰጠውን መልስ ለማያመነጫል ብቻ ብዙ አይነት ተግባሮችን ለማከናወን ሊመራ ይችላል። ለምሳሌ፣ ከ«እርምጃ» ቃል ጋር ሲሰጥ የሚለውን «እዚህ ያለው የሰነኝ ሰው ውሻውን በፓርክ ሲያሳድግ በፈረንሳይኛ ውስጥ የተተረጎመ ነው።» GPT‑3 እንደ «un homme qui promène son chien dans le parc» ይመልሳል። ይህ ችሎታ ዜሮ-ሾት ማመዛዘን ይባላል።እኛ እንደምናገኘው DALL·E እነዚህን ችሎታዎች ወደ እይታ ጎራ ያስፋፋ እና በትክክለኛ እርምጃ ሲሰጠው ምስል ወደ ምስል ተርጎም ተግባሮችን ማከናወን ይችላል።

በመጫን ላይ...

እኛ ይህን አቅም እንደሚቀርብ አልጠበቅንም፣ እና የነርቭ አውታረ መረብ ወይም ስልጠና ሂደትን ለማበረታታት ምንም አይነት ለውጥ አላደረግንም። ከእነዚህ ውጤቶች ተነስተን፣ በ20ኛው ክፍለ ዘመን በስፋት የተጠቀመ የዕይታ IQ ፈተና የሆነውን የRaven ተራማጅ ማትሪክስ በመሞከር የDALL·E የአናሎግ ማመዛዘን ችሎታን እንመለካለን።

በመጫን ላይ...

የጂኦግራፊያ እውቀት

DALL·E ስለ ጂኦግራፊያዊ እውነታዎች፣ ምልክቶች እና ሰፈሮች ተምሯል። እውቀቱ በእነዚህ ፅንሰ-ሀሳቦች ላይ በአንዳንድ መንገዶች ትክክለኛ እና በሌሎች ላይ ጉድለት ያለበት ነው።

በመጫን ላይ...

ጊዜያዊ እውቀት

በቦታ ላይ የሚለዋወጡ ፅንሰ-ሀሳቦች ላይ የDALL·E እውቀትን ያስሳል፣ በተጨማሪ በጊዜ ላይ የሚለዋወጡ ፅንሰ-ሀሳቦች እውቀትን እናስሳለን።

በመጫን ላይ...

የአቅጣጫ እና የቀደም ሥራ ማጠቃለያ

DALL·E ቀላል የዲኮድ ብቻ ተለዋዋጭ ተሞላላ ሲሆን ጽሑፉን እና ምስሉን እንደ አንድ ዝርዝር የ1280 token ይቀበላል—256 ለጽሑፍ እና 1024 ለምስል—እና ሁሉንም በራስ-ሰር የሚቀረፅ። በእያንዳንዱ የ64ቱ የራስ ትኩረት ንብርብቶች ላይ ያለው የትኩረት ጭንብል እያንዳንዱ የምስል ማስመሰያ በሁሉም የጽሑፍ ቶከኖች ላይ እንዲገኝ ያስችለዋል። DALL·E ለጽሑፍ ቶከኖች ደረጃውን የጠበቀ የምክንያት ጭንብል ይጠቀማል፣ እና ለምስሉ ቶከኖች በረድፍ፣ አምድ፣ ወይም ኮንቮሉሽን ትኩረት ጥለት ያለው ትንሽ ትኩረት፣ እንደ ንብርብሩ ይለያያል። ስለ አርክቴክቸር እና ስልጠና ሂደት ተጨማሪ ዝርዝር መረጃ በ ወረቀታችን⁠(በአዲስ መስኮት ውስጥ ይክፈታል) እንሰጣለን።

የጽሁፍ-ወደ-ምስል አምጪ ከReed et እና ተባባሪዎቹ የመጀመሪያ አስቀድሞ ሥራ ጀምሮ እንደ ንቁ የምርምር አካል ነበር። al፣¹ የሚጠቀምበት አቀራረብ በጽሑፍ መዋቅር ላይ የተመረኮዘ የGAN ነው። መክተቻዎቹ የሚዘጋጁት ከCLIP በተለየ በተቃራኒ መጥፋት በመጠቀም አስቀድሞ በሰለጠነ ኢንኮደር ነው። StackGAN³ እና StackGAN++⁴ በተደጋጋሚ መጠን ያላቸው የGAN ቴክኖሎጂዎችን በመጠቀም የምስል መጠንን ለማሳደግ እና የእይታ ታማኝነትን ለማሻሻል ይጠቀማሉ። AttnGAN⁵ በጽሑፍ እና ምስል ባህሪዎች መካከል ትኩረት ያካትታል፣ እና እንደ ተጨማሪ ዕላማ የተቃራኒ ጽሑፍ-ምስል ባህሪ መስማማት ኪሳራን ያቀርባል። ይህ ከመስመር ውጭ ከሚሠራው CLIP ጋር ካለን የደረጃ አሰጣጥ ጋር ማነጻጸር አስደሳች ነው። ሌላ ሥራ^{2፣ 6 እና 7} በስልጠና ጊዜ ተጨማሪ የእንቅስቃሴ ምንጮችን በመደመር የምስል ጥራትን ለማሻሻል ይጠቀማል። በመጨረሻም፣ ሥራ በNguyen et። al⁸ እና Cho et። al⁹ በተጠናቀቀ ባለብዙ ሞዴሎች የማለዳ ሞዴሎችን በመጠቀም የምስል ፈጠራ ዘዴዎችን ማሰስ ይሻላል።

ከVQVAE-2⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ የተጠቀሰውን የመቅረዝ ምርመራ ተመሳሳይ በመሆን፣ በሁሉም የተጫዋቾች ምስሎች ውስጥ ለእያንዳንዱ መግለጫ ከ512 ናሙናዎች ላይ ከፍተኛውን 32 ለመመልስ CLIP⁠ እንጠቀማለን። ይህ አሠራር እንደ ቋንቋ የሚመራ ፍለጋ¹⁶ አይነት ሆኖ ሊታይ ይችላል፣ እና በናሙና ጥራት ላይ ከፍተኛ ተጽዕኖ ሊያሳድር ይችላል።

በመጫን ላይ...

የግርጌ ማስታወሻዎች

A
ቶከን ማለት ከተወሰነ መዝገበ ቃላት ውስጥ ያለ ምልክት ነው፤ ለሰው ልጆች እያንዳንዱ የእንግሊዝኛ ፊደል ከ26 ፊደላት ፊደል ውስጥ ያለ ቶከን ነው። የDALL·E ቃላት ለጽሑፍ እና ምስል ፅንሰ-ሀሳቦች ቶከንዎችን ይዟል። በተለይም እያንዳንዱ የምስል መግለጫ በከፍተኛው 256 የBPE ኮድ የተያያዘ ቶከኖች እና በ16384 የመዝገበ-ቃላት መጠን ይወክላል፣ ምስሉም በ1024 ማስመሰያ እና በ8192 የመዝገበ-ቃላት መጠን ይወክላል።

ምስሎች በስልጠና ወቅት ወደ 256x256 መጠን በቅድመ አዘጋጅት ይደረጋሉ። ከVQVAE ጋር ተመሳሳይ፣ እያንዳንዱ ምስል ወደ 32x32 ክፍል የተወሰነ የምስል ኮዶች በመጨመር ይጨመራል፣ ይህም በቀጣይ ማማረር የተማረ የተወሰነ የVAE በመጠቀም ነው። እኛ እንደምንገኝ ስልጠና በማረፍ ሂደት ሲከናወን የተወሰነ ኮድ መጽሐፍ ወይም የEMA ኪሳራ ወይም እንደ ሞተ ኮድ መልሶ ማስነሣት ያሉ ሥልቶች እንደማያስፈልጉ እና እስከ ትልቅ መዝገበ ቃላት መጠን ድረስ ማሳደግ እንደሚችል ነው።