U bood nuxurka ugu muhiimsan
OpenAI

Janaayo 5, 2021

Heerka muhiimka ah

DALL·E: Samaynta sawirro laga soo saaro qoraal

Waxaan tababarnay shabakad neerfaha oo la yiraahdo DALL·E, taas oo ka samaysa sawirro cinwaanno qoraal ah oo ku saabsan fikrado badan oo lagu muujin karo luqadda dabiiciga ah.

DALL·E

Sawir-gacmeed: Justin Jay Wang

Soo kacaya…

DALL·E waa nooc 12-bilyan oo halbeegyo ah oo ka mid ah GPT‑3(ku furmaa daaqad cusub) oo loo tababaray inuu sawirro ka abuuro sharaxaadaha qoraalka, isagoo adeegsanaya xog ururin ka kooban lammaane qoraal–sawir ah. Waxaan ogaanay inuu leeyahay awoodo kala duwan, oo ay ka mid yihiin abuurista noocyo xayawaan iyo walxo oo bini’aadam loo ekeeysiiyey, isu geynta fikrado aan xiriir lahayn si macquul ah, sawiridda qoraal, iyo ku dabaqidda isbeddello sawirro jira.

Sidoo kale eeg: DALL·E 2, kaas oo soo saara sawirro ka dhab-u-eg oo ka sax ah lehna xallin 4x ka weyn.

Soo raraya...

GPT‑3 wuxuu muujiyey in luqad loo adeegsan karo in lagu faro shabakad neerfe oo weyn inay qabato hawlo kala duwan oo qoraal dhalin ah. Image GPT wuxuu muujiyey in isla nooca shabakadda neerfaha sidoo kale loo adeegsan karo soo saarida sawirro tayo sare leh. Waxaan ballaarinay natiijooyinkan si aan u muujinno in wax ka beddelka fikradaha muuqaalka iyada oo loo marayo luqad hadda la gaari karo.

Dulmar

Sida GPT‑3, DALL·E waa nooc luqadeed oo transformer ah. Waxay qaadataa qoraalka iyo sawirka labadaba sidii hal durdur xog ah oo ka kooban ilaa 1280 token, waxaana lagu tababaraa iyadoo la adeegsanayo suurtagalnimada ugu badan si ay u dhaliso dhammaan token-yada, midba midka kale ka dambeeyo. A

Habkan tababarku wuxuu u oggolaanayaa DALL·E inuusan kaliya sawir ka samayn meel eber ah, balse sidoo kale inuu dib u sameeyo gobol kasta oo leydi ah oo ka tirsan sawir jira oo ku fidsan geeska hoose-midig, si la jaanqaadaysa weydiinta qoraalka.

Waxaan aqoonsannahay in shaqada ku lug leh qaababka wax soo saarka ay yeelan karto saameyn bulsho oo weyn oo ballaaran. Mustaqbalka, waxaan qorshaynaynaa inaan falanqeyno sida noocyada sida DALL·E ula xiriiraan arrimaha bulshada sida saameynta dhaqaale ee habraacyo shaqo iyo xirfado gaar ah, suurtagalnimada eexda ee wax-soo-saarka nooca, iyo caqabadaha anshaxeed ee muddada dheer ee ay tignoolajiyadani tilmaamayso.

Awoodaha

Waxaan ogaanay in DALL·E awood u leeyahay inuu abuuro sawirro macquul ah oo ku habboon jumlado aad u kala duwan oo sahaminaya qaab-dhiska isku-dhiska ee luqadda. Waxaan tan ku muujinaynaa taxane muuqaal isdhexgal ah qaybta xigta. Tusaalooyinka lagu muujiyey cinwaan kasta ee muuqaalada waxaa lagu helay iyadoo la qaadayo 32-ka ugu sarreeya 512 kadib kala-hormarin lagu sameeyey CLIP, balse ma aanan adeegsan wax xulasho gacmeed ah, marka laga reebo thumbnails-ka iyo sawirrada goonida ah ee dibadda ka muuqda.B

Xakamaynta sifooyinka

Waxaan tijaabinaynaa awoodda DALL·E ee inuu beddelo dhowr ka mid ah sifooyinka walax, iyo sidoo kale tirada jeer ee ay muuqato.

Soo raraya...

Sawiridda walxo badan

Isla mar ahaantaana xakamaynta walxo badan, sifooyinkooda, iyo xiriirkooda meel ahaaneed waxay keenaysaa caqabad cusub. Tusaale ahaan, tixgeli weedha “qansax xidhan koofiyad cas, galoofyo jaalle ah, shaati buluug ah, iyo surwaal cagaaran.” Si uu si sax ah u fahmo jumladdan, DALL·E waa inuu si sax ah oo keliya uga dhisaa dhar kasta xayawaanka, balse sidoo kale sameeyaa xiriirrada (koofiyad, cas), (galoofyo, jaalle), (shaati, buluug), iyo (surwaal, cagaaran) isaga oo aan isku khaldin C

 Waxaan tijaabinaynaa awoodda DALL·E ee arrintan ee meelaynta isbarbardhigga ah, isdulsaarka walxaha, iyo xakamaynta sifooyin badan.

Soo raraya...

In kasta oo DALL·E bixiso heer xakameyn ah oo ku saabsan sifooyinka iyo meelaha tiro yar oo walxo ah, heerka guushu wuxuu ku xirnaan karaa sida cinwaanka loo dhigo. Markii walxo badan la soo geliyo, DALL·E waxay u nugushahay inay isku khaldo xiriirrada u dhexeeya walxaha iyo midabbadooda, heerka guushuna si degdeg ah ayuu hoos ugu dhacaa. Waxaan sidoo kale xusnay in DALL·E ay jilicsan tahay marka dib loo habbeeyo cinwaanka xaaladahaan: cinwaanno kale oo macne ahaan u dhigma badanaa ma keenaan fasiraado sax ah.

Muuqaalka aragtiyaha iyo saddex-cabbirnimada

Waxaan ogaanay in DALL·E sidoo kale suurageliyo in la xakameeyo aragtida goob iyo qaabka 3D ee goobta loo sawirayo.

Soo raraya...

Si aan tan uga sii fogeyno, waxaan tijaabinaynaa awoodda DALL·E ee inuu si isdaba joog ah u sawiro madaxa qof caan ah xagal kasta oo ka mid ah taxane xaglo si siman u kala fog, waxaana ogaanay inaan ka soo saari karno animation siman oo madaxa wareegaya.

Soo raraya...

DALL·E waxay u muuqataa inay awooddo inay ku dabaqdo noocyo ka mid ah qalloocyada indhaha goobaha, sida aan ku aragno xulashooyinka “fisheye lens view” iyo “a spherical panorama.” Tani waxay nagu dhiirrigelisay inaan sahaminno awooddeeda ay ku dhalin karto milicsiyo.

Soo raraya...

Muuqaalka qaab-dhismeedka gudaha iyo dibadda

Tusaalooyinka ka yimid qaabka “muuqaal dhow oo xad-dhaaf ah” iyo “x-ray” ayaa nagu dhiirrigeliyey inaan sii baarno awoodda DALL·E ee sawiridda qaab-dhismeedka gudaha iyadoo la adeegsanayo muuqaalada goynta, iyo qaab-dhismeedka dibadda iyadoo la adeegsanayo sawirro macro ah.

Soo raraya...

Ka soo dheegashada faahfaahinta macnaha guud

Hawsha turjumaadda qoraalka loo beddelayo sawirro si buuxda looma qeexin: hal cinwaan badanaa wuxuu u dhigmaa tiro aan dhammaad lahayn oo sawirro macquul ah, sidaas darteed sawirka si gaar ah looma go’aamiyo. Tusaale ahaan, tixgeli cinwaanka “sawir rinji ah oo capybara ah oo fadhiya beer waaberiga.” Iyadoo ku xiran jihada capybara-ga, waxaa laga yaabaa inay lagama maarmaan noqoto in la sawiro hoos, inkasta oo faahfaahintan aan waligeed si cad loo xusin. Waxaan sahaminaynaa awoodda DALL·E ee xallinta qeexitaan-yaraanta saddex xaaladood: beddelidda qaab, goob, iyo waqti; sawiridda isla walax xaalado badan oo kala duwan; iyo soo saarista sawir walax leh qoraal gaar ah oo korkiisa ku qoran.

Soo raraya...

Iyadoo kalsooni kala duwan leh, DALL·E waxay bixisaa marin loo helo qayb ka mid ah awoodaha matoor sawirid 3D ah iyada oo loo marayo luqad dabiici ah. Waxay si madax-bannaan u xakamayn kartaa sifooyinka tiro yar oo walxo ah, iyo xadidan ahaan inta ay le’eg yihiin iyo sida ay isugu habeeysan yihiin. Waxay sidoo kale xakamayn kartaa goobta iyo xagasha goob laga sawirayo, waxayna soo saari kartaa walxo la yaqaan oo waafaqsan tilmaamo sax ah oo ku saabsan xagalka iyo xaaladaha iftiinka.

Si ka duwan matoor sawirid 3D ah, oo gelintiisa ay tahay in si aan mugdi lahayn oo faahfaahin buuxda leh loo qeexo, DALL·E badanaa waxay awooddaa inay “buuxiso meelaha bannaan” marka cinwaanku tilmaamayo in sawirku ka koobnaado faahfaahin gaar ah oo aan si cad loo sheegin.

Adeegsiyada awoodihii hore

Marka xigta, waxaan sahaminaynaa adeegsiga awoodihii hore ee moodada iyo naqshadaynta gudaha.

Soo raraya...

Isu geynta fikrado aan xiriir lahayn

Dabeecadda isku-dhiska ee luqaddu waxay noo oggolaanaysaa inaan isu geyno fikrado si aan u sharraxno waxyaabo dhab ah iyo kuwo mala-awaal ahba. Waxaan ogaanay in DALL·E sidoo kale leeyahay awood uu ku mideeyo fikrado kala fog si uu u sameeyo walxo, qaarkoodna ay adag tahay inay dunida dhabta ah ka jiraan. Waxaan awooddan ku baarnay laba tusaale: u wareejinta sifooyin fikrado kala duwan xayawaanka, iyo naqshadaynta badeecooyin laga soo min guuriyey fikrado aan xiriir lahayn.

Soo raraya...

Sawirrada xayawaanka

Qaybtii hore, waxaan sahaminay awoodda DALL·E ee isu geynta fikrado aan xiriir lahayn marka la soo saarayo sawirrada walxaha dunida dhabta ah. Halkan, waxaan awooddan ku sahaminaynaa macnaha farshaxanka, annagoo adeegsanayna saddex nooc oo sawirro ah: noocyo xayawaan iyo walxo oo bini’aadam loo ekeeysiiyey, chimera-yo xayawaan ah, iyo emojis.

Soo raraya...

Caqliyeyn muuqaal ah oo waxqabadka tooska ah

GPT‑3 waxaa lagu farikaraa inuu qabto noocyo badan oo hawlo ah isagoo keliya ka duulaya sharaxaad iyo tilmaan lagu dhalinayo jawaabta oo lagu siiyay weydiintiisa, iyada oo aan jirin tababar dheeraad ah. Tusaale ahaan, marka lagu weydiiyo weedha “halkan waxaa ku qoran jumladda ‘qof eeygiisa kula socda jardiinada’ oo loo turjumay Faransiis:”, GPT‑3 wuxuu ka jawaabaa “un homme qui promène son chien dans le parc.” Awooddan waxaa la yiraahdaa waxqabadka tooska ah. Waxaan ogaanay in DALL·E uu awooddan u fidiyo qaybta muuqaalka, islamarkaana uu qaban karo dhowr nooc oo hawlo turjumaad sawir-ilaa-sawir ah marka si sax ah loo weydiiyo.

Soo raraya...

Ma aanan fileyn in awooddani soo bixi doonto, mana aanan wax ka beddelin shabakadda neerfaha ama habraaca tababarka si aan u dhiirrigelinno. Natiijooyinkan awgood, waxaan cabbirnaa kartida DALL·E ee dhibaatooyinka caqliyeynta isbarbardhigga annagoo ku tijaabinayna Raven’s progressive matrices, oo ah imtixaan IQ muuqaal ah oo si weyn loo adeegsaday qarnigii 20aad.

Soo raraya...

Aqoonta juqraafiyeed

Waxaan ogaanay in DALL·E ay baratay xaqiiqooyin juqraafiyeed, calaamado caan ah, iyo xaafado. Aqoonta ay u leedahay fikradahan si la yaab leh ayay uga saxan tahay dhinacyo qaar, dhinacyo kalena way ka khaldan tahay.

Soo raraya...

Aqoonta waqtiga

Marka lagu daro sahminta aqoonta DALL·E ee fikrado ku kala duwan meel ahaan, waxaan sidoo kale sahaminaynaa aqoonteeda ku saabsan fikrado ku kala duwan waqti ahaan.

Soo raraya...

Soo koobidda habka iyo shaqadii hore

DALL·E waa transformer fudud oo decoder-only ah oo qaata qoraalka iyo sawirka labadaba sidii hal durdur oo ka kooban 1280 token—256 qoraalka ah iyo 1024 sawirka ah—wuxuuna dhammaantood u qaabeeyaa si autoregressive ah. Maaskarka feejignaanta ee mid kasta oo ka mid ah 64-da lakab ee self-attention wuxuu u oggolaanayaa token kasta oo sawir ah inuu fiiro gaar ah u yeesho dhammaan token-yada qoraalka. DALL·E waxay u adeegsataa qoraalka maaskarka sababeed ee caadiga ah, halka token-yada sawirka loogu adeegsado sparse attention oo leh qaab feejignaan saf, tiir, ama convolutional ah, iyadoo ku xiran lakabka. Waxaan faahfaahin dheeraad ah ka bixinnay qaab-dhismeedka iyo habraaca tababarka gudaha maqaalkeenna(ku furmaa daaqad cusub).

Samaynta qoraal-ilaa-sawir waxay ahayd goob cilmi-baaris oo firfircoon tan iyo shaqadii hormuudka ahayd ee Reed et. al,1 habkooduna wuxuu adeegsadaa GAN lagu shuruudeeyey embeddings qoraal. Embeddings-ka waxaa soo saara encoder horay loogu tababaray contrastive loss, wax aan ka fogeyn CLIP. StackGAN3 iyo StackGAN++4 waxay adeegsadaan GAN-yo miisaan badan leh si kor loogu qaado xallinta sawirka loona hagaajiyo tayada muuqaalka. AttnGAN5 waxay dhexgelisaa feejignaan u dhexeysa astaamaha qoraalka iyo sawirka, waxayna soo jeedisaa contrastive text-image feature matching loss oo ah yool kaabaya. Tani waa xiiso leh in lala barbar dhigo kala-hormarinteenna aan ku samayno CLIP, oo si offline ah loo sameeyo. Shaqooyin kale2, 6, 7 waxay ku daraan ilo kormeer oo dheeraad ah inta lagu jiro tababarka si loo hagaajiyo tayada sawirka. Ugu dambayn, shaqada Nguyen et. al8 iyo Cho et. al9 waxay sahamiyaan xeelado muunad-qaadis ku salaysan oo loogu talagalay soo saarida sawirka kuwaas oo ka faa’iidaysta noocyo kala sooc ah oo multimodal ah oo horay loo tababaray.

Si la mid ah rejection sampling-ka lagu adeegsaday VQVAE-2(ku furmaa daaqad cusub), waxaan u adeegsannaa CLIP inaan dib u kala hormarino 32-ka ugu sarreeya 512 muunadood ee cinwaan kasta dhammaan muuqaalada isdhexgalka. Habkan waxaa sidoo kale loo arki karaa nooc ka mid ah raadis uu luqaddu hagayso16, wuxuuna saameyn weyn ku yeelan karaa tayada muunadda.

Soo raraya...

Qoraallo hoose

  1. A

    Token waa astaan kasta oo ka timid eraybixin go’an; bini’aadamka, xaraf kasta oo Ingiriisi ah waa token ka tirsan alifbeeto 26-xaraf ah. Eraybixinta DALL·E waxay leedahay token-yo loogu talagalay fikradaha qoraalka iyo sawirka labadaba. Gaar ahaan, cinwaan kasta oo sawir ah waxaa lagu matalaa ugu badnaan 256 token oo BPE-encoded ah oo leh cabbir eraybixin 16384 ah, sawirkana waxaa lagu matalaa 1024 token oo leh cabbir eraybixin 8192 ah.

Sawirrada waxaa loo sii farsameeyaa xallin 256x256 inta lagu jiro tababarka. Si la mid ah VQVAE, sawir kasta waxaa loo cadaadiyaa shabakad 32x32 ah oo koodhyada qarsoon go’an ah iyadoo la adeegsanayo discrete VAE oo aan horay ugu tababarnay nasasho joogto ah. Waxaan ogaanay in tababarka la adeegsanayo nasashadu meesha ka saarto baahida codebook muuqda, EMA loss, ama farsamooyin sida soo nooleynta code-ka dhintay, isla markaana ay u kori karto cabbirro eraybixin oo waaweyn.

  1. B

    Faahfaahin dheeraad ah waxaa lagu bixiyey qayb dambe.

  2. 17

    Hawshan waxaa la yiraahdaa variable binding, waxaana si ballaaran loogu daraaseeyey suugaanta.

Tixraacyo

  1. 1

    Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Samaynta sawir laga soo saaro qoraal iyadoo la adeegsanayo shabakado iska soo horjeeda oo wax soo saara(ku furmaa daaqad cusub)”. In ICML 2016.

  2. 2

    Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Barashada waxa iyo meesha la sawirayo(ku furmaa daaqad cusub)”. In NIPS 2016.

  3. 3
  4. 4

    Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: samaynta sawirro dhab-u-eg iyadoo la adeegsanayo shabakado iska soo horjeeda oo isdul saaran(ku furmaa daaqad cusub)”. In IEEE TPAMI 2018.

  5. 5
  6. 6

    Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Samaynta qoraal-ilaa-sawir oo ku salaysan walxo iyadoo loo marayo tababar iska soo horjeed ah(ku furmaa daaqad cusub)”. In CVPR 2019.

  7. 7

    Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Soo saarida qoraal-ilaa-sawir oo ku salaysan dareenka faahfaahsan ee isticmaalaha(ku furmaa daaqad cusub)”. In WACV 2021.

  8. 8
  9. 9

    Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Rinjiyee, sharax, kana jawaab su’aalo adigoo adeegsanaya transformers noocyo badan(ku furmaa daaqad cusub)”. EMNLP 2020.

  10. 10

    Kingma, Diederik P., and Max Welling. “Bayes kala-duwanaansho is-codayn ah(ku furmaa daaqad cusub).” arXiv preprint (2013).

  11. 11

    Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Dib-u-faafinta stochastic iyo qiyaas ku dhow ee inferensiga gudaha qaababka wax soo saarka ee qoto dheer(ku furmaa daaqad cusub).” arXiv preprint (2014).

  12. 12
  13. 13
  14. 14

    van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Barashada matalaad neerfe oo go’an(ku furmaa daaqad cusub)”.

  15. 15
  16. 16

    Andreas, J., Klein, D., Levine, S. (2017). “Barashada iyadoo la adeegsanayo Latent Language(ku furmaa daaqad cusub)”.

  17. 17
  18. 18
  19. 19
  20. 20

Qorayaasha ugu waaweyn

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Qorayaal taageerayaal ah

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal, Ilya Sutskever