DALL·E: Samaynta sawirro laga soo saaro qoraal
Waxaan tababarnay shabakad neerfaha oo la yiraahdo DALL·E, taas oo ka samaysa sawirro cinwaanno qoraal ah oo ku saabsan fikrado badan oo lagu muujin karo luqadda dabiiciga ah.

Sawir-gacmeed: Justin Jay Wang
DALL·E waa nooc 12-bilyan oo halbeegyo ah oo ka mid ah GPT‑3(ku furmaa daaqad cusub) oo loo tababaray inuu sawirro ka abuuro sharaxaadaha qoraalka, isagoo adeegsanaya xog ururin ka kooban lammaane qoraal–sawir ah. Waxaan ogaanay inuu leeyahay awoodo kala duwan, oo ay ka mid yihiin abuurista noocyo xayawaan iyo walxo oo bini’aadam loo ekeeysiiyey, isu geynta fikrado aan xiriir lahayn si macquul ah, sawiridda qoraal, iyo ku dabaqidda isbeddello sawirro jira.
Sidoo kale eeg: DALL·E 2, kaas oo soo saara sawirro ka dhab-u-eg oo ka sax ah lehna xallin 4x ka weyn.
GPT‑3 wuxuu muujiyey in luqad loo adeegsan karo in lagu faro shabakad neerfe oo weyn inay qabato hawlo kala duwan oo qoraal dhalin ah. Image GPT wuxuu muujiyey in isla nooca shabakadda neerfaha sidoo kale loo adeegsan karo soo saarida sawirro tayo sare leh. Waxaan ballaarinay natiijooyinkan si aan u muujinno in wax ka beddelka fikradaha muuqaalka iyada oo loo marayo luqad hadda la gaari karo.
Sida GPT‑3, DALL·E waa nooc luqadeed oo transformer ah. Waxay qaadataa qoraalka iyo sawirka labadaba sidii hal durdur xog ah oo ka kooban ilaa 1280 token, waxaana lagu tababaraa iyadoo la adeegsanayo suurtagalnimada ugu badan si ay u dhaliso dhammaan token-yada, midba midka kale ka dambeeyo. A
Habkan tababarku wuxuu u oggolaanayaa DALL·E inuusan kaliya sawir ka samayn meel eber ah, balse sidoo kale inuu dib u sameeyo gobol kasta oo leydi ah oo ka tirsan sawir jira oo ku fidsan geeska hoose-midig, si la jaanqaadaysa weydiinta qoraalka.
Waxaan aqoonsannahay in shaqada ku lug leh qaababka wax soo saarka ay yeelan karto saameyn bulsho oo weyn oo ballaaran. Mustaqbalka, waxaan qorshaynaynaa inaan falanqeyno sida noocyada sida DALL·E ula xiriiraan arrimaha bulshada sida saameynta dhaqaale ee habraacyo shaqo iyo xirfado gaar ah, suurtagalnimada eexda ee wax-soo-saarka nooca, iyo caqabadaha anshaxeed ee muddada dheer ee ay tignoolajiyadani tilmaamayso.
Waxaan ogaanay in DALL·E awood u leeyahay inuu abuuro sawirro macquul ah oo ku habboon jumlado aad u kala duwan oo sahaminaya qaab-dhiska isku-dhiska ee luqadda. Waxaan tan ku muujinaynaa taxane muuqaal isdhexgal ah qaybta xigta. Tusaalooyinka lagu muujiyey cinwaan kasta ee muuqaalada waxaa lagu helay iyadoo la qaadayo 32-ka ugu sarreeya 512 kadib kala-hormarin lagu sameeyey CLIP, balse ma aanan adeegsan wax xulasho gacmeed ah, marka laga reebo thumbnails-ka iyo sawirrada goonida ah ee dibadda ka muuqda.B
Waxaan tijaabinaynaa awoodda DALL·E ee inuu beddelo dhowr ka mid ah sifooyinka walax, iyo sidoo kale tirada jeer ee ay muuqato.
Isla mar ahaantaana xakamaynta walxo badan, sifooyinkooda, iyo xiriirkooda meel ahaaneed waxay keenaysaa caqabad cusub. Tusaale ahaan, tixgeli weedha “qansax xidhan koofiyad cas, galoofyo jaalle ah, shaati buluug ah, iyo surwaal cagaaran.” Si uu si sax ah u fahmo jumladdan, DALL·E waa inuu si sax ah oo keliya uga dhisaa dhar kasta xayawaanka, balse sidoo kale sameeyaa xiriirrada (koofiyad, cas), (galoofyo, jaalle), (shaati, buluug), iyo (surwaal, cagaaran) isaga oo aan isku khaldin C
Waxaan tijaabinaynaa awoodda DALL·E ee arrintan ee meelaynta isbarbardhigga ah, isdulsaarka walxaha, iyo xakamaynta sifooyin badan.
In kasta oo DALL·E bixiso heer xakameyn ah oo ku saabsan sifooyinka iyo meelaha tiro yar oo walxo ah, heerka guushu wuxuu ku xirnaan karaa sida cinwaanka loo dhigo. Markii walxo badan la soo geliyo, DALL·E waxay u nugushahay inay isku khaldo xiriirrada u dhexeeya walxaha iyo midabbadooda, heerka guushuna si degdeg ah ayuu hoos ugu dhacaa. Waxaan sidoo kale xusnay in DALL·E ay jilicsan tahay marka dib loo habbeeyo cinwaanka xaaladahaan: cinwaanno kale oo macne ahaan u dhigma badanaa ma keenaan fasiraado sax ah.
Waxaan ogaanay in DALL·E sidoo kale suurageliyo in la xakameeyo aragtida goob iyo qaabka 3D ee goobta loo sawirayo.
Si aan tan uga sii fogeyno, waxaan tijaabinaynaa awoodda DALL·E ee inuu si isdaba joog ah u sawiro madaxa qof caan ah xagal kasta oo ka mid ah taxane xaglo si siman u kala fog, waxaana ogaanay inaan ka soo saari karno animation siman oo madaxa wareegaya.
DALL·E waxay u muuqataa inay awooddo inay ku dabaqdo noocyo ka mid ah qalloocyada indhaha goobaha, sida aan ku aragno xulashooyinka “fisheye lens view” iyo “a spherical panorama.” Tani waxay nagu dhiirrigelisay inaan sahaminno awooddeeda ay ku dhalin karto milicsiyo.
Tusaalooyinka ka yimid qaabka “muuqaal dhow oo xad-dhaaf ah” iyo “x-ray” ayaa nagu dhiirrigeliyey inaan sii baarno awoodda DALL·E ee sawiridda qaab-dhismeedka gudaha iyadoo la adeegsanayo muuqaalada goynta, iyo qaab-dhismeedka dibadda iyadoo la adeegsanayo sawirro macro ah.
Hawsha turjumaadda qoraalka loo beddelayo sawirro si buuxda looma qeexin: hal cinwaan badanaa wuxuu u dhigmaa tiro aan dhammaad lahayn oo sawirro macquul ah, sidaas darteed sawirka si gaar ah looma go’aamiyo. Tusaale ahaan, tixgeli cinwaanka “sawir rinji ah oo capybara ah oo fadhiya beer waaberiga.” Iyadoo ku xiran jihada capybara-ga, waxaa laga yaabaa inay lagama maarmaan noqoto in la sawiro hoos, inkasta oo faahfaahintan aan waligeed si cad loo xusin. Waxaan sahaminaynaa awoodda DALL·E ee xallinta qeexitaan-yaraanta saddex xaaladood: beddelidda qaab, goob, iyo waqti; sawiridda isla walax xaalado badan oo kala duwan; iyo soo saarista sawir walax leh qoraal gaar ah oo korkiisa ku qoran.
Iyadoo kalsooni kala duwan leh, DALL·E waxay bixisaa marin loo helo qayb ka mid ah awoodaha matoor sawirid 3D ah iyada oo loo marayo luqad dabiici ah. Waxay si madax-bannaan u xakamayn kartaa sifooyinka tiro yar oo walxo ah, iyo xadidan ahaan inta ay le’eg yihiin iyo sida ay isugu habeeysan yihiin. Waxay sidoo kale xakamayn kartaa goobta iyo xagasha goob laga sawirayo, waxayna soo saari kartaa walxo la yaqaan oo waafaqsan tilmaamo sax ah oo ku saabsan xagalka iyo xaaladaha iftiinka.
Si ka duwan matoor sawirid 3D ah, oo gelintiisa ay tahay in si aan mugdi lahayn oo faahfaahin buuxda leh loo qeexo, DALL·E badanaa waxay awooddaa inay “buuxiso meelaha bannaan” marka cinwaanku tilmaamayo in sawirku ka koobnaado faahfaahin gaar ah oo aan si cad loo sheegin.
Marka xigta, waxaan sahaminaynaa adeegsiga awoodihii hore ee moodada iyo naqshadaynta gudaha.
Dabeecadda isku-dhiska ee luqaddu waxay noo oggolaanaysaa inaan isu geyno fikrado si aan u sharraxno waxyaabo dhab ah iyo kuwo mala-awaal ahba. Waxaan ogaanay in DALL·E sidoo kale leeyahay awood uu ku mideeyo fikrado kala fog si uu u sameeyo walxo, qaarkoodna ay adag tahay inay dunida dhabta ah ka jiraan. Waxaan awooddan ku baarnay laba tusaale: u wareejinta sifooyin fikrado kala duwan xayawaanka, iyo naqshadaynta badeecooyin laga soo min guuriyey fikrado aan xiriir lahayn.
Qaybtii hore, waxaan sahaminay awoodda DALL·E ee isu geynta fikrado aan xiriir lahayn marka la soo saarayo sawirrada walxaha dunida dhabta ah. Halkan, waxaan awooddan ku sahaminaynaa macnaha farshaxanka, annagoo adeegsanayna saddex nooc oo sawirro ah: noocyo xayawaan iyo walxo oo bini’aadam loo ekeeysiiyey, chimera-yo xayawaan ah, iyo emojis.
GPT‑3 waxaa lagu farikaraa inuu qabto noocyo badan oo hawlo ah isagoo keliya ka duulaya sharaxaad iyo tilmaan lagu dhalinayo jawaabta oo lagu siiyay weydiintiisa, iyada oo aan jirin tababar dheeraad ah. Tusaale ahaan, marka lagu weydiiyo weedha “halkan waxaa ku qoran jumladda ‘qof eeygiisa kula socda jardiinada’ oo loo turjumay Faransiis:”, GPT‑3 wuxuu ka jawaabaa “un homme qui promène son chien dans le parc.” Awooddan waxaa la yiraahdaa waxqabadka tooska ah. Waxaan ogaanay in DALL·E uu awooddan u fidiyo qaybta muuqaalka, islamarkaana uu qaban karo dhowr nooc oo hawlo turjumaad sawir-ilaa-sawir ah marka si sax ah loo weydiiyo.
Ma aanan fileyn in awooddani soo bixi doonto, mana aanan wax ka beddelin shabakadda neerfaha ama habraaca tababarka si aan u dhiirrigelinno. Natiijooyinkan awgood, waxaan cabbirnaa kartida DALL·E ee dhibaatooyinka caqliyeynta isbarbardhigga annagoo ku tijaabinayna Raven’s progressive matrices, oo ah imtixaan IQ muuqaal ah oo si weyn loo adeegsaday qarnigii 20aad.
Waxaan ogaanay in DALL·E ay baratay xaqiiqooyin juqraafiyeed, calaamado caan ah, iyo xaafado. Aqoonta ay u leedahay fikradahan si la yaab leh ayay uga saxan tahay dhinacyo qaar, dhinacyo kalena way ka khaldan tahay.
Marka lagu daro sahminta aqoonta DALL·E ee fikrado ku kala duwan meel ahaan, waxaan sidoo kale sahaminaynaa aqoonteeda ku saabsan fikrado ku kala duwan waqti ahaan.
DALL·E waa transformer fudud oo decoder-only ah oo qaata qoraalka iyo sawirka labadaba sidii hal durdur oo ka kooban 1280 token—256 qoraalka ah iyo 1024 sawirka ah—wuxuuna dhammaantood u qaabeeyaa si autoregressive ah. Maaskarka feejignaanta ee mid kasta oo ka mid ah 64-da lakab ee self-attention wuxuu u oggolaanayaa token kasta oo sawir ah inuu fiiro gaar ah u yeesho dhammaan token-yada qoraalka. DALL·E waxay u adeegsataa qoraalka maaskarka sababeed ee caadiga ah, halka token-yada sawirka loogu adeegsado sparse attention oo leh qaab feejignaan saf, tiir, ama convolutional ah, iyadoo ku xiran lakabka. Waxaan faahfaahin dheeraad ah ka bixinnay qaab-dhismeedka iyo habraaca tababarka gudaha maqaalkeenna(ku furmaa daaqad cusub).
Samaynta qoraal-ilaa-sawir waxay ahayd goob cilmi-baaris oo firfircoon tan iyo shaqadii hormuudka ahayd ee Reed et. al,1 habkooduna wuxuu adeegsadaa GAN lagu shuruudeeyey embeddings qoraal. Embeddings-ka waxaa soo saara encoder horay loogu tababaray contrastive loss, wax aan ka fogeyn CLIP. StackGAN3 iyo StackGAN++4 waxay adeegsadaan GAN-yo miisaan badan leh si kor loogu qaado xallinta sawirka loona hagaajiyo tayada muuqaalka. AttnGAN5 waxay dhexgelisaa feejignaan u dhexeysa astaamaha qoraalka iyo sawirka, waxayna soo jeedisaa contrastive text-image feature matching loss oo ah yool kaabaya. Tani waa xiiso leh in lala barbar dhigo kala-hormarinteenna aan ku samayno CLIP, oo si offline ah loo sameeyo. Shaqooyin kale2, 6, 7 waxay ku daraan ilo kormeer oo dheeraad ah inta lagu jiro tababarka si loo hagaajiyo tayada sawirka. Ugu dambayn, shaqada Nguyen et. al8 iyo Cho et. al9 waxay sahamiyaan xeelado muunad-qaadis ku salaysan oo loogu talagalay soo saarida sawirka kuwaas oo ka faa’iidaysta noocyo kala sooc ah oo multimodal ah oo horay loo tababaray.
Si la mid ah rejection sampling-ka lagu adeegsaday VQVAE-2(ku furmaa daaqad cusub), waxaan u adeegsannaa CLIP inaan dib u kala hormarino 32-ka ugu sarreeya 512 muunadood ee cinwaan kasta dhammaan muuqaalada isdhexgalka. Habkan waxaa sidoo kale loo arki karaa nooc ka mid ah raadis uu luqaddu hagayso16, wuxuuna saameyn weyn ku yeelan karaa tayada muunadda.
Qoraallo hoose
- A
Token waa astaan kasta oo ka timid eraybixin go’an; bini’aadamka, xaraf kasta oo Ingiriisi ah waa token ka tirsan alifbeeto 26-xaraf ah. Eraybixinta DALL·E waxay leedahay token-yo loogu talagalay fikradaha qoraalka iyo sawirka labadaba. Gaar ahaan, cinwaan kasta oo sawir ah waxaa lagu matalaa ugu badnaan 256 token oo BPE-encoded ah oo leh cabbir eraybixin 16384 ah, sawirkana waxaa lagu matalaa 1024 token oo leh cabbir eraybixin 8192 ah.
Sawirrada waxaa loo sii farsameeyaa xallin 256x256 inta lagu jiro tababarka. Si la mid ah VQVAE, sawir kasta waxaa loo cadaadiyaa shabakad 32x32 ah oo koodhyada qarsoon go’an ah iyadoo la adeegsanayo discrete VAE oo aan horay ugu tababarnay nasasho joogto ah. Waxaan ogaanay in tababarka la adeegsanayo nasashadu meesha ka saarto baahida codebook muuqda, EMA loss, ama farsamooyin sida soo nooleynta code-ka dhintay, isla markaana ay u kori karto cabbirro eraybixin oo waaweyn.
- B
Faahfaahin dheeraad ah waxaa lagu bixiyey qayb dambe.
- 17
Hawshan waxaa la yiraahdaa variable binding, waxaana si ballaaran loogu daraaseeyey suugaanta.
Tixraacyo
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Samaynta sawir laga soo saaro qoraal iyadoo la adeegsanayo shabakado iska soo horjeeda oo wax soo saara(ku furmaa daaqad cusub)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Barashada waxa iyo meesha la sawirayo(ku furmaa daaqad cusub)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Samaynta sawirro u eg kuwo dhab ah laga soo saaro qoraal iyadoo la adeegsanayo shabakado iska soo horjeeda oo isdul saaran(ku furmaa daaqad cusub)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: samaynta sawirro dhab-u-eg iyadoo la adeegsanayo shabakado iska soo horjeeda oo isdul saaran(ku furmaa daaqad cusub)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: soo saarida sawirka qoraal laga soo qaado oo faahfaahsan iyadoo la adeegsanayo shabakado wax soo saar oo iska soo horjeeda oo feejignaan leh(ku furmaa daaqad cusub).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Samaynta qoraal-ilaa-sawir oo ku salaysan walxo iyadoo loo marayo tababar iska soo horjeed ah(ku furmaa daaqad cusub)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Soo saarida qoraal-ilaa-sawir oo ku salaysan dareenka faahfaahsan ee isticmaalaha(ku furmaa daaqad cusub)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Shabakado wax soo saar oo plug & play ah: samayn shuruudaysan oo isdaba-joog ah oo sawirro ah gudaha latent space(ku furmaa daaqad cusub).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Rinjiyee, sharax, kana jawaab su’aalo adigoo adeegsanaya transformers noocyo badan(ku furmaa daaqad cusub)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Bayes kala-duwanaansho is-codayn ah(ku furmaa daaqad cusub).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Dib-u-faafinta stochastic iyo qiyaas ku dhow ee inferensiga gudaha qaababka wax soo saarka ee qoto dheer(ku furmaa daaqad cusub).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Dib-u-qaabayn qaybeed leh Gumbel-softmax(ku furmaa daaqad cusub)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “Qaybinta Concrete: nasasho joogto ah oo doorsoomayaal go’an ah(ku furmaa daaqad cusub)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Barashada matalaad neerfe oo go’an(ku furmaa daaqad cusub)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Soo saarista sawirro kala duwan oo aad u tayo sarreeya iyadoo la adeegsanayo VQ-VAE-2(ku furmaa daaqad cusub)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Barashada iyadoo la adeegsanayo Latent Language(ku furmaa daaqad cusub)”.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). “Matalaado si buuxda u qaybsan(ku furmaa daaqad cusub)”.


