DALL·E: Ħolqien ta’ immaġnijiet mit-test
Ħarriġna network newrali jismu DALL·E li joħloq immaġnijiet minn captions tat-test għal firxa wiesgħa ta’ kunċetti li jistgħu jiġu espressi bil-lingwa naturali.

Illustrazzjoni: Justin Jay Wang
DALL·E hija verżjoni b’12-il biljun parametru ta’ GPT‑3(jinfetaħ f’tieqa ġdida) mħarrġa biex tiġġenera immaġnijiet minn deskrizzjonijiet tat-test, bl-użu ta’ dataset ta’ pari test–immaġni. Sibna li għandha sett divers ta’ kapaċitajiet, inklużi l-ħolqien ta’ verżjonijiet antropomorfizzati ta’ annimali u oġġetti, l-għaqda ta’ kunċetti mhux relatati b’modi plawsibbli, ir-rendering tat-test, u l-applikazzjoni ta’ trasformazzjonijiet għal immaġnijiet eżistenti.
Ara wkoll: DALL·E 2, li tiġġenera immaġnijiet aktar realistiċi u preċiżi b’riżoluzzjoni 4x akbar.
GPT‑3 wera li l-lingwa tista’ tintuża biex tagħti istruzzjonijiet lil network newrali kbir biex iwettaq varjetà ta’ kompiti ta’ ġenerazzjoni tat-test. Image GPT wera li l-istess tip ta’ network newrali jista’ jintuża wkoll biex jiġġenera immaġnijiet b’fedeltà għolja. Aħna nestendu dawn is-sejbiet biex nuru li l-manipulazzjoni ta’ kunċetti viżivi permezz tal-lingwa issa saret possibbli.
Bħal GPT‑3, DALL·E huwa mudell tal-lingwa transformer. Jirċievi kemm it-test kif ukoll l-immaġni bħala fluss wieħed ta’ data li fih sa 1280 token, u jitħarreġ bl-użu tal-massimu tal-probabbiltà biex jiġġenera t-token kollha, waħda wara l-oħra. A
Din il-proċedura tat-taħriġ tippermetti lil DALL·E mhux biss jiġġenera immaġni mill-bidu, iżda wkoll jerġa’ jiġġenera kull reġjun rettangolari ta’ immaġni eżistenti li jestendi sal-kantuniera t’isfel tal-lemin, b’mod li jkun konsistenti mal-prompt tat-test.
Nirrikonoxxu li xogħol li jinvolvi mudelli ġenerattivi għandu l-potenzjal għal impatti soċjetali sinifikanti u wiesgħa. Fil-futur, nippjanaw li nanalizzaw kif mudelli bħal DALL·E huma relatati ma’ kwistjonijiet soċjetali bħall-impatt ekonomiku fuq ċerti proċessi ta’ xogħol u professjonijiet, il-potenzjal għal preġudizzju fl-output tal-mudell, u l-isfidi etiċi fit-tul implikati minn din it-teknoloġija.
Insibu li DALL·E kapaċi joħloq immaġnijiet plawsibbli għal varjetà kbira ta’ sentenzi li jesploraw l-istruttura kompożizzjonali tal-lingwa. Dan nuruh permezz ta’ sensiela ta’ viżwali interattivi fit-taqsima li jmiss. Il-kampjuni murija għal kull caption fil-viżwali jinkisbu billi jittieħdu l-aqwa 32 minn 512 wara reranking b’CLIP, iżda ma nużaw l-ebda għażla manwali apposta, apparti mit-thumbnails u l-immaġnijiet waħedhom li jidhru barra.B
Nittestjaw il-ħila ta’ DALL·E li jimmodifika diversi attributi ta’ oġġett, kif ukoll in-numru ta’ drabi li jidher.
Il-kontroll simultanju ta’ oġġetti multipli, l-attributi tagħhom, u r-relazzjonijiet spazjali bejniethom jippreżenta sfida ġdida. Pereżempju, ikkunsidra l-frażi “qanfud liebes kappell aħmar, ingwanti sofor, qmis blu, u qalziet aħdar.” Biex jinterpreta din is-sentenza b’mod korrett, DALL·E mhux biss irid jikkomponi b’mod korrett kull biċċa ħwejjeġ mal-annimal, iżda wkoll jifforma l-assoċjazzjonijiet (kappell, aħmar), (ingwanti, sofor), (qmis, blu), u (qalziet, aħdar) mingħajr ma jħawwadhom C
Nittestjaw il-ħila ta’ DALL·E li jagħmel dan għall-pożizzjonament relattiv, l-istivar ta’ oġġetti, u l-kontroll ta’ attributi multipli.
Għalkemm DALL·E toffri ċertu livell ta’ kontrollabbiltà fuq l-attributi u l-pożizzjonijiet ta’ numru żgħir ta’ oġġetti, ir-rata ta’ suċċess tista’ tiddependi minn kif tkun imfassla l-caption. Hekk kif jiddaħħlu aktar oġġetti, DALL·E għandu t-tendenza li jħawwad l-assoċjazzjonijiet bejn l-oġġetti u l-kuluri tagħhom, u r-rata ta’ suċċess tonqos drastikament. Ninnotaw ukoll li DALL·E huwa fraġli fir-rigward ta’ riformulazzjoni tal-caption f’dawn ix-xenarji: captions alternattivi, semantikament ekwivalenti ħafna drabi ma jagħtu ebda interpretazzjoni korretta.
Insibu li DALL·E jippermetti wkoll kontroll fuq il-perspettiva ta’ xena u l-istil 3D li bih tiġi rrendjata x-xena.
Biex immorru aktar ’il quddiem, nittestjaw il-ħila ta’ DALL·E li jiġbed ripetutament ras ta’ figura magħrufa sew f’kull angolu minn sekwenza ta’ angoli spazjati b’mod ugwali, u nsibu li nistgħu niksbu animazzjoni lixxa tar-ras iddur.
DALL·E jidher li kapaċi japplika xi tipi ta’ distorsjonijiet ottiċi għax-xeni, kif naraw bl-għażliet “dehra b’lenti fisheye” u “panorama sferika.” Dan immotivana biex nesploraw il-ħila tiegħu li jiġġenera riflessjonijiet.
Il-kampjuni mill-istil “dehra close-up estrema” u “x-ray” wassluna biex nesploraw aktar il-ħila ta’ DALL·E li jirrendi struttura interna b’dehriet ta’ sezzjoni trasversali, u struttura esterna b’ritratti makro.
Il-kompitu tat-traduzzjoni tat-test għal immaġnijiet mhuwiex speċifikat biżżejjed: caption waħda ġeneralment tikkorrispondi għal infinità ta’ immaġnijiet plawsibbli, għalhekk l-immaġni mhijiex determinata b’mod uniku. Pereżempju, ikkunsidra l-caption “pittura ta’ capybara bilqiegħda fuq għalqa fi tlugħ ix-xemx.” Skont l-orjentazzjoni tal-capybara, jista’ jkun meħtieġ li tinġibed dell, għalkemm dan id-dettall qatt ma jissemma b’mod espliċitu. Nesploraw il-ħila ta’ DALL·E li ssolvi din in-nuqqas ta’ speċifikazzjoni fi tliet każijiet: il-bidla tal-istil, tal-ambjent, u tal-ħin; it-tpinġija tal-istess oġġett f’varjetà ta’ sitwazzjonijiet differenti; u l-ġenerazzjoni ta’ immaġni ta’ oġġett b’test speċifiku miktub fuqu.
B’livelli differenti ta’ affidabbiltà, DALL·E jipprovdi aċċess għal sottogrupp tal-kapaċitajiet ta’ magna ta’ rendering 3D permezz tal-lingwa naturali. Jista’ jikkontrolla b’mod indipendenti l-attributi ta’ numru żgħir ta’ oġġetti, u sa ċertu punt, kemm hemm minnhom, u kif huma arranġati fir-rigward ta’ xulxin. Jista’ wkoll jikkontrolla l-post u l-angolu minn fejn tiġi rrendjata xena, u jista’ jiġġenera oġġetti magħrufa f’konformità ma’ speċifikazzjonijiet preċiżi tal-angolu u tal-kundizzjonijiet tad-dawl.
B’differenza minn magna ta’ rendering 3D, li l-inputs tagħha jridu jiġu speċifikati mingħajr ambigwità u fid-dettall kollu, DALL·E spiss ikun kapaċi “jimla l-vojt” meta l-caption timplika li l-immaġni trid tinkludi ċertu dettall li ma jkunx iddikjarat b’mod espliċitu.
Imbagħad, nesploraw l-użu tal-kapaċitajiet preċedenti għall-moda u għad-disinn ta’ interjuri.
In-natura kompożizzjonali tal-lingwa tippermettilna ngħaqqdu kunċetti biex niddeskrivu kemm affarijiet reali kif ukoll immaġinarji. Insibu li DALL·E għandu wkoll il-ħila jgħaqqad ideat differenti biex joħloq oġġetti, li wħud minnhom x’aktarx ma jeżistux fid-dinja reali. Nesploraw din il-ħila f’żewġ każijiet: it-trasferiment ta’ kwalitajiet minn diversi kunċetti għall-annimali, u d-disinn ta’ prodotti billi nieħdu ispirazzjoni minn kunċetti mhux relatati.
Fit-taqsima preċedenti, esplorajna l-ħila ta’ DALL·E li jgħaqqad kunċetti mhux relatati meta jiġġenera immaġnijiet ta’ oġġetti tad-dinja reali. Hawnhekk, nesploraw din il-ħila fil-kuntest tal-arti, għal tliet tipi ta’ illustrazzjonijiet: verżjonijiet antropomorfizzati ta’ annimali u oġġetti, kimera ta’ annimali, u emojis.
GPT‑3 jista’ jingħata istruzzjonijiet biex iwettaq ħafna tipi ta’ kompiti biss minn deskrizzjoni u sinjal biex jiġġenera t-tweġiba pprovdut fil-prompt tiegħu, mingħajr ebda taħriġ addizzjonali. Pereżempju, meta jingħata l-frażi “hawn is-sentenza ‘persuna timxi mal-kelb tagħha fil-park’ tradotta għall-Franċiż:”, GPT‑3 iwieġeb “un homme qui promène son chien dans le parc.” Din il-kapaċità tissejjaħ raġunament zero-shot. Insibu li DALL·E jestendi din il-kapaċità għad-dominju viżiv, u huwa kapaċi jwettaq diversi tipi ta’ kompiti ta’ traduzzjoni minn immaġni għal oħra meta jingħata prompt bil-mod it-tajjeb.
Ma antiċipajniex li din il-kapaċità kienet se toħroġ, u ma għamilna ebda tibdil fin-network newrali jew fil-proċedura tat-taħriġ biex inħeġġuha. Imqanqlin minn dawn ir-riżultati, inkejlu l-aptitudni ta’ DALL·E għal problemi ta’ raġunament analoġiku billi nittestjawh fuq il-matriċi progressivi ta’ Raven, test viżiv tal-IQ li ntuża b’mod mifrux fis-seklu 20.
Insibu li DALL·E tgħallem dwar fatti ġeografiċi, punti ta’ riferiment, u kwartieri. L-għarfien tiegħu ta’ dawn il-kunċetti huwa sorprendentement preċiż f’xi aspetti u difettuż f’oħrajn.
Minbarra li nesploraw l-għarfien ta’ DALL·E dwar kunċetti li jvarjaw fl-ispazju, nesploraw ukoll l-għarfien tiegħu dwar kunċetti li jvarjaw maż-żmien.
DALL·E huwa transformer sempliċi b’decoder biss li jirċievi kemm it-test kif ukoll l-immaġni bħala fluss wieħed ta’ 1280 token—256 għat-test u 1024 għall-immaġni—u jimmudella kollha b’mod awtoregressiv. Il-maskra tal-attenzjoni f’kull wieħed mill-64 saff ta’ self-attention tiegħu tippermetti lil kull token tal-immaġni jattendi għat-token kollha tat-test. DALL·E juża l-maskra kawżali standard għat-token tat-test, u attenzjoni skarsa għat-token tal-immaġni b’xejra ta’ attenzjoni ta’ ringiela, kolonna, jew konvoluzzjonali, skont is-saff. Nagħtu aktar dettalji dwar l-arkitettura u l-proċedura tat-taħriġ fil-paper(jinfetaħ f’tieqa ġdida) tagħna.
Is-sintesi minn test għal immaġni kienet qasam attiv ta’ riċerka sa mix-xogħol pijunier ta’ Reed et. al,1 li l-approċċ tagħhom juża GAN ikkundizzjonat fuq embeddings tat-test. L-embeddings jiġu prodotti minn encoder imħarreġ minn qabel bl-użu ta’ telf kontrastiv, mhux wisq differenti minn CLIP. StackGAN3 u StackGAN++4 jużaw GANs multi-scale biex iżidu r-riżoluzzjoni tal-immaġni u jtejbu l-fedeltà viżiva. AttnGAN5 jinkorpora attenzjoni bejn il-karatteristiċi tat-test u tal-immaġni, u jipproponi telf ta’ tqabbil kontrastiv ta’ karatteristiċi test-immaġni bħala objettiv awżiljarju. Dan huwa interessanti biex jitqabbel mar-reranking tagħna b’CLIP, li jsir offline. Xogħol ieħor2, 6, u 7 jinkorpora sorsi addizzjonali ta’ superviżjoni matul it-taħriġ biex itejjeb il-kwalità tal-immaġni. Fl-aħħar nett, ix-xogħol ta’ Nguyen et. al8 u Cho et. al9 jesplora strateġiji ta’ kampjunar għall-ġenerazzjoni tal-immaġnijiet li jisfruttaw mudelli diskriminattivi multimodali mħarrġa minn qabel.
B’mod simili għar-rejection sampling użat f’VQVAE-2(jinfetaħ f’tieqa ġdida), nużaw CLIP biex nagħmlu reranking tal-aqwa 32 minn 512 kampjun għal kull caption fil-viżwali interattivi kollha. Din il-proċedura tista’ titqies ukoll bħala tip ta’ tfittxija mmexxija mil-lingwa16, u jista’ jkollha impatt drammatiku fuq il-kwalità tal-kampjuni.
Noti f’qiegħ il-paġna
- A
Token huwa kull simbolu minn vokabolarju diskret; għall-bnedmin, kull ittra Ingliża hija token minn alfabett ta’ 26 ittra. Il-vokabolarju ta’ DALL·E għandu token kemm għall-kunċetti tat-test kif ukoll tal-immaġni. Speċifikament, kull caption tal-immaġni hija rrappreżentata bl-użu ta’ massimu ta’ 256 token kodifikati b’BPE b’daqs ta’ vokabolarju ta’ 16384, u l-immaġni hija rrappreżentata bl-użu ta’ 1024 token b’daqs ta’ vokabolarju ta’ 8192.
L-immaġnijiet jiġu pproċessati minn qabel għal riżoluzzjoni ta’ 256x256 waqt it-taħriġ. B’mod simili għal VQVAE, kull immaġni tiġi kkompressata għal gradilja 32x32 ta’ kodiċijiet latenti diskreti bl-użu ta’ VAE diskret li ħarriġna minn qabel bl-użu ta’ rilassament kontinwu. Sibna li t-taħriġ bl-użu tar-rilassament jelimina l-ħtieġa għal codebook espliċitu, telf EMA, jew tricks bħar-rivitalizzazzjoni ta’ kodiċi mejta, u jista’ jiskala għal daqsijiet kbar ta’ vokabolarju.
- B
Aktar dettalji huma pprovduti f’taqsima aktar tard.
- 17
Dan il-kompitu jissejjaħ variable binding, u ġie studjat b’mod estensiv fil-letteratura.
Referenzi
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Sintesi ġenerattiva avversarja minn test għal immaġni(jinfetaħ f’tieqa ġdida)”. F’ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Nitgħallmu x’għandna npinġu u fejn(jinfetaħ f’tieqa ġdida)”. F’NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Sintesi ta’ immaġni fotorealistika minn test b’netwerks ġenerattivi avversarji f’munzelli(jinfetaħ f’tieqa ġdida)”. F’ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: sintesi realistika ta’ immaġni b’netwerks ġenerattivi avversarji f’munzelli(jinfetaħ f’tieqa ġdida)”. F’IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: ġenerazzjoni tal-immaġnijiet minn test b’granularità fina b’netwerks ġenerattivi avversarji b’attenzjoni(jinfetaħ f’tieqa ġdida).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Sintesi minn test għal immaġni mmexxija mill-oġġetti permezz ta’ taħriġ avversarju(jinfetaħ f’tieqa ġdida)”. F’CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Ġenerazzjoni minn test għal immaġni msejsa fuq attenzjoni fina tal-utent(jinfetaħ f’tieqa ġdida)”. F’WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: ġenerazzjoni iterattiva kondizzjonali ta’ immaġnijiet fl-ispazju latenti(jinfetaħ f’tieqa ġdida).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Pinġi, agħti caption, u wieġeb mistoqsijiet b’transformers multimodali(jinfetaħ f’tieqa ġdida)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Bayes varjazzjonali b’kodifikazzjoni awtomatika(jinfetaħ f’tieqa ġdida).” preprint ta’ arXiv (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Backpropagation stokastika u inferenza approssimata f’mudelli ġenerattivi profondi(jinfetaħ f’tieqa ġdida).” preprint ta’ arXiv (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Riparametrizzazzjoni kategorika b’Gumbel-softmax(jinfetaħ f’tieqa ġdida)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “Id-distribuzzjoni Concrete: rilassament kontinwu ta’ varjabbli każwali diskreti(jinfetaħ f’tieqa ġdida)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Tagħlim ta’ rappreżentazzjoni newrali diskreta(jinfetaħ f’tieqa ġdida)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Ġenerazzjoni ta’ immaġnijiet diversi b’fedeltà għolja b’VQ-VAE-2(jinfetaħ f’tieqa ġdida)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Tagħlim b’Lingwa Latenti(jinfetaħ f’tieqa ġdida)”.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). “Rappreżentazzjonijiet kompletament distribwiti(jinfetaħ f’tieqa ġdida)”.


