DALL·E: Krijimi i imazheve nga teksti
Kemi trajnuar një rrjet neural të quajtur DALL·E që krijon imazhe nga përshkrimet tekstuale për një gamë të gjerë konceptesh të shprehura në gjuhë natyrore.

Ilustrim: Justin Jay Wang
DALL·E është një version me 12 miliardë parametra i GPT‑3(hapet në një dritare të re) i trajnuar për të gjeneruar imazhe nga përshkrimet tekstuale, duke përdorur një dataset të çifteve tekst–imazh. Kemi zbuluar se ai ka një gamë të larmishme aftësish, duke përfshirë krijimin e versioneve antropomorfike të kafshëve dhe objekteve, kombinimin e koncepteve të palidhura në mënyra të besueshme, renderimin e tekstit dhe aplikimin e transformimeve në imazhet ekzistuese.
Shih gjithashtu: DALL·E 2, që përfton imazhe më realiste dhe të sakta me rezolucion 4 herë më të lartë.
GPT‑3 tregoi se gjuha mund të përdoret për të udhëzuar një rrjet të madh neural për të kryer një sërë detyrash me gjenerim teksti. Image GPT tregoi se i njëjti lloj rrjeti neural mund të përdoret gjithashtu për të gjeneruar imazhe me cilësi të lartë. Ne zgjerojmë këto gjetje për të treguar se manipulimi i koncepteve vizuale përmes gjuhës tani është i arritshëm.
Ashtu si GPT‑3, DALL·E është një model gjuhe transformues. Ai merr si tekstin ashtu edhe imazhin si një rrjedhë të vetme të dhënash që përmban deri në 1280 tokenë dhe trajnohet duke përdorur gjasën maksimale për të gjeneruar të gjithë tokenët, njëri pas tjetrit. A
Kjo procedurë trajnimi i lejon DALL·E jo vetëm të gjenerojë një imazh nga e para, por gjithashtu të rigjenerojë çdo zonë drejtkëndore të një imazhi ekzistues që shtrihet deri në këndin e poshtëm djathtas, në përputhje me kërkesën e tekstit.
Ne e kuptojmë që puna me modelet gjenerative ka potencial për ndikime të mëdha dhe të gjera në shoqëri. Në të ardhmen, planifikojmë të analizojmë se si modelet si DALL·E lidhen me çështjet shoqërore, si ndikimi ekonomik në disa procese pune dhe profesione, potenciali për paragjykim në rezultatet e modelit, dhe sfidat etike afatgjata që nënkuptohen nga kjo teknologji.
Ne zbulojmë se DALL·E është në gjendje të krijojë imazhe të besueshme për një shumëllojshmëri të gjerë fjalish që eksplorojnë strukturën kompozicionale të gjuhës. Ne e ilustrojmë këtë duke përdorur një seri pamjesh interaktive në seksionin e radhës. Mostrat e treguara për secilin përshkrim në pamjet merren duke marrë 32 më të mirat nga 512 pas ri-renditjes me CLIP, por nuk përdorim asnjë përzgjedhje manuale, përveç miniaturave dhe imazheve të pavarura që shfaqen jashtë.B
Ne testojmë aftësinë e DALL·E për të modifikuar disa nga atributet e një objekti, si dhe numrin e herëve që ai shfaqet.
Kontrollimi njëkohësisht i objekteve të shumta, atributeve të tyre dhe marrëdhënieve të tyre hapësinore paraqet një sfidë të re. Për shembull, mendo për frazën “një iriq që mban një kapelë të kuqe, doreza të verdha, një këmishë blu dhe pantallona të gjelbra.” Për të interpretuar saktë këtë fjali, DALL·E duhet jo vetëm të krijojë saktë çdo pjesë të veshjes me kafshën, por gjithashtu të formojë shoqërimet (kapelë, e kuqe), (doreza, të verdha), (këmishë, blu) dhe (pantallona, jeshile) pa i ngatërruar ato C
Ne testojmë aftësinë e DALL·E për të bërë këtë për pozicionimin relativ, grumbullimin e objekteve dhe kontrollimin e atributeve të shumta.
Ndërsa DALL·E ofron një nivel të caktuar kontrollimi mbi atributet dhe pozicionet e një numri të vogël objektesh, shkalla e suksesit mund të varet nga mënyra se si është formuluar përshkrimi. Ndërsa prezantohen më shumë objekte, DALL·E ka prirje të ngatërrojë lidhjet midis objekteve dhe ngjyrave të tyre, dhe shkalla e suksesit bie ndjeshëm. Ne gjithashtu vërejmë se DALL·E është i brishtë ndaj riformulimit të përshkrimit në këto skenarë: përshkrimet alternative, me semantikë ekuivalente shpesh nuk japin interpretime të sakta.
Ne zbulojmë se DALL·E gjithashtu lejon kontroll mbi këndvështrimin e një skene dhe stilin e renderuar 3D të saj.
Për ta çuar më tej këtë, ne testojmë aftësinë e DALL·E për të vizatuar në mënyrë të përsëritur kokën e një figure të njohur në çdo kënd nga një sekuencë këndesh të baraslarguara dhe zbulojmë se mund të arrijmë një animacion të qetë të kokës që rrotullohet.
DALL·E duket se mund të aplikojë disa lloje shtrembërimesh optike në skena, siç i shohim me opsionet “pamje me efekt fisheye” dhe “panoramë sferike.” Kjo na motivoi të eksplorojmë aftësinë e tij për të gjeneruar reflektime.
Mostrat nga “pamja shumë e afërt” dhe stili me “rreze X” na çuan të eksplorojmë më tej aftësinë e DALL·E për të paraqitur strukturën e brendshme me pamje prerjesh tërthore dhe strukturën e jashtme me fotografi makro.
Detyra e përkthimit të tekstit në imazhe është e papërcaktuar: një përshkrim i vetëm zakonisht përputhet me një pafundësi imazhesh të mundshme, kështu që imazhi nuk përcaktohet në mënyrë unike. Për shembull, merr parasysh përshkrimin “një pikturë e një kapibare të ulur në fushë në agim.” Në varësi të orientimit të kapibarës, mund të jetë e nevojshme të vizatohet një hije, megjithëse ky detaj nuk përmendet kurrë në mënyrë të qartë. Ne eksplorojmë aftësinë e DALL·E për të zgjidhur nën-specifikimin në tre raste: ndryshimi i stilit, ambientit dhe kohës; vizatimi i të njëjtit objekt në situata të ndryshme; dhe gjenerimi i imazhit të një objekti me tekst specifik të shkruar mbi të.
Me nivele të ndryshme besueshmërie, DALL·E ofron akses në një nën-grup të aftësive të një motori renderimi 3D përmes gjuhës natyrore. Ai mund të kontrollojë në mënyrë të pavarur atributet e një numri të vogël objektesh dhe, në një masë të kufizuar, sa janë ato dhe si janë vendosur në raport me njëra-tjetrën. Mund të kontrollojë vendndodhjen dhe këndin nga i cili shfaqet një skenë, dhe mund të gjenerojë objekte të njohura në përputhje me specifikimet e sakta të këndit dhe kushteve të ndriçimit.
Ndryshe nga një motor renderimi 3D, hyrjet e të cilit duhet të specifikohen pa mëdyshje dhe me detaje të plota, DALL·E shpesh mund të "plotësojë boshllëqet" kur përshkrimi nënkupton se imazhi duhet të përmbajë një detaj të caktuar që nuk është shprehur qartë.
Më pas, eksplorojmë përdorimin e aftësive të mëparshme për modë dhe dizajn të brendshëm.
Natyra kompozicionale e gjuhës na lejon të bashkojmë koncepte për të përshkruar gjëra reale dhe imagjinare. Ne zbulojmë se DALL·E gjithashtu ka aftësinë të kombinojë ide të ndryshme për të sintetizuar objekte, disa prej të cilave ka të ngjarë të mos ekzistojnë në botën reale. Ne e eksplorojmë këtë aftësi në dy raste: transferimi i cilësive nga koncepte të ndryshme te kafshët dhe projektimi i produkteve duke marrë frymëzim nga koncepte pa lidhje mes tyre.
Në seksionin e mëparshëm, eksploruam aftësinë e DALL·E për të kombinuar koncepte pa lidhje mes tyre kur gjeneron imazhe të objekteve të botës reale. Këtu, eksplorojmë këtë aftësi në kontekstin e artit, për tre lloje ilustrimesh: versione të antropomorfizuara të kafshëve dhe objekteve, kimera kafshësh dhe emoji.
GPT‑3 mund të udhëzohet të kryejë shumë lloje detyrash vetëm nga një përshkrim dhe një udhëzim për të gjeneruar përgjigjen e dhënë në kërkesë, pa ndonjë trajnim shtesë. Për shembull, kur i kërkohet "këtu është fjalia ‘një person që shëtit qenin e tij në park’ e përkthyer në frëngjisht:”, GPT‑3 përgjigjet “un homme qui promène son chien dans le parc.” Kjo aftësi quhet arsyetim pa trajnim paraprak. Ne zbulojmë se DALL·E e zgjeron këtë aftësi në fushën vizuale dhe është në gjendje të kryejë disa lloje detyrash të përkthimit nga imazhi në imazh kur i bëhet kërkesa në mënyrën e duhur.
Ne nuk e parashikuam që kjo aftësi do të shfaqej dhe nuk bëmë asnjë modifikim në rrjetin neural ose në procedurën e trajnimit për ta nxitur atë. Të motivuar nga këto rezultate, ne masim aftësinë e DALL·E për problemet e arsyetimit analogjik duke e testuar atë në matricat progresive të Raven, një test vizual i IQ-së që u përdor gjerësisht në shekullin e 20-të.
Ne kemi zbuluar se DALL·E ka mësuar për faktet gjeografike, pikat e referimit dhe lagjet. Njohuritë e tij për këto koncepte janë çuditërisht të sakta në disa aspekte dhe të gabuara në të tjera.
Përveç që eksplorojmë njohuritë e DALL·E për konceptet që ndryshojnë në hapësirë, ne gjithashtu eksplorojmë njohuritë e tij për konceptet që ndryshojnë me kalimin e kohës.
DALL·E është një transformator i thjeshtë vetëm për dekodim që merr si tekstin ashtu edhe imazhin si një rrjedhë të vetme prej 1280 tokenësh—256 për tekstin dhe 1024 për imazhin—dhe i modelon të gjithë ata në mënyrë autoregresive. Maska e vëmendjes në secilën nga 64 shtresat e vetë-vëmendjes lejon që çdo token imazhi të fokusohet te të gjithë tokenët e tekstit. DALL·E përdor maskën standarde kauzale për tokenët e tekstit dhe vëmendje të reduktuar për tokenët e imazheve me një model vëmendjeje në rresht, kolonë, ose konvolucional, në varësi të shtresës. Ne japim më shumë detaje rreth arkitekturës dhe procedurës së trajnimit në punimin(hapet në një dritare të re) tonë.
Sintetizimi tekst-në-imazh ka qenë një fushë kërkimi aktive që nga puna pionere e Reed et. al, 1 qasja e të cilit përdor një GAN të kushtëzuar nga integrimet e teksteve. Integrimet krijohen nga një kodues i trajnuar paraprakisht duke përdorur një humbje kontrastive, e ngjashme me CLIP. StackGAN3 dhe StackGAN++4 përdorin GAN-e me shumë shkallë për të rritur rezolucionin e imazheve dhe për të përmirësuar cilësinë vizuale. AttnGAN5 përfshin vëmendjen midis veçorive të teksteve dhe imazheve dhe propozon një humbje kontrastive për përputhjen e veçorive tekst-imazh si objektiv ndihmës. Kjo është interesante për ta krahasuar me ri-renditjen tonë me CLIP, e cila bëhet jashtë linje. Punë të tjera2, 6 dhe 7 përfshijnë burime shtesë të mbikëqyrjes gjatë trajnimit për të përmirësuar cilësinë e imazheve. Më në fund, puna nga Nguyen et. al8 dhe Cho et. al9 eksploron strategjitë e bazuara në mostër për gjenerimin e imazheve që shfrytëzojnë modelet diskriminuese multimodale të trajnuara më parë.
Ngjashëm me mostrat e refuzimit të përdorura në VQVAE-2(hapet në një dritare të re), ne përdorim CLIP për të rirenditur 32 mostrat e para nga 512 të tilla për çdo titull në të gjitha vizualet interaktive. Kjo procedurë mund të shihet gjithashtu si një lloj kërkimi i udhëhequr nga gjuha16, dhe mund të ketë një ndikim dramatik në cilësinë e mostrave.
Shënime në fund
- A
Një token është çdo simbol nga një fjalor diskret; për njerëzit, çdo shkronjë angleze është një token nga një alfabet me 26 shkronja. Fjalori i DALL·E ka tokenë për koncepte si të tekstit ashtu edhe të imazhit. Në mënyrë specifike, çdo përshkrim imazhi përfaqësohet duke përdorur një maksimum prej 256 tokenësh të koduar me BPE me një fjalor prej 16384 termash, dhe imazhi përfaqësohet duke përdorur 1024 tokenë me një fjalor prej 8192 termash.
Imazhet përpunohen paraprakisht në rezolucionin 256x256 gjatë trajnimit. Në mënyrë të ngjashme me VQVAE, çdo imazh kompresohet në një rrjet 32x32 të kodeve latente diskrete duke përdorur një VAE diskrete që e kemi trajnuar paraprakisht duke përdorur një relaksim të vazhdueshëm. Ne zbuluam se trajnimi duke përdorur relaksimin eliminon nevojën për një fjalor kodesh të qartë, humbje EMA, ose truke si ringjallja e kodeve të vdekura, dhe mund të zgjerohet deri në fjalorë të mëdhenj.
- B
Detaje të mëtejshme janë dhënë në një seksion të mëvonshëm.
- 17
Kjo detyrë quhet lidhja e variablave dhe është studiuar gjerësisht në literaturë.
Referenca
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Sintezë gjeneruese kundërshtuese tekst-imazh(hapet në një dritare të re)”. Në ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Të mësosh çfarë dhe ku të vizatosh(hapet në një dritare të re)”. Në NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Sinteza e imazhit foto-realist nga teksti me rrjete gjenerative kundërshtuese të grumbulluara(hapet në një dritare të re)”. Në ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: sintezë realiste e imazheve me rrjete gjenerative kundërshtuese të grumbulluara(hapet në një dritare të re)". Në IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Gjenerimi i detajuar i imazheve nga teksti me rrjete gjenerative kundërshtuese të vëmendshme(hapet në një dritare të re).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Sintezë e imazhit nga teksti me orientim nga objektet përmes trajnimit kundërshtues(hapet në një dritare të re)”. Në CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Gjenerimi i imazhit nga teksti i bazuar në vëmendjen e detajuar të përdoruesit(hapet në një dritare të re)”. Në WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Rrjetet gjenerative Plug & play: gjenerimi përsëritës i kushtëzuar i imazheve në hapësirën latente(hapet në një dritare të re).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Pikturo, përshkruaj dhe përgjigju pyetjeve me transformues multi-modalë(hapet në një dritare të re)”. EMNLP 2020.
- 10
Kingma, Diederik P., dhe Max Welling. “Auto-kodimi variacional i Bayes-it(hapet në një dritare të re).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed dhe Daan Wierstra. “Backpropagation-i stohastik dhe inferenca e përafërt në modelet gjenerative të thella(hapet në një dritare të re).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Riparametrizimi kategorik me Gumbel-softmax(hapet në një dritare të re)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “Shpërndarja Concrete: një relaksim i vazhdueshëm i variablave të rastësishëm diskretë(hapet në një dritare të re)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Mësimi i përfaqësimeve diskrete neurale(hapet në një dritare të re)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Gjenerimi i imazheve të ndryshme me besnikëri të lartë me VQ-VAE-2”(hapet në një dritare të re).
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Mësimi me Gjuhën Latente(hapet në një dritare të re)”.
- 17
- 18
- 19
- 20
Kanerva, P. (1997). “Përfaqësime tërësisht të shpërndara(hapet në një dritare të re)”.


