5 ta’ Jannar 2021

DALL·E: Ħolqien ta’ immaġnijiet mit-test

Ħarriġna network newrali jismu DALL·E li joħloq immaġnijiet minn captions tat-test għal firxa wiesgħa ta’ kunċetti li jistgħu jiġu espressi bil-lingwa naturali.

Illustrazzjoni: Justin Jay Wang

Qed jillowdja…

DALL·E hija verżjoni b’12-il biljun parametru ta’ GPT‑3⁠(jinfetaħ f’tieqa ġdida) mħarrġa biex tiġġenera immaġnijiet minn deskrizzjonijiet tat-test, bl-użu ta’ dataset ta’ pari test–immaġni. Sibna li għandha sett divers ta’ kapaċitajiet, inklużi l-ħolqien ta’ verżjonijiet antropomorfizzati ta’ annimali u oġġetti, l-għaqda ta’ kunċetti mhux relatati b’modi plawsibbli, ir-rendering tat-test, u l-applikazzjoni ta’ trasformazzjonijiet għal immaġnijiet eżistenti.

Ara wkoll: DALL·E 2⁠, li tiġġenera immaġnijiet aktar realistiċi u preċiżi b’riżoluzzjoni 4x akbar.

Qed jillowdja...

GPT‑3 wera li l-lingwa tista’ tintuża biex tagħti istruzzjonijiet lil network newrali kbir biex iwettaq varjetà ta’ kompiti ta’ ġenerazzjoni tat-test. Image GPT⁠ wera li l-istess tip ta’ network newrali jista’ jintuża wkoll biex jiġġenera immaġnijiet b’fedeltà għolja. Aħna nestendu dawn is-sejbiet biex nuru li l-manipulazzjoni ta’ kunċetti viżivi permezz tal-lingwa issa saret possibbli.

Ħarsa ġenerali

Bħal GPT‑3, DALL·E huwa mudell tal-lingwa transformer. Jirċievi kemm it-test kif ukoll l-immaġni bħala fluss wieħed ta’ data li fih sa 1280 token, u jitħarreġ bl-użu tal-massimu tal-probabbiltà biex jiġġenera t-token kollha, waħda wara l-oħra. ^A

Din il-proċedura tat-taħriġ tippermetti lil DALL·E mhux biss jiġġenera immaġni mill-bidu, iżda wkoll jerġa’ jiġġenera kull reġjun rettangolari ta’ immaġni eżistenti li jestendi sal-kantuniera t’isfel tal-lemin, b’mod li jkun konsistenti mal-prompt tat-test.

Nirrikonoxxu li xogħol li jinvolvi mudelli ġenerattivi għandu l-potenzjal għal impatti soċjetali sinifikanti u wiesgħa. Fil-futur, nippjanaw li nanalizzaw kif mudelli bħal DALL·E huma relatati ma’ kwistjonijiet soċjetali bħall-impatt ekonomiku fuq ċerti proċessi ta’ xogħol u professjonijiet, il-potenzjal għal preġudizzju fl-output tal-mudell, u l-isfidi etiċi fit-tul implikati minn din it-teknoloġija.

Kapaċitajiet

Insibu li DALL·E kapaċi joħloq immaġnijiet plawsibbli għal varjetà kbira ta’ sentenzi li jesploraw l-istruttura kompożizzjonali tal-lingwa. Dan nuruh permezz ta’ sensiela ta’ viżwali interattivi fit-taqsima li jmiss. Il-kampjuni murija għal kull caption fil-viżwali jinkisbu billi jittieħdu l-aqwa 32 minn 512 wara reranking b’CLIP⁠, iżda ma nużaw l-ebda għażla manwali apposta, apparti mit-thumbnails u l-immaġnijiet waħedhom li jidhru barra.^B

Kontroll tal-attributi

Nittestjaw il-ħila ta’ DALL·E li jimmodifika diversi attributi ta’ oġġett, kif ukoll in-numru ta’ drabi li jidher.

Qed jillowdja...

Tpinġija ta’ oġġetti multipli

Il-kontroll simultanju ta’ oġġetti multipli, l-attributi tagħhom, u r-relazzjonijiet spazjali bejniethom jippreżenta sfida ġdida. Pereżempju, ikkunsidra l-frażi “qanfud liebes kappell aħmar, ingwanti sofor, qmis blu, u qalziet aħdar.” Biex jinterpreta din is-sentenza b’mod korrett, DALL·E mhux biss irid jikkomponi b’mod korrett kull biċċa ħwejjeġ mal-annimal, iżda wkoll jifforma l-assoċjazzjonijiet (kappell, aħmar), (ingwanti, sofor), (qmis, blu), u (qalziet, aħdar) mingħajr ma jħawwadhom ^C

Nittestjaw il-ħila ta’ DALL·E li jagħmel dan għall-pożizzjonament relattiv, l-istivar ta’ oġġetti, u l-kontroll ta’ attributi multipli.

Qed jillowdja...

Għalkemm DALL·E toffri ċertu livell ta’ kontrollabbiltà fuq l-attributi u l-pożizzjonijiet ta’ numru żgħir ta’ oġġetti, ir-rata ta’ suċċess tista’ tiddependi minn kif tkun imfassla l-caption. Hekk kif jiddaħħlu aktar oġġetti, DALL·E għandu t-tendenza li jħawwad l-assoċjazzjonijiet bejn l-oġġetti u l-kuluri tagħhom, u r-rata ta’ suċċess tonqos drastikament. Ninnotaw ukoll li DALL·E huwa fraġli fir-rigward ta’ riformulazzjoni tal-caption f’dawn ix-xenarji: captions alternattivi, semantikament ekwivalenti ħafna drabi ma jagħtu ebda interpretazzjoni korretta.

Viżwalizzazzjoni tal-perspettiva u tat-tliet dimensjonijiet

Insibu li DALL·E jippermetti wkoll kontroll fuq il-perspettiva ta’ xena u l-istil 3D li bih tiġi rrendjata x-xena.

Qed jillowdja...

Biex immorru aktar ’il quddiem, nittestjaw il-ħila ta’ DALL·E li jiġbed ripetutament ras ta’ figura magħrufa sew f’kull angolu minn sekwenza ta’ angoli spazjati b’mod ugwali, u nsibu li nistgħu niksbu animazzjoni lixxa tar-ras iddur.

Qed jillowdja...

DALL·E jidher li kapaċi japplika xi tipi ta’ distorsjonijiet ottiċi għax-xeni, kif naraw bl-għażliet “dehra b’lenti fisheye” u “panorama sferika.” Dan immotivana biex nesploraw il-ħila tiegħu li jiġġenera riflessjonijiet.

Qed jillowdja...

Viżwalizzazzjoni tal-istruttura interna u esterna

Il-kampjuni mill-istil “dehra close-up estrema” u “x-ray” wassluna biex nesploraw aktar il-ħila ta’ DALL·E li jirrendi struttura interna b’dehriet ta’ sezzjoni trasversali, u struttura esterna b’ritratti makro.

Qed jillowdja...

Inferenza ta’ dettalji kuntestwali

Il-kompitu tat-traduzzjoni tat-test għal immaġnijiet mhuwiex speċifikat biżżejjed: caption waħda ġeneralment tikkorrispondi għal infinità ta’ immaġnijiet plawsibbli, għalhekk l-immaġni mhijiex determinata b’mod uniku. Pereżempju, ikkunsidra l-caption “pittura ta’ capybara bilqiegħda fuq għalqa fi tlugħ ix-xemx.” Skont l-orjentazzjoni tal-capybara, jista’ jkun meħtieġ li tinġibed dell, għalkemm dan id-dettall qatt ma jissemma b’mod espliċitu. Nesploraw il-ħila ta’ DALL·E li ssolvi din in-nuqqas ta’ speċifikazzjoni fi tliet każijiet: il-bidla tal-istil, tal-ambjent, u tal-ħin; it-tpinġija tal-istess oġġett f’varjetà ta’ sitwazzjonijiet differenti; u l-ġenerazzjoni ta’ immaġni ta’ oġġett b’test speċifiku miktub fuqu.

Qed jillowdja...

B’livelli differenti ta’ affidabbiltà, DALL·E jipprovdi aċċess għal sottogrupp tal-kapaċitajiet ta’ magna ta’ rendering 3D permezz tal-lingwa naturali. Jista’ jikkontrolla b’mod indipendenti l-attributi ta’ numru żgħir ta’ oġġetti, u sa ċertu punt, kemm hemm minnhom, u kif huma arranġati fir-rigward ta’ xulxin. Jista’ wkoll jikkontrolla l-post u l-angolu minn fejn tiġi rrendjata xena, u jista’ jiġġenera oġġetti magħrufa f’konformità ma’ speċifikazzjonijiet preċiżi tal-angolu u tal-kundizzjonijiet tad-dawl.

B’differenza minn magna ta’ rendering 3D, li l-inputs tagħha jridu jiġu speċifikati mingħajr ambigwità u fid-dettall kollu, DALL·E spiss ikun kapaċi “jimla l-vojt” meta l-caption timplika li l-immaġni trid tinkludi ċertu dettall li ma jkunx iddikjarat b’mod espliċitu.

Applikazzjonijiet tal-kapaċitajiet preċedenti

Imbagħad, nesploraw l-użu tal-kapaċitajiet preċedenti għall-moda u għad-disinn ta’ interjuri.

Qed jillowdja...

Għaqda ta’ kunċetti mhux relatati

In-natura kompożizzjonali tal-lingwa tippermettilna ngħaqqdu kunċetti biex niddeskrivu kemm affarijiet reali kif ukoll immaġinarji. Insibu li DALL·E għandu wkoll il-ħila jgħaqqad ideat differenti biex joħloq oġġetti, li wħud minnhom x’aktarx ma jeżistux fid-dinja reali. Nesploraw din il-ħila f’żewġ każijiet: it-trasferiment ta’ kwalitajiet minn diversi kunċetti għall-annimali, u d-disinn ta’ prodotti billi nieħdu ispirazzjoni minn kunċetti mhux relatati.

Qed jillowdja...

Illustrazzjonijiet ta’ annimali

Fit-taqsima preċedenti, esplorajna l-ħila ta’ DALL·E li jgħaqqad kunċetti mhux relatati meta jiġġenera immaġnijiet ta’ oġġetti tad-dinja reali. Hawnhekk, nesploraw din il-ħila fil-kuntest tal-arti, għal tliet tipi ta’ illustrazzjonijiet: verżjonijiet antropomorfizzati ta’ annimali u oġġetti, kimera ta’ annimali, u emojis.

Qed jillowdja...

Raġunament viżiv zero-shot

GPT‑3 jista’ jingħata istruzzjonijiet biex iwettaq ħafna tipi ta’ kompiti biss minn deskrizzjoni u sinjal biex jiġġenera t-tweġiba pprovdut fil-prompt tiegħu, mingħajr ebda taħriġ addizzjonali. Pereżempju, meta jingħata l-frażi “hawn is-sentenza ‘persuna timxi mal-kelb tagħha fil-park’ tradotta għall-Franċiż:”, GPT‑3 iwieġeb “un homme qui promène son chien dans le parc.” Din il-kapaċità tissejjaħ raġunament zero-shot. Insibu li DALL·E jestendi din il-kapaċità għad-dominju viżiv, u huwa kapaċi jwettaq diversi tipi ta’ kompiti ta’ traduzzjoni minn immaġni għal oħra meta jingħata prompt bil-mod it-tajjeb.

Qed jillowdja...

Ma antiċipajniex li din il-kapaċità kienet se toħroġ, u ma għamilna ebda tibdil fin-network newrali jew fil-proċedura tat-taħriġ biex inħeġġuha. Imqanqlin minn dawn ir-riżultati, inkejlu l-aptitudni ta’ DALL·E għal problemi ta’ raġunament analoġiku billi nittestjawh fuq il-matriċi progressivi ta’ Raven, test viżiv tal-IQ li ntuża b’mod mifrux fis-seklu 20.

Qed jillowdja...

Għarfien ġeografiku

Insibu li DALL·E tgħallem dwar fatti ġeografiċi, punti ta’ riferiment, u kwartieri. L-għarfien tiegħu ta’ dawn il-kunċetti huwa sorprendentement preċiż f’xi aspetti u difettuż f’oħrajn.

Qed jillowdja...

Għarfien temporali

Minbarra li nesploraw l-għarfien ta’ DALL·E dwar kunċetti li jvarjaw fl-ispazju, nesploraw ukoll l-għarfien tiegħu dwar kunċetti li jvarjaw maż-żmien.

Qed jillowdja...

Sommarju tal-approċċ u tax-xogħol preċedenti

DALL·E huwa transformer sempliċi b’decoder biss li jirċievi kemm it-test kif ukoll l-immaġni bħala fluss wieħed ta’ 1280 token—256 għat-test u 1024 għall-immaġni—u jimmudella kollha b’mod awtoregressiv. Il-maskra tal-attenzjoni f’kull wieħed mill-64 saff ta’ self-attention tiegħu tippermetti lil kull token tal-immaġni jattendi għat-token kollha tat-test. DALL·E juża l-maskra kawżali standard għat-token tat-test, u attenzjoni skarsa għat-token tal-immaġni b’xejra ta’ attenzjoni ta’ ringiela, kolonna, jew konvoluzzjonali, skont is-saff. Nagħtu aktar dettalji dwar l-arkitettura u l-proċedura tat-taħriġ fil-paper⁠(jinfetaħ f’tieqa ġdida) tagħna.

Is-sintesi minn test għal immaġni kienet qasam attiv ta’ riċerka sa mix-xogħol pijunier ta’ Reed et. al,¹ li l-approċċ tagħhom juża GAN ikkundizzjonat fuq embeddings tat-test. L-embeddings jiġu prodotti minn encoder imħarreġ minn qabel bl-użu ta’ telf kontrastiv, mhux wisq differenti minn CLIP. StackGAN³ u StackGAN++⁴ jużaw GANs multi-scale biex iżidu r-riżoluzzjoni tal-immaġni u jtejbu l-fedeltà viżiva. AttnGAN⁵ jinkorpora attenzjoni bejn il-karatteristiċi tat-test u tal-immaġni, u jipproponi telf ta’ tqabbil kontrastiv ta’ karatteristiċi test-immaġni bħala objettiv awżiljarju. Dan huwa interessanti biex jitqabbel mar-reranking tagħna b’CLIP, li jsir offline. Xogħol ieħor^{2, 6, u 7} jinkorpora sorsi addizzjonali ta’ superviżjoni matul it-taħriġ biex itejjeb il-kwalità tal-immaġni. Fl-aħħar nett, ix-xogħol ta’ Nguyen et. al⁸ u Cho et. al⁹ jesplora strateġiji ta’ kampjunar għall-ġenerazzjoni tal-immaġnijiet li jisfruttaw mudelli diskriminattivi multimodali mħarrġa minn qabel.

B’mod simili għar-rejection sampling użat f’VQVAE-2⁠(jinfetaħ f’tieqa ġdida), nużaw CLIP⁠ biex nagħmlu reranking tal-aqwa 32 minn 512 kampjun għal kull caption fil-viżwali interattivi kollha. Din il-proċedura tista’ titqies ukoll bħala tip ta’ tfittxija mmexxija mil-lingwa¹⁶, u jista’ jkollha impatt drammatiku fuq il-kwalità tal-kampjuni.

Qed jillowdja...

Noti f’qiegħ il-paġna

A
Token huwa kull simbolu minn vokabolarju diskret; għall-bnedmin, kull ittra Ingliża hija token minn alfabett ta’ 26 ittra. Il-vokabolarju ta’ DALL·E għandu token kemm għall-kunċetti tat-test kif ukoll tal-immaġni. Speċifikament, kull caption tal-immaġni hija rrappreżentata bl-użu ta’ massimu ta’ 256 token kodifikati b’BPE b’daqs ta’ vokabolarju ta’ 16384, u l-immaġni hija rrappreżentata bl-użu ta’ 1024 token b’daqs ta’ vokabolarju ta’ 8192.

L-immaġnijiet jiġu pproċessati minn qabel għal riżoluzzjoni ta’ 256x256 waqt it-taħriġ. B’mod simili għal VQVAE, kull immaġni tiġi kkompressata għal gradilja 32x32 ta’ kodiċijiet latenti diskreti bl-użu ta’ VAE diskret li ħarriġna minn qabel bl-użu ta’ rilassament kontinwu. Sibna li t-taħriġ bl-użu tar-rilassament jelimina l-ħtieġa għal codebook espliċitu, telf EMA, jew tricks bħar-rivitalizzazzjoni ta’ kodiċi mejta, u jista’ jiskala għal daqsijiet kbar ta’ vokabolarju.