Aqbeż għall-kontenut prinċipali
OpenAI

5 ta’ Jannar 2021

Punt ta' riferiment

DALL·E: Ħolqien ta’ immaġnijiet mit-test

Ħarriġna network newrali jismu DALL·E li joħloq immaġnijiet minn captions tat-test għal firxa wiesgħa ta’ kunċetti li jistgħu jiġu espressi bil-lingwa naturali.

DALL·E

Illustrazzjoni: Justin Jay Wang

Qed jillowdja…

DALL·E hija verżjoni b’12-il biljun parametru ta’ GPT‑3(jinfetaħ f’tieqa ġdida) mħarrġa biex tiġġenera immaġnijiet minn deskrizzjonijiet tat-test, bl-użu ta’ dataset ta’ pari test–immaġni. Sibna li għandha sett divers ta’ kapaċitajiet, inklużi l-ħolqien ta’ verżjonijiet antropomorfizzati ta’ annimali u oġġetti, l-għaqda ta’ kunċetti mhux relatati b’modi plawsibbli, ir-rendering tat-test, u l-applikazzjoni ta’ trasformazzjonijiet għal immaġnijiet eżistenti.

Ara wkoll: DALL·E 2, li tiġġenera immaġnijiet aktar realistiċi u preċiżi b’riżoluzzjoni 4x akbar.

Qed jillowdja...

GPT‑3 wera li l-lingwa tista’ tintuża biex tagħti istruzzjonijiet lil network newrali kbir biex iwettaq varjetà ta’ kompiti ta’ ġenerazzjoni tat-test. Image GPT wera li l-istess tip ta’ network newrali jista’ jintuża wkoll biex jiġġenera immaġnijiet b’fedeltà għolja. Aħna nestendu dawn is-sejbiet biex nuru li l-manipulazzjoni ta’ kunċetti viżivi permezz tal-lingwa issa saret possibbli.

Ħarsa ġenerali

Bħal GPT‑3, DALL·E huwa mudell tal-lingwa transformer. Jirċievi kemm it-test kif ukoll l-immaġni bħala fluss wieħed ta’ data li fih sa 1280 token, u jitħarreġ bl-użu tal-massimu tal-probabbiltà biex jiġġenera t-token kollha, waħda wara l-oħra. A

Din il-proċedura tat-taħriġ tippermetti lil DALL·E mhux biss jiġġenera immaġni mill-bidu, iżda wkoll jerġa’ jiġġenera kull reġjun rettangolari ta’ immaġni eżistenti li jestendi sal-kantuniera t’isfel tal-lemin, b’mod li jkun konsistenti mal-prompt tat-test.

Nirrikonoxxu li xogħol li jinvolvi mudelli ġenerattivi għandu l-potenzjal għal impatti soċjetali sinifikanti u wiesgħa. Fil-futur, nippjanaw li nanalizzaw kif mudelli bħal DALL·E huma relatati ma’ kwistjonijiet soċjetali bħall-impatt ekonomiku fuq ċerti proċessi ta’ xogħol u professjonijiet, il-potenzjal għal preġudizzju fl-output tal-mudell, u l-isfidi etiċi fit-tul implikati minn din it-teknoloġija.

Kapaċitajiet

Insibu li DALL·E kapaċi joħloq immaġnijiet plawsibbli għal varjetà kbira ta’ sentenzi li jesploraw l-istruttura kompożizzjonali tal-lingwa. Dan nuruh permezz ta’ sensiela ta’ viżwali interattivi fit-taqsima li jmiss. Il-kampjuni murija għal kull caption fil-viżwali jinkisbu billi jittieħdu l-aqwa 32 minn 512 wara reranking b’CLIP, iżda ma nużaw l-ebda għażla manwali apposta, apparti mit-thumbnails u l-immaġnijiet waħedhom li jidhru barra.B

Kontroll tal-attributi

Nittestjaw il-ħila ta’ DALL·E li jimmodifika diversi attributi ta’ oġġett, kif ukoll in-numru ta’ drabi li jidher.

Qed jillowdja...

Tpinġija ta’ oġġetti multipli

Il-kontroll simultanju ta’ oġġetti multipli, l-attributi tagħhom, u r-relazzjonijiet spazjali bejniethom jippreżenta sfida ġdida. Pereżempju, ikkunsidra l-frażi “qanfud liebes kappell aħmar, ingwanti sofor, qmis blu, u qalziet aħdar.” Biex jinterpreta din is-sentenza b’mod korrett, DALL·E mhux biss irid jikkomponi b’mod korrett kull biċċa ħwejjeġ mal-annimal, iżda wkoll jifforma l-assoċjazzjonijiet (kappell, aħmar), (ingwanti, sofor), (qmis, blu), u (qalziet, aħdar) mingħajr ma jħawwadhom C

Nittestjaw il-ħila ta’ DALL·E li jagħmel dan għall-pożizzjonament relattiv, l-istivar ta’ oġġetti, u l-kontroll ta’ attributi multipli.

Qed jillowdja...

Għalkemm DALL·E toffri ċertu livell ta’ kontrollabbiltà fuq l-attributi u l-pożizzjonijiet ta’ numru żgħir ta’ oġġetti, ir-rata ta’ suċċess tista’ tiddependi minn kif tkun imfassla l-caption. Hekk kif jiddaħħlu aktar oġġetti, DALL·E għandu t-tendenza li jħawwad l-assoċjazzjonijiet bejn l-oġġetti u l-kuluri tagħhom, u r-rata ta’ suċċess tonqos drastikament. Ninnotaw ukoll li DALL·E huwa fraġli fir-rigward ta’ riformulazzjoni tal-caption f’dawn ix-xenarji: captions alternattivi, semantikament ekwivalenti ħafna drabi ma jagħtu ebda interpretazzjoni korretta.

Viżwalizzazzjoni tal-perspettiva u tat-tliet dimensjonijiet

Insibu li DALL·E jippermetti wkoll kontroll fuq il-perspettiva ta’ xena u l-istil 3D li bih tiġi rrendjata x-xena.

Qed jillowdja...

Biex immorru aktar ’il quddiem, nittestjaw il-ħila ta’ DALL·E li jiġbed ripetutament ras ta’ figura magħrufa sew f’kull angolu minn sekwenza ta’ angoli spazjati b’mod ugwali, u nsibu li nistgħu niksbu animazzjoni lixxa tar-ras iddur.

Qed jillowdja...

DALL·E jidher li kapaċi japplika xi tipi ta’ distorsjonijiet ottiċi għax-xeni, kif naraw bl-għażliet “dehra b’lenti fisheye” u “panorama sferika.” Dan immotivana biex nesploraw il-ħila tiegħu li jiġġenera riflessjonijiet.

Qed jillowdja...

Viżwalizzazzjoni tal-istruttura interna u esterna

Il-kampjuni mill-istil “dehra close-up estrema” u “x-ray” wassluna biex nesploraw aktar il-ħila ta’ DALL·E li jirrendi struttura interna b’dehriet ta’ sezzjoni trasversali, u struttura esterna b’ritratti makro.

Qed jillowdja...

Inferenza ta’ dettalji kuntestwali

Il-kompitu tat-traduzzjoni tat-test għal immaġnijiet mhuwiex speċifikat biżżejjed: caption waħda ġeneralment tikkorrispondi għal infinità ta’ immaġnijiet plawsibbli, għalhekk l-immaġni mhijiex determinata b’mod uniku. Pereżempju, ikkunsidra l-caption “pittura ta’ capybara bilqiegħda fuq għalqa fi tlugħ ix-xemx.” Skont l-orjentazzjoni tal-capybara, jista’ jkun meħtieġ li tinġibed dell, għalkemm dan id-dettall qatt ma jissemma b’mod espliċitu. Nesploraw il-ħila ta’ DALL·E li ssolvi din in-nuqqas ta’ speċifikazzjoni fi tliet każijiet: il-bidla tal-istil, tal-ambjent, u tal-ħin; it-tpinġija tal-istess oġġett f’varjetà ta’ sitwazzjonijiet differenti; u l-ġenerazzjoni ta’ immaġni ta’ oġġett b’test speċifiku miktub fuqu.

Qed jillowdja...

B’livelli differenti ta’ affidabbiltà, DALL·E jipprovdi aċċess għal sottogrupp tal-kapaċitajiet ta’ magna ta’ rendering 3D permezz tal-lingwa naturali. Jista’ jikkontrolla b’mod indipendenti l-attributi ta’ numru żgħir ta’ oġġetti, u sa ċertu punt, kemm hemm minnhom, u kif huma arranġati fir-rigward ta’ xulxin. Jista’ wkoll jikkontrolla l-post u l-angolu minn fejn tiġi rrendjata xena, u jista’ jiġġenera oġġetti magħrufa f’konformità ma’ speċifikazzjonijiet preċiżi tal-angolu u tal-kundizzjonijiet tad-dawl.

B’differenza minn magna ta’ rendering 3D, li l-inputs tagħha jridu jiġu speċifikati mingħajr ambigwità u fid-dettall kollu, DALL·E spiss ikun kapaċi “jimla l-vojt” meta l-caption timplika li l-immaġni trid tinkludi ċertu dettall li ma jkunx iddikjarat b’mod espliċitu.

Applikazzjonijiet tal-kapaċitajiet preċedenti

Imbagħad, nesploraw l-użu tal-kapaċitajiet preċedenti għall-moda u għad-disinn ta’ interjuri.

Qed jillowdja...

Għaqda ta’ kunċetti mhux relatati

In-natura kompożizzjonali tal-lingwa tippermettilna ngħaqqdu kunċetti biex niddeskrivu kemm affarijiet reali kif ukoll immaġinarji. Insibu li DALL·E għandu wkoll il-ħila jgħaqqad ideat differenti biex joħloq oġġetti, li wħud minnhom x’aktarx ma jeżistux fid-dinja reali. Nesploraw din il-ħila f’żewġ każijiet: it-trasferiment ta’ kwalitajiet minn diversi kunċetti għall-annimali, u d-disinn ta’ prodotti billi nieħdu ispirazzjoni minn kunċetti mhux relatati.

Qed jillowdja...

Illustrazzjonijiet ta’ annimali

Fit-taqsima preċedenti, esplorajna l-ħila ta’ DALL·E li jgħaqqad kunċetti mhux relatati meta jiġġenera immaġnijiet ta’ oġġetti tad-dinja reali. Hawnhekk, nesploraw din il-ħila fil-kuntest tal-arti, għal tliet tipi ta’ illustrazzjonijiet: verżjonijiet antropomorfizzati ta’ annimali u oġġetti, kimera ta’ annimali, u emojis.

Qed jillowdja...

Raġunament viżiv zero-shot

GPT‑3 jista’ jingħata istruzzjonijiet biex iwettaq ħafna tipi ta’ kompiti biss minn deskrizzjoni u sinjal biex jiġġenera t-tweġiba pprovdut fil-prompt tiegħu, mingħajr ebda taħriġ addizzjonali. Pereżempju, meta jingħata l-frażi “hawn is-sentenza ‘persuna timxi mal-kelb tagħha fil-park’ tradotta għall-Franċiż:”, GPT‑3 iwieġeb “un homme qui promène son chien dans le parc.” Din il-kapaċità tissejjaħ raġunament zero-shot. Insibu li DALL·E jestendi din il-kapaċità għad-dominju viżiv, u huwa kapaċi jwettaq diversi tipi ta’ kompiti ta’ traduzzjoni minn immaġni għal oħra meta jingħata prompt bil-mod it-tajjeb.

Qed jillowdja...

Ma antiċipajniex li din il-kapaċità kienet se toħroġ, u ma għamilna ebda tibdil fin-network newrali jew fil-proċedura tat-taħriġ biex inħeġġuha. Imqanqlin minn dawn ir-riżultati, inkejlu l-aptitudni ta’ DALL·E għal problemi ta’ raġunament analoġiku billi nittestjawh fuq il-matriċi progressivi ta’ Raven, test viżiv tal-IQ li ntuża b’mod mifrux fis-seklu 20.

Qed jillowdja...

Għarfien ġeografiku

Insibu li DALL·E tgħallem dwar fatti ġeografiċi, punti ta’ riferiment, u kwartieri. L-għarfien tiegħu ta’ dawn il-kunċetti huwa sorprendentement preċiż f’xi aspetti u difettuż f’oħrajn.

Qed jillowdja...

Għarfien temporali

Minbarra li nesploraw l-għarfien ta’ DALL·E dwar kunċetti li jvarjaw fl-ispazju, nesploraw ukoll l-għarfien tiegħu dwar kunċetti li jvarjaw maż-żmien.

Qed jillowdja...

Sommarju tal-approċċ u tax-xogħol preċedenti

DALL·E huwa transformer sempliċi b’decoder biss li jirċievi kemm it-test kif ukoll l-immaġni bħala fluss wieħed ta’ 1280 token—256 għat-test u 1024 għall-immaġni—u jimmudella kollha b’mod awtoregressiv. Il-maskra tal-attenzjoni f’kull wieħed mill-64 saff ta’ self-attention tiegħu tippermetti lil kull token tal-immaġni jattendi għat-token kollha tat-test. DALL·E juża l-maskra kawżali standard għat-token tat-test, u attenzjoni skarsa għat-token tal-immaġni b’xejra ta’ attenzjoni ta’ ringiela, kolonna, jew konvoluzzjonali, skont is-saff. Nagħtu aktar dettalji dwar l-arkitettura u l-proċedura tat-taħriġ fil-paper(jinfetaħ f’tieqa ġdida) tagħna.

Is-sintesi minn test għal immaġni kienet qasam attiv ta’ riċerka sa mix-xogħol pijunier ta’ Reed et. al,1 li l-approċċ tagħhom juża GAN ikkundizzjonat fuq embeddings tat-test. L-embeddings jiġu prodotti minn encoder imħarreġ minn qabel bl-użu ta’ telf kontrastiv, mhux wisq differenti minn CLIP. StackGAN3 u StackGAN++4 jużaw GANs multi-scale biex iżidu r-riżoluzzjoni tal-immaġni u jtejbu l-fedeltà viżiva. AttnGAN5 jinkorpora attenzjoni bejn il-karatteristiċi tat-test u tal-immaġni, u jipproponi telf ta’ tqabbil kontrastiv ta’ karatteristiċi test-immaġni bħala objettiv awżiljarju. Dan huwa interessanti biex jitqabbel mar-reranking tagħna b’CLIP, li jsir offline. Xogħol ieħor2, 6, u 7 jinkorpora sorsi addizzjonali ta’ superviżjoni matul it-taħriġ biex itejjeb il-kwalità tal-immaġni. Fl-aħħar nett, ix-xogħol ta’ Nguyen et. al8 u Cho et. al9 jesplora strateġiji ta’ kampjunar għall-ġenerazzjoni tal-immaġnijiet li jisfruttaw mudelli diskriminattivi multimodali mħarrġa minn qabel.

B’mod simili għar-rejection sampling użat f’VQVAE-2(jinfetaħ f’tieqa ġdida), nużaw CLIP biex nagħmlu reranking tal-aqwa 32 minn 512 kampjun għal kull caption fil-viżwali interattivi kollha. Din il-proċedura tista’ titqies ukoll bħala tip ta’ tfittxija mmexxija mil-lingwa16, u jista’ jkollha impatt drammatiku fuq il-kwalità tal-kampjuni.

Qed jillowdja...

Noti f’qiegħ il-paġna

  1. A

    Token huwa kull simbolu minn vokabolarju diskret; għall-bnedmin, kull ittra Ingliża hija token minn alfabett ta’ 26 ittra. Il-vokabolarju ta’ DALL·E għandu token kemm għall-kunċetti tat-test kif ukoll tal-immaġni. Speċifikament, kull caption tal-immaġni hija rrappreżentata bl-użu ta’ massimu ta’ 256 token kodifikati b’BPE b’daqs ta’ vokabolarju ta’ 16384, u l-immaġni hija rrappreżentata bl-użu ta’ 1024 token b’daqs ta’ vokabolarju ta’ 8192.

L-immaġnijiet jiġu pproċessati minn qabel għal riżoluzzjoni ta’ 256x256 waqt it-taħriġ. B’mod simili għal VQVAE, kull immaġni tiġi kkompressata għal gradilja 32x32 ta’ kodiċijiet latenti diskreti bl-użu ta’ VAE diskret li ħarriġna minn qabel bl-użu ta’ rilassament kontinwu. Sibna li t-taħriġ bl-użu tar-rilassament jelimina l-ħtieġa għal codebook espliċitu, telf EMA, jew tricks bħar-rivitalizzazzjoni ta’ kodiċi mejta, u jista’ jiskala għal daqsijiet kbar ta’ vokabolarju.

  1. B

    Aktar dettalji huma pprovduti f’taqsima aktar tard.

  2. 17

    Dan il-kompitu jissejjaħ variable binding, u ġie studjat b’mod estensiv fil-letteratura.

Referenzi

  1. 1

    Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Sintesi ġenerattiva avversarja minn test għal immaġni(jinfetaħ f’tieqa ġdida)”. F’ICML 2016.

  2. 2

    Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Nitgħallmu x’għandna npinġu u fejn(jinfetaħ f’tieqa ġdida)”. F’NIPS 2016.

  3. 3

    Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Sintesi ta’ immaġni fotorealistika minn test b’netwerks ġenerattivi avversarji f’munzelli(jinfetaħ f’tieqa ġdida)”. F’ICCY 2017.

  4. 4

    Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: sintesi realistika ta’ immaġni b’netwerks ġenerattivi avversarji f’munzelli(jinfetaħ f’tieqa ġdida)”. F’IEEE TPAMI 2018.

  5. 5
  6. 6

    Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Sintesi minn test għal immaġni mmexxija mill-oġġetti permezz ta’ taħriġ avversarju(jinfetaħ f’tieqa ġdida)”. F’CVPR 2019.

  7. 7

    Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Ġenerazzjoni minn test għal immaġni msejsa fuq attenzjoni fina tal-utent(jinfetaħ f’tieqa ġdida)”. F’WACV 2021.

  8. 8
  9. 9

    Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Pinġi, agħti caption, u wieġeb mistoqsijiet b’transformers multimodali(jinfetaħ f’tieqa ġdida)”. EMNLP 2020.

  10. 10

    Kingma, Diederik P., and Max Welling. “Bayes varjazzjonali b’kodifikazzjoni awtomatika(jinfetaħ f’tieqa ġdida).” preprint ta’ arXiv (2013).

  11. 11

    Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Backpropagation stokastika u inferenza approssimata f’mudelli ġenerattivi profondi(jinfetaħ f’tieqa ġdida).” preprint ta’ arXiv (2014).

  12. 12
  13. 13
  14. 14

    van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Tagħlim ta’ rappreżentazzjoni newrali diskreta(jinfetaħ f’tieqa ġdida)”.

  15. 15
  16. 16

    Andreas, J., Klein, D., Levine, S. (2017). “Tagħlim b’Lingwa Latenti(jinfetaħ f’tieqa ġdida)”.

  17. 17
  18. 18
  19. 19
  20. 20

Awturi Prinċipali

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, u Scott Gray

Awturi ta’ Appoġġ

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal, u Ilya Sutskever