5. siječnja 2021.

DALL·E: Izrada slika iz teksta

Obučili smo neuralnu mrežu nazvanu DALL·E koja izrađuje slike iz tekstualnih opisa za širok raspon koncepata koji se mogu izraziti na prirodnom jeziku.

Ilustracija: Justin Jay Wang

Učitavanje…

DALL·E je verzija modela GPT‑3⁠(otvara se u novom prozoru) s 12 milijardi parametara, obučena da generira slike iz tekstualnih opisa, koristeći skup podataka parova tekst–slika. Otkrili smo da ima raznolike sposobnosti, uključujući izradu antropomorfiziranih verzija životinja i predmeta, kombiniranje nepovezanih koncepata na uvjerljive načine, prikazivanje teksta i primjenu transformacija na postojeće slike.

Također pogledajte: DALL·E 2⁠, koji generira realističnije i preciznije slike s 4x većom razlučivošću.

Učitavanje...

GPT‑3 je pokazao da se jezik može koristiti za instruiranje velike neuralne mreže da izvršava razne zadatke generiranja teksta. Image GPT⁠ pokazao je da se ista vrsta neuralne mreže može koristiti i za generiranje slika visoke vjernosti. Proširujemo ove nalaze kako bismo pokazali da je manipuliranje vizualnim konceptima putem jezika sada dostižno.

Pregled

Kao i GPT‑3, DALL·E je transformacijski jezični model. Prima i tekst i sliku kao jedinstveni tok podataka koji sadrži do 1280 tokena i obučava se koristeći maksimalnu vjerojatnost za generiranje svih tokena, jednog za drugim. ^A

Ova procedura obuke omogućuje DALL·E-ju ne samo da generira sliku od nule, već i da regenerira bilo koje pravokutno područje postojeće slike koje se proteže do donjeg desnog kuta, na način koji je u skladu s tekstualnim odzivnikom.

Prepoznajemo da rad s generativnim modelima ima potencijal za značajne i široke društvene utjecaje. U budućnosti planiramo analizirati kako se modeli poput DALL·E-ja odnose na društvena pitanja poput ekonomskog utjecaja na određene radne procese i profesije, potencijalne pristranosti u ishodima modela te dugoročnih etičkih izazova koje ova tehnologija implicira.

Sposobnosti

Otkrili smo da DALL·E može izraditi uvjerljive slike za veliki broj rečenica koje istražuju kompozicijsku strukturu jezika. To ilustriramo pomoću niza interaktivnih vizuala u sljedećem odjeljku. Uzorke prikazane za svaki natpis u vizualima dobivamo uzimanjem prvih 32 od 512 nakon ponovnog rangiranja koristeći CLIP⁠, ali ne koristimo nikakvo ručno odabiranje, osim za sličice i samostalne slike koje se pojavljuju izvan.^B

Upravljanje atributima

Testiramo sposobnost DALL·E-a da mijenja nekoliko atributa objekta, kao i broj puta kada se pojavljuje.

Učitavanje...

Crtanje više objekata

Istovremeno upravljanje višestrukim objektima, njihovim atributima i njihovim prostornim odnosima predstavlja novi izazov. Na primjer, razmislite o izrazu „jež koji nosi crveni šešir, žute rukavice, plavu košulju i zelene hlače”. Kako bi ispravno interpretirao ovu rečenicu, DALL·E mora ne samo ispravno povezati svaki komad odjeće sa životinjom, već i formirati asocijacije (šešir, crvena), (rukavice, žuta), (košulja, plava) i (hlače, zelena) bez da ih pomiješa ^C

Testiramo sposobnost DALL·E-ja da to učini za relativno pozicioniranje, slaganje objekata i kontrolu više atributa.

Učitavanje...

Iako DALL·E nudi određenu razinu kontrole nad atributima i pozicijama malog broja objekata, stopa uspješnosti može ovisiti o načinu na koji je opis formuliran. Kako se uvodi više objekata, DALL·E je sklon zbunjivanju asocijacija između objekata i njihovih boja, a stopa uspjeha naglo opada. Također primjećujemo da je DALL·E osjetljiv na preformuliranje opisa u ovim scenarijima: alternativni, semantički ekvivalentni opisi često ne rezultiraju ispravnim interpretacijama.

Vizualiziranje perspektive i trodimenzionalnosti

Otkrili smo da DALL·E također omogućuje kontrolu nad gledištem scene i 3D stilom u kojem je scena prikazana.

Učitavanje...

Kako bismo ovo dodatno unaprijedili, testirali smo sposobnost DALL·E-ja da više puta nacrta glavu poznate osobe iz svakog kuta iz niza jednako razmaknutih kutova te smo otkrili da možemo dobiti glatku animaciju rotirajuće glave.

Učitavanje...

Čini se da DALL·E može primijeniti neke vrste optičkih izobličenja na scene, kao što vidimo s opcijama "pogled kroz riblje oko" i "sferna panorama". To nas je motiviralo da istražimo njegovu sposobnost generiranja refleksija.

Učitavanje...

Vizualizacija unutarnje i vanjske strukture

Uzorci iz "ekstremnog krupnog plana" i stila "rendgenske slike" potaknuli su nas da dodatno istražimo DALL·E-jevu sposobnost prikazivanja unutarnje strukture s presječnim prikazima te vanjske strukture s makro fotografijama.

Učitavanje...

Zaključivanje kontekstualnih detalja

Zadatak prevođenja teksta u slike nije precizno definiran: jedan opis općenito odgovara beskonačnom broju mogućih slika, tako da slika nije jedinstveno određena. Na primjer, razmotrite natpis "slika kapibare koja sjedi na polju pri izlasku Sunca". Ovisno o orijentaciji kapibare, možda će biti potrebno nacrtati sjenu, premda ovaj detalj nikada nije izričito spomenut. Istražujemo sposobnost DALL·E-ja da riješi nedovoljnu specifikaciju u tri slučaja: promjena stila, ugođaja i vremena; crtanje istog objekta u raznim situacijama; i generiranje slike objekta s određenim tekstom napisanim na njemu.

Učitavanje...

S različitim stupnjevima pouzdanosti, DALL·E omogućuje pristup podskupu mogućnosti 3D renderiranja putem prirodnog jezika. Može samostalno kontrolirati atribute malog broja objekata, i do ograničenog stupnja, koliko ih ima i kako su međusobno raspoređeni. Također može kontrolirati lokaciju i kut iz kojeg se scena prikazuje te može smisliti poznate objekte u skladu s preciznim specifikacijama kuta i uvjeta osvjetljenja.

Za razliku od 3D rendererskog motora, čiji upisi moraju biti specificirani nedvosmisleno i u potpunosti, DALL·E često može "popuniti praznine" kada opis implicira da slika mora sadržavati određeni detalj koji nije eksplicitno naveden.

Aplikacije prethodnih mogućnosti

Nadalje, istražujemo upotrebu prethodnih mogućnosti za modu i dizajn interijera.

Učitavanje...

Kombiniranje nepovezanih koncepata

Kompozicijska priroda jezika omogućuje nam da sastavljamo pojmove kako bismo opisali i stvarne i imaginarne stvari. Otkrili smo da DALL·E također ima sposobnost kombiniranja različitih ideja kako bi sintetizirao objekte, od kojih neki vjerojatno ne postoje u stvarnom svijetu. Istražujemo ovu sposobnost u dva slučaja: prijenos kvaliteta s različitih koncepata na životinje i dizajniranje proizvoda uzimajući inspiraciju iz nepovezanih koncepata.

Učitavanje...

Ilustracije životinja

U prethodnom odjeljku istražili smo sposobnost DALL·E-ja da kombinira nepovezane pojmove prilikom generiranja slika stvarnih objekata. Ovdje istražujemo ovu sposobnost u kontekstu umjetnosti za tri vrste ilustracija: antropomorfizirane verzije životinja i predmeta, životinjske himere i emojije.

Učitavanje...

Vizualno rasuđivanje u nultom pokušaju

GPT‑3 se može uputiti da obavlja mnoge vrste zadataka samo na temelju opisa i odzivnika za generiranje odgovora navedenog u njegovom odzivniku, bez dodatne obuke. Na primjer, kada se od modela GPT‑3 zatraži odzivnik s frazom „evo rečenice 'osoba koja šeta svog psa u parku' prevedene na francuski:“, GPT‑3 odgovara „un homme qui promène son chien dans le parc.“ Ova sposobnost naziva se rasuđivanje u nultom pokušaju. Otkrili smo da DALL·E proširuje ovu sposobnost na vizualnu domenu i može izvršavati nekoliko vrsta zadataka prijevoda slike u sliku kada se ispravno koristi odzivnik.

Učitavanje...

Nismo očekivali da će se ova sposobnost pojaviti i nismo napravili nikakve izmjene na neuralnoj mreži ili postupku obuke kako bismo to potaknuli. Potaknuti ovim rezultatima, procjenjujemo sposobnost DALL·E-ja za analogijsko zaključivanje testiranjem na Ravenovim progresivnim matricama, vizualnom testu inteligencije koji je bio široko korišten u 20. stoljeću.

Učitavanje...

Zemljopisno znanje

Otkrili smo da je DALL·E naučio o zemljopisnim činjenicama, znamenitostima i naseljima. Njegovo znanje o tim konceptima iznenađujuće je precizno na neke načine, a manjkavo na druge.

Učitavanje...

Vremensko znanje

Osim što istražujemo DALL·E-jevo znanje o konceptima koji variraju u prostoru, također istražujemo njegovo znanje o konceptima koji variraju tijekom vremena.

Učitavanje...

Sažetak pristupa i prethodnog rada

DALL·E je jednostavan dekoder-transformer koji prima i tekst i sliku kao jedan niz od 1280 tokena – 256 za tekst i 1024 za sliku – i modelira ih sve autoregresivno. Maska pozornosti na svakom od svojih 64 sloja samopozornosti omogućuje svakom tokenu slike da obraća pažnju na sve tekstualne tokene. DALL·E koristi standardnu uzročnu masku za tekstualne tokene i rijetku pažnju za slika tokene s uzorkom pozornosti u retku, stupcu ili konvolucijskom uzorku, ovisno o sloju. Pružamo više detalja o arhitekturi i postupku obuke u našem radu⁠(otvara se u novom prozoru).

Sinteza teksta u sliku aktivno je područje istraživanja od pionirskog rada Reeda i suradnika ,¹ čiji pristup koristi GAN uvjetovan tekstualnim ugradbama. Ugrađivanja proizvodi koder unaprijed obučen korištenjem kontrastnog gubitka, slično kao CLIP. StackGAN³ i StackGAN++⁴ koriste višerazinske GAN-ove za povećanje razlučivosti slike i poboljšanje vizualne vjernosti. AttnGAN⁵ uključuje pažnju između značajki teksta i slike te predlaže kontrastni gubitak usklađivanja značajki teksta i slike kao pomoćni cilj. Ovo je zanimljivo usporediti s našim ponovnim rangiranjem pomoću CLIP-a, koje se obavlja izvanmrežno. Drugi radovi^{2, 6 i 7} uključuju dodatne izvore nadzora tijekom obuke kako bi se poboljšala kvaliteta slike. Konačno, rad Nguyen i sur. ⁸ i Cho i sur. ⁹ istražuje strategije temeljene na uzorkovanju za generiranje slika koje koriste unaprijed uvježbane multimodalne diskriminativne modele.

Slično odbacivanju uzoraka korištenom u VQVAE-2⁠(otvara se u novom prozoru), koristimo CLIP⁠ za ponovno rangiranje 32 od 512 uzoraka za svaki opis u svim interaktivnim vizualima. Ovaj se postupak također može smatrati vrstom pretrage vođene jezikom¹⁶ i može imati dramatičan utjecaj na kvalitetu uzorka.

Učitavanje...

Bilješke

A
Token je bilo koji simbol iz diskretnog vokabulara; za ljude, svako englesko slovo je token iz abecede od 26 slova. Rječnik DALL·E-ja ima tokene za tekstualne i slikovne koncepte. Konkretno, svaki opis slike predstavljen je s najviše 256 BPE-kodiranih tokena s vokabularom veličine 16384, dok je slika predstavljena s 1024 tokena s vokabularom veličine 8192.

Slike se unaprijed obrađuju na razlučivost 256x256 tijekom obuke. Slično kao VQVAE, svaka slika je komprimirana u mrežu 32x32 diskretna latentna koda koristeći diskretni VAE koji smo unaprijed trenirali koristeći kontinuiranu relaksaciju. Otkrili smo da obuka korištenjem relaksacije uklanja potrebu za eksplicitnim kodeksom, EMA gubitkom ili trikovima poput oživljavanja mrtvog koda i može se skalirati na velike veličine vokabulara.