5 ianuarie 2021

DALL·E: Crearea imaginilor din text

Am instruit o rețea neuronală numită DALL·E care creează imagini din legende textuale pentru o mare varietate de concepte care pot fi exprimate în limbaj natural.

Ilustrație: Justin Jay Wang

Se încarcă…

DALL·E este o versiune GPT‑3⁠(se deschide într-o fereastră nouă) cu 12 miliarde de parametri, instruită să genereze imagini din descrieri textuale, utilizând un set de date de perechi text–imagine. Am descoperit că are un set divers de capacități, inclusiv crearea de versiuni antropomorfe ale animalelor și obiectelor, combinarea conceptelor fără legătură între ele în moduri plauzibile, redarea textului și aplicarea de transformări imaginilor existente.

Vezi și: DALL·E 2⁠, care generează imagini mai realiste și mai precise, cu o rezoluție de 4 ori mai mare.

Se încarcă...

GPT‑3 a demonstrat că limbajul poate fi utilizat pentru a instrui o rețea neuronală de mari dimensiuni să execute o serie de sarcini de generare de text. Image GPT⁠ a demonstrat că același tip de rețea neuronală poate fi utilizat și pentru a genera imagini cu fidelitate ridicată. Am extins aceste descoperiri pentru a demonstra că manipularea conceptelor vizuale prin limbaj este acum posibilă.

Prezentare generală

La fel ca GPT‑3, DALL·E este un model lingvistic transformator. Primește atât textul, cât și imaginea ca un singur flux de date care conține până la 1280 de tokenuri și este instruit folosind principiul probabilității maxime pentru a genera toate tokenurile, unul după altul. ^A

Această procedură de instruire îi permite modelului DALL·E nu doar să genereze o imagine de la zero, ci și să regenereze orice regiune dreptunghiulară dintr-o imagine existentă care se extinde până în colțul din dreapta jos, într-un mod conform cu solicitarea textuală.

Suntem conștienți de faptul că activitatea care implică modele generative poate avea un impact social semnificativ și amplu. În viitor, intenționăm să analizăm modul în care modele precum DALL·E se raportează la probleme sociale precum impactul economic asupra anumitor procese de lucru și profesii, potențialul de prejudecată în datele de ieșire ale modelului și provocările etice pe termen lung pe care le implică această tehnologie.

Capabilități

Am descoperit că DALL·E poate crea imagini plauzibile pentru o mare varietate de propoziții care explorează structura compozițională a limbajului. Am ilustrat acest lucru folosind o serie de elemente vizuale interactive în secțiunea următoare. Mostrele afișate pentru fiecare legendă din elementele vizuale sunt obținute prin selectarea primelor 32 din 512 după reclasificarea cu CLIP⁠, dar nu folosim nicio selecție manuală, în afară de miniaturile și imaginile independente care apar în exterior.^B

Controlul atributelor

Am testat capacitatea modelului DALL·E de a modifica mai multe atribute ale unui obiect, precum și de câte ori apare acesta.

Se încarcă...

Desenarea mai multor obiecte

Controlul simultan al mai multor obiecte, al atributelor și al relațiilor lor spațiale prezintă o nouă provocare. Să luăm, de exemplu, fraza „un arici cu pălărie roșie, mănuși galbene, cămașă albastră și pantaloni verzi”. Pentru a interpreta corect această propoziție, DALL·E nu trebuie doar să compună corect fiecare articol vestimentar împreună cu animalul, ci și să formeze asocierile (pălărie, roșie), (mănuși, galbene), (cămașă, albastră) și (pantaloni, verzi) fără a le încurca ^C.

Am testat capacitatea modelului DALL·E de a realiza acest lucru pentru poziționarea relativă, stivuirea obiectelor și controlul mai multor atribute.

Se încarcă...

Deși DALL·E oferă un anumit nivel de control asupra atributelor și pozițiilor unui număr mic de obiecte, rata de succes poate depinde de modul în care este formulată legenda. Pe măsură ce sunt introduse mai multe obiecte, DALL·E tinde să confunde asocierile dintre obiecte și culorile lor, iar rata de succes scade brusc. De asemenea, am remarcat că DALL·E este vulnerabil la reformularea legendei în aceste scenarii: adesea, legendele alternative, echivalente semantic, nu produc nicio interpretare corectă.

Vizualizarea perspectivei și a tridimensionalității

Am constatat că DALL·E permite și controlul asupra perspectivei unei scene și asupra stilului 3D în care este randată o scenă.

Se încarcă...

Pentru a aprofunda acest aspect, am testat capacitatea modelului DALL·E de a desena în mod repetat capul unei persoane cunoscute din fiecare unghi dintr-o secvență de unghiuri egal distanțate și am constatat că putem obține o animație fluidă a capului în rotație.

Se încarcă...

DALL·E pare a fi capabil să aplice anumite tipuri de distorsiuni optice scenelor, după cum vedem în opțiunile „vedere cu obiectiv fisheye” și „o panoramă sferică”. Acest lucru ne-a motivat să-i explorăm capacitatea de a genera reflecții.

Se încarcă...

Vizualizarea structurii interne și externe

Mostrele din stilurile „vedere de prim-plan extrem” și „raze X” ne-au determinat să explorăm mai în detaliu capacitatea DALL·E de a reda structura internă cu imagini în secțiune transversală și structura externă cu fotografii macro.

Se încarcă...

Deducerea detaliilor contextuale

Sarcina de a traduce textul în imagini este insuficient specificată: o singură legendă corespunde, în general, unei infinități de imagini plauzibile, așa că imaginea nu este determinată în mod unic. De exemplu, să luăm ca exemplu legenda „un tablou cu un capibara stând într-un câmp la răsărit”. În funcție de orientarea capibarei, poate fi necesar să fie desenată o umbră, deși acest detaliu nu a fost menționat în mod explicit. Vom explora capacitatea DALL·E de a rezolva specificarea insuficientă în trei cazuri: schimbarea stilului, contextului și timpului; desenarea aceluiași obiect în mai multe situații diferite; și generarea unei imagini a unui obiect pe care este scris un text specific.

Se încarcă...

Cu diferite grade de fiabilitate, DALL·E oferă acces la un subset al capacităților unui motor de randare 3D prin limbaj natural. Poate controla independent atributele unui număr mic de obiecte și, într-o măsură limitată, câte sunt și modul în care sunt aranjate unele față de altele. De asemenea, poate controla locația și unghiul din care este redată o scenă și poate genera obiecte cunoscute în conformitate cu specificațiile precise ale unghiului și condițiilor de iluminare.

Spre deosebire de un motor de randare 3D, ale cărui date de intrare trebuie specificate fără ambiguități și în detaliu complet, DALL·E este adesea capabil să „umple golurile” atunci când legenda sugerează că imaginea trebuie să conțină un anumit detaliu care nu este menționat în mod explicit.

Utilizări ale capacităților menționate anterior

În continuare, vom explora utilizarea capacităților menționate anterior în modă și design interior.

Se încarcă...

Combinarea conceptelor fără legătură între ele

Natura compozițională a limbajului ne permite să combinăm concepte pentru a descrie deopotrivă lucruri reale și imaginare. Am constatat că DALL·E are și capacitatea de a combina idei eterogene pentru a sintetiza obiecte, unele dintre ele fiind puțin probabil să existe în lumea reală. Vom explora această abilitate în două situații: transferul calităților din diverse concepte către animale și proiectarea produselor inspirându-ne din concepte fără legătură între ele.

Se încarcă...

Ilustrații cu animale

În secțiunea anterioară, am explorat capacitatea DALL·E de a combina concepte fără legătură între ele atunci când generează imagini ale unor obiecte reale. Aici, vom explora această abilitate în contextul artei, pentru trei tipuri de ilustrații: versiuni antropomorfe ale animalelor și obiectelor, himere animale și emoji-uri.

Se încarcă...

Raționament vizual de tip zero-shot

GPT‑3 poate fi instruit să execute multe tipuri de sarcini doar pe baza unei descrieri și a unui indiciu pentru a genera răspunsul furnizat în solicitarea sa, fără niciun fel de instruire suplimentară. De exemplu, când i se adresează solicitarea „iată traducerea în franceză a propoziției «o persoană își plimbă câinele în parc»:”, GPT‑3 răspunde „un homme qui promène son chien dans le parc”. Această capacitate se numește raționament zero-shot. Am constatat că DALL·E aplică această capacitate și în domeniul vizual și poate efectua mai multe tipuri de traduceri dintr-o imagine în alta atunci când i se adresează solicitări adecvate.

Se încarcă...

Nu ne-am așteptat ca această capacitate să apară și nu am făcut modificări la rețeaua neuronală sau la procedura de instruire pentru a o încuraja. Fiind motivați de aceste rezultate, am măsurat aptitudinea modelului DALL·E pentru problemele de raționament analogic, testându-l pe matricile progresive Raven, un test vizual de IQ utilizat pe scară largă în secolul XX.

Se încarcă...

Cunoștințe geografice

Am constatat că DALL·E a învățat date despre geografie, puncte de referință și cartiere. Cunoștințele sale despre aceste concepte sunt surprinzător de precise în anumite privințe și eronate în altele.

Se încarcă...

Cunoștințe despre timp

Pe lângă explorarea cunoștințelor DALL·E despre conceptele care variază în spațiu, i-am explorat și cunoștințele despre conceptele care variază în timp.

Se încarcă...

Rezumatul abordării și al activității anterioare

DALL·E este un transformator simplu, doar pentru decodare, care primește atât textul, cât și imaginea ca un singur flux de 1280 de tokenuri — 256 pentru text și 1024 pentru imagine — pe care le modelează autoregresiv. Masca de atenție la fiecare dintre cele 64 de straturi de auto-atenție îi permite fiecărui token de imagine să se ocupe de toate tokenurile de text. DALL·E utilizează masca cauzală standard pentru tokenurile de text și atenția dispersată pentru tokenurile de imagine, cu un model de atenție pe rânduri, coloane sau convoluțional, în funcție de strat. Vom oferi mai multe detalii despre arhitectură și procedura de instruire în această lucrare⁠(se deschide într-o fereastră nouă).

Sinteza text-imagine este un domeniu de cercetare activ încă de la lucrările de pionierat ale lui Reed et. al,¹ a căror abordare utilizează un GAN condiționat de încorporarea textului. Încorporările sunt produse de un codificator preinstruit folosind o pierdere contrastivă, similar cu CLIP. StackGAN³ și StackGAN++⁴ utilizează GAN-uri multi-scală pentru a crește rezoluția imaginii și îmbunătăți fidelitatea vizuală. AttnGAN⁵ încorporează atenția între caracteristicile textului și ale imaginii și propune o pierdere contrastivă de potrivire a caracteristicilor text-imagine ca obiectiv auxiliar. Este interesant de comparat cu reclasificarea noastră cu CLIP, realizată offline. Alte lucrări^{2, 6, 7} includ surse suplimentare de supraveghere în timpul instruirii pentru a îmbunătăți calitatea imaginii. Nu în ultimul rând, cercetările lui Nguyen et. al⁸ și Cho et al.⁹ explorează strategii bazate pe eșantionare pentru generarea de imagini care utilizează modele discriminative multimodale pre-instruite.

Similar eșantionării de respingere utilizate în VQVAE-2⁠(se deschide într-o fereastră nouă), am folosit CLIP⁠ pentru a reclasifica primele 32 din 512 eșantioane pentru fiecare legendă din toate elementele vizuale interactive. Această procedură poate fi considerată și ca un fel de căutare ghidată de limbaj¹⁶ și poate avea un impact dramatic asupra calității eșantionului.

Se încarcă...

Note de subsol

A
Un token este orice simbol dintr-un vocabular discret; pentru oameni, fiecare literă din limba engleză este un token dintr-un alfabet de 26 de litere. Vocabularul DALL·E conține tokenuri atât pentru concepte de text, cât și pentru cele de imagine. Mai precis, fiecare legendă a imaginii este reprezentată folosind cel mult 256 de tokenuri codificate BPE cu un vocabular de 16384 de cuvinte, iar imaginea este reprezentată folosind 1024 de tokenuri cu un vocabular de 8192 de cuvinte.

Imaginile sunt preprocesate la o rezoluție de 256x256 în timpul instruirii. Similar cu VQVAE,[fn:15]] fiecare imagine este comprimată într-o grilă de 32x32 de coduri latente discrete folosind un VAE discret[fn:11]] pe care l-am pre-antrenat folosind o relaxare continuă[fn:13]] Am constatat că instruirea care utilizează relaxarea elimină necesitatea unui manual de coduri explicit, a pierderii EMA sau a artificiilor precum reactivarea codului inactiv și poate fi scalată la dimensiuni mari de vocabular.

B
Mai multe detalii sunt furnizate în o secțiune ulterioară⁠.
17
Această sarcină se numește legarea variabilelor și a fost studiată pe larg în literatura de specialitate.