2021. gada 5. janvāris

DALL·E: Attēlu izveide no teksta

Mēs esam apmācījuši neironu tīklu, ko sauc par DALL·E, kas veido attēlus no teksta parakstiem plašam jēdzienu klāstam, ko var izteikt dabiskā valodā.

Ilustrācijas: Justin Jay Wang

Notiek ielāde…

DALL·E ir 12 miljardu parametru versija GPT‑3⁠(atveras jaunā logā), kas apmācīta ģenerēt attēlus no teksta aprakstiem, izmantojot teksta-attēlu pāru datu kopu. Esam secinājuši, ka tam ir daudzveidīgs spēju kopums, tostarp dzīvnieku un objektu antropomorfizētu versiju izveide, nesaistītu jēdzienu apvienošana ticamos veidos, teksta atveide un esošo attēlu pārveidošana.

Skatīt arī: DALL·E 2⁠, kas ģenerē reālistiskākus un precīzākus attēlus ar 4x lielāku izšķirtspēju.

Notiek ielāde...

GPT‑3 parādīja, ka valodu var izmantot, lai vadītu lielu neironu tīklu, lai veiktu dažādus teksta ģenerēšanas uzdevumus. Image GPT⁠ parādīja, ka to pašu neironu tīklu veidu var izmantot arī, lai ģenerētu attēlus ar augstu precizitāti. Mēs paplašinām šos konstatējumus, lai parādītu, ka vizuālo koncepciju manipulēšana ar valodas palīdzību tagad ir iespējama.

Pārskats

Tāpat kā GPT‑3, DALL·E ir hibrīddatora valodas modelis. Tas saņem gan tekstu, gan attēlu kā vienotu datu plūsmu, kas satur līdz 1280 marķieriem, un tiek apmācīts, izmantojot maksimālās ticamības metodi, lai ģenerētu visus marķierus vienu pēc otra. ^A

Šī mācību procedūra ļauj DALL·E ne tikai ģenerēt attēlu no nulles, bet arī atjaunot jebkuru esoša attēla taisnstūra apgabalu, kas sniedzas līdz apakšējam labajam stūrim, tādā veidā, kas ir saskaņots ar teksta uzvedni.

Mēs atzīstam, ka darbs ar ģeneratīvajiem modeļiem var būtiski un plaši ietekmēt sabiedrību. Nākotnē mēs plānojam analizēt, kā tādi modeļi kā DALL·E skar sabiedrības jautājumus, piemēram, ekonomisko ietekmi uz noteiktiem darba procesiem un profesijām, neobjektivitātes potenciālu modeļa rezultātos un ilgtermiņa ētiskajiem izaicinājumiem, ko šī tehnoloģija rada.

Spējas

Mēs uzskatām, ka DALL·E spēj izveidot ticamus attēlus no dažādiem teikumiem, kas izpēta valodas kompozīcijas struktūru. Mēs to ilustrējam, izmantojot virkni interaktīvu vizuālu materiālu nākamajā sadaļā. Paraugi, kas parādīti katram parakstam vizuālajos materiālos, tiek iegūti, izvēloties 32 labākos no 512 pēc atkārtotas vērtēšanas ar CLIP⁠, taču mēs neizmantojam manuālu rūpīgu atlasi, izņemot sīktēlus un patstāvīgos attēlus, kas parādās ārpus vizuālajiem materiāliem.^B

Atribūtu pārvaldība

Mēs pārbaudām DALL·E spēju mainīt vairākus objekta atribūtus, kā arī to, cik reižu tas parādās.

Notiek ielāde...

Vairāku objektu zīmēšana

Vienlaicīga vairāku objektu, to īpašību un telpisko attiecību pārvaldīšana rada jaunu izaicinājumu. Apskatīsim, piemēram, frāzi “ezis, kas valkā sarkanu cepuri, dzeltenus cimdus, zilu kreklu un zaļas bikses.” Lai pareizi interpretētu šo teikumu, DALL·E ne tikai pareizi jāsaliek katrs apģērba gabals ar dzīvnieku, bet arī jāizveido asociācijas (cepure, sarkana), (cimdi, dzelteni), (krekls, zils) un (bikses, zaļas), nesajaucot tās.

Mēs pārbaudām DALL·E spēju to izdarīt relatīvās pozicionēšanas, objektu kraušanas un vairāku atribūtu kontroles jomā.

Notiek ielāde...

Lai gan DALL·E piedāvā zināmu kontroli pār neliela skaita objektu atribūtiem un pozīcijām, panākumu līmenis var būt atkarīgs no tā, kā tiek formulēts apraksts. Ieviešot vairāk objektu, DALL·E mēdz sajaukt objektu un to krāsu asociācijas, un sekmīguma rādītājs strauji samazinās. Mēs arī pamanījām, ka DALL·E ir trausls attiecībā uz parakstu pārfrāzēšanu šajās situācijās: alternatīvi, semantiski līdzvērtīgi paraksti bieži nerada pareizas interpretācijas.

Perspektīvas un trīsdimensionalitātes vizualizēšana

Mēs uzskatām, ka DALL·E arī ļauj kontrolēt skata punktu ainā un 3D stilu, kādā aina tiek attēlota.

Notiek ielāde...

Lai virzītu šo tālāk, mēs pārbaudām DALL·E spēju atkārtoti zīmēt labi zināmas personas galvu katrā leņķī no vienādi izvietotu leņķu secības un atklājam, ka varam izveidot gludu rotējošas galvas animāciju.

Notiek ielāde...

DALL·E, šķiet, spēj piemērot dažus optiskos izkropļojumus ainām, kā redzam ar iespējām "zivs acs objektīva skats" un "sfēriska panorāma." Tas mūs motivēja izpētīt tā spēju ģenerēt atspulgus.

Notiek ielāde...

Iekšējo un ārējo struktūru vizualizēšana

Paraugi no “ekstrēma tuvplāna skata” un “rentgena” stila mūs mudināja dziļāk izpētīt DALL·E spēju attēlot iekšējo struktūru ar šķērsgriezuma skatiem un ārējo struktūru ar makro fotogrāfijām.

Notiek ielāde...

Kontekstuālo detaļu konstatēšana

Uzdevums tulkot tekstu uz attēlu nav pietiekami definēts: vienam aprakstam parasti atbilst bezgalīgs skaits iespējamu attēlu, tāpēc attēls nav unikāli noteikts. Apskatīsim, piemēram, aprakstu “glezna ar kapibaru, kas sēž laukā saullēktā.” Atkarībā no kapibaras novietojuma var būt nepieciešams uzzīmēt ēnu, lai gan šī detaļa nekad netiek skaidri pieminēta. Mēs izpētām DALL·E spēju atrisināt nepietiekamu specifikāciju trīs gadījumos: mainot stilu, vidi un laiku; zīmējot to pašu objektu dažādās situācijās; un ģenerējot attēlu ar objektu, uz kura ir uzrakstīts konkrēts teksts.

Notiek ielāde...

Ar dažādu uzticamības pakāpi DALL·E nodrošina piekļuvi daļai no 3D atveidošanas dzinēja iespējām, izmantojot dabisko valodu. Tas var patstāvīgi kontrolēt neliela skaita objektu atribūtus un ierobežotā mērā to skaitu un to, kā tie ir izvietoti attiecībā viens pret otru. Tas var arī kontrolēt vietu un leņķi, no kura aina tiek atveidota, un var ģenerēt zināmus objektus, ievērojot precīzas leņķa un apgaismojuma specifikācijas.

Atšķirībā no 3D atveides dzinēja, kura ievades ir jānorāda nepārprotami un pilnībā, DALL·E bieži spēj "aizpildīt tukšumus", ja apraksts liek domāt, ka attēlam jāietver noteikta detaļa, kas nav skaidri norādīta.

Iepriekšējo iespēju pielietojumi

Tālāk mēs izpētīsim iepriekš minēto iespēju izmantošanu modes un interjera dizainā.

Notiek ielāde...

Nesaistītu koncepciju apvienošana

Valodas saliktā daba ļauj mums apvienot jēdzienus, lai aprakstītu gan reālas, gan iedomātas lietas. Mēs uzskatām, ka DALL·E spēj arī apvienot dažādas idejas, lai sintezētu objektus, no kuriem daži, iespējams, nepastāv reālajā pasaulē. Mēs izpētām šo spēju divos gadījumos: pārnesot īpašības no dažādiem jēdzieniem uz dzīvniekiem un radot produktus, iedvesmojoties no nesaistītiem jēdzieniem.

Notiek ielāde...

Dzīvnieku ilustrācijas

Iepriekšējā sadaļā mēs izpētījām DALL·E spēju apvienot nesaistītus jēdzienus, ģenerējot reālu pasaules objektu attēlus. Šeit mēs izpētām šo spēju mākslas kontekstā trīs ilustrāciju veidiem: antropomorfas dzīvnieku un objektu versijas, dzīvnieku himēras un emocijzīmes.

Notiek ielāde...

Nulles līmeņa vizuālā argumentācija

GPT‑3 var tikt instruēts veikt dažādus uzdevumus tikai no apraksta un norādēm, lai ģenerētu atbildi, kas tiek sniegta tā uzvednē, bez jebkādām papildu mācībām. Piemēram, kad tiek uzdota uzvedne ar frāzi “šeit ir teikums ‘cilvēks, kas pastaigājas ar savu suni parkā’, kas tulkots franču valodā:”, GPT‑3 atbild “un homme qui promène son chien dans le parc.” Šo spēju sauc par zero-shot argumentāciju. Mēs uzskatām, ka DALL·E paplašina šo spēju uz vizuālo domēnu un spēj veikt vairākus attēls-uz-attēlu uzdevumus, ja tiek uzdota pareizā uzvedne.

Notiek ielāde...

Mēs negaidījām, ka šī spēja parādīsies, un neveicām nekādas izmaiņas neironu tīklā vai mācību procedūrā, lai to veicinātu. Motivēti ar šiem rezultātiem, mēs novērtējam DALL·E spējas analogās domāšanas problēmās, pārbaudot to ar Raven progresīvajām matricām, vizuālo IQ testu, kas plaši tika izmantots 20. gadsimtā.

Notiek ielāde...

Ģeogrāfiskās zināšanas

Mēs uzskatām, ka DALL·E ir apguvis ģeogrāfiskus faktus, orientierus un apkaimes. Tā zināšanas par šiem jēdzieniem ir pārsteidzoši precīzas dažos aspektos un kļūdainas citos.

Notiek ielāde...

Īslaicīgās zināšanas

Papildus DALL·E zināšanu izpētei par jēdzieniem, kas mainās telpā, mēs arī izpētām tā zināšanas par jēdzieniem, kas mainās laika gaitā.

Notiek ielāde...

Kopsavilkums par pieeju un iepriekš paveikto

DALL·E ir vienkāršs tikai dekodera transformators, kas saņem gan tekstu, gan attēlu kā vienu 1280 tokenu plūsmu—256 teksta un 1024 attēla tokeniem—un autoregresīvi tos visus modelē. Uzmanības maska katrā no tās 64 pašuzmanības slāņiem ļauj katram attēla tokenam pievērsties visiem teksta tokeniem. DALL·E izmanto standarta cēloņsakarības masku teksta marķieriem un retinātu uzmanību attēlu marķieriem, izmantojot rindu, kolonnu vai konvulsīvas uzmanības modeli atkarībā no slāņa. Mēs sniedzam vairāk informācijas par arhitektūru un mācību procedūru mūsu rakstā⁠(atveras jaunā logā).

Teksta-attēlu sintēze ir bijusi aktīva pētniecības joma kopš celmlaužu darba, ko veica Reed et al. al,¹ kura pieeja izmanto GAN, kas ir nosacīts ar teksta iegulumiem. Iestrādes tiek veidotas ar kodētāju, kas ir iepriekš apmācīts, izmantojot kontrastējošu zaudējumu, līdzīgi kā CLIP. StackGAN³ un StackGAN++⁴ izmanto daudzlīmeņu GAN, lai palielinātu attēla izšķirtspēju un uzlabotu vizuālo uzticamību. AttnGAN⁵ iekļauj uzmanības mehānismu starp teksta un attēla iezīmēm un piedāvā kontrastējošu teksta-attēla iezīmju saskaņošanas zudumu kā papildu mērķi. Ir interesanti salīdzināt to ar mūsu pārkārtošanu, izmantojot CLIP, kas tiek veikta bezsaistē. Citi darbi^{2, 6 un 7} ietver papildu uzraudzības avotus mācību laikā, lai uzlabotu attēlu kvalitāti. Visbeidzot, darbs, ko veica Nguyen et al. al⁸ un Cho et. ⁹ izpēta uz paraugu ņemšanu balstītas stratēģijas attēlu ģenerēšanai, kas izmanto iepriekš apmācītus multimodālus diskriminatīvos modeļus.

Līdzīgi kā noraidīšanas paraugu ņemšana, kas izmantota VQVAE-2⁠(atveras jaunā logā), mēs izmantojam CLIP⁠, lai pārkārtotu 512 paraugu top 32 katram parakstam visos interaktīvajos vizuālajos materiālos. Šo procedūru var arī uzskatīt par sava veida valodas vadītu meklēšanu¹⁶, un tai var būt būtiska ietekme uz parauga kvalitāti.

Notiek ielāde...

Zemsvītras piezīmes

A
Marķieri ir jebkurš simbols no diskrētas vārdnīcas; cilvēkiem katrs angļu burts ir marķieris no 26 burtu alfabēta. DALL·E vārdnīcā ir marķieri gan teksta, gan attēlu jēdzieniem. Konkrēti, katrs attēla paraksts tiek attēlots, izmantojot maksimāli 256 BPE kodētus marķierus ar vārdu krājuma lielumu 16384, un attēls tiek attēlots, izmantojot 1024 marķierus ar vārdu krājuma lielumu 8192.

Attēli tiek iepriekš apstrādāti līdz 256x256 izšķirtspējai mācību laikā. Līdzīgi kā VQVAE, katrs attēls tiek saspiests līdz 32x32 režģim ar diskrētiem latentiem kodiem, izmantojot diskrētu VAE, ko mēs iepriekš apmācījām, izmantojot nepārtrauktu relaksāciju. Mēs atklājām, ka mācības, izmantojot relaksāciju, novērš nepieciešamību pēc skaidras kodu grāmatas, EMA zaudējuma vai tādiem paņēmieniem kā mirušo kodu atjaunošana, un var paplašināties līdz lieliem vārdu krājumiem.