5. janúar 2021

DALL·E: Að búa til myndir úr texta

Við höfum þjálfað tauganet sem kallast DALL·E sem býr til myndir úr textalýsingum fyrir fjölbreytt úrval hugtaka sem hægt er að tjá á náttúrulegu tungumáli.

Myndskreyting: Justin Jay Wang

Hleður inn...

DALL·E er 12 milljarða færibreytulíkan af GPT‑3⁠(opnast í nýjum glugga) sem er þjálfað til að búa til myndir úr textalýsingum með því að nota gagnasafn af texta-myndapörum. Við höfum komist að því að það hefur fjölbreytta hæfileika, þar á meðal að búa til manngerðar útgáfur af dýrum og hlutum, sameina óskyld hugtök á trúverðugan hátt, birta texta og beita umbreytingum á núverandi myndir.

Sjá einnig: DALL·E 2⁠, sem býr til raunsærri og nákvæmari myndir með fjórfalt meiri upplausn.

Hleður inn...

GPT‑3 sýndi að tungumál má nota til að leiðbeina stóru tauganeti til að framkvæma fjölbreytt verkefni í textagerð. Image GPT⁠ sýndi að sama tegund tauganets getur einnig verið notuð til að búa til myndir með mikilli nákvæmni. Við útvíkkum þessar niðurstöður til að sýna að það er nú innan seilingar að stjórna sjónrænum hugtökum með tungumáli.

Yfirlit

Líkt og GPT‑3 er DALL·E umbreytingatungumálalíkan. Það tekur bæði textann og myndina sem einn straum af gögnum sem inniheldur allt að 1280 tákn og er þjálfað með hámarkslíkindi til að búa til öll tákn, eitt á eftir öðru. ^A

Þessi þjálfunaraðferð gerir DALL·E kleift að búa ekki aðeins til mynd frá grunni, heldur einnig að endurgera hvaða rétthyrnda svæði sem er í núverandi mynd sem nær til neðra hægra hornsins, á þann hátt sem er í samræmi við textakvaðninguna.

Við viðurkennum að vinna sem felur í sér sköpunarlíkön getur haft veruleg og víðtæk áhrif á samfélagið. Í framtíðinni ætlum við okkur að greina hvernig líkön eins og DALL·E tengjast samfélagslegum málefnum eins og efnahagslegum áhrifum á ákveðin vinnuferli og starfsgreinar, möguleikanum á hlutdrægni í úttaki líkansins og langtíma siðferðilegum áskorunum sem þessi tækni felur í sér.

Geta

Við komumst að því að DALL·E er fært um að búa til trúverðugar myndir fyrir fjölbreytt úrval setninga sem kanna samsetningargerð tungumálsins. Við sýnum þetta með röð af gagnvirkum myndrænum myndum í næsta hluta. Sýnishornin sem sýnd eru fyrir hvern myndatexta í myndræna efninu eru fengin með því að velja efstu 32 af 512 eftir endurröðun með CLIP⁠, en við notum ekkert handvirkt val, nema fyrir smámyndir og sjálfstæðar myndir sem birtast utan við.^B

Stýrieiginleikar

Við prófum getu DALL·E til að breyta ýmsum eiginleikum hlutar, sem og fjölda skipta sem hann birtist.

Hleður inn...

Að teikna marga hluti

Að stjórna mörgum hlutum samtímis, eiginleikum þeirra og rúmfræðilegum tengslum er ný áskorun. Til dæmis, hugsaðu um setninguna „broddgöltur með rauða húfu, gula hanska, bláa skyrtu og grænar buxur.“ Til að túlka þessa setningu rétt, þarf DALL·E ekki aðeins að raða hverri flík rétt með dýrinu, heldur einnig að mynda tengslin (hattur, rauður), (hanskar, gulir), (skyrta, blá), og (buxur, grænar) án þess að rugla þeim saman ^C

Við prófum getu DALL·E til að gera þetta fyrir hlutfallslega staðsetningu, að stafla hlutum og að stjórna mörgum eiginleikum.

Hleður inn...

Þó að DALL·E bjóði upp á einhvers konar stjórn á eiginleikum og staðsetningu fárra hluta, getur árangur verið háður því hvernig myndatextinn er orðaður. Þegar fleiri hlutir eru kynntir, hefur DALL·E tilhneigingu til að rugla saman tengslunum milli hlutanna og lita þeirra, og árangurshlutfallið minnkar verulega. Við tökum einnig eftir því að DALL·E er viðkvæmt fyrir umorðun á myndatexta í þessum aðstæðum: aðrir, merkingarlega jafngildir myndatextar skila oft engum réttum túlkunum.

Að sjá fyrir sér sjónarhorn og þrívídd

Við komumst að því að DALL·E er einnig kleift að stjórna sjónarhorni senu og þrívíddarstíl sem senu er varpað í.

Hleður inn...

Til að ýta þessu lengra prófum við getu DALL·E til að teikna höfuð þekkts einstaklings endurtekið frá hverju horni í röð jafndreifðra horna og komumst að því að við getum búið til slétta hreyfimynd af snúandi höfði.

Hleður inn...

DALL·E virðist geta beitt ákveðnum tegundum sjónrænna bjögunar á senur, eins og við sjáum með valkostunum „fiskaugalinsusýn“ og „kúlulaga víðmynd“. Þetta hvatti okkur til að kanna getu þess til að búa til speglanir.

Hleður inn...

Að sýna innri og ytri uppbyggingu

Sýnin úr „mikilli nærmynd“ og „röntgen“ stíl leiddu okkur til að kanna frekar getu DALL·E til að birta innri uppbyggingu með þverskurðarsýnum og ytri uppbyggingu með makró ljósmyndum.

Hleður inn...

Að draga ályktanir út frá samhengi

Verkefnið að þýða texta í myndir er ekki nægilega skilgreint: einn myndatexti samsvarar almennt óendanlegu magni af mögulegum myndum, svo myndin er ekki einstök. Til dæmis, íhugaðu myndatextann „málverk af flóðsvíni sem situr á akri við sólarupprás.“ Það getur verið nauðsynlegt að teikna skugga eftir því hvernig flóðsvínið er staðsett, þó að þessi smáatriði séu aldrei nefnd sérstaklega. Við könnum getu DALL·E til að leysa óskýrleika í þremur tilfellum: að breyta stíl, umhverfi og tíma; að teikna sama hlut í ýmsum mismunandi aðstæðum; og að búa til mynd af hlut með tilteknum texta skrifuðum á hann.

Hleður inn...

Með mismunandi áreiðanleika veitir DALL·E aðgang að hluta af getu þrívíddarvélar með náttúrulegu tungumáli. Það getur sjálfstætt stjórnað eiginleikum fárra hluta og, að takmörkuðu leyti, hversu margir þeir eru og hvernig þeim er raðað með tilliti til hvers annars. Það getur einnig stjórnað staðsetningu og horni sem sena er birt frá, og getur búið til þekkta hluti í samræmi við nákvæmar forskriftir um horn og lýsingarskilyrði.

Ólíkt þrívíddar myndavél, þar sem inntak verður að vera skýrt og í fullum smáatriðum, getur DALL·E oft „fyllt í eyðurnar“ þegar myndatextinn gefur til kynna að myndin þurfi að innihalda ákveðin smáatriði sem ekki eru skýrt tilgreind.

Notkun á fyrri getu

Næst skoðuðum við notkun á fyrri getu fyrir tísku og innanhússhönnun.

Hleður inn...

Sameina óskyld hugtök

Samsetningareðli tungumálsins gerir okkur kleift að setja saman hugtök til að lýsa bæði raunverulegum og ímynduðum hlutum. Við komumst að því að DALL·E hefur einnig hæfileikann til að sameina ólíkar hugmyndir til að búa til hluti, sem eru ólíklegir til að vera til í raunveruleikanum. Við könnum þessa getu í tveimur tilvikum: að flytja eiginleika frá ýmsum hugtökum yfir á dýr og að hanna vörur með því að fá innblástur frá óskyldum hugtökum.

Hleður inn...

Dýramyndir

Í fyrri hluta könnuðum við getu DALL·E til að búa til óskyld hugtök þegar þar býr til myndir af raunverulegum hlutum. Hér könnum við þennan hæfileika í samhengi við list, fyrir þrjár tegundir af myndskreytingum: manngervingar af dýrum og hlutum, dýrablendinga og emoji.

Hleður inn...

Sjónræn röksemdafærsla án sýnidæma

GPT‑3 er hægt að leiðbeina til að framkvæma margar tegundir verkefna eingöngu út frá lýsingu og vísbendingu til að búa til svarið sem gefið er í kvaðningunni, án nokkurrar viðbótarþjálfunar. Til dæmis, þegar kvaðningin er setningin „hér er setningin ‘maður sem gengur með hundinn sinn í garðinum’ þýdd á frönsku:“ er svarað, segir GPT‑3 „un homme qui promène son chien dans le parc.“ Þessi geta er kölluð röksemdafærsla án fyrri dæma. Við komumst að því að DALL·E víkkar þessa getu út á sjónræna sviðið og getur framkvæmt ýmiss konar mynd-í-mynd þýðingarverkefni þegar það er kvaðning framkvæmd á réttan hátt.

Hleður inn...

Við bjuggumst ekki við að þessi geta myndi koma fram og gerðum engar breytingar á tauganetinu eða þjálfunarferlinu til að ýta undir hana. Hvött af þessum niðurstöðum mælum við hæfni DALL·E til að leysa hliðstæð röksemdafærsluverkefni með því að prófa það á framfaramyndum Raven, sjónrænu greindarprófi sem var mikið notað á 20. öld.

Hleður inn...

Landfræðileg þekking

Við komumst að því að DALL·E hefur lært um landfræðilegar staðreyndir, kennileiti og hverfi. Þekking þess á þessum hugtökum er ótrúlega nákvæm á sumum sviðum en gölluð á öðrum.

Hleður inn...

Skammvinn þekking

Auk þess að kanna þekkingu DALL·E á hugtökum sem breytast eftir stað, könnum við einnig þekkingu þess á hugtökum sem breytast með tímanum.

Hleður inn...

Samantekt á nálgun og fyrri vinnu

DALL·E er einfalt afkóðunarlíkan sem tekur bæði texta og mynd sem einn straum af 1280 táknum—256 fyrir textann og 1024 fyrir myndina—og gerir líkan af þeim öllum sjálfvirkt. Athygli síunnar í hverju af 64 sjálfsathygni lögum sínum gerir hverju myndtákni kleift að veita öllum textatáknum athygli. DALL·E notar staðlaða orsakamöskva fyrir textatákn og dreifða athygli fyrir myndtákn með annaðhvort röð, dálk eða samleitið athyglismynstur, eftir því hvaða lag er notað. Við veitum frekari upplýsingar um högun og þjálfunarferlið í grein⁠(opnast í nýjum glugga) okkar.

Texta-í-mynd samruni hefur verið virkt rannsóknarsvið síðan brautryðjendaverk Reed o.fl. al,¹ sem notar aðferð sem notar GAN skilyrt á textainnfellingum. Innfellingar eru framleiddar af kóðara sem hefur verið forþjálfaður með andstæðutapi, ekki ólíkt CLIP. StackGAN³ og StackGAN++⁴ nota fjölskala GAN til að auka upplausn mynda og bæta sjónræn gæði. AttnGAN⁵ innleiðir athygli milli texta- og myndeiginleika og leggur til andstæðan texta-mynda eiginleika samsvörunartap sem eykur markmið. Þetta er áhugavert að bera saman við endurröðun okkar með CLIP, sem er gert án nettengingar. Önnur vinna^{2, 6, 7} felur í sér viðbótarheimildir um eftirlit á meðan á þjálfun stendur til að bæta myndgæði. Að lokum, verk eftir Nguyen o.fl. al⁸ og Cho o.fl. al⁹ kannar sýnatökuaðferðir fyrir mynd sem nýta fyrirfram þjálfuð fjölþátta aðgreiningarlíkön.

Líkt og höfnunarsýnataka sem notuð er í VQVAE-2⁠(opnast í nýjum glugga), notum við CLIP⁠ til að endurraða efstu 32 af 512 sýnum fyrir hvern myndatexta í öllu gagnvirku myndefni. Þessa aðferð má einnig líta á sem eins konar tungumálaleiðsögn, og hún getur haft dramatísk áhrif á gæði sýna.

Hleður inn...

Neðanmálsgreinar

A
Tákn er hvaða tákn sem er úr afmörkuðu orðasafni; fyrir menn er hver enski bókstafur tákn úr 26 stafa stafrófi. Orðaforði DALL·E inniheldur tákn fyrir bæði texta- og myndhugtök. Nánar tiltekið er hver myndatexti táknaður með að hámarki 256 BPE-kóðuðum táknum með orðaforða af stærðinni 16384, og myndin er táknuð með 1024 táknum með orðaforða af stærðinni 8192.

Myndirnar eru forunnar í 256x256 upplausn meðan á þjálfun stendur. Líkt og VQVAE, er hver mynd þjöppuð í 32x32 net af stökum leyndum kóðum með stökum VAE sem við forþjálfuðum með samfelldri slökun. Við komumst að því að þjálfun með slökun útilokar þörfina fyrir skýra kóðabók, EMA-tap eða brellur eins og endurlífgun dauðra kóða, og getur stækkað upp í stórar orðaforðastærðir.