Léim go dtí an príomhábhar
OpenAI

5 Eanáir 2021

Cloch mhíle

DALL·E: Íomhánna a chruthú ó théacs

Tá líonra néarach darb ainm DALL·E oilte againn a chruthaíonn íomhánna ó fhotheidil téacs do raon leathan coincheap is féidir a chur in iúl sa teanga nádúrtha.

DALL·E

Léaráid: Justin Jay Wang

Ag lódáil…

Leagan 12 bhilliún paraiméadar de GPT‑3(osclaíonn i bhfuinneog nua) is ea DALL·E, atá oilte chun íomhánna a ghiniúint ó chur síos téacs, ag baint úsáide as tacar sonraí de phéirí téacs–íomhá. Fuaireamar amach go bhfuil tacar éagsúil cumas aige, lena n-áirítear leaganacha daonnaithe d’ainmhithe agus de réada a chruthú, coincheapa neamhghaolmhara a chomhcheangal ar bhealaí inchreidte, téacs a rindreáil, agus claochluithe a chur i bhfeidhm ar íomhánna atá ann cheana.

Féach freisin: DALL·E 2, a ghineann íomhánna níos réadúla agus níos cruinne le taifeach 4x níos airde.

Ag lódáil...

Léirigh GPT‑3 gur féidir teanga a úsáid chun treoir a thabhairt do líonra néarach mór éagsúlacht tascanna giniúna téacs a dhéanamh. Léirigh Image GPT gur féidir an cineál céanna líonra néaraigh a úsáid freisin chun íomhánna ard-dhílseachta a ghiniúint. Leathnaímid na torthaí seo chun a léiriú go bhfuil coincheapa amhairc a ionramháil trí theanga indéanta anois.

Forléargas

Cosúil le GPT‑3, is samhail teanga trasfhoirmitheoir é DALL·E. Glacann sé an téacs agus an íomhá araon mar shruth aonair sonraí ina bhfuil suas le 1280 téacschomhartha, agus cuirtear oiliúint air ag úsáid an dóchúlacht uasta chun na téacschomharthaí go léir a ghiniúint, ceann i ndiaidh a chéile. A

Ligeann an nós imeachta oiliúna seo do DALL·E ní hamháin íomhá a ghiniúint ón tús, ach freisin aon réigiún dronuilleogach d’íomhá atá ann cheana a athghiniúint a shíneann go dtí an cúinne íochtair ar dheis, ar bhealach atá comhsheasmhach leis an leid téacs.

Aithnímid go bhféadfadh tionchair shuntasacha leathana shóisialta a bheith ag obair a bhaineann le samhlacha giniúna. Sa todhchaí, tá sé beartaithe againn anailís a dhéanamh ar an gcaoi a mbaineann samhlacha cosúil le DALL·E le saincheisteanna sóisialta amhail tionchar eacnamaíoch ar phróisis oibre agus ar ghairmeacha áirithe, an poitéinseal do chlaonadh in aschuir na samhla, agus na dúshláin eiticiúla níos fadtéarmaí a thugann an teicneolaíocht seo le fios.

Cumais

Faighimid amach go bhfuil DALL·E in ann íomhánna inchreidte a chruthú do réimse an-leathan abairtí a dhéanann iniúchadh ar struchtúr comhdhéanta na teanga. Léirímid é seo trí shraith amharcán idirghníomhach sa chéad chuid eile. Faightear na samplaí a thaispeántar do gach fotheideal sna hamharcáin trí na 32 is fearr as 512 a ghlacadh tar éis athrangaithe le CLIP, ach ní úsáidimid aon phiocadh láimhe, seachas na mionsamhlacha agus na híomhánna neamhspleácha a thaispeántar lasmuigh díobh.B

Airíonna a rialú

Déanann muid tástáil ar chumas DALL·E roinnt d’airíonna réada a mhodhnú, chomh maith leis an líon uaireanta a thagann sé chun cinn.

Ag lódáil...

Iliomad réad a tharraingt

Is dúshlán nua é smacht comhuaineach a choinneáil ar iliomad réad, ar a n-airíonna, agus ar a gcaidrimh spásúla. Mar shampla, smaoinigh ar an bhfrása “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” Chun an abairt seo a léirmhíniú i gceart, ní mór do DALL·E ní hamháin gach píosa éadaigh a chomhchur i gceart leis an ainmhí, ach freisin na ceangail (hat, red), (gloves, yellow), (shirt, blue), agus (pants, green) a dhéanamh gan iad a mheascadh suas C

Déanaimid tástáil ar chumas DALL·E é seo a dhéanamh i gcás suíomh coibhneasta, réada a chruachadh, agus smacht a choinneáil ar ilairíonna.

Ag lódáil...

Cé go dtugann DALL·E leibhéal áirithe rialaithe ar airíonna agus ar shuíomhanna líon beag réad, d’fhéadfadh an ráta ratha a bheith ag brath ar an gcaoi a gcuirtear an fotheideal in iúl. De réir mar a thugtar níos mó réad isteach, bíonn DALL·E claonta na ceangail idir na réada agus a ndathanna a mheascadh, agus laghdaíonn an ráta ratha go géar. Tugaimid faoi deara freisin go bhfuil DALL·E leochaileach i leith athfhriotal an fhotheidil sna cásanna seo: is minic nach dtugann fotheidil mhalartacha atá coibhéiseach ó thaobh brí de aon léirmhíniú ceart.

Peirspictíocht agus tríthoiseacht a amharcléiriú

Faighimid amach go gceadaíonn DALL·E smacht ar dhearcadh radhairc agus ar an stíl 3T ina rindreáiltear radharc freisin.

Ag lódáil...

Chun é seo a bhrú níos faide, déanaimid tástáil ar chumas DALL·E ceann duine mór le rá a tharraingt arís agus arís eile ag gach uillinn ó sheicheamh uillinneacha atá spásáilte go cothrom, agus faighimid amach gur féidir linn beochan réidh den cheann ag rothlú a aisghabháil.

Ag lódáil...

Is cosúil go bhfuil DALL·E in ann cineálacha áirithe saobhadh optúil a chur i bhfeidhm ar radhairc, mar a fheicimid leis na roghanna “fisheye lens view” agus “a spherical panorama.” Spreag sé seo sinn chun iniúchadh a dhéanamh ar a chumas frithchaitheamh a ghiniúint.

Ag lódáil...

Struchtúr inmheánach agus seachtrach a amharcléiriú

Thug na samplaí ón stíl “extreme close-up view” agus “x-ray” orainn iniúchadh breise a dhéanamh ar chumas DALL·E struchtúr inmheánach a rindreáil le radhairc thrasghearrtha, agus struchtúr seachtrach le grianghraif mhacra.

Ag lódáil...

Sonraí comhthéacsúla a thátal

Tá an tasc téacs a aistriú go híomhánna neamhshonraithe go hiomlán: de ghnáth freagraíonn fotheideal amháin d’éigríoch íomhánna inchreidte, mar sin níl an íomhá cinnte go huathúil. Mar shampla, smaoinigh ar an bhfotheideal “a painting of a capybara sitting on a field at sunrise.” Ag brath ar threoshuíomh an chapybara, d’fhéadfadh sé a bheith riachtanach scáth a tharraingt, cé nach luaitear an mionsonra seo go sainráite riamh. Déanaimid iniúchadh ar chumas DALL·E an neamhshonraitheacht seo a réiteach i dtrí chás: stíl, suíomh agus am a athrú; an réad céanna a tharraingt i réimse leathan cásanna éagsúla; agus íomhá de réad a ghiniúint agus téacs sonrach scríofa air.

Ag lódáil...

Le céimeanna éagsúla iontaofachta, tugann DALL·E rochtain ar fho-thacar de chumais innill rindreála 3T trí theanga nádúrtha. Is féidir leis airíonna líon beag réad a rialú go neamhspleách, agus go pointe teoranta, cé mhéad atá ann, agus conas atá siad socraithe i ndáil lena chéile. Is féidir leis freisin an suíomh agus an uillinn óna rindreáiltear radharc a rialú, agus réada aitheanta a ghiniúint de réir sonraíochtaí beachta uillinne agus coinníollacha soilsithe.

Murab ionann agus inneall rindreála 3T, a gcaithfear a ionchuir a shonrú go neamhchinnte agus go hiomlán mionsonraithe, bíonn DALL·E in ann go minic “na bearnaí a líonadh” nuair a thugann an fotheideal le fios go gcaithfidh mionsonra áirithe a bheith san íomhá cé nach luaitear go sainráite é.

Feidhmeanna na gcumas roimhe seo

Ansin, déanaimid iniúchadh ar úsáid na gcumas roimhe seo le haghaidh faisin agus dearadh intí.

Ag lódáil...

Coincheapa neamhghaolmhara a chomhcheangal

Ligeann nádúr comhdhéanta na teanga dúinn coincheapa a chur le chéile chun cur síos a dhéanamh ar rudaí fíora agus samhlaithe araon. Faighimid amach go bhfuil DALL·E in ann smaointe neamhghaolmhara a chur le chéile chun rudaí a shintéisiú freisin, cuid díobh nach dócha a bheadh ann sa saol fíor. Déanaimid iniúchadh ar an gcumas seo in dhá chás: cáilíochtaí ó choincheapa éagsúla a aistriú chuig ainmhithe, agus táirgí a dhearadh trí inspioráid a thógáil ó choincheapa neamhghaolmhara.

Ag lódáil...

Léaráidí ainmhithe

Sa chuid roimhe seo, rinneamar iniúchadh ar chumas DALL·E coincheapa neamhghaolmhara a chur le chéile agus íomhánna de réada sa saol fíor á nginiúint. Anseo, déanaimid iniúchadh ar an gcumas seo i gcomhthéacs na healaíne, le haghaidh trí chineál léaráidí: leaganacha daonnaithe d’ainmhithe agus de réada, chiméaraí ainmhithe, agus emojianna.

Ag lódáil...

Réasúnaíocht amhairc neamh-iarracht

Is féidir treoir a thabhairt do GPT‑3 go leor cineálacha tascanna a dhéanamh bunaithe ar chur síos amháin agus leid chun an freagra a ghiniúint a thugtar ina leid, gan aon oiliúint bhreise. Mar shampla, nuair a thugtar an frása “seo í an abairt ‘a person walking his dog in the park’ aistrithe go Fraincis:” mar leid, freagraíonn GPT‑3 “un homme qui promène son chien dans le parc.” Tugtar réasúnaíocht neamh-iarracht ar an gcumas seo. Faighimid amach go leathnaíonn DALL·E an cumas seo chuig an réimse amhairc, agus go bhfuil sé in ann roinnt cineálacha tascanna aistriúcháin íomhá-go-íomhá a dhéanamh nuair a thugtar leid dó ar an mbealach ceart.

Ag lódáil...

Ní rabhamar ag súil go dtiocfadh an cumas seo chun cinn, agus ní dhearnamar aon athruithe ar an líonra néarach ná ar an nós imeachta oiliúna chun é a spreagadh. Mar thoradh ar na torthaí seo, tomhaisimid cumas DALL·E ar fhadhbanna réasúnaíochta analaí trína thástáil ar mhaitrísí forásacha Raven, tástáil IQ amhairc a bhí in úsáid go forleathan sa 20ú haois.

Ag lódáil...

Eolas geografach

Faighimid amach go bhfuil foghlaim déanta ag DALL·E faoi fhíricí geografacha, sainchomharthaí tíre, agus comharsanachtaí. Tá a eolas ar na coincheapa seo iontach beacht ar roinnt bealaí agus lochtach ar bhealaí eile.

Ag lódáil...

Eolas ama

Chomh maith le hiniúchadh a dhéanamh ar eolas DALL·E ar choincheapa a athraíonn thar spás, déanaimid iniúchadh freisin ar a eolas ar choincheapa a athraíonn thar am.

Ag lódáil...

Achoimre ar an gcur chuige agus ar an obair roimhe seo

Is trasfhoirmitheoir simplí díchódóra amháin é DALL·E a ghlacann an téacs agus an íomhá araon mar shruth aonair de 1280 téacschomhartha—256 don téacs agus 1024 don íomhá—agus a shamhlann iad go léir go húdarásach. Ligeann an masc aird ag gach ceann dá 64 shraith féin-airde do gach téacschomhartha íomhá aird a thabhairt ar gach téacschomhartha téacs. Úsáideann DALL·E an gnáthmhasc cúiseach do na téacschomharthaí téacs, agus aird scaipthe do na téacschomharthaí íomhá le patrún airde ró, colúin, nó comhiompair, ag brath ar an tsraith. Soláthraímid tuilleadh sonraí faoin ailtireacht agus faoin nós imeachta oiliúna inár bpáipéar(osclaíonn i bhfuinneog nua).

Tá sintéis téacs-go-íomhá ina réimse gníomhach taighde ó obair cheannródaíoch Reed et. al,1 a úsáideann cur chuige GAN atá coinníollaithe ar leabuithe téacs. Táirgeann ionchódóir na leabuithe sin a bhí réamhoilte ag úsáid caillteanas codarsnachta, cosúil le CLIP. Úsáideann StackGAN3 agus StackGAN++4 GANanna ilscála chun taifeach na híomhá a mhéadú agus dílseacht amhairc a fheabhsú. Ionchorpraíonn AttnGAN5 aird idir gnéithe téacs agus íomhá, agus molann sé caillteanas codarsnachta chun gnéithe téacs-íomhá a mheaitseáil mar chuspóir cúnta. Tá sé seo suimiúil a chur i gcomparáid lenár n-athrangú le CLIP, a dhéantar as líne. Ionchorpraíonn obair eile2, 6, 7 foinsí breise maoirseachta le linn oiliúna chun cáilíocht íomhá a fheabhsú. Ar deireadh, déanann obair Nguyen et. al8 agus Cho et. al9 iniúchadh ar straitéisí bunaithe ar shampláil le haghaidh giniúint íomhá a bhaineann leas as samhlacha ilmhódacha idirdhealaitheacha réamhoilte.

Cosúil leis an sampláil diúltaithe a úsáidtear i VQVAE-2(osclaíonn i bhfuinneog nua), úsáidimid CLIP chun na 32 sampla is fearr as 512 a athrangú do gach fotheideal sna hamharcáin idirghníomhacha go léir. Is féidir an nós imeachta seo a fheiceáil freisin mar chineál cuardaigh faoi threoir teanga16, agus féadfaidh sé tionchar mór a bheith aige ar cháilíocht na samplaí.

Ag lódáil...

Fonótaí

  1. A

    Is téacschomhartha aon siombail ó stór focal scoite; do dhaoine, is téacschomhartha é gach litir Bhéarla ó aibítir 26 litir. Tá téacschomharthaí ag stór focal DALL·E do choincheapa téacs agus íomhá araon. Go sonrach, léirítear gach fotheideal íomhá ag úsáid uasmhéid de 256 téacschomhartha BPE-ionchódaithe le stór focal 16384, agus léirítear an íomhá ag úsáid 1024 téacschomhartha le stór focal 8192.

Déantar na híomhánna a réamhphróiseáil go taifeach 256x256 le linn na hoiliúna. Cosúil le VQVAE, déantar gach íomhá a chomhbhrú go greille 32x32 de chóid fholaigh scoite ag úsáid VAE scoite a réamhoileamar ag úsáid maolú leanúnach. Fuaireamar amach go gcuireann oiliúint ag úsáid an mhaolaithe deireadh leis an ngá le leabhar cóid sainráite, caillteanas EMA, nó cleasa cosúil le hathbheochan cód marbh, agus gur féidir é a scálú suas go méideanna móra stór focal.

  1. B

    Tuilleadh sonraí curtha ar fáil i gcuid níos déanaí.

  2. 17

    Tugtar ceangal athróg ar an tasc seo, agus rinneadh staidéar fairsing air sa litríocht.

Tagairtí

  1. 1

    Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Sintéis ghiniúnach achrannach ó théacs go híomhá(osclaíonn i bhfuinneog nua)”. In ICML 2016.

  2. 2

    Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Ag foghlaim cad agus cá háit le tarraingt(osclaíonn i bhfuinneog nua)”. In NIPS 2016.

  3. 3

    Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Sintéis íomhánna fótaréalaíocha ó théacs le líonraí giniúnacha achrannacha cruachta(osclaíonn i bhfuinneog nua)”. In ICCY 2017.

  4. 4

    Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: sintéis íomhánna réalaíocha le líonraí giniúnacha achrannacha cruachta(osclaíonn i bhfuinneog nua)”. In IEEE TPAMI 2018.

  5. 5
  6. 6

    Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Sintéis téacs-go-íomhá bunaithe ar réada trí oiliúint achrannach(osclaíonn i bhfuinneog nua)”. In CVPR 2019.

  7. 7

    Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Giniúint téacs-go-íomhá bunaithe ar aird mhionsonrach úsáideora(osclaíonn i bhfuinneog nua)”. In WACV 2021.

  8. 8
  9. 9

    Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Péinteáil, fotheidealú, agus freagairt ceisteanna le trasfhoirmitheoirí ilmhódacha(osclaíonn i bhfuinneog nua)”. EMNLP 2020.

  10. 10

    Kingma, Diederik P., and Max Welling. “Bayes athraitheach féin-ionchódaithe(osclaíonn i bhfuinneog nua).” arXiv preprint (2013).

  11. 11

    Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “Cúl-iomadú stochastach agus tátal neasach i samhlacha domhain giniúna(osclaíonn i bhfuinneog nua).” arXiv preprint (2014).

  12. 12
  13. 13
  14. 14

    van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Foghlaim léirithe néaracha scoite(osclaíonn i bhfuinneog nua)”.

  15. 15
  16. 16

    Andreas, J., Klein, D., Levine, S. (2017). “Foghlaim le Teanga Fholaithe(osclaíonn i bhfuinneog nua)”.

  17. 17
  18. 18
  19. 19
  20. 20

Príomhúdair

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Údair tacaíochta

Mark Chen, Rewon Child, Vedant Misra, Pamela Mishkin, Gretchen Krueger, Sandhini Agarwal, Ilya Sutskever