U bood nuxurka ugu muhiimsan
OpenAI

Juun 28, 2022

Daabacaadda

Yareynta kahor-tabbabarka ee DALL·E 2

Muuqaal kore oo dad badan ah oo gadaal u jeeda, xiranna koofiyado oo sita calamo

DALL·E

Soo kacaya…

Si aan sixirka DALL·E 2 ula wadaagno dhagaystayaal ballaaran, waxaan u baahnayn inaan yareyno khataraha la xiriira qaababka wax soo saarka sawirka ee awoodda badan. Si taas loo gaaro, waxaan dejinnay ilaalooyin(ku furmaa daaqad cusub) kala duwan si looga hortago in sawirrada la soo saaray ay jebiyaan siyaasaddeenna nuxurka(ku furmaa daaqad cusub).

Qoraalkani wuxuu diiradda saarayaa yareynta kahor-tabbabarka, qayb ka mid ah ilaalooyinkan oo si toos ah wax uga beddela xogta ay DALL·E 2 wax ka barato. Gaar ahaan, DALL·E 2 waxaa lagu tabbabaraa boqolaal milyan oo sawirro leh sharaxaad oo internetka laga keenay, waxaanan ka saarnaa oo dib u miisaannaa qaar ka mid ah sawirradan si aan u beddelno waxa noocku barto.

Qoraalkan waxaa loo habeeyay saddex qaybood, mid kastaana waxay sharraxaysaa yareyn kahor-tabbabar oo kala duwan:

  • Qaybta koowaad, waxaan ku sharraxeynaa sida aan uga sifeynay sawirrada rabshadaha leh iyo kuwa galmada ah xog-ururinta tabbabarka ee DALL·E 2. Yareyntan la’aanteed, noocku wuxuu baran lahaa inuu soo saaro sawirro aad u adag ama cad marka sidaas loo weydiiyo, xitaa waxa laga yaabaa inuu sawirradaas si aan ula kac ahayn u soo celiyo isagoo ka jawaabaya weydiiro u muuqda kuwo aan wax dhib ah lahayn.
  • Qaybta labaad, waxaan ogaanay in shaandhaynta xogta tabbabarku ay xoojin karto eexaha, waxaana ku sharraxeynaa farsamadeenna lagu yaraynayo saameyntan. Tusaale ahaan, yareyntan la’aanteed, waxaan ogaanay in noocyada lagu tabbabbaray xog la shaandheeyay mararka qaarkood ay soo saaraan sawirro badan oo muujinaya rag iyo sawirro yar oo muujinaya dumar marka loo eego noocyada lagu tabbabbaray xog-ururinta asalka ah.
  • Qaybta ugu dambaysa, waxaan u jeedsanay arrinta xafididda, annagoo ogaanayna in noocyada sida DALL·E 2 mararka qaarkood ay dib u soo saari karaan sawirradii lagu tabbabbaray halkii ay ka abuuri lahaayeen sawirro cusub. Ficil ahaan, waxaan ogaanay in dib-u-celintan sawirka ay sababaan sawirro marar badan lagu soo celceliyay xog-ururinta, waxaana yareynay dhibaatada annagoo ka saarnay sawirro muuqaal ahaan aad ugu eg sawirro kale oo ku jira xog-ururinta.

Yaraynta xogta tabbabarka ee muuqaal adag iyo cad

Maadaama xogta tabbabarku ay qaabayso awoodaha nooc kasta oo la bartay, shaandhaynta xogtu waa qalab awood leh oo lagu xaddido awoodaha aan la rabin ee noocka. Waxaan habkan ku dabaqnay laba qaybood—sawirrada muujinaya rabshad muuqaal adag leh iyo waxyaabaha galmada ah—annagoo adeegsanayna kala soocayaal si sawirrada qaybahaan ku jira looga sifeeyo xog-ururinta ka hor tabbabarka DALL·E 2. Waxaan gudaha ku tabbabarnay kala soocayaashan sawirka ah welina waxaan sii wadnaa barashada saameynta shaandhaynta xog-ururinta ay ku leedahay noockeenna tabbabaran.

Si aan u tabbabbarno kala soocayaashayada sawirka, waxaan dib u adeegsanay hab aan hore ugu adeegsannay sifeynta xogta tabbabarka ee GLIDE(ku furmaa daaqad cusub). Tallaabooyinka aasaasiga ah ee habkan waa sidan: marka hore, waxaan abuurnaa qeexitaan loogu talagalay qaybaha sawirrada aan rabno inaan summadeyno; marka labaad, waxaan uruurinnaa dhowr boqol oo tusaalooyin togan iyo taban ah qayb kasta; marka saddexaad, waxaan adeegsannaa hab waxbarasho firfircoon si aan u uruurinno xog dheeraad ah oo aan u hagaajinno isu dheellitirka saxnaanta/soo-celinta; ugu dambaynna, waxaan ku socodsiinnaa kala soocaha ka dhasha xog-ururinta oo dhan annagoo adeegsanayna xad kala soocid taxaddar leh si soo-celinta loo doorbido saxnaanta. Si aan u dejinno xuduudahan, waxaan mudnaanta siinay sifeynta dhammaan xogta xun halkii aan uga tagi lahayn dhammaan xogta wanaagsan. Sababtu waa inaan mar walba hadhow ku samayn karno hagaajin dheeri ah noockeenna annagoo isticmaalayna xog dheeraad ah si aan waxyaabo cusub u barno, balse aad bay uga adag tahay in noocka laga illoobsiiyo wax uu horay u bartay.

Soo raraya...

Intii lagu jiray wejiga waxbarashada firfircoon, waxaan si isdaba joog ah u hagaajinay kala soocayaashayada annagoo ururinayna summadaha bini’aadamka ee sawirrada laga yaabo inay adkaadaan ama si khaldan loo kala saaray. Gaar ahaan, waxaan adeegsanay laba farsamo oo waxbarasho firfircoon si aan uga dooranno sawirro xog-ururintayada ah (taas oo ka kooban boqolaal milyan oo sawirro aan summad lahayn) si loogu soo bandhigo dadka si loo summadeeyo. Marka hore, si loo yareeyo heerka been-abuurka togan ee kala soocayaashayada (taas oo ah, inta jeer ee uu sawir aan dhib lahayn si khaldan ugu kala saaro mid rabshad leh ama galmo ah), waxaan u qoondeynay summado bini’aadan sawirrada uu nooca hadda jira u kala saaray inay togan yihiin. Si tallaabadani si fiican u shaqeyso, waxaan habaynay xadka kala soocidda si uu u yeesho ku dhowaad 100% soo-celin laakiin heer sare oo been-abuur togan ah; sidaas darteed, summadiyeyaashayadu badankood waxay summadeynayeen xaalado runtii taban. In kasta oo farsamadani ay ka caawiso dhimista been-abuurka togan oo ay yareyso baahida summadiyeyaasha ay u qabaan inay eegaan sawirro suurtagal ahaan waxyeello leh, haddana kama caawiso helidda kiisas togan oo dheeraad ah oo noocku hadda seegayo.

Si loo yareeyo heerka been-abuurka taban ee kala soocayaashayada, waxaan adeegsanay farsamo labaad oo waxbarasho firfircoon ah: raadinta deriska ugu dhow. Gaar ahaan, waxaan adeegsannay is-xaqiijin iskutallaab badan si aan u helno muunado togan oo ku jira xog-ururintayada hadda la summadeeyay oo noocku u janjeeray inuu si khaldan ugu kala saaro taban (si tan loo sameeyo, dhab ahaantii waxaan tabbabarnay boqolaal nooc oo kala soocaha ah oo leh kala qaybinno tabbabarka iyo xaqiijinta oo kala duwan). Kadib waxaan ka baarney ururintayada weyn ee sawirrada aan summadeysneyn deriska ugu dhow ee muunadahan gudaha meel astaamo dareen leh ah, waxaana u qoondeynay summado bini’aadan sawirradii la helay. Thanks to our compute infrastructure, it was trivial to scale up both classifier training and nearest neighbor search to many GPUs, allowing the active learning step to take place over a number of minutes rather than hours or days.

Si loo xaqiijiyo waxtarka shaandhooyinkayaga xogta, waxaan tabbabarnay laba nooc oo GLIDE ah oo leh isla hyperparameters: mid xog aan la shaandhayn ku tabbabaran, iyo mid xog-ururinta ka dib shaandhaynta ku tabbabaran. Waxaan noockii hore ugu yeernay nooca aan la shaandhayn, kii dambena nooca la shaandheeyay. Sida la filayay, waxaan ogaanay in nooca la shaandheeyay guud ahaan uu soo saaray waxyaabo ka yar oo cad ama muuqaal adag leh marka laga codsado waxyaabaha noocan ah. Hase yeeshee, waxaan sidoo kale helnay saameyn dhinac ah oo aan la filayn oo ka dhalatay shaandhaynta xogta: waxay abuurtay ama xoojisay eexda noocka ee ku wajahan qaar ka mid ah kooxaha bulshada.

Soo raraya...

Saxidda eexda ay keeneen shaandhooyinka xogta

Qaababka wax soo saarka waxay isku dayaan inay la jaanqaadaan qaybinta xogtooda tabbabarka, oo ay ku jiraan eex kasta oo ku jirta. Sidaas darteed, shaandhaynta xogta tabbabarku waxay leedahay awood ay ku abuurto ama ku xoojiso eexaha noocyada dambe. Guud ahaan, saxidda eexaha ku jira xog-ururinta asalka ah waa hawl adag oo bulsho iyo farsamo isugu jirta taas oo aan sii wadno barashadeeda, kana baxsan xadka qoraalkan. Dhibaatada aan halkan ka hadlayno waa xoojinta eexaha ay si gaar ah u keento shaandhaynta xogtu lafteedu. Habkeenna, waxaan hiigsaneynaa inaan ka hortagno in nooca la shaandheeyay uu ka eex badnaado nooca aan la shaandhayn, taas oo asal ahaan yareyneysa leexashada qaybinta ee ay keento shaandhaynta xogtu.

Tusaale muuqda oo xoojinta eexda ay keentay shaandhaynta, tixgeli weydiinta “a ceo”. Markii noockeenna aan la shaandhayn uu sawirro u soo saaray weydiintan, wuxuu u janjeeray inuu soo saaro sawirro rag ah oo ka badan kuwo dumar ah, waxaanan filaynaa in inta badan eexdani ay ka tarjumayso xogtayada tabbabarka ee hadda jirta. Hase yeeshee, markii aan isla weydiintan ku marinay noockeenna la shaandheeyay, eexdu waxay u muuqatay mid sii xoogaysatay; jiilashu waxay ahaayeen ku dhowaad gebi ahaanba sawirro rag ah.

Waxaan qiyaasnay in kiiskan gaarka ah ee xoojinta eexdu uu ka yimaaddo laba meelood: marka hore, xitaa haddii dumarka iyo raggu ay ku leeyihiin matalaad qiyaastii siman xog-ururinta asalka ah, xog-ururintu waxay u eexan kartaa in dumarka lagu soo bandhigo macnayaal galmo badan leh; marka labaadna, kala soocayaashayada laftoodu waxay noqon karaan kuwo eex leh ha noqoto fulinta ama qeexidda qaybaha, inkastoo dadaalladayadii aan ku hubinaynay in taasi aysan jirin intii lagu jiray uruurinta xogta iyo wejiyada xaqiijinta. Saameyntan labadaba awgeed, shaandhadeennu waxay ka saari kartaa sawirro dumar ah oo ka badan kuwa ragga, taas oo beddeleysa saamiga jinsiga ee noocku ku arko tabbabarka.

Si aan si qoto dheer ugu baarno eexda ay keentay shaandhayntu, waxaan rabnay hab aan ku cabbirno inta ay shaandhooyinka xogtayadu u saameynayaan eexda ku wajahan fikrado kala duwan. Waxaa mudan in la xuso in shaandhooyinkeenna rabshadda iyo nuxurka galmadu ay ku salaysan yihiin sawir keliya, balse dabeecadda isku-dhafka ah ee xog-ururinteennu waxay noo oggolaaneysaa inaan si toos ah u cabbirno saameynta shaandhooyinkan ku leeyihiin qoraalka. Maadaama sawir kasta uu la socdo sharaxaad qoraal ah, waxaan awoodnay inaan eegno soo noqnoqoshada qaraabada ah ee ereyo muhiim ah oo gacanta lagu doortay guud ahaan xog-ururinta la shaandheeyay iyo tan aan la shaandhayn si aan u qiyaasno inta ay shaandhooyinku u saameynayaan fikrad kasta oo la siiyay.

Si tan loo dhaqan geliyo, waxaan adeegsanay Apache Spark si aan u xisaabino soo noqnoqoshada dhawr erey oo muhiim ah (tusaale, “parent”, “woman”, “kid”) dhammaan sharaxaadaha ku jira xog-ururintaheenna la shaandheeyay iyo tan aan la shaandhayn. Inkastoo xog-ururinteennu ay ka kooban tahay boqolaal milyan oo lammaane qoraal-sawir ah, xisaabinta soo noqnoqoshadan ereyada muhiimka ah waxay qaadatay oo keliya dhowr daqiiqo iyadoo la adeegsanayo kooxdayada xisaabeed.

Markii aan xisaabinnay soo noqnoqoshada ereyada muhiimka ah, waxaan awoodnay inaan xaqiijinno in shaandhooyinka xog-ururinteennu ay dhab ahaantii si ka badan kuwa kale u qalloociyeen soo noqnoqoshada ereyada qaarkood. Tusaale ahaan, shaandhooyinku waxay hoos u dhigeen soo noqnoqoshada erayga “woman” 14%, halka soo noqnoqoshada erayga “man” hoos loo dhigay 6% oo keliya. Tani waxay si baaxad leh u xaqiijisay waxa aan horay si waayo-aragnimo ah uga arkaynay annagoo muunad ka qaadanayna noocyada GLIDE ee lagu tabbabbaray labada xog-ururin.

Soo raraya...

Hadda oo aan helnay cabbir ku-meel-gaar ah oo lagu qiyaaso eexda ay keentay shaandhayntu, waxaan u baahnayn hab aan ku yarayno. Si aan dhibaatadan wax uga qabanno, waxaan higsannay inaan dib u miisaanno xog-ururinta la shaandheeyay si qaybinteedu ay si ka wanaagsan ula jaanqaaddo qaybinta sawirrada aan la shaandhayn. Tusaale fudud ahaan, ka soo qaad in xog-ururinteennu ka kooban tahay 50% sawirrada bisadaha iyo 50% sawirrada eeyaha, laakiin shaandhooyinkayaga xogtu ay ka saaraan 75% eeyaha halka ay ka saaraan keliya 50% bisadaha. Xog-ururinta ugu dambaysa waxay noqon lahayd ⅔ bisado iyo ⅓ eeyo, waxaana u badan in qaab wax soo saar ku salaysan suurtagalnimo oo lagu tabbabbaray xogtan uu soo saaro sawirro bisado ka badan eeyo. Waxaan sixi karnaa isu dheellitir la’aantan annagoo 2 ku dhufanayna khasaaraha tabbabarka ee sawir kasta oo eey ah, taas oo matalaysa saameynta ku celinta sawir kasta oo eey ah laba jeer. Waxaa soo baxday inaan habkan u fidin karno xog-ururintayada iyo noocyadeenna dhabta ah si inta badan otomaatig ah—taas oo ah, uma baahnin inaan gacanta ku dooranno astaamaha aan rabno inaan dib u miisaanno.

Waxaan u xisaabinnaa miisaannada sawirrada ku jira xog-ururinta la shaandheeyay annagoo adeegsanayna suurtagalnimooyin ka yimaadda kala sooce khaas ah, oo la mid ah habka ay adeegsadeen Choi et al. (2019)(ku furmaa daaqad cusub). Si loo tabbabbaro kala soocahan, waxaan si siman uga muunadeynaa sawirro labada xog-ururinba ah waxaana saadaalineynaa xog-ururinta uu sawirku ka yimid. Gaar ahaan, noockani wuxuu saadaaliyaa P(unfiltered|image), iyadoo la siinayo prior ah P(unfiltered) = 0.5. Ficil ahaan, ma rabno in noockani aad u awood badan noqdo, haddii kale wuxuu markii horeba baran karaa shaqada saxda ah ee ay fulinayaan shaandhooyinkeenna. Halkii, waxaan rabnaa in noocku ka jilicsanaado shaandhooyinkeenna xogta asalka ah, isagoo qabta qaybaha waaweyn ee ay saameeyeen shaandhooyinku isla markaana weli aan hubin in sawir gaar ah la shaandhayn lahaa iyo in kale. Si taas loo gaaro, waxaan ku tabbabarnay linear probe dusha nooc yar oo CLIP ah.

Marka aan helno kala sooce saadaaliya suurtagalnimada ah in sawir uu ka yimid xog-ururinta aan la shaandhayn, weli waxaan u baahanahay inaan saadaashan u beddelno miisaan sawirka. Tusaale ahaan, ka soo qaad in P(unfiltered|image) = 0.8. Tani waxay ka dhigan tahay in muunaddu 4 jeer uga badan tahay in laga helo xogta aan la shaandhayn marka loo eego xogta la shaandheeyay, miisaan dhan 4-na wuxuu sixi lahaa isu dheellitir la’aanta. Si guud, waxaan adeegsan karnaa miisaanka P(unfiltered|image)/P(filtered|image).A

Sidee buu qorshahan dib-u-miisaamiddu dhab ahaan u yareeyaa eexda la xoojiyay? Markii aan hagaajin dheeri ah ku samaynay noockeennii hore ee la shaandheeyay iyadoo la adeegsanayo qorshaha miisaamidda cusub, habdhaqanka noocka la hagaajiyay wuxuu si aad uga dhow ula jaanqaaday noocka aan la shaandhayn ee tusaalooyinka eexda leh ee aan hore u helnay. In kasta oo tani dhiirrigelin ahayd, waxaan sidoo kale rabnay inaan si qoto dheer u qiimeyno yareyntan annagoo adeegsanayna qiyaastayada eexda ee ku salaysan ereyada muhiimka ah. Si loo cabbiro soo noqnoqoshada ereyada muhiimka ah iyadoo la tixgelinayo qorshahan miisaamidda cusub, waxaan si fudud u miisaami karnaa dhacdo kasta oo erey muhiim ah ku leeyahay xog-ururinta la shaandheeyay annagoo adeegsanayna miisaanka muunadda uu ku jiro. Marka tan la sameeyo, waxaan heleynaa tirooyin cusub oo soo noqnoqoshada ereyada muhiimka ah ah oo ka tarjumaya miisaannada muunadaha ee xog-ururinta la shaandheeyay.

Inta badan ereyada muhiimka ah ee aan hubinnay, qorshaha dib-u-miisaamiddu wuxuu yareeyay isbeddelka soo noqnoqoshada ee ay keentay shaandhayntu. Tusaalayaasheennii hore ee “man” iyo “woman”, hoos u dhacyada soo noqnoqoshada qaraabada ah waxay noqdeen 1% iyo –1%, halka qiimayaashoodii hore ay ahaayeen 14% iyo 6% siday u kala horreeyaan. In kasta oo cabbirkan uu kaliya yahay ku-meel-gaar eexda shaandhaynta dhabta ah, haddana waa wax dejiya in qorshahayaga dib-u-miisaamidda ku salaysan sawirka uu si weyn u hagaajinayo cabbir ku salaysan qoraal.

Waxaan sii wadeynaa baarista eexaha weli ka haray ee DALL·E 2, qayb ahaan annagoo samaynayna qiimeynno waaweyn oo ku saabsan habdhaqanka noocka iyo baaritaanno ku saabsan sida shaandhayntu u saameysay horumarinta eexda iyo awoodaha.

Ka hortagga dib-u-celinta sawirka

Waxaan arkaynay in kuwii naga horreeyay ee gudaha ee DALL·E 2 mararka qaarkood ay si erey-erey ah u soo saari jireen sawirrada tabbabarka. Dabeecaddan lama jeclayn, maadaama aan rabno in DALL·E 2 uu si caadi ah u abuuro sawirro asal ah oo gaar ah oo aanu kaliya “isku tolmin” qaybo ka mid ah sawirrada jira. Intaa waxaa dheer, soo saarista sawirrada tabbabarka si erey-erey ah waxay dhalin kartaa su’aalo sharci oo ku saabsan jebinta xuquuqda daabacaadda, lahaanshaha, iyo asturnaanta (haddii sawirrada dadka ay ku jireen xogta tabbabarka).

Si aan si fiican ugu fahanno arrinta dib-u-celinta sawirrada, waxaan uruurinnay xog-ururin weydiimo ah oo si joogto ah u keeni jiray sawirro la nuqulay. Si tan loo sameeyo, waxaan adeegsanay nooc tabbabaran si uu sawirro uga soo muunadeeyo 50,000 weydiin oo ka tirsan xog-ururintayada tabbabarka, waxaana ku kala hormarinnay muunadaha iyadoo lagu salaynayo isu ekaanshaha dareenka ee sawirka tabbabarka ee u dhigma. Ugu dambayn, waxaan gacanta ku eegnay isku ekaanshaha ugu sarreeya, annagoo ka helnay oo keliya dhowr boqol oo lammaane nuqul dhab ah ah marka laga eego guud ahaan 50k weydiin. Inkastoo heerka dib-u-celintu uu u muuqday inuu ka yaraa 1%, haddana waxaan dareennay inay lagama maarmaan tahay in heerkaas loo riixo 0 sababaha kor lagu sheegay.

Markii aan daraasaynay xog-ururintayada sawirrada dib loo soo celiyay, waxaan ogaanay laba qaab. Marka hore, sawirradu waxay ahaayeen ku dhowaad dhammaantood garaafyo vector fudud, kuwaas oo ay u badan tahay inay sahlanayd in la xafido sababtoo ah xog-yaraantooda. Marka labaad, oo tan ka sii muhiimsan, sawirradu dhammaantood waxay lahaayeen nuqullo badan oo aad ugu dhow oo ku jiray xog-ururinta tabbabarka. Tusaale ahaan, waxaa jiri kara garaaf vector ah oo u eg saacad muujinaysa 1 saac—but then we would discover a training sample containing the same clock showing 2 o’clock, and then 3 o’clock, etc. Markii aan tan garannay, waxaan adeegsanay raadinta deriska ugu dhow ee la qaybiyey si aan u xaqiijinno in, runtii, dhammaan sawirrada dib loo soo celiyay ay lahaayeen nuqullo dareen ahaan u eg oo ku jira xog-ururinta. Shaqooyin(ku furmaa daaqad cusub) kale(ku furmaa daaqad cusub) ayaa ku arkay ifafaale la mid ah noocyada luqadda waaweyn, iyagoo ogaaday in xogta la nuqulay ay si xooggan ula xiriirto xafididda.

Natiijada kore waxay soo jeedisay in, haddii aan ka saarno nuqullada xog-ururintayada, laga yaabo inaan xallinno dhibaatada dib-u-celinta. Si taas loo gaaro, waxaan qorsheynay inaan adeegsanno shabakad neerfaha ah si aan u aqoonsanno kooxo sawirro ah oo isu eg, ka dibna aan ka saarno dhammaan sawirrada marka laga reebo hal sawir koox kasta.B

Hase yeeshee, tani waxay u baahan lahayd in sawir kasta loo hubiyo inuu nuqul ka yahay sawir kasta oo kale oo ku jira xog-ururinta. Maadaama xog-ururintayada oo dhan ay ka kooban tahay boqolaal milyan oo sawirro ah, si fudud waxaan ugu baahnaan lahayn inaan hubinno boqolaal kun oo tiriliyan oo lammaane sawirro ah si loo helo dhammaan nuqullada. In kasta oo tani farsamo ahaan la gaari karo, gaar ahaan koox xisaabeed weyn, haddana waxaan helnay beddel aad uga waxtar badan oo si ku dhow u shaqeeya isla heerkii kharash aad uga yar.Consider what happens if we cluster our dataset before performing deduplication. Maadaama muunadaha isku dhow badanaa ay ku dhacaan isla koox, inta badan lammaanayaasha nuqulladu kama gudbi lahaayeen xuduudaha go'aanka ee kooxaha. Markaas waxaan ka saari karnaa nuqullada muunadaha ku jira koox kasta annagoo aan hubin nuqullada ka baxsan kooxda, iyadoo la seegayo oo keliya qayb yar oo ka mid ah dhammaan lammaanayaasha nuqullada. Tani aad bay uga dheereysaa habka fudud, maadaama aanan mar dambe u baahnayn inaan hubinno lammaane kasta oo sawirro ah.C

Markii aan habkan si tijaabo ah ugu baarney qayb yar oo xogtayada ah, wuxuu helay 85% dhammaan lammaanayaasha nuqullada markii la isticmaalay K=1024 kooxood. Si loo hagaajiyo heerka guusha ee habka kore, waxaan ka faa’iidaysannay hal aragti oo muhiim ah: marka aad kooxaysid qaybo random ah oo kala duwan oo xog-ururin ah, xuduudaha go'aanka ee kooxaha ka dhasha badanaa aad bay u kala duwan yihiin. Sidaa darteed, haddii lammaane nuqul ahi ka gudbo xuduud kooxeed hal kooxayn xogta ah, isla lammaanahaas wuxuu ku dhici karaa hal koox kooxayn kale. Inta badan ee kooxaynno aad tijaabiso, ayay u badan tahay inaad ogaato lammaane nuqul gaar ah. Ficil ahaan, waxaan ku dambaynay isticmaalka shan kooxayn, taas oo ka dhigan inaan u raadino nuqullada sawir kasta isu geynta shan kooxood oo kala duwan. Ficil ahaan, tani waxay heshay 97% dhammaan lammaanayaasha nuqullada qayb ka mid ah xogtayada.

Si la yaab leh, ku dhowaad rubuc xog-ururintayada waxaa laga saaray ka saarista nuqullada. Markii aan eegnay lammaanayaasha isu dhow ee la helay, kuwo badan waxay ku jireen isbeddello macno leh. Xusuuso tusaalaha saacadda ee kor ku xusan: xog-ururintu waxay ka koobnaan kartaa sawirro badan oo isla saacadda ah waqtiyo kala duwan oo maalinta ah. In kasta oo sawirradani ay u badan tahay inay noocka ka caawiyaan inuu xafido muuqaalka saacaddan gaarka ah, haddana waxay sidoo kale ka caawin karaan noocka inuu barto kala saaridda waqtiyada maalinta ee saacad ku yaal. Marka la eego inta xog ah ee la saaray, waxaan ka walwalsannayn in ka saarista sawirro sidan oo kale ah ay dhaawacday waxqabadka noocka.

Si loo tijaabiyo saameynta ka saarista nuqullada ee noocyadeenna, waxaan tabbabarnay laba nooc oo leh isla hyperparameters: mid xog-ururinta buuxda ku tabbabaran, iyo mid ku tabbabaran nooca laga saaray nuqullada ee xog-ururinta. Si loo barbardhigo noocyada, waxaan adeegsanay isla qiimeynta bini’aadamka ee aan u adeegsanay qiimeynta noockeennii asalka ahaa ee GLIDE. Si la yaab leh, waxaan ogaanay in qiimeeyayaasha bini’aadamka ay wax yar doorbideen noocka lagu tabbabbaray xogta laga saaray nuqullada, taas oo soo jeedinaysa in tirada badan ee sawirrada soo noqnoqda ee ku jiray xog-ururintu ay dhab ahaantii dhaawacaysay waxqabadka.

Markii aan helnay nooc ku tabbabaran xog laga saaray nuqullada, waxaan dib u wadnay raadintii dib-u-celinta ee aan hore ugu samaynay 50k weydiin oo ka yimid xog-ururinta tabbabarka. Waxaan ogaanay in nooca cusub uusan marna dib u soo celin sawir tabbabarka ah marka la siiyo isla weydiinta saxda ah ee sawirkaas ee ka timid xog-ururinta tabbabarka. Si aan tijaabadan hal tallaabo ugu sii qaadno, waxaan sidoo kale samaynay raadinta deriska ugu dhow ee dhammaan xog-ururinta tabbabarka sawir kasta oo ka mid ah 50k sawir ee la soo saaray. Sidan, waxaan u malaynay inaan qabanno haddii noocku dib u soo celiyo sawir ka duwan kii lala xiriiriyay weydiin gaar ah. Xitaa hubintan ka sii dhammaystiran, waligeen ma aanan helin kiis dib-u-celin sawir ah.

Tallaabooyinka xiga

In kasta oo dhammaan yareynta kor lagu falanqeeyay ay ka dhigan yihiin horumar weyn oo ku wajahan yoolkeenna ah in la dhimo khataraha la xiriira DALL·E 2, haddana yareyn kasta weli waxay leedahay meel ay ku sii hagaagto:

  • Shaandhooyin ka wanaagsan oo wejiga hore ee tabbabarka ah ayaa noo oggolaan kara inaan DALL·E 2 ku tabbabbarno xog badan oo suurtagal ahna aan sii dhimno eexda ku jirta noocka. Shaandhooyinkeenna hadda jira waxaa loo habeeyay heer seegid hoose iyadoo lagu baddalanayo been-abuur togan oo badan. Natiijadu waxay noqotay inaan ka saarnay qiyaastii 5% xog-ururintayada oo dhan inkastoo inta badan sawirrada la shaandheeyay aysan gabi ahaanba jebin siyaasaddeenna nuxurka. Hagaajinta shaandhooyinkeennu waxay noo oggolaan kartaa inaan dib u soo ceshanno qayb ka mid ah xogtan tabbabarka.
  • Eexda waxaa la gelin karaa, lagana yaabaa in la sii xoojiyo, marxalado badan oo horumarinta iyo hirgelinta nidaamka ah. Qiimeynta iyo yareynta eexda ku jirta nidaamyada sida DALL·E 2 iyo waxyeellada ka dhalata eexdan waa dhibaato muhiim ah oo isugu jirta maaddooyin kala duwan taas oo aan weli ka sii wadno daraasaddeeda OpenAI iyada oo qayb ka ah himiladeenna ballaaran. Shaqadeenna arrintan ku saabsan waxaa ka mid ah dhisidda qiimeynno si dhibaatada si ka fiican loo fahmo, diyaarinta xog-ururinno cusub, iyo adeegsiga farsamooyin sida jawaab-celinta aadanaha iyo hagaajin dheeri ah si loo dhiso teknoolojiyado adkeysi badan oo matalaad fiican leh.
  • Sidoo kale waa muhiim inaan sii wadno barashada xafididda iyo guudmarinta ee nidaamyada waxbarashada qotada dheer. In kasta oo ka saarista nuqullada is-le’eg ay tahay tallaabo hore oo wanaagsan oo looga hortagayo xafididda, haddana nooma sheegto wax kasta oo laga baran karo sababta ama sida noocyada sida DALL·E 2 ay u xafidaan xogta tabbabarka.

Qoraallada hoose

  1. Marka aan u qaabeyno P(unfiltered|image) sida sigmoid(f(x)), miisaanku markaa waa exp(f(x)). Tan waxaa laga soo saari karaa iyadoo la adeegsanayo qeexidda sigmoid-ka:

1/(1+ef(x))/(11/(1+ef(x))) 1/(1+e^−f(x))/(1−1/(1+e^−f(x))) =1/(1+ef(x))/((1+ef(x)1)/(1+ef(x))) = 1/(1+e^{-f(x)}) / ((1+e^{-f(x)} - 1)/(1+e^{-f(x)})) =1/(1+ef(x))/((ef(x))/(1+ef(x))) = 1/(1+e^{-f(x)}) / ((e^{-f(x)})/(1+e^{-f(x)})) =(1+ef(x))/(1+ef(x))/(ef(x)) = (1+e^-f(x))/(1+e^-f(x)) / (e^-f(x)) =1/(ef(x))=ef(x) = 1 / (e^{-f(x)}) = e^{f(x)}

  1. B

    Si tan loo gaaro, waxaan xisaabin karnaa vektor astaamo ah viv_i sawir kasta oo tabbabarka ah ii, ka dibna waxaan ka saari karnaa dhammaan sawirrada jj sida uu u jiro i<ji < j halka vivj||v_i - v_j|| <threshold. Si dhibaatadan si sahlan loo xalliyo, waxaan u baahan lahayn inaan xisaabino masaafo kasta oo lammaane ah vivj||v_i - v_j||, hawl cabbir ahaan laba jibbaaran ula kora cabbirka xog-ururintayada.

  2. C

    Haddii K K uu matalo tirada kooxaha iyo N N uu matalo cabbirka xog-ururinta, habkani wuxuu u baahan yahay oo keliya O(K(N/K)2)=O(N2/K) O(K*(N/K)^2) = O(N^2/K) xisaabinta masaafooyinka lammaanaha ah, halkii uu ka ahaan lahaa O(N2) O(N^2) oo buuxa. Isla markaana, weli waxaa naloo dammaanad qaadayaa in aanu jirin sawir yeelan doona wax ka badan K K nuqullo isu dhow xaaladda ugu xun ee suurtagalka ah.

Qorayaasha

Alex Nichol

Ka qayb-qaatayaasha

Alex Nichol, Aditya Ramesh, Pamela Mishkin, Prafulla Dariwal, Joanne Jang, Mark Chen

Wax ku biirinta qoraalka ee

Greg Brockman, Aditya Ramesh, Pamela Mishkin, Mark Chen, Pranav Shyam, Casey Chu, Che Chang, Miles Brundage