28 ta’ Ġunju 2022

Mitigazzjonijiet ta’ qabel it-taħriġ ta’ DALL·E 2

Veduta minn fuq ta’ folla ta’ nies iħarsu ’l bogħod, lebsin kpiepel u jġorru bnadar

DALL·E

Qed jillowdja…

Sabiex naqsmu l-maġija ta’ DALL·E 2⁠ ma’ udjenza wiesgħa, kellna nnaqqsu r-riskji marbuta ma’ mudelli qawwija ta’ ġenerazzjoni tal-immaġnijiet. Għal dan il-għan, daħħalna diversi guardrails⁠(jinfetaħ f’tieqa ġdida) biex nipprevjenu immaġnijiet iġġenerati milli jiksru l- policy tal-kontenut⁠(jinfetaħ f’tieqa ġdida) tagħna.

Dan il-post jiffoka fuq mitigazzjonijiet ta’ qabel it-taħriġ, sottogrupp ta’ dawn il-guardrails li jimmodifikaw direttament id-data li minnha jitgħallem DALL·E 2. B’mod partikolari, DALL·E 2 jiġi mħarreġ fuq mijiet ta’ miljuni ta’ immaġnijiet bl-caption mill-internet, u nneħħu u nerġgħu nippiżaw xi wħud minn dawn l-immaġnijiet biex nibdlu dak li jitgħallem il-mudell.

Dan il-post huwa organizzat fi tliet taqsimiet, kull waħda tiddeskrivi mitigazzjoni differenti ta’ qabel it-taħriġ:

Fl-ewwel taqsima, niddeskrivu kif iffiltrajna ’l barra immaġnijiet vjolenti u sesswali mis-sett tad-data tat-taħriġ ta’ DALL·E 2. Mingħajr din il-mitigazzjoni, il-mudell jitgħallem jipproduċi immaġnijiet grafiċi jew espliċiti meta jintalab jagħmel hekk, u jista’ saħansitra jirritorna immaġnijiet bħal dawn bla intenzjoni b’reazzjoni għal prompts li jidhru innoċenti.
Fit-tieni taqsima, insibu li l-iffiltrar tad-data tat-taħriġ jista’ jkabbar il-preġudizzji, u niddeskrivu t-teknika tagħna biex nimmitigaw dan l-effett. Pereżempju, mingħajr din il-mitigazzjoni, innutajna li mudelli mħarrġa fuq data iffiltrata xi drabi ġġeneraw aktar immaġnijiet li juru rġiel u inqas immaġnijiet li juru nisa meta mqabbla ma’ mudelli mħarrġa fuq is-sett tad-data oriġinali.
Fl-aħħar taqsima, induru lejn il-kwistjoni tal-memorizzazzjoni, u nsibu li mudelli bħal DALL·E 2 xi drabi jistgħu jirriproduċu immaġnijiet li ġew imħarrġa fuqhom minflok joħolqu immaġnijiet ġodda. Fil-prattika, sibna li dan ir-rigurgitar tal-immaġnijiet huwa kkawżat minn immaġnijiet li huma replikati ħafna drabi fis-sett tad-data, u nimmitigaw il-kwistjoni billi nneħħu immaġnijiet li huma viżwalment simili għal immaġnijiet oħra fis-sett tad-data.

Tnaqqis tad-data tat-taħriġ grafika u espliċita

Peress li d-data tat-taħriġ tifforma l-kapaċitajiet ta’ kwalunkwe mudell mitgħallem, l-iffiltrar tad-data huwa għodda qawwija biex tillimita kapaċitajiet mhux mixtieqa tal-mudell. Applikajna dan l-approċċ għal żewġ kategoriji—immaġnijiet li juru vjolenza grafika u kontenut sesswali—billi użajna klassifikaturi biex niffiltraw immaġnijiet f’dawn il-kategoriji mis-sett tad-data qabel it-taħriġ ta’ DALL·E 2. Ħarriġna dawn il-klassifikaturi tal-immaġni internament u qed inkomplu nistudjaw l-effetti tal-iffiltrar tas-sett tad-data fuq il-mudell imħarreġ tagħna.

Biex inħarrġu l-klassifikaturi tal-immaġni tagħna, erġajna użajna approċċ li konna impjegajna qabel biex niffiltraw data tat-taħriġ għal GLIDE⁠(jinfetaħ f’tieqa ġdida). Il-passi bażiċi ta’ dan l-approċċ huma kif ġej: l-ewwel, noħolqu speċifikazzjoni għall-kategoriji ta’ immaġnijiet li nixtiequ nittikkettaw; it-tieni, niġbru ftit mijiet ta’ eżempji pożittivi u negattivi għal kull kategorija; it-tielet, nużaw proċedura ta’ apprendiment attiv biex niġbru aktar data u ntejbu l-kompromess bejn precision u recall; u fl-aħħar, inħaddmu l-klassifikatur li jirriżulta fuq is-sett tad-data kollu b’limitu ta’ klassifikazzjoni konservattiv biex niffavorixxu r-recall fuq il-precision. Biex nissettjaw dawn il-limiti, tajna prijorità li niffiltraw id-data kollha ħażina minflok inħallu d-data kollha tajba. Dan għaliex nistgħu dejjem nagħmlu fine-tuning tal-mudell tagħna b’aktar data aktar tard biex ngħallmuh affarijiet ġodda, iżda huwa ħafna aktar diffiċli li nġiegħlu lill-mudell jinsa xi ħaġa li jkun diġà tgħallem.

Qed jillowdja...

Matul il-fażi ta’ apprendiment attiv, tejjibna l-klassifikaturi tagħna b’mod iterattiv billi ġbarna tikketti umani għal immaġnijiet potenzjalment diffiċli jew ikklassifikati ħażin. B’mod notevoli, użajna żewġ tekniki ta’ apprendiment attiv biex nagħżlu immaġnijiet mis-sett tad-data tagħna (li fih mijiet ta’ miljuni ta’ immaġnijiet mingħajr tikketti) biex nuruhom lill-bnedmin għat-tikkettar. L-ewwel nett, biex innaqqsu r-rata ta’ pożittivi foloz tal-klassifikatur tagħna (jiġifieri, kemm-il darba jikklassifika ħażin immaġni mhux ta’ ħsara bħala vjolenti jew sesswali), assenjajna tikketti umani lil immaġnijiet li l-mudell attwali kklassifika bħala pożittivi. Biex dan il-pass jaħdem tajjeb, aġġustajna l-limitu tal-klassifikazzjoni għal kważi 100% recall iżda b’rata għolja ta’ pożittivi foloz; b’dan il-mod, it-tikkettaturi tagħna kienu l-aktar qed jittikkettaw każijiet verament negattivi. Filwaqt li din it-teknika tgħin biex tnaqqas il-pożittivi foloz u tnaqqas il-ħtieġa li t-tikkettaturi jaraw immaġnijiet potenzjalment ta’ ħsara, ma tgħinx biex jinstabu aktar każijiet pożittivi li l-mudell bħalissa qed jitlef.

Biex innaqqsu r-rata ta’ negattivi foloz tal-klassifikatur tagħna, użajna t-tieni teknika ta’ apprendiment attiv: tfittxija tal-eqreb ġar. B’mod partikolari, wettaqna cross-validation b’ħafna foldijiet biex insibu kampjuni pożittivi fis-sett tad-data tikkettat attwali tagħna li l-mudell kellu t-tendenza jikklassifika ħażin bħala negattivi (biex nagħmlu dan, litteralment ħarriġna mijiet ta’ verżjonijiet tal-klassifikatur b’taqsimiet differenti ta’ taħriġ-validazzjoni). Imbagħad skansjajna l-kollezzjoni kbira tagħna ta’ immaġnijiet mingħajr tikketti għall-eqreb ġirien ta’ dawn il-kampjuni fi spazju ta’ karatteristiċi perċettivi, u assenjajna tikketti umani lill-immaġnijiet skoperti. Bis-saħħa tal-infrastruttura tal-komputazzjoni tagħna, kien trivjali li nżidu l-iskala kemm tat-taħriġ tal-klassifikatur kif ukoll tat-tfittxija tal-eqreb ġar fuq ħafna GPUs, u b’hekk il-pass tal-apprendiment attiv seta’ jseħħ fuq numru ta’ minuti minflok sigħat jew jiem.

Biex nivverifikaw l-effettività tal-filtri tad-data tagħna, ħarriġna żewġ mudelli GLIDE bl-istess iperparametri: wieħed fuq data mhux iffiltrata, u wieħed fuq is-sett tad-data wara l-iffiltrar. Nirreferu għall-ewwel mudell bħala l-mudell mhux iffiltrat, u lit-tieni bħala l-mudell iffiltrat. Kif mistenni, sibna li l-mudell iffiltrat ġeneralment ipproduċa kontenut inqas espliċitu jew grafiku b’reazzjoni għal talbiet għal dan it-tip ta’ kontenut. Madankollu, sibna wkoll effett sekondarju mhux mistenni tal-iffiltrar tad-data: ħoloq jew kabbar il-preġudizzji tal-mudell lejn ċerti demografiji.

Qed jillowdja...

Tiswija tal-preġudizzju introdott mill-filtri tad-data

Mudelli ġenerattivi jippruvaw iqabblu d-distribuzzjoni tad-data tat-taħriġ tagħhom, inkluż kwalunkwe preġudizzju li hemm fiha. B’riżultat ta’ dan, l-iffiltrar tad-data tat-taħriġ għandu l-potenzjal li joħloq jew ikabbar preġudizzji f’mudelli downstream. B’mod ġenerali, it-tiswija tal-preġudizzji fis-sett tad-data oriġinali hija kompitu soċjotekniku diffiċli li nkomplu nistudjawh, u hija lil hinn mill-ambitu ta’ dan il-post. Il-problema li nindirizzaw hawnhekk hija l-amplifikazzjoni tal-preġudizzji kkawżata speċifikament mill-iffiltrar tad-data nnifsu. Bl-approċċ tagħna, aħna nimmiraw li nipprevjenu lill-mudell iffiltrat milli jkun aktar preġudikat mill-mudell mhux iffiltrat, essenzjalment billi nnaqqsu l-bidla fid-distribuzzjoni kkawżata mill-iffiltrar tad-data.

Bħala eżempju konkret ta’ amplifikazzjoni tal-preġudizzju minħabba l-iffiltrar, ikkunsidra l-prompt “a ceo”. Meta l-mudell tagħna mhux iffiltrat iġġenera immaġnijiet għal dan il-prompt, kellu t-tendenza jipproduċi aktar immaġnijiet ta’ rġiel milli ta’ nisa, u nistennew li l-biċċa l-kbira ta’ dan il-preġudizzju huwa rifless tad-data tat-taħriġ attwali tagħna. Madankollu, meta għaddejna l-istess prompt mill-mudell iffiltrat tagħna, il-preġudizzju deher li ġie amplifikat; il-ġenerazzjonijiet kienu kważi esklussivament immaġnijiet ta’ rġiel.

Qed nassumu li dan il-każ partikolari ta’ amplifikazzjoni tal-preġudizzju ġej minn żewġ postijiet: l-ewwel, anke jekk in-nisa u l-irġiel għandhom rappreżentazzjoni bejn wieħed u ieħor ugwali fis-sett tad-data oriġinali, is-sett tad-data jista’ jkun preġudikat favur il-preżentazzjoni tan-nisa f’kuntesti aktar sesswalizzati; u t-tieni, il-klassifikaturi tagħna nfushom jistgħu jkunu preġudikati jew minħabba l-implimentazzjoni jew minħabba d-definizzjoni tal-klassi, minkejja l-isforzi tagħna biex niżguraw li dan ma kienx il-każ matul il-fażijiet tal-ġbir u l-validazzjoni tad-data. Minħabba dawn iż-żewġ effetti, il-filtru tagħna jista’ jneħħi aktar immaġnijiet ta’ nisa milli ta’ rġiel, u dan jibdel il-proporzjon tal-ġeneri li l-mudell josserva fit-taħriġ.

Biex ninvestigaw il-preġudizzju kkawżat mill-filtri b’mod aktar bir-reqqa, ridna mod kif inkejlu kemm il-filtri tad-data tagħna kienu qed jaffettwaw il-preġudizzju lejn diversi kunċetti. B’mod notevoli, il-filtri tagħna għall-vjolenza u l-kontenut sesswali huma purament ibbażati fuq l-immaġni, iżda n-natura multimodali tas-sett tad-data tagħna tippermettilna nkejlu direttament l-effetti ta’ dawn il-filtri fuq it-test. Peress li kull immaġni hija akkumpanjata minn caption testwali, stajna nħarsu lejn il-frekwenza relattiva ta’ keywords magħżula bl-idejn fis-sett tad-data iffiltrat u mhux iffiltrat biex nistmaw kemm il-filtri kienu qed jaffettwaw kwalunkwe kunċett partikolari.

Biex inpoġġu dan fil-prattika, użajna Apache Spark biex nikkalkulaw il-frekwenzi ta’ numru żgħir ta’ keywords (eż., “parent”, “woman”, “kid”) fuq il-captions kollha fiż-żewġ settijiet tad-data iffiltrati u mhux iffiltrati tagħna. Minkejja li s-sett tad-data tagħna fih mijiet ta’ miljuni ta’ pari test-immaġni, il-kalkolu ta’ dawn il-frekwenzi tal-keywords ħa biss ftit minuti bl-użu tal-cluster tal-komputazzjoni tagħna.

Wara li kkalkulajna l-frekwenzi tal-keywords, stajna nikkonfermaw li l-filtri tas-sett tad-data tagħna tabilħaqq kienu ħarbtu l-frekwenzi ta’ ċerti keywords aktar minn oħrajn. Pereżempju, il-filtri naqqsu l-frekwenza tal-kelma “woman” b’14%, filwaqt li l-frekwenza tal-kelma “man” tnaqqset biss b’6%. Dan ikkonferma, fuq skala kbira, dak li konna diġà osservajna b’mod aneddotiku billi ħadna kampjuni minn mudelli GLIDE mħarrġa fuq iż-żewġ settijiet tad-data.

Qed jillowdja...

Issa li kellna proxy biex nkejlu l-preġudizzju kkawżat mill-filtri, kellna bżonn mod kif nimmitigawh. Biex nindirizzaw din il-problema, immirajna li nerġgħu nippiżaw is-sett tad-data iffiltrat biex id-distribuzzjoni tiegħu taqbel aħjar mad-distribuzzjoni tal-immaġnijiet mhux iffiltrati. Bħala eżempju sempliċi biex nuru din l-idea, ejja ngħidu li s-sett tad-data tagħna jikkonsisti f’50% ritratti ta’ qtates u 50% ritratti ta’ klieb, iżda l-filtri tad-data tagħna jneħħu 75% tal-klieb iżda biss 50% tal-qtates. Is-sett tad-data finali jkun ⅔ qtates u ⅓ klieb, u mudell ġenerattiv ibbażat fuq likelihood imħarreġ fuq dan is-sett tad-data x’aktarx jiġġenera aktar immaġnijiet ta’ qtates milli ta’ klieb. Nistgħu nirranġaw dan l-iżbilanċ billi nimmultiplikaw it-telf tat-taħriġ ta’ kull immaġni ta’ kelb b’2, u nissimulaw l-effett li nirrepetu kull immaġni ta’ kelb darbtejn. Jirriżulta li nistgħu nkabbru l-iskala ta’ dan l-approċċ għas-settijiet tad-data u l-mudelli reali tagħna b’mod li fil-biċċa l-kbira huwa awtomatiku–jiġifieri, ma għandniex għalfejn nagħżlu bl-idejn il-karatteristiċi li rridu nerġgħu nippiżaw.

Aħna nikkalkulaw il-piżijiet għall-immaġnijiet fis-sett tad-data iffiltrat billi nużaw probabbiltajiet minn klassifikatur speċjali, simili għall-approċċ użat minn Choi et al. (2019)⁠(jinfetaħ f’tieqa ġdida). Biex inħarrġu dan il-klassifikatur, nieħdu kampjuni uniformi ta’ immaġnijiet miż-żewġ settijiet tad-data u nbassru minn liema sett tad-data ġiet l-immaġni. B’mod partikolari, dan il-mudell ibassar P(unfiltered|image), mogħti prior P(unfiltered) = 0.5. Fil-prattika, ma rridux li dan il-mudell ikun qawwi wisq, inkella jista’ jitgħallem il-funzjoni eżatta implimentata mill-filtri tagħna fl-ewwel lok. Minflok, irridu li l-mudell ikun aktar lixx mill-filtri tad-data oriġinali tagħna, jaqbad kategoriji wesgħin affettwati mill-filtri filwaqt li xorta jibqa’ inċert dwar jekk immaġni partikolari tkunx iffiltrata jew le. Għal dan il-għan, ħarriġna linear probe fuq mudell żgħir ta’ CLIP⁠.

Ladarba jkollna klassifikatur li jbassar il-probabbiltà li immaġni tkun mis-sett tad-data mhux iffiltrat, xorta jkollna bżonn nibdlu din il-previżjoni f’piż għall-immaġni. Pereżempju, ejja ngħidu li P(unfiltered|image) = 0.8. Dan ifisser li l-kampjun huwa 4 darbiet aktar probabbli li jinstab fid-data mhux iffiltrata milli fid-data iffiltrata, u piż ta’ 4 għandu jikkoreġi l-iżbilanċ. B’mod aktar ġenerali, nistgħu nużaw il-piż P(unfiltered|image)/P(filtered|image).^A

Kemm tassew tnaqqas din l-iskema ta’ peżar mill-ġdid il-preġudizzju amplifikat? Meta għamilna fine-tuning tal-mudell iffiltrat preċedenti tagħna bl-iskema l-ġdida ta’ piżar, l-imġiba tal-mudell irfinat qablet ħafna aktar mill-qrib mal-mudell mhux iffiltrat fuq l-eżempji preġudikati li konna sibna qabel. Filwaqt li dan kien inkoraġġanti, ridna wkoll nevalwaw din il-mitigazzjoni b’mod aktar bir-reqqa billi nużaw il-heuristic tagħna tal-preġudizzju bbażata fuq keywords. Biex inkejlu l-frekwenzi tal-keywords filwaqt li nqisu l-iskema l-ġdida ta’ piżar tagħna, nistgħu sempliċement nippiżaw kull okkorrenza ta’ keyword fis-sett tad-data iffiltrat bil-piż tal-kampjun li fih. Billi nagħmlu dan, niksbu sett ġdid ta’ frekwenzi ta’ keywords li jirriflettu l-piżijiet tal-kampjuni fis-sett tad-data iffiltrat.

Fuq il-biċċa l-kbira tal-keywords li ċċekkjajna, l-iskema ta’ peżar mill-ġdid naqqset il-bidla fil-frekwenza kkawżata mill-iffiltrar. Għall-eżempji preċedenti tagħna ta’ “raġel” u “mara”, it-tnaqqisiet relattivi fil-frekwenza saru 1% u –1%, filwaqt li l-valuri preċedenti tagħhom kienu 14% u 6%, rispettivament. Filwaqt li din il-metrika hija biss proxy tal-preġudizzju reali tal-iffiltrar, huwa rassikuranti li l-iskema tagħna ta’ peżar mill-ġdid ibbażata fuq immaġnijiet fil-fatt ittejjeb metrika bbażata fuq test b’mod tant sinifikanti.

Qed inkomplu ninvestigaw il-preġudizzji li fadal f’DALL·E 2, parzjalment permezz ta’ evalwazzjonijiet akbar tal-imġiba tal-mudell u investigazzjonijiet dwar kif l-iffiltrar affettwa l-iżvilupp tal-preġudizzju u l-kapaċitajiet.

Prevenzjoni tar-rigurgitar tal-immaġnijiet

Osservajna li l-predeċessuri interni tagħna għal DALL·E 2 xi drabi kienu jirriproduċu immaġnijiet tat-taħriġ kelma b’kelma. Din l-imġiba kienet mhux mixtieqa, peress li nixtiequ li DALL·E 2 joħloq immaġnijiet oriġinali u uniċi awtomatikament u mhux sempliċement “jgħaqqad” biċċiet minn immaġnijiet eżistenti. Barra minn hekk, ir-riproduzzjoni verbatim ta’ immaġnijiet tat-taħriġ tista’ tqajjem mistoqsijiet legali dwar il-ksur tad-drittijiet tal-awtur, is-sjieda, u l-privatezza (jekk ritratti ta’ nies kienu preżenti fid-data tat-taħriġ).

Biex nifhmu aħjar il-kwistjoni tar-rigurgitar tal-immaġnijiet, ġbarna sett tad-data ta’ prompts li spiss irriżultaw f’immaġnijiet duplikati. Biex nagħmlu dan, użajna mudell imħarreġ biex jikkampjona immaġnijiet għal 50,000 prompt mis-sett tad-data tat-taħriġ tagħna, u ordnajna l-kampjuni skont ix-xebh perċettiv mal-immaġni tat-taħriġ korrispondenti. Fl-aħħar, eżaminajna l-aqwa tqabbiliet bl-idejn, u sibna biss ftit mijiet ta’ pari veri duplikati minn total ta’ 50k prompts. Minkejja li r-rata ta’ rigurgitar dehret li kienet inqas minn 1%, ħassejna li kien meħtieġ li nniżżlu r-rata għal 0 għar-raġunijiet imsemmija hawn fuq.

Meta studjajna s-sett tad-data tagħna ta’ immaġnijiet rigurgitati, innutajna żewġ xejriet. L-ewwel, l-immaġnijiet kienu kważi kollha grafika vettorjali sempliċi, li x’aktarx kienu faċli biex jiġu memorizzati minħabba l-kontenut baxx ta’ informazzjoni tagħhom. It-tieni, u aktar importanti, l-immaġnijiet kollha kellhom ħafna kważi duplikati fis-sett tad-data tat-taħriġ. Pereżempju, seta’ kien hemm grafika vettorjali li tidher qisha arloġġ li juri s-siegħa 1—imma mbagħad konna niskopru kampjun ta’ taħriġ li fih l-istess arloġġ juri s-2, u mbagħad it-3, eċċ. Ladarba rrealizzajna dan, użajna tfittxija distribwita tal-eqreb ġar biex nivverifikaw li, tabilħaqq, l-immaġnijiet kollha rigurgitati kellhom duplikati perċettivament simili fis-sett tad-data. Xogħlijiet⁠(jinfetaħ f’tieqa ġdida) oħra⁠(jinfetaħ f’tieqa ġdida) osservaw fenomenu simili f’mudelli kbar tal-lingwa, u sabu li d-duplikazzjoni tad-data hija marbuta sew mal-memorizzazzjoni.

Is-sejba ta’ hawn fuq issuġġeriet li, jekk inneħħu d-duplikati mis-sett tad-data tagħna, nistgħu nsolvu l-problema tar-rigurgitar. Biex niksbu dan, ippjanajna li nużaw network newrali biex nidentifikaw gruppi ta’ immaġnijiet li jidhru simili, u mbagħad inneħħu l-immaġnijiet kollha ħlief waħda minn kull grupp.^B

Madankollu, dan kien jeħtieġ li niċċekkjaw, għal kull immaġni, jekk hijiex duplikat ta’ kull immaġni oħra fis-sett tad-data. Peress li s-sett tad-data kollu tagħna fih mijiet ta’ miljuni ta’ immaġnijiet, b’mod naiv ikollna bżonn niċċekkjaw mijiet ta’ kwadriljuni ta’ pari ta’ immaġnijiet biex insibu d-duplikati kollha. Filwaqt li dan teknikament jista’ jintlaħaq, speċjalment fuq cluster kbir ta’ komputazzjoni, sibna alternattiva ħafna aktar effiċjenti li taħdem kważi daqstant tajjeb bi frazzjoni żgħira mill-ispiża. Ikkunsidra x’jiġri jekk niġbru s-sett tad-data tagħna fi clusters qabel ma nwettqu t-tneħħija tad-duplicati. Peress li kampjuni qrib xulxin spiss jaqgħu fl-istess cluster, il-biċċa l-kbira tal-pari duplikati ma jaqsmux il-konfini tad-deċiżjonijiet tal-clusters. Nistgħu mbagħad inneħħu d-duplikati tal-kampjuni fi ħdan kull cluster mingħajr ma niċċekkjaw għal duplikati barra l-cluster, filwaqt li nitilfu biss frazzjoni żgħira tal-pari duplikati kollha. Dan huwa ħafna aktar mgħaġġel mill-approċċ naiv, peress li m’għadx għandna għalfejn niċċekkjaw kull par wieħed ta’ immaġnijiet.^C

Meta ttestjajna dan l-approċċ b’mod empiriku fuq sottosett żgħir tad-data tagħna, sab 85% tal-pari duplikati kollha meta użajna K=1024 clusters. Biex intejbu r-rata ta’ suċċess tal-algoritmu ta’ hawn fuq, sfruttajna osservazzjoni ewlenija: meta tagħmel clustering ta’ sottosetti każwali differenti ta’ sett tad-data, il-konfini tad-deċiżjonijiet tal-clusters li jirriżultaw spiss ikunu pjuttost differenti. Għalhekk, jekk par duplikat jaqsam konfini ta’ cluster għal clustering wieħed tad-data, l-istess par jista’ jaqa’ ġewwa cluster wieħed fi clustering differenti. Iktar ma tipprova clusterings, iktar ikun probabbli li tiskopri par duplikat partikolari. Fil-prattika, għażilna li nużaw ħames clusterings, li jfisser li nfittxu d-duplikati ta’ kull immaġni fl-għaqda ta’ ħames clusters differenti. Fil-prattika, dan sab 97% tal-pari duplikati kollha fuq sottosett tad-data tagħna.

B’mod sorprendenti, kważi kwart tas-sett tad-data tagħna tneħħa bit-tneħħija tad-duplicati. Meta ħarisna lejn il-pari kważi duplikati li nstabu, ħafna minnhom kienu jinkludu bidliet sinifikanti. Ftakar fl-eżempju tal-arloġġ ta’ hawn fuq: is-sett tad-data seta’ jinkludi ħafna immaġnijiet tal-istess arloġġ f’ħinijiet differenti tal-ġurnata. Filwaqt li dawn l-immaġnijiet x’aktarx iġiegħlu lill-mudell jimmemorizza d-dehra ta’ dan l-arloġġ partikolari, jistgħu wkoll jgħinu lill-mudell jitgħallem jiddistingwi bejn ħinijiet differenti tal-ġurnata fuq arloġġ. Meta tqis kemm tneħħiet data, konna mħassba li t-tneħħija ta’ immaġnijiet bħal dawn setgħet għamlet ħsara lill-prestazzjoni tal-mudell.

Biex nittestjaw l-effett tat-tneħħija tad-duplicati fuq il-mudelli tagħna, ħarriġna żewġ mudelli b’iperparametri identiċi: wieħed fuq is-sett tad-data sħiħ, u wieħed fuq il-verżjoni mingħajr duplikati tas-sett tad-data. Biex inqabblu l-mudelli, użajna l-istess evalwazzjonijiet umani li użajna biex nevalwaw il-mudell GLIDE oriġinali tagħna. B’mod sorprendenti, sibna li l-evalwaturi umani kemxejn ppreferew il-mudell imħarreġ fuq data mingħajr duplikati, u dan jissuġġerixxi li l-ammont kbir ta’ immaġnijiet ridondanti fis-sett tad-data fil-fatt kien qed jagħmel ħsara lill-prestazzjoni.

Ladarba kellna mudell imħarreġ fuq data mingħajr duplikati, erġajna wettaqna t-tfittxija għar-rigurgitar li konna għamilna qabel fuq 50k prompts mis-sett tad-data tat-taħriġ. Sibna li l-mudell il-ġdid qatt ma rrigurgita immaġni tat-taħriġ meta ngħata l-prompt eżatt tal-immaġni mis-sett tad-data tat-taħriġ. Biex nieħdu dan it-test pass ieħor ’il quddiem, wettaqna wkoll tfittxija tal-eqreb ġar fuq is-sett tad-data tat-taħriġ kollu għal kull waħda mill-50k immaġni ġġenerata. B’dan il-mod, ħsibna li nistgħu naqbdu lill-mudell jirrigurgita immaġni differenti minn dik assoċjata ma’ prompt partikolari. Anke b’din il-verifika aktar bir-reqqa, qatt ma sibna każ ta’ rigurgitar tal-immaġnijiet.

Passi li jmiss

Filwaqt li l-mitigazzjonijiet kollha diskussi hawn fuq jirrappreżentaw progress sinifikanti lejn l-għan tagħna li nnaqqsu r-riskji marbuta ma’ DALL·E 2, kull mitigazzjoni għad għandha spazju biex titjieb:

Filtri aħjar ta’ qabel it-taħriġ jistgħu jippermettulna nħarrġu DALL·E 2 fuq aktar data u potenzjalment innaqqsu aktar il-preġudizzju fil-mudell. Il-filtri attwali tagħna huma aġġustati għal rata baxxa ta’ każijiet mitlufa, iżda bi prezz ta’ ħafna pożittivi foloz. B’riżultat ta’ dan, iffiltrajna madwar 5% tas-sett tad-data kollu tagħna minkejja li l-biċċa l-kbira ta’ dawn l-immaġnijiet iffiltrati ma jiksru xejn il-policy tal-kontenut tagħna. It-titjib tal-filtri tagħna jista’ jippermettulna nirkupraw parti minn din id-data tat-taħriġ.
Il-preġudizzju jiġi introdott u potenzjalment imkabbar f’ħafna stadji tal-iżvilupp u t-tħaddim tas-sistema. L-evalwazzjoni u l-mitigazzjoni tal-preġudizzju f’sistemi bħal DALL·E 2 u l-ħsara kkawżata minnu hija problema interdixxiplinari importanti li nkomplu nistudjawha f’OpenAI bħala parti mill-missjoni usa’ tagħna. Ix-xogħol tagħna f’dan jinkludi l-bini ta’ evalwazzjonijiet biex nifhmu aħjar il-problema, il-kurazzjoni ta’ settijiet ta’ data ġodda, u l-applikazzjoni ta’ tekniki bħal feedback uman u fine-tuning biex nibnu teknoloġiji aktar robusti u rappreżentattivi.
Huwa wkoll kruċjali li nkomplu nistudjaw il-memorizzazzjoni u l-ġeneralizzazzjoni fis-sistemi ta’ apprendiment profond. Filwaqt li t-tneħħija tad-duplicati hija l-ewwel pass tajjeb lejn il-prevenzjoni tal-memorizzazzjoni, ma tgħidilniex dak kollu li hemm x’nitgħallmu dwar għaliex jew kif mudelli bħal DALL·E 2 jimmemorizzaw id-data tat-taħriġ.

Noti f’qiegħ il-paġna

Meta nparametrizzaw P(unfiltered|image) bħala sigmoid(f(x)), il-piż ikun imbagħad exp(f(x)). Dan jista’ jiġi derivat billi tintuża d-definizzjoni tas-sigmoid:

$1/(1+e^−f(x))/(1−1/(1+e^−f(x)))$ $= 1/(1+e^{-f(x)}) / ((1+e^{-f(x)} - 1)/(1+e^{-f(x)}))$ $= 1/(1+e^{-f(x)}) / ((e^{-f(x)})/(1+e^{-f(x)}))$ $= (1+e^-f(x))/(1+e^-f(x)) / (e^-f(x))$ $= 1 / (e^{-f(x)}) = e^{f(x)}$

B
Biex niksbu dan, nistgħu nikkalkulaw vettur ta’ karatteristiċi $v_i$ għal kull immaġni tat-taħriġ $i$ , u mbagħad inneħħu l-immaġnijiet kollha $j$ tali li jeżisti $i < j$ fejn $||v_i - v_j||$ <threshold. Biex insolvu din il-problema b’mod naiv, ikollna bżonn nikkalkulaw kull distanza bejn kull par $||v_i - v_j||$ , kompitu li jikber b’mod kwadratiku mad-daqs tas-sett tad-data tagħna.
C
Jekk $K$ jirrappreżenta n-numru ta’ clusters u $N$ id-daqs tas-sett tad-data, dan l-approċċ jeħtieġ biss $O(K*(N/K)^2) = O(N^2/K)$ kalkoli ta’ distanza bejn pari, minflok il- $O(N^2)$ sħiħ. Fl-istess ħin, xorta nkunu garantiti li l-ebda immaġni ma jkollha aktar minn $K$ kważi duplikati fl-agħar każ possibbli.