28 Meitheamh 2022

Maoluithe réamh-oiliúna DALL·E 2

Amharc ón aer ar shlua daoine ag féachaint ar shiúl, iad ag caitheamh hataí agus ag iompar bratacha

DALL·E

Ag lódáil…

Chun draíocht DALL·E 2⁠ a roinnt le lucht féachana leathan, bhí orainn na rioscaí a bhaineann le samhlacha cumhachtacha giniúint íomhá a laghdú. Chuige sin, chuireamar ráillí cosanta⁠(osclaíonn i bhfuinneog nua) éagsúla i bhfeidhm chun cosc a chur ar íomhánna ginte ár mbeartas ábhair⁠(osclaíonn i bhfuinneog nua) a shárú.

Díríonn an postáil seo ar mhaoluithe réamh-oiliúna, fo-thacar de na ráillí cosanta seo a athraíonn go díreach na sonraí óna bhfoghlaimíonn DALL·E 2. Go háirithe, cuirtear oiliúint ar DALL·E 2 ar na céadta milliún íomhá le fotheidil ón idirlíon, agus bainimid cuid de na híomhánna seo agus athmheáimid cuid eile chun an méid a fhoghlaimíonn an tsamhail a athrú.

Tá an postáil seo eagraithe i dtrí chuid, agus déanann gach ceann cur síos ar mhaolú réamh-oiliúna difriúil:

Sa chéad chuid, déanaimid cur síos ar an gcaoi ar scagamar íomhánna foréigneacha agus gnéasacha amach as tacar sonraí oiliúna DALL·E 2. Gan an maolú seo, d’fhoghlaimeodh an tsamhail íomhánna grafacha nó soiléire a tháirgeadh nuair a iarrfaí iad, agus d’fhéadfadh sí fiú íomhánna den sórt sin a thabhairt ar ais go neamhbheartaithe mar fhreagra ar leideanna a bhfuil cuma neamhurchóideach orthu.
Sa dara cuid, feicimid gur féidir le scagadh sonraí oiliúna claontaí a mhéadú, agus déanaimid cur síos ar ár dteicníc chun an éifeacht seo a mhaolú. Mar shampla, gan an maolú seo, thugamar faoi deara go nginfeadh samhlacha a oiltear ar shonraí scagtha níos mó íomhánna a léiríonn fir agus níos lú íomhánna a léiríonn mná uaireanta i gcomparáid le samhlacha a oiltear ar an tacar sonraí bunaidh.
Sa chuid dheireanach, casaimid ar cheist an mheabhrúcháin, agus faighimid amach gur féidir le samhlacha cosúil le DALL·E 2 íomhánna ar cuireadh oiliúint orthu a atáirgeadh uaireanta seachas íomhánna nua a chruthú. Go praiticiúil, fuaireamar amach gur íomhánna a mhacasamhlófar go minic sa tacar sonraí is cúis leis an athghiniúint íomhá seo, agus maolaímid an cheist trí íomhánna atá cosúil ó thaobh amhairc de le híomhánna eile sa tacar sonraí a bhaint.

Sonraí oiliúna grafacha agus soiléire a laghdú

Ós rud é go gcruthaíonn sonraí oiliúna cumais aon samhail fhoghlamtha, is uirlis chumhachtach í scagadh sonraí chun cumais neamh-inmhianaithe samhla a theorannú. Chuireamar an cur chuige seo i bhfeidhm ar dhá chatagóir—íomhánna a léiríonn foréigean grafach agus ábhar gnéasach—trí aicmitheoirí a úsáid chun íomhánna sna catagóirí seo a scagadh amach as an tacar sonraí sular cuireadh oiliúint ar DALL·E 2. D’oileamar na haicmitheoirí íomhá seo go hinmheánach agus táimid ag leanúint orainn ag déanamh staidéir ar éifeachtaí scagadh tacar sonraí ar ár samhail oilte.

Chun ár n-aicmitheoirí íomhá a oiliúint, d’athúsáideamar cur chuige a d’fhostaíomar roimhe seo chun sonraí oiliúna do GLIDE⁠(osclaíonn i bhfuinneog nua) a scagadh. Is iad seo a leanas céimeanna bunúsacha an chur chuige seo: ar dtús, cruthaímid sonraíocht do na catagóirí íomhá ar mhaith linn lipéadú a dhéanamh orthu; sa dara háit, bailímid cúpla céad sampla dearfach agus diúltach do gach catagóir; sa tríú háit, úsáidimid nós imeachta foghlama gníomhaí chun níos mó sonraí a bhailiú agus an malartú idir beachtas agus aisghabháil a fheabhsú; agus ar deireadh, ritheann muid an t-aicmitheoir a eascraíonn as sin ar an tacar sonraí iomlán le tairseach aicmithe choimeádach chun aisghabháil a chur chun cinn thar bheachtas. Chun na tairseacha seo a shocrú, thugamar tosaíocht do gach ceann de na sonraí dona a scagadh amach seachas na sonraí maithe go léir a fhágáil istigh. Tá sé seo amhlaidh toisc gur féidir linn ár samhail a mhionchoigeartú níos déanaí le níos mó sonraí i gcónaí chun rudaí nua a mhúineadh di, ach tá sé i bhfad níos deacra cur ar an tsamhail dearmad a dhéanamh ar rud atá foghlamtha aici cheana féin.

Ag lódáil...

Le linn na céime foghlama gníomhaí, d’fheabhsaíomar ár n-aicmitheoirí go hathchúrsach trí lipéid dhaonna a bhailiú d’íomhánna a d’fhéadfadh a bheith deacair nó mí-aicmithe. Go háirithe, d’úsáideamar dhá theicníc foghlama gníomhaí chun íomhánna a roghnú ónár tacar sonraí (ina bhfuil na céadta milliún íomhá gan lipéad) lena gcur os comhair daoine le haghaidh lipéadaithe. Ar dtús, chun ráta dearfach bréagach ár n-aicmitheora a laghdú (is é sin, an mhinicíocht a mhí-aicmíonn sé íomhá neamhurchóideach mar íomhá fhoréigneach nó ghnéasach), sannamar lipéid dhaonna d’íomhánna a d’aicmigh an tsamhail reatha mar dhearfach. Chun go n-oibreodh an chéim seo go maith, rinneamar ár dtairseach aicmithe a mhionchoigeartú le haghaidh aisghabháil beagnach 100% ach le ráta ard dearfach bréagach; ar an gcaoi sin, bhí ár lipéadaithe ag lipéadú cásanna fíordhiúltacha den chuid is mó. Cé go gcabhraíonn an teicníc seo le dearfacha bréagacha a laghdú agus laghdaíonn sí an gá atá le lipéadaithe amharc ar íomhánna a d’fhéadfadh a bheith díobhálach, ní chuidíonn sí le níos mó cásanna dearfacha atá an tsamhail ag cailleadh faoi láthair a aimsiú.

Chun ráta diúltach bréagach ár n-aicmitheora a laghdú, d’fhostaíomar dara teicníc foghlama gníomhaí: cuardach na gcomharsan is gaire. Go sonrach, reáchtálamar trasbhailíochtú ilfhillte chun samplaí dearfacha a aimsiú inár tacar sonraí lipéadaithe reatha a raibh claonadh ag an tsamhail iad a mhí-aicmiú mar shamplaí diúltacha (chun é seo a dhéanamh, d’oileamar na céadta leagan den aicmitheoir le scoilteanna éagsúla idir oiliúint agus bailíochtú). Ansin rinneamar scanadh ar ár mbailiúchán mór íomhánna gan lipéad ar thóir comharsan is gaire do na samplaí sin i spás gnéithe aireachtála, agus sannamar lipéid dhaonna do na híomhánna a aimsíodh. A bhuí lenár mbonneagar ríomhaireachta, bhí sé éasca oiliúint an aicmitheora agus cuardach na gcomharsan is gaire a scála suas chuig go leor GPUanna, rud a chuir ar chumas na céime foghlama gníomhaí tarlú i gceann cúpla nóiméad seachas uaireanta nó laethanta.

Chun éifeachtacht ár scagairí sonraí a fhíorú, d’oileamar dhá shamhail GLIDE leis na hipearpharaiméadair chéanna: ceann ar shonraí neamhscagtha, agus ceann ar an tacar sonraí tar éis an scagtha. Tagraímid don chéad tsamhail mar an tsamhail neamhscagtha, agus don dara ceann mar an tsamhail scagtha. Mar a bhíothas ag súil leis, fuaireamar amach gur tháirg an tsamhail scagtha níos lú ábhair ghrafaigh nó shoiléir go ginearálta mar fhreagra ar iarratais ar ábhar den chineál seo. Mar sin féin, fuaireamar fo-iarmhairt gan choinne den scagadh sonraí freisin: chruthaigh sé nó mhéadaigh sé claontaí na samhla i dtreo déimeagrafaicí áirithe.

Ag lódáil...

Claonadh a thugtar isteach ag scagairí sonraí a cheartú

Déanann samhlacha giniúna iarracht dáileadh a sonraí oiliúna a mheaitseáil, lena n-áirítear aon chlaontaí atá iontu. Mar thoradh air sin, d’fhéadfadh scagadh na sonraí oiliúna claontaí a chruthú nó a mhéadú i samhlacha iartheachtacha. Go ginearálta, is tasc deacair sochtheicniúil é claontaí sa tacar sonraí bunaidh a cheartú a leanaimid orainn á staidéar, agus tá sé sin lasmuigh de raon feidhme na postála seo. Is í an fhadhb a dtugaimid aghaidh uirthi anseo ná méadú na gclaontaí a eascraíonn go sonrach as scagadh sonraí féin. Lenár gcur chuige, tá sé mar aidhm againn cosc a chur ar an tsamhail scagtha a bheith níos claonta ná an tsamhail neamhscagtha, agus an t-athrú dáilte de bharr scagtha sonraí á laghdú go bunúsach.

Mar shampla nithiúil de mhéadú claontachta de bharr scagtha, smaoinigh ar an leid “a ceo”. Nuair a ghin ár samhail neamhscagtha íomhánna don leid seo, bhí claonadh aici níos mó íomhánna d’fhir ná de mhná a tháirgeadh, agus táimid ag súil gur léiriú é an chuid is mó den chlaonadh seo ar ár sonraí oiliúna reatha. Mar sin féin, nuair a rith muid an leid chéanna trínár samhail scagtha, ba chosúil gur méadaíodh an claonadh; ba bheagnach go hiomlán íomhánna d’fhir a bhí sna glúnta.

Táimid den tuairim go dtagann an cás áirithe seo de mhéadú claontachta ó dhá áit: ar dtús, fiú má tá ionadaíocht na mban agus na bhfear cothrom go garbh sa tacar sonraí bunaidh, d’fhéadfadh an tacar sonraí a bheith claonta i dtreo mná a chur i láthair i gcomhthéacsanna níos gnéasaí; agus sa dara háit, d’fhéadfadh ár n-aicmitheoirí féin a bheith claonta de bharr cur chun feidhme nó sainmhíniú ranga, in ainneoin ár n-iarrachtaí lena chinntiú nach amhlaidh a bhí le linn na gcéimeanna bailithe sonraí agus bailíochtaithe. Mar gheall ar an dá éifeacht seo, d’fhéadfadh ár scagaire níos mó íomhánna de mhná ná d’fhir a bhaint, rud a athraíonn an cóimheas inscne a fheiceann an tsamhail san oiliúint.

Chun claonadh de bharr scagairí a fhiosrú níos críochnúla, bhí bealach de dhíth orainn chun a thomhas cé mhéad a bhí ár scagairí sonraí ag dul i bhfeidhm ar an gclaonadh i dtreo coincheapa éagsúla. Go háirithe, tá ár scagairí foréigin agus ábhair ghnéasaigh bunaithe ar íomhánna amháin, ach tugann nádúr ilmhodhach ár dtacair sonraí deis dúinn éifeachtaí na scagairí seo ar théacs a thomhas go díreach. Ós rud é go bhfuil fotheideal téacs ag gabháil le gach íomhá, bhíomar in ann féachaint ar mhinicíocht choibhneasta eochairfhocal roghnaithe de láimh ar fud an tacair sonraí scagtha agus neamhscagtha chun meastachán a dhéanamh ar cé mhéad a bhí na scagairí ag dul i bhfeidhm ar choincheap ar leith.

Chun é seo a chur i bhfeidhm, d’úsáideamar Apache Spark chun minicíochtaí dornán eochairfhocal (m.sh., “parent”, “woman”, “kid”) a ríomh thar na fotheidil uile inár dtacair sonraí scagtha agus neamhscagtha araon. Cé go bhfuil na céadta milliún péire téacs-íomhá inár dtacar sonraí, níor thóg ríomh na minicíochtaí eochairfhocal seo ach cúpla nóiméad ag úsáid ár gcnuasach ríomhaireachta.

Tar éis minicíochtaí eochairfhocal a ríomh, bhíomar in ann a dheimhniú gur chlaon ár scagairí tacair sonraí minicíochtaí eochairfhocal áirithe níos mó ná cinn eile go deimhin. Mar shampla, laghdaigh na scagairí minicíocht an fhocail “woman” faoi 14%, agus níor laghdaíodh minicíocht an fhocail “man” ach faoi 6%. Dheimhnigh sé seo, ar scála mór, an méid a bhí feicthe againn go heachtrúil cheana trí shampláil ó shamhlacha GLIDE a cuireadh oiliúint orthu ar an dá thacar sonraí.

Ag lódáil...

Anois go raibh ionadach againn chun claonadh de bharr scagairí a thomhas, bhí bealach de dhíth orainn chun é a mhaolú. Chun dul i ngleic leis an bhfadhb seo, bhí sé mar aidhm againn an tacar sonraí scagtha a athmheá ionas go meaitseálfadh a dháileadh dáileadh na n-íomhánna neamhscagtha níos fearr. Mar shampla simplí chun an smaoineamh seo a léiriú, abair go bhfuil 50% grianghraf cait agus 50% grianghraf madraí inár dtacar sonraí, ach go mbaineann ár scagairí sonraí 75% de na madraí ach 50% de na cait amháin. Bheadh an tacar sonraí deiridh ⅔ cait agus ⅓ madraí, agus is dócha go nginfeadh samhail giniúna bunaithe ar dhóchúlacht a cuireadh oiliúint uirthi ar an tacar sonraí seo níos mó íomhánna de chait ná de mhadraí. Is féidir linn an mhíchothromaíocht seo a cheartú trí chaillteanas oiliúna gach íomhá de mhadra a iolrú faoi 2, ag aithris ar an éifeacht a bhaineann le gach íomhá de mhadra a athdhéanamh faoi dhó. Is cosúil gur féidir linn an cur chuige seo a scála chuig ár dtacair sonraí agus ár samhlacha fíora ar bhealach atá uathoibríoch den chuid is mó–is é sin, ní gá dúinn na gnéithe ba mhaith linn a athmheá a roghnú de láimh.

Ríomhtar meáchain d’íomhánna sa tacar sonraí scagtha againn ag úsáid dóchúlachtaí ó aicmitheoir speisialta, cosúil leis an gcur chuige a úsáideadh ag Choi et al. (2019)⁠(osclaíonn i bhfuinneog nua). Chun an t-aicmitheoir seo a oiliúint, samplaímid íomhánna go haonfhoirmeach ón dá thacar sonraí agus tuarann muid cén tacar sonraí as ar tháinig an íomhá. Go sonrach, tuarann an tsamhail seo P(unfiltered|image), agus tosaíocht P(unfiltered) = 0.5 á tabhairt. Go praiticiúil, nílimid ag iarraidh go mbeadh an tsamhail seo rómhórchumhachtach, mar d’fhéadfadh sí an fheidhm bheacht a chuireann ár scagairí i bhfeidhm a fhoghlaim sa chéad áit. Ina áit sin, ba mhaith linn go mbeadh an tsamhail níos míne ná ár scagairí sonraí bunaidh, ag gabháil do chatagóirí leathana a mbíonn tionchar ag na scagairí orthu agus í fós neamhchinnte faoi cibé acu an ndéanfaí íomhá áirithe a scagadh nó nach ndéanfaí. Chuige sin, d’oileamar prob líneach ar bharr samhail bheag CLIP⁠.

Nuair a bhíonn aicmitheoir againn a thuarann an dóchúlacht go bhfuil íomhá ón tacar sonraí neamhscagtha, caithfimid fós an tuar seo a thiontú ina mheáchan don íomhá. Mar shampla, abair go bhfuil P(unfiltered|image) = 0.8. Ciallaíonn sé sin go bhfuil an sampla 4 huaire níos dóichí a bheith le fáil sna sonraí neamhscagtha ná sna sonraí scagtha, agus cheartódh meáchan 4 an mhíchothromaíocht. Ar bhealach níos ginearálta, is féidir linn an meáchan P(unfiltered|image)/P(filtered|image) a úsáid.^A

Cé chomh maith agus a mhaolaíonn an scéim athmheáite seo an claonadh méadaithe i ndáiríre? Nuair a rinneamar mionchoigeartú ar ár samhail scagtha roimhe seo leis an scéim mheáite nua, mheaitseáil iompar na samhla mionchoigeartaithe i bhfad níos dlúithe leis an tsamhail neamhscagtha ar na samplaí claonta a d’aimsíomar roimhe seo. Cé go raibh sé seo spreagúil, bhíomar ag iarraidh an maolú seo a mheas níos críochnúla freisin ag úsáid ár heorastach claontachta bunaithe ar eochairfhocail. Chun minicíochtaí eochairfhocal a thomhas agus ár scéim mheáite nua á cur san áireamh, is féidir linn gach cás d’eochairfhocal sa tacar sonraí scagtha a mheá de réir mheáchan an tsampla ina bhfuil sé. Trí é seo a dhéanamh, faighimid sraith nua de mhinicíochtaí eochairfhocal a léiríonn meáchain na samplaí sa tacar sonraí scagtha.

Ar fud fhormhór na n-eochairfhocal a sheiceálamar, laghdaigh an scéim athmheáite an t-athrú minicíochta de bharr scagtha. Dár samplaí roimhe seo de “fear” agus “bean”, tháinig na laghduithe minicíochta coibhneasta go 1% agus –1%, ach ba iad 14% agus 6% a luachanna roimhe sin, faoi seach. Cé nach bhfuil sa mhéadrach seo ach ionadach ar chlaonadh scagtha iarbhír, is ábhar misnigh é go bhfeabhsaíonn ár scéim athmheáite bunaithe ar íomhánna méadrach bunaithe ar théacs chomh suntasach sin i ndáiríre.

Táimid ag leanúint orainn ag fiosrú na gclaontaí atá fágtha in DALL·E 2, i bpáirt trí mheasúnuithe níos mó ar iompar na samhla agus trí fhiosrúcháin ar an gcaoi ar imir an scagadh tionchar ar fhorbairt claontachta agus cumais.

Athghiniúint íomhá a chosc

Thugamar faoi deara go ndéanfadh réamhtheachtaithe inmheánacha DALL·E 2 íomhánna oiliúna a atáirgeadh focal ar fhocal uaireanta. Ní raibh an t-iompar seo inmhianaithe, ós rud é gur mhaith linn go gcruthódh DALL·E 2 íomhánna bunaidh, uathúla de réir réamhshocraithe agus nach ndéanfadh sé ach píosaí d’íomhánna atá ann cheana a “fhuáil le chéile”. Ina theannta sin, is féidir ceisteanna dlí a ardú maidir le sárú cóipchirt, úinéireacht agus príobháideachas má dhéantar íomhánna oiliúna a atáirgeadh focal ar fhocal (má bhí grianghraif de dhaoine i láthair sna sonraí oiliúna).

Chun tuiscint níos fearr a fháil ar fhadhb athghiniúint íomhá, bhailíomar tacar sonraí leideanna a d’fhág go minic go raibh íomhánna dúblacha mar thoradh orthu. Chun é seo a dhéanamh, d’úsáideamar samhail oilte chun íomhánna a shampláil do 50,000 leid ónár tacar sonraí oiliúna, agus rinneamar na samplaí a shórtáil de réir cosúlachta aireachtála leis an íomhá oiliúna chomhfhreagrach. Ar deireadh, rinneamar iniúchadh de láimh ar na meaitseanna ba mhó, agus níor aimsíomar ach cúpla céad péire fíordhúblach as an 50k leid san iomlán. Cé gur chosúil go raibh an ráta athghiniúna níos lú ná 1%, mhothaíomar go raibh sé riachtanach an ráta a bhrú síos go 0 ar na cúiseanna a luaitear thuas.

Nuair a rinneamar staidéar ar ár dtacar sonraí d’íomhánna athghinte, thugamar dhá phatrún faoi deara. Ar dtús, ba ghrafaic veicteora shimplí iad na híomhánna beagnach ar fad, ar dócha go raibh siad éasca le meabhrú mar gheall ar a n-ábhar faisnéise íseal. Ar an dara dul síos, agus níos tábhachtaí fós, bhí go leor beagnach-dhúblacha ag gach íomhá sa tacar sonraí oiliúna. Mar shampla, d’fhéadfadh grafach veicteora a bheith ann a bhfuil cuma clog air ag taispeáint 1 a chlog—ach ansin d’aimseofaí sampla oiliúna ina bhfuil an clog céanna ag taispeáint 2 a chlog, agus ansin 3 a chlog, srl. Nuair a thuigeamar é seo, d’úsáideamar cuardach dáilte na gcomharsan is gaire chun a fhíorú go raibh dúblacha aireachtála cosúla sa tacar sonraí ag na híomhánna athghinte go léir. Thug⁠(osclaíonn i bhfuinneog nua) staidéir eile⁠(osclaíonn i bhfuinneog nua) faoi deara feiniméan cosúil leis seo i múnlaí móra teanga, agus fuarthas amach go bhfuil nasc láidir idir dúbailt sonraí agus meabhrú.

Mhol an toradh thuas gur féidir go réiteodh dí-dhúbailt ár dtacair sonraí fadhb na hathghiniúna. Chun é seo a bhaint amach, bheartaíomar líonra néarach a úsáid chun grúpaí íomhánna a bhfuil cuma chomhchosúil orthu a aithint, agus ansin gach íomhá seachas ceann amháin ó gach grúpa a bhaint.^B

Mar sin féin, bheadh gá leis seo a sheiceáil, do gach íomhá, an bhfuil sí ina dúblach de gach íomhá eile sa tacar sonraí. Ós rud é go bhfuil na céadta milliún íomhá inár dtacar sonraí iomlán, bheadh orainn na céadta cearnógilliún péire íomhá a sheiceáil go naive chun na dúblacha go léir a aimsiú. Cé go bhfuil sé seo indéanta go teicniúil, go háirithe ar chnuasach mór ríomhaireachta, fuaireamar rogha eile i bhfad níos éifeachtaí a oibríonn beagnach chomh maith sin ar chodán beag den chostas.Smaoinigh ar a dtarlaíonn má chnuasaímid ár dtacar sonraí sula ndéanaimid dí-dhúbailt. Ós rud é go dtagann samplaí in aice lena chéile isteach sa chnuasach céanna go minic, ní thrasnódh formhór na bpéirí dúblacha teorainneacha cinntí cnuasaithe. D’fhéadfaimis ansin samplaí a dhí-dhúbailt laistigh de gach cnuasach gan seiceáil le haghaidh dúblach lasmuigh den chnuasach, agus muid ag cailleadh ach codán beag de na péirí dúblacha go léir. Tá sé seo i bhfad níos tapúla ná an cur chuige naive, ós rud é nach gá dúinn gach péire íomhánna a sheiceáil a thuilleadh.^C

Nuair a thástálamar an cur chuige seo go heimpíreach ar fho-thacar beag dár sonraí, d’aimsigh sé 85% de na péirí dúblacha go léir agus K=1024 cnuasach á n-úsáid. Chun ráta ratha an algartaim thuas a fheabhsú, bhain muid leas as príomhbhreathnóireacht amháin: nuair a chnuasaíonn tú fo-thacair randamacha éagsúla de thacar sonraí, is minic a bhíonn teorainneacha cinntí na gcnuasach an-difriúil. Dá bhrí sin, má thrasnaíonn péire dúblach teorainn chnuasaigh in aon chnuasach amháin de na sonraí, d’fhéadfadh an péire céanna titim laistigh de chnuasach aonair i gcnuasach difriúil. Dá mhéad cnuasuithe a dhéanann tú iarracht, is ea is dóichí go bhfaighidh tú péire dúblach áirithe. Go praiticiúil, shocraíomar ar chúig chnuasach a úsáid, rud a chiallaíonn go ndéanaimid cuardach ar dhúblacha gach íomhá in aontas cúig chnuasach éagsúla. Go praiticiúil, d’aimsigh sé seo 97% de na péirí dúblacha go léir ar fho-thacar dár sonraí.

Is iontach an rud é gur baineadh beagnach ceathrú dár dtacar sonraí trí dhí-dhúbailt. Nuair a d’fhéachamar ar na péirí beagnach-dhúblacha a aimsíodh, bhí athruithe bríocha i gcuid mhaith díobh. Cuimhnigh ar shampla an chloig thuas: d’fhéadfadh go mbeadh go leor íomhánna den chlog céanna ag an tacar sonraí ag amanna éagsúla den lá. Cé gur dócha go gcuirfidh na híomhánna seo faoi deara don tsamhail cuma an chloig áirithe seo a mheabhrú, d’fhéadfadh siad cabhrú leis an tsamhail foghlaim conas idirdhealú a dhéanamh idir amanna an lae ar chlog freisin. Mar gheall ar an méid sonraí a baineadh, bhí imní orainn go bhféadfadh baint íomhánna mar seo a bheith tar éis dochar a dhéanamh d’fheidhmíocht na samhla.

Chun éifeacht na dí-dhúbailte ar ár samhlacha a thástáil, d’oileamar dhá shamhail le hipearpharaiméadair chomhionanna: ceann ar an tacar sonraí iomlán, agus ceann ar an leagan dí-dhúblaithe den tacar sonraí. Chun comparáid a dhéanamh idir na samhlacha, d’úsáideamar na meastóireachtaí daonna céanna a d’úsáideamar chun ár samhail GLIDE bhunaidh a mheas. Rud iontach, fuaireamar amach gurbh fhearr le meastóirí daonna beagán an tsamhail a bhí oilte ar shonraí dí-dhúblaithe, rud a thugann le fios go raibh an méid mór íomhánna iomarcacha sa tacar sonraí ag déanamh dochair don fheidhmíocht i ndáiríre.

Nuair a bhí samhail againn a bhí oilte ar shonraí dí-dhúblaithe, rinneamar an cuardach athghiniúna arís a rinneamar cheana féin ar 50k leid ón tacar sonraí oiliúna. Fuaireamar amach nár athghin an tsamhail nua íomhá oiliúna riamh nuair a tugadh an leid bheacht di don íomhá ón tacar sonraí oiliúna. Chun an tástáil seo a thabhairt céim eile níos faide, rinneamar cuardach na gcomharsan is gaire freisin ar an tacar sonraí oiliúna iomlán do gach ceann de na 50k íomhá ginte. Ar an mbealach seo, cheapamar go bhféadfaimis an tsamhail a ghabháil ag athghiniúint íomhá eile seachas an ceann a bhaineann le leid ar leith. Fiú leis an seiceáil níos críochnúla seo, ní bhfuaireamar cás d’athghiniúint íomhá riamh.

Na chéad chéimeanna eile

Cé go léiríonn na maoluithe uile a pléadh thuas dul chun cinn suntasach i dtreo ár sprice na rioscaí a bhaineann le DALL·E 2 a laghdú, tá spás fós ag gach maolú le feabhsú:

D’fhéadfadh scagairí réamh-oiliúna níos fearr ligean dúinn DALL·E 2 a oiliúint ar níos mó sonraí agus b’fhéidir an claonadh sa tsamhail a laghdú a thuilleadh. Tá ár scagairí reatha tiúnáilte do ráta íseal caillte ar chostas go leor dearfacha bréagacha. Mar thoradh air sin, rinneamar timpeall 5% dár dtacar sonraí iomlán a scagadh amach cé nach sáraíonn formhór na n-íomhánna scagtha seo ár mbeartas ábhair ar chor ar bith. D’fhéadfadh feabhsú ár scagairí ligean dúinn cuid de na sonraí oiliúna seo a aisghabháil.
Tugtar claonadh isteach agus d’fhéadfadh sé a mhéadú ag go leor céimeanna d’fhorbairt agus d’imscaradh córas. Is fadhb thábhachtach idirdhisciplíneach í measúnú agus maolú claontachta i gcórais cosúil le DALL·E 2 agus an díobháil a eascraíonn as an gclaonadh seo, agus leanaimid orainn ag déanamh staidéir uirthi ag OpenAI mar chuid dár misean níos leithne. Áirítear inár gcuid oibre air seo measúnuithe a thógáil chun an fhadhb a thuiscint níos fearr, tacair sonraí nua a choimeád, agus teicnící cosúil le haiseolas daonna agus mionchoigeartú a chur i bhfeidhm chun teicneolaíochtaí níos láidre agus níos ionadaí a thógáil.
Tá sé ríthábhachtach freisin go leanfaimid orainn ag déanamh staidéir ar mheabhrú agus ar ghinearálú i gcórais domhainfhoghlama. Cé gur chéad chéim mhaith í an dí-dhúbailt i dtreo meabhrú a chosc, ní insíonn sí dúinn gach rud is féidir a fhoghlaim faoi cén fáth nó conas a mheabhraíonn samhlacha cosúil le DALL·E 2 sonraí oiliúna.

Fonótaí

Nuair a pharaiméadaímid P(unfiltered|image) mar sigmoid(f(x)), is é exp(f(x)) an meáchan ansin. Is féidir é seo a dhíorthú ag úsáid shainmhíniú an tsigmóid:

$1/(1+e^−f(x))/(1−1/(1+e^−f(x)))$ $= 1/(1+e^{-f(x)}) / ((1+e^{-f(x)} - 1)/(1+e^{-f(x)}))$ $= 1/(1+e^{-f(x)}) / ((e^{-f(x)})/(1+e^{-f(x)}))$ $= (1+e^-f(x))/(1+e^-f(x)) / (e^-f(x))$ $= 1 / (e^{-f(x)}) = e^{f(x)}$

B
Chun é seo a bhaint amach, is féidir linn veicteoir gnéithe $v_i$ a ríomh do gach íomhá oiliúna $i$ , agus ansin gach íomhá $j$ a bhaint sa chás go bhfuil $i < j$ ann agus $||v_i - v_j||$ <threshold. Chun an fhadhb seo a réiteach go naive, bheadh orainn gach fad péireach $||v_i - v_j||$ a ríomh, tasc a scálaíonn go cearnógach le méid ár dtacair sonraí.
C
Má sheasann $K$ do líon na gcnuasach agus $N$ do mhéid an tacair sonraí, ní theastaíonn ón gcur chuige seo ach $O(K*(N/K)^2) = O(N^2/K)$ ríomh faid phéireacha, seachas an $O(N^2)$ iomlán. Idir an dá linn, tá ráthaíocht againn fós nach mbeidh níos mó ná $K$ beagnach-dhúblach ag aon íomhá sa chás is measa is féidir.