
CLIP જેવા કોન્ટ્રાસ્ટિવ મોડેલ્સ ઇમેજોના મજબૂત પ્રતિનિધિત્વો શીખે છે, જે અર્થ અને શૈલી બંનેને પકડે છે, એવું દર્શાવવામાં આવ્યું છે. ઇમેજ જનરેશન માટે આ પ્રતિનિધિત્વોનો ઉપયોગ કરવા, અમે બે-ચરણીય મોડલ પ્રસ્તાવિત કરીએ છીએ: એક prior જે ટેક્સ્ટ કૅપ્શન આપેલ હોય ત્યારે CLIP ઇમેજ એમ્બેડિંગ જનરેટ કરે છે, અને એક ડિકોડર જે ઇમેજ એમ્બેડિંગ પર શરતી ઇમેજ જનરેટ કરે છે. અમે બતાવીએ છીએ કે ઇમેજ પ્રતિનિધિત્વોનું સ્પષ્ટ જનરેશન ફોટોરિયલિઝમ અને કૅપ્શન સમાનતામાં ન્યૂનતમ ઘટાડા સાથે ઇમેજ વિવિધતા સુધારે છે. ઇમેજ પ્રતિનિધિત્વો પર શરતી અમારા ડિકોડર્સ ઇમેજના એવા વેરિયેશન્સ પણ બનાવી શકે છે, જે તેનો અર્થ અને શૈલી બંને જાળવે છે, જ્યારે ઇમેજ પ્રતિનિધિત્વમાં ગેરહાજર ગૌણ વિગતોમાં ફેરફાર કરે છે. ઉપરાંત, CLIPનું સંયુક્ત એમ્બેડિંગ સ્પેસ ભાષા-માર્ગદર્શિત ઇમેજ મેનિપ્યુલેશન્સને ઝીરો-શોટ રીતે શક્ય બનાવે છે. અમે ડિકોડર માટે ડિફ્યુઝન મોડેલ્સનો ઉપયોગ કરીએ છીએ અને prior માટે ઓટોરિગ્રેસિવ તથા ડિફ્યુઝન મોડેલ્સ બંને સાથે પ્રયોગ કરીએ છીએ, અને જાણીએ છીએ કે બીજા વધુ ગણતરીક્ષમ અને વધુ ઉચ્ચ-ગુણવત્તાવાળા નમૂનાઓ ઉત્પન્ન કરે છે.


