મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

13 એપ્રિલ, 2022

પ્રકાશન

CLIP લેટન્ટ્સ સાથે સ્તરબદ્ધ લખાણ-શરતી ઇમેજ જનરેશન

CLIP લેટન્ટ્સ સાથે સ્તરબદ્ધ લખાણ-શરતી ઇમેજ જનરેશન
લોડિંગ…

સારાંશ

CLIP જેવા કોન્ટ્રાસ્ટિવ મોડેલ્સ ઇમેજોના મજબૂત પ્રતિનિધિત્વો શીખે છે, જે અર્થ અને શૈલી બંનેને પકડે છે, એવું દર્શાવવામાં આવ્યું છે. ઇમેજ જનરેશન માટે આ પ્રતિનિધિત્વોનો ઉપયોગ કરવા, અમે બે-ચરણીય મોડલ પ્રસ્તાવિત કરીએ છીએ: એક prior જે ટેક્સ્ટ કૅપ્શન આપેલ હોય ત્યારે CLIP ઇમેજ એમ્બેડિંગ જનરેટ કરે છે, અને એક ડિકોડર જે ઇમેજ એમ્બેડિંગ પર શરતી ઇમેજ જનરેટ કરે છે. અમે બતાવીએ છીએ કે ઇમેજ પ્રતિનિધિત્વોનું સ્પષ્ટ જનરેશન ફોટોરિયલિઝમ અને કૅપ્શન સમાનતામાં ન્યૂનતમ ઘટાડા સાથે ઇમેજ વિવિધતા સુધારે છે. ઇમેજ પ્રતિનિધિત્વો પર શરતી અમારા ડિકોડર્સ ઇમેજના એવા વેરિયેશન્સ પણ બનાવી શકે છે, જે તેનો અર્થ અને શૈલી બંને જાળવે છે, જ્યારે ઇમેજ પ્રતિનિધિત્વમાં ગેરહાજર ગૌણ વિગતોમાં ફેરફાર કરે છે. ઉપરાંત, CLIPનું સંયુક્ત એમ્બેડિંગ સ્પેસ ભાષા-માર્ગદર્શિત ઇમેજ મેનિપ્યુલેશન્સને ઝીરો-શોટ રીતે શક્ય બનાવે છે. અમે ડિકોડર માટે ડિફ્યુઝન મોડેલ્સનો ઉપયોગ કરીએ છીએ અને prior માટે ઓટોરિગ્રેસિવ તથા ડિફ્યુઝન મોડેલ્સ બંને સાથે પ્રયોગ કરીએ છીએ, અને જાણીએ છીએ કે બીજા વધુ ગણતરીક્ષમ અને વધુ ઉચ્ચ-ગુણવત્તાવાળા નમૂનાઓ ઉત્પન્ન કરે છે.

લેખકો

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen