2021 ജനുവരി 5

DALL·E: ടെക്സ്റ്റിൽ നിന്ന് ചിത്രങ്ങൾ സൃഷ്ടിക്കുക

ഞങ്ങൾ DALL·E എന്ന ഒരു ന്യൂറൽ നെറ്റ്‌വർക്ക് പരിശീലിപ്പിച്ചിരിക്കുന്നു, ഇത് സ്വാഭാവിക ഭാഷയിൽ പ്രകടിപ്പിക്കാവുന്ന വിവിധ ആശയങ്ങൾക്കായി ടെക്സ്റ്റ് ക്യാപ്ഷനുകളിൽ നിന്ന് ചിത്രങ്ങൾ സൃഷ്ടിക്കുന്നു.

ചിത്രീകരണം: Justin Jay Wang

ലോഡിംഗ്…

DALL·E ഒരു 12-ബില്യൺ പാരാമീറ്റർ പതിപ്പാണ്, GPT‑3⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിച്ച് ടെക്സ്റ്റ് വിവരണങ്ങളിൽ നിന്ന് ചിത്രങ്ങൾ സൃഷ്ടിക്കാൻ പരിശീലനം ലഭിച്ചിരിക്കുന്നു, ടെക്സ്റ്റ്-ചിത്രം ജോഡികളുടെ ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച്. ഞങ്ങൾ കണ്ടെത്തിയതനുസരിച്ച്, ഇതിന് വൈവിധ്യമാർന്ന കഴിവുകൾ ഉണ്ട്, അതിൽ മൃഗങ്ങളുടെയും വസ്തുക്കളുടെയും മനുഷ്യരൂപത്തിലുള്ള പതിപ്പുകൾ സൃഷ്ടിക്കൽ, ബന്ധമില്ലാത്ത ആശയങ്ങളെ വിശ്വസനീയമായ രീതിയിൽ സംയോജിപ്പിക്കൽ, ടെക്സ്റ്റ് റെൻഡർ ചെയ്യൽ, നിലവിലുള്ള ചിത്രങ്ങളിൽ പരിവർത്തനങ്ങൾ പ്രയോഗിക്കൽ എന്നിവ ഉൾപ്പെടുന്നു.

കൂടാതെ കാണുക: DALL·E 2⁠, 4x ഉയർന്ന റെസല്യൂഷനിൽ കൂടുതൽ യാഥാർത്ഥ്യവും കൃത്യവുമായ ചിത്രങ്ങൾ സൃഷ്ടിക്കുന്നതാണ്.

ലോഡിംഗ്...

GPT‑3 ഭാഷ ഉപയോഗിച്ച് ഒരു വലിയ ന്യൂറൽ നെറ്റ്‌വർക്ക് വിവിധ ടെക്സ്റ്റ് ജനറേഷൻ ടാസ്കുകൾ നിർവഹിക്കാൻ നിർദ്ദേശിക്കാനാകുമെന്ന് കാണിച്ചു. Image GPT⁠ എന്നത് അതേ തരം ന്യൂറൽ നെറ്റ്‌വർക്ക് ഉപയോഗിച്ച് ഉയർന്ന വിശ്വസ്തതയുള്ള ചിത്രങ്ങൾ സൃഷ്ടിക്കാനാകുമെന്ന് കാണിച്ചു. ഭാഷയിലൂടെ ദൃശ്യ സങ്കല്പങ്ങളെ കൈകാര്യം ചെയ്യാൻ കഴിയുന്നുവെന്ന് കാണിക്കാൻ ഈ കണ്ടെത്തലുകൾ ഞങ്ങൾ വിപുലീകരിക്കുന്നു.

അവലോകനം

GPT‑3 പോലെ, DALL·E ഒരു ട്രാൻസ്ഫോർമർ ഭാഷാ മോഡലാണ്. ഇത് ടെക്സ്റ്റും ചിത്രവും 1280 വരെ token അടങ്ങിയ ഒരു ഡാറ്റാ സ്ട്രീമായി സ്വീകരിക്കുകയും, പരമാവധി സാധ്യത ഉപയോഗിച്ച് എല്ലാ tokens ഒന്നിന് ശേഷം ഒന്നായി സൃഷ്ടിക്കുന്നതിന് പരിശീലിപ്പിക്കുകയും ചെയ്യുന്നു. ^A

ഈ പരിശീലനം നടപടിക്രമം DALL·E-നെ ഒരു ചിത്രം പൂർണ്ണമായും സൃഷ്ടിക്കാൻ മാത്രമല്ല, നിലവിലുള്ള ചിത്രത്തിന്റെ ഏതെങ്കിലും ചതുരാകൃതിയിലുള്ള പ്രദേശം, ടെക്സ്റ്റ് പ്രോംപ്റ്റുമായി പൊരുത്തപ്പെടുന്ന രീതിയിൽ, വലതുകൈയിലുള്ള താഴെക്കോണിലേക്ക് വ്യാപിപ്പിക്കുന്നതിനും പുനഃസൃഷ്ടിക്കാൻ അനുവദിക്കുന്നു.

ജനറേറ്റീവ് മോഡലുകൾ ഉൾപ്പെടുന്ന പ്രവർത്തനങ്ങൾക്ക് ഗണ്യമായ, വിശാലമായ സാമൂഹിക പ്രത്യാഘാതങ്ങൾ ഉണ്ടാകാനുള്ള സാധ്യതയുണ്ടെന്ന് ഞങ്ങൾ അംഗീകരിക്കുന്നു. ഭാവിയിൽ, DALL·E പോലുള്ള മോഡലുകൾക്ക് ചില ജോലിപ്രക്രിയകളിലും തൊഴിൽ മേഖലകളിലും സാമ്പത്തിക സ്വാധീനം പോലുള്ള സാമൂഹിക പ്രശ്നങ്ങളുമായി എങ്ങനെ ബന്ധമുണ്ടെന്ന്, മോഡൽ ഔട്ട്പുട്ടുകളിൽ പക്ഷപാതത്തിന്റെ സാധ്യത, ഈ സാങ്കേതികവിദ്യ സൂചിപ്പിക്കുന്ന ദീർഘകാല നൈതിക വെല്ലുവിളികൾ എന്നിവയെക്കുറിച്ച് ഞങ്ങൾ വിശകലനം ചെയ്യാനുള്ള പദ്ധതി ഉണ്ട്.

കഴിവുകൾ

ഞങ്ങൾ കണ്ടെത്തുന്നു DALL·E ഭാഷയുടെ രചനാപരമായ ഘടനകൾ കണ്ടെത്തുന്ന വിവിധ വാക്യങ്ങൾക്കായി വിശ്വസനീയമായ ചിത്രങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയും. അടുത്തത് സെക്ഷനിൽ, ഞങ്ങൾ ഇന്ററാക്ടീവ് ദൃശ്യങ്ങളുടെ ഒരു പരമ്പര ഉപയോഗിച്ച് ഇത് വിശദീകരിക്കുന്നു. ദൃശ്യങ്ങളിലെ ഓരോ അടിക്കുറിപ്പിനും കാണിക്കുന്ന സാമ്പിളുകൾ CLIP⁠ ഉപയോഗിച്ച് പുനർക്രമീകരിച്ചതിന് ശേഷം 512 ൽ നിന്ന് മുകളിൽ 32 എടുത്താണ് ലഭിക്കുന്നത്, എന്നാൽ പുറത്ത് പ്രത്യക്ഷപ്പെടുന്ന തമ്പ്‌നെയിലുകളും സ്വതന്ത്ര ചിത്രങ്ങളും ഒഴികെ, ഞങ്ങൾ യാതൊരു മാനുവൽ തിരഞ്ഞെടുത്തതും ഉപയോഗിക്കുന്നില്ല.^B

ഗുണങ്ങൾ നിയന്ത്രിക്കൽ

ഒരു വസ്തുവിന്റെ നിരവധി ഗുണങ്ങളും അത് പ്രത്യക്ഷപ്പെടുന്ന തവണകളുടെ എണ്ണവും മാറ്റാനുള്ള DALL·Eയുടെ കഴിവ് ഞങ്ങൾ പരീക്ഷിക്കുന്നു.

ലോഡിംഗ്...

ഒന്നിലധികം വസ്തുക്കൾ വരയ്ക്കൽ

ഒന്നിലധികം വസ്തുക്കളെയും അവയുടെ ഗുണങ്ങളെയും അവയുടെ സ്ഥിതിവിവര ബന്ധങ്ങളെയും ഒരേസമയം നിയന്ത്രിക്കുന്നത് ഒരു പുതിയ വെല്ലുവിളിയാണ്. ഉദാഹരണത്തിന്, "ചുവപ്പ് തൊപ്പി, മഞ്ഞ കയ്യുറകൾ, നീല ഷർട്ട്, പച്ച പാന്റ്സ് ധരിച്ചിരിക്കുന്ന ഒരു ഹെഡ്ജ്ഹോഗ്" എന്ന വാചകം പരിഗണിക്കുക. ഈ വാചകം ശരിയായി വ്യാഖ്യാനിക്കാൻ, DALL·E മൃഗത്തോടൊപ്പം ഓരോ വസ്ത്രവും ശരിയായി ഘടിപ്പിക്കേണ്ടതിന് മാത്രമല്ല, (തൊപ്പി, ചുവപ്പ്), (കയ്യുറകൾ, മഞ്ഞ), (ഷർട്ട്, നീല), (പാന്റ്സ്, പച്ച) എന്നിങ്ങനെ അവയെ പരസ്പരം കലർത്താതെ ബന്ധിപ്പിക്കാനും കഴിവുള്ളവനാകണം ^C

ഞങ്ങൾ DALL·Eയുടെ ബന്ധപദവിയും, വസ്തുക്കളുടെ കെട്ടിയിടലും, നിരവധി ഗുണങ്ങളുടെ നിയന്ത്രണവും ചെയ്യാനുള്ള കഴിവ് പരിശോധിക്കുന്നു.

ലോഡിംഗ്...

DALL·E ചെറിയ എണ്ണം വസ്തുക്കളുടെ ഗുണങ്ങളും സ്ഥാനങ്ങളും നിയന്ത്രിക്കുന്നതിൽ ചിലതരം നിയന്ത്രണശേഷി നൽകുന്നുവെങ്കിലും, അടിക്കുറിപ്പ് എങ്ങനെ രൂപകൽപ്പന ചെയ്യപ്പെടുന്നു എന്നതിനെ ആശ്രയിച്ചാണ് വിജയനിരക്ക്. കൂടുതൽ വസ്തുക്കൾ പരിചയപ്പെടുത്തുമ്പോൾ, DALL·E വസ്തുക്കളും അവയുടെ നിറങ്ങളും തമ്മിലുള്ള ബന്ധങ്ങൾ കുഴപ്പപ്പെടാൻ സാധ്യതയുള്ളതിനാൽ വിജയനിരക്ക് കുത്തനെ കുറയുന്നു. ഈ സാഹചര്യങ്ങളിൽ അടിക്കുറിപ്പ് പുനർരചനയോടുള്ള DALL·E ന്റെ ഭംഗി കുറവാണെന്ന് ഞങ്ങൾ ശ്രദ്ധിക്കുന്നു: പകരം, അർത്ഥപരമായി സമാനമായ അടിക്കുറിപ്പുകൾ പലപ്പോഴും ശരിയായ വ്യാഖ്യാനങ്ങൾ നൽകുന്നില്ല.

ദൃശ്യവൽക്കരണം, കാഴ്ചപ്പാട്, മൂന്നു-മാനത

DALL·E ഒരു രംഗത്തിന്റെ കാഴ്ചപ്പാട് നിയന്ത്രിക്കാനും ഒരു രംഗം 3D ശൈലിയിൽ റെൻഡർ ചെയ്യാനും അനുവദിക്കുന്നതായും ഞങ്ങൾ കണ്ടെത്തുന്നു.

ലോഡിംഗ്...

ഇത് കൂടുതൽ മുന്നോട്ട് നയിക്കാൻ, സമദൂരത്തിൽ ഉള്ള കോണുകളിൽ നിന്ന് ഓരോ കോണിലും പ്രശസ്ത വ്യക്തിയുടെ തല വീണ്ടും വീണ്ടും വരയ്ക്കാനുള്ള DALL·Eയുടെ കഴിവ് ഞങ്ങൾ പരീക്ഷിക്കുന്നു, കൂടാതെ തിരിയുന്ന തലയുടെ മൃദുവായ അനിമേഷൻ വീണ്ടെടുക്കാൻ കഴിയുമെന്ന് കണ്ടെത്തുന്നു.

ലോഡിംഗ്...

DALL·E ചില തരത്തിലുള്ള ഓപ്റ്റിക്കൽ വികൃതികൾ ദൃശ്യങ്ങളിൽ പ്രയോഗിക്കാൻ കഴിവുള്ളതായി തോന്നുന്നു, "ഫിഷ്ഐ ലെൻസ് കാഴ്ച"യും "ഒരു സ്ഫെറിക്കൽ പനോരമ"യും എന്ന ഓപ്ഷനുകളിൽ നമ്മൾ കാണുന്നു. ഇത് പ്രതിഫലനങ്ങൾ സൃഷ്ടിക്കുന്ന അതിന്റെ കഴിവ് കണ്ടെത്താൻ ഞങ്ങളെ പ്രേരിപ്പിച്ചു.

ലോഡിംഗ്...

ആന്തരികവും ബാഹ്യവുമായ ഘടന ദൃശ്യവൽക്കരിക്കുക

“അങ്ങേയറ്റത്തെ ക്ലോസപ്പ് കാഴ്ച”യും “എക്സ്-റേ” ശൈലിയും ഉള്ള സാമ്പിളുകൾ DALL·E യുടെ ആന്തരിക ഘടന ക്രോസ്-സെക്ഷണൽ കാഴ്ചകളിലൂടെ, പുറം ഘടന മാക്രോ ഫോട്ടോഗ്രാഫുകളിലൂടെ അവതരിപ്പിക്കാനുള്ള കഴിവ് കൂടുതൽ കണ്ടെത്താൻ ഞങ്ങളെ പ്രേരിപ്പിച്ചു.

ലോഡിംഗ്...

സന്ദർഭത്തിന്റെ വിശദാംശങ്ങൾ അനുമാനിക്കുന്നു

ടെക്സ്റ്റ് ചിത്രങ്ങളിലേക്ക് വിവർത്തനം ചെയ്യാനുള്ള ടാസ്ക് പര്യാപ്തമായി നിർവചിക്കപ്പെട്ടിട്ടില്ല: ഒരു ക്യാപ്ഷൻ സാധാരണയായി അനന്തമായ വിശ്വസനീയമായ ചിത്രങ്ങളുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു, അതിനാൽ ചിത്രം വ്യക്തമായി നിർണയിക്കപ്പെടുന്നില്ല. ഉദാഹരണത്തിന്, "സൂര്യോദയ സമയത്ത് ഒരു വയലിൽ ഇരിക്കുന്ന ഒരു കാപ്പിബാരയുടെ പെയിൻ്റിംഗ്" എന്ന അടിക്കുറിപ്പ് പരിഗണിക്കുക. കാപിബാരയുടെ ദിശയെ ആശ്രയിച്ച്, ഒരു നിഴൽ വരയ്ക്കേണ്ടതുണ്ടാകാം, എങ്കിലും ഈ വിശദാംശം വ്യക്തമായി പറയുന്നില്ല. ഞങ്ങൾ മൂന്ന് സാഹചര്യങ്ങളിൽ DALL·E-യുടെ അപൂർണ്ണവിശദീകരണങ്ങൾ പരിഹരിക്കുന്ന കഴിവിനെക്കുറിച്ച് കണ്ടെത്തുന്നു: ശൈലി, സ്ഥലം, സമയം എന്നിവ മാറ്റുക; വ്യത്യസ്ത സാഹചര്യങ്ങളിൽ ഒരേ വസ്തുവിന്റെ ചിത്രം വരയ്ക്കുക; പ്രത്യേക വാചകം എഴുതിയിരിക്കുന്ന ഒരു വസ്തുവിന്റെ ചിത്രം സൃഷ്ടിക്കുക.

ലോഡിംഗ്...

വിശ്വാസ്യതയുടെ വ്യത്യസ്ത അളവുകളിൽ, DALL·E സ്വാഭാവിക ഭാഷയിലൂടെ 3D റെൻഡറിംഗ് എഞ്ചിനിന്റെ കഴിവുകളുടെ ഒരു ഭാഗത്തിലേക്ക് ആക്സസ് നൽകുന്നു. ഇത് സ്വതന്ത്രമായി കുറച്ച് വസ്തുക്കളുടെ ഗുണങ്ങൾ നിയന്ത്രിക്കാനും, അവ എത്രയാണെന്ന്, അവ തമ്മിൽ എങ്ങനെ ക്രമീകരിച്ചിരിക്കുന്നുവെന്ന് പരിമിതമായ നിയന്ത്രിക്കാനും കഴിയും. ഒരു രംഗം റെൻഡർ ചെയ്യപ്പെടുന്ന സ്ഥാനം, കോൺ നിയന്ത്രിക്കാനും, കോണിന്റെയും ലൈറ്റിംഗ് സാഹചര്യങ്ങളുടെയും കൃത്യമായ സവിശേഷതകൾ പാലിച്ച് അറിയപ്പെടുന്ന വസ്തുക്കൾ സൃഷ്ടിക്കാനും ഇതിന് കഴിയും.

3D റെൻഡറിംഗ് എഞ്ചിനിനോട് വ്യത്യസ്തമായി, അതിന്റെ ഇൻപുട്ടുകൾ വ്യക്തമായും പൂർണ്ണമായും വിശദീകരിക്കപ്പെടേണ്ടതുണ്ട്, DALL·E പലപ്പോഴും അടിക്കുറിപ്പിൽ ചിത്രത്തിൽ ഒരു പ്രത്യേക വിശദാംശം ഉൾക്കൊള്ളണം എന്ന് സൂചിപ്പിക്കുമ്പോൾ അത് വ്യക്തമായി പറയാത്തപ്പോഴും "പൂരിപ്പിക്കാൻ" കഴിയും.

മുൻകാല ശേഷികളുടെ ആപ്ലിക്കേഷൻ

അടുത്തത്, ഫാഷൻ, ഇന്റീരിയർ ഡിസൈൻ എന്നിവയ്ക്കായി മുൻപുള്ള കഴിവുകളുടെ ഉപയോഗം ഞങ്ങൾ കണ്ടെത്തുന്നു.

ലോഡിംഗ്...

ബന്ധമില്ലാത്ത ആശയങ്ങളെ സംയോജിപ്പിക്കൽ

ഭാഷയുടെ ഘടനാപരമായ സ്വഭാവം യഥാർത്ഥവും കൽപ്പിതവുമായ കാര്യങ്ങളെ വിവരണം ചെയ്യുന്നതിനായി ആശയങ്ങൾ ഒരുമിച്ച് ചേർക്കാൻ നമ്മെ അനുവദിക്കുന്നു. DALL·E വ്യത്യസ്ത ആശയങ്ങളെ സംയോജിപ്പിച്ച് യഥാർത്ഥ ലോകത്ത് നിലനിൽക്കാൻ സാധ്യതയില്ലാത്ത ചില വസ്തുക്കൾ സൃഷ്ടിക്കാൻ കഴിവുള്ളതും ഞങ്ങൾ കണ്ടെത്തുന്നു. ഈ കഴിവിനെ രണ്ട് സാഹചര്യങ്ങളിൽ കണ്ടെത്തുന്നു: വിവിധ ആശയങ്ങളിൽ നിന്ന് ഗുണങ്ങൾ മൃഗങ്ങളിലേക്ക് ട്രാൻസ്ഫർ ചെയ്യുക, ബന്ധമില്ലാത്ത ആശയങ്ങളിൽ നിന്ന് പ്രചോദനം ഉൾക്കൊണ്ട് ഉൽപ്പന്നങ്ങൾ രൂപകൽപ്പന ചെയ്യുക.

ലോഡിംഗ്...

മൃഗങ്ങളുടെ ചിത്രീകരണങ്ങൾ

മുൻവശത്തെ വിഭാഗത്തിൽ, യഥാർത്ഥ ലോക വസ്തുക്കളുടെ ചിത്രങ്ങൾ സൃഷ്ടിക്കുമ്പോൾ ബന്ധമില്ലാത്ത ആശയങ്ങളെ സംയോജിപ്പിക്കുന്ന DALL·E-യുടെ കഴിവിനെക്കുറിച്ച് ഞങ്ങൾ കണ്ടെത്തി. ഇവിടെ, ഞങ്ങൾ ഈ കഴിവിനെ കലയുടെ സന്ദർഭത്തിൽ കണ്ടെത്തുന്നു, മൂന്ന് തരത്തിലുള്ള ചിത്രീകരണങ്ങൾക്കായി: മനുഷ്യരൂപം നൽകിയ മൃഗങ്ങളും വസ്തുക്കളും, മൃഗ ചിമേരാസുകൾ, ഇമോജികൾ.

ലോഡിംഗ്...

സീറോ-ഷോട്ട് ദൃശ്യ ചിന്തനം

GPT‑3 ഒരു വിവരണത്തിൽ നിന്നും അതിൻ്റെ പ്രോംപ്റ്റിൽ നൽകിയ ഉത്തരം സൃഷ്ടിക്കുന്നതിനുള്ള ഒരു ക്യൂവിൽ നിന്നും മാത്രം, അധിക പരിശീലനമൊന്നും കൂടാതെ തന്നെ പല തരത്തിലുള്ള ജോലികൾ ചെയ്യാൻ നിർദ്ദേശിക്കാവുന്നതാണ്. ഉദാഹരണത്തിന്, “ഇവിടെ ‘ഒരു വ്യക്തി തന്റെ നായയെ പാർക്കിൽ നടക്കുന്നു’ എന്ന വാചകം ഫ്രഞ്ചിലേക്ക് വിവർത്തനം ചെയ്തിരിക്കുന്നു:” എന്ന പ്രോംപ്റ്റ് നൽകിയപ്പോൾ, GPT‑3 “un homme qui promène son chien dans le parc.” എന്ന് ഉത്തരം നൽകുന്നു. ഈ കഴിവ് zero-shot reasoning എന്ന് വിളിക്കപ്പെടുന്നു. DALL·E ഈ കഴിവ് ദൃശ്യ മേഖലയിൽ വ്യാപിപ്പിക്കുന്നതും, ശരിയായ പ്രോംപ്റ്റ് നൽകിയാൽ പല തരത്തിലുള്ള ചിത്രം-ചിത്രം വിവർത്തന ടാസ്കുകൾ നിർവഹിക്കുന്നതും ഞങ്ങൾ കണ്ടെത്തുന്നു.

ലോഡിംഗ്...

ഈ കഴിവ് ഉദ്ഭവിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിച്ചിരുന്നില്ല, അതിനാൽ അത് പ്രോത്സാഹിപ്പിക്കാൻ ന്യൂറൽ നെറ്റ്‌വർക്ക് അല്ലെങ്കിൽ പരിശീലന നടപടിക്രമത്തിൽ മാറ്റങ്ങൾ വരുത്തിയിട്ടില്ല. ഈ ഫലങ്ങൾ പ്രചോദനമാക്കി, 20-ആം നൂറ്റാണ്ടിൽ വ്യാപകമായി ഉപയോഗിച്ചിരുന്ന ദൃശ്യ IQ ടെസ്റ്റായ റേവന്റെ പ്രോഗ്രസീവ് മാട്രിസുകളിൽ പരീക്ഷണം നടത്തിക്കൊണ്ട്, അനലജിക്കൽ റീസണിംഗ് പ്രശ്നങ്ങളിൽ DALL·Eയുടെ കഴിവ് അളക്കുന്നു.

ലോഡിംഗ്...

ഭൂമിശാസ്ത്രപരമായ അറിവ്

DALL·E ഭൂമിശാസ്ത്രപരമായ വസ്തുതകൾ, സ്മാരകങ്ങൾ, പ്രദേശങ്ങൾ എന്നിവയെക്കുറിച്ച് പഠിച്ചിട്ടുണ്ടെന്ന് ഞങ്ങൾ കണ്ടെത്തുന്നു. ഈ ആശയങ്ങളിലെ അതിന്റെ അറിവ് ചില രീതികളിൽ അത്ഭുതകരമായി കൃത്യമാണ്, എന്നാൽ മറ്റു ചിലതിൽ പിഴവുകളുണ്ട്.

ലോഡിംഗ്...

കാലിക അറിവ്

സ്ഥലത്തെ ആശ്രയിച്ച് വ്യത്യാസപ്പെടുന്ന ആശയങ്ങളുടെ അറിവ് DALL·E-യുടെ കണ്ടെത്തലിന് പുറമെ, കാലത്തെ ആശ്രയിച്ച് വ്യത്യാസപ്പെടുന്ന ആശയങ്ങളുടെ അറിവും ഞങ്ങൾ കണ്ടെത്തുന്നു.

ലോഡിംഗ്...

സമീപനവും മുൻഗാമി പ്രവർത്തനവും സംബന്ധിച്ച സംഗ്രഹം

DALL·E ഒരു ലളിതമായ ഡികോഡർ-1280 ടോക്കണുകളുടെ ഒരൊറ്റ സ്ട്രീം ആയി ടെക്സ്റ്റും ചിത്രവും സ്വീകരിക്കുന്ന ഒരേയൊരു ട്രാൻസ്ഫോർമർ—ടെക്സ്റ്റിന് 256 ഉം ചിത്രത്തിന് 1024 ഉം—എന്നും അവയെല്ലാം ഓട്ടോറെഗ്രസ്സീവ് ആയി മോഡൽ ചെയ്യുന്നു. 64 സ്വയം-ശ്രദ്ധ പാളികളിൽ ഓരോന്നിലും ഉള്ള ശ്രദ്ധ മാസ്ക് ഓരോ ചിത്ര token നും എല്ലാ ടെക്സ്റ്റ് token കളോടും ശ്രദ്ധ നൽകാൻ അനുവദിക്കുന്നു. DALL·E ടെക്സ്റ്റ് ടോക്കണുകൾക്കായി സ്റ്റാൻഡേർഡ് കാരണ മാസ്ക് ഉപയോഗിക്കുന്നു, ചിത്രം ടോക്കണുകൾക്കായി പാളി, നിര, അല്ലെങ്കിൽ കോൺവല്യൂഷണൽ ശ്രദ്ധ പാറ്റേൺ ആശ്രയിച്ച് വിരളമായ ശ്രദ്ധ ഉപയോഗിക്കുന്നു. ഞങ്ങൾ പേപ്പറിൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) വാസ്തുവിദ്യയും പരിശീലന നടപടിക്രമവും കുറിച്ച് കൂടുതൽ വിശദാംശങ്ങൾ നൽകുന്നു.

ടെക്സ്റ്റ്-ടു-ചിത്രം സിന്തസിസ് റീഡ് മുതലായവരുടെ മുൻനിര പ്രവർത്തനത്തിൽ നിന്ന് ഗവേഷണത്തിന്റെ സജീവ മേഖലയായി തുടരുന്നു. അൽ, ¹ അവരുടെ സമീപനം ടെക്സ്റ്റ് എംബെഡ്ഡിംഗുകളെ അടിസ്ഥാനമാക്കിയുള്ള GAN ഉപയോഗിക്കുന്നു. എൻകോഡർ ഒരു കോൺട്രാസ്റ്റീവ് ലോസ് ഉപയോഗിച്ച് പ്രീട്രെയിൻ ചെയ്തതിലൂടെ ഉത്പാദിപ്പിക്കുന്ന എംബെഡിംഗുകൾ CLIP പോലെയാണ്. StackGAN³ ഉം StackGAN++⁴ ഉം മൾട്ടി-സ്കെയിൽ GAN-കൾ ഉപയോഗിച്ച് ചിത്രത്തിന്റെ റെസല്യൂഷൻ ഉയർത്തുകയും ദൃശ്യ വിശ്വസ്തത മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു. AttnGAN⁵ ടെക്സ്റ്റ്, ചിത്രം ഫീച്ചറുകൾ തമ്മിലുള്ള ശ്രദ്ധ ഉൾക്കൊള്ളുന്നു, കൂടാതെ സഹായക ലക്ഷ്യമായി വ്യത്യസ്ത ടെക്സ്റ്റ്-ചിത്രം ഫീച്ചർ മാച്ചിംഗ് നഷ്ടം നിർദ്ദേശിക്കുന്നു. ഇത് ഞങ്ങളുടെ CLIP ഉപയോഗിച്ചുള്ള റീരാങ്കിംഗുമായി താരതമ്യം ചെയ്യുന്നത് രസകരമാണ്, ഇത് ഓഫ്‌ലൈൻ ആയി നടത്തപ്പെടുന്നു. മറ്റു പ്രവർത്തനങ്ങൾ പരിശീലനത്തിനിടെ ചിത്രത്തിന്റെ ഗുണനിലവാരം മെച്ചപ്പെടുത്താൻ അധിക മേൽനോട്ടത്തിന്റെ ഉറവിടങ്ങൾ ഉൾക്കൊള്ളുന്നു. ^{2, 6, 7} ഒടുവിൽ, Nguyen മുതലായവരുടെ പ്രവർത്തനം. al⁸ മറ്റും Cho et. al⁹ മുൻകൂട്ടി പരിശീലനം നൽകിയ മൾട്ടിമോഡൽ വിവേചന മോഡലുകൾ പ്രയോജനപ്പെടുത്തി ചിത്രങ്ങളുടെ സൃഷ്ടിക്കായി സാമ്പിളിംഗ് അടിസ്ഥാനമാക്കിയ തന്ത്രങ്ങൾ കണ്ടെത്തുന്നു.

VQVAE-2⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ ഉപയോഗിക്കുന്ന നിരാകരണ സാമ്പിളിംഗ് പോലെയാണ്, ഞങ്ങൾ CLIP⁠ ഉപയോഗിച്ച് എല്ലാ ഇന്ററാക്ടീവ് ദൃശ്യങ്ങളിലെ ഓരോ ക്യാപ്ഷനിനും 512 സാമ്പിളുകളിൽ നിന്ന് മുകളിൽ 32 എണ്ണം പുനഃക്രമീകരിക്കുന്നു. ഈ പ്രക്രിയയെ ഭാഷാ-നിർദ്ദേശിതമായ ഒരു തിരച്ചിൽ¹¹⁶ എന്ന നിലയിലും കാണാം, ഇത് സാമ്പിളിന്റെ ഗുണനിലവാരത്തിൽ ഗണ്യമായ സ്വാധീനം ചെലുത്താം.

ലോഡിംഗ്...

അടിക്കുറിപ്പുകൾ

A
ഒരു token എന്നത് വ്യത്യസ്തമായ ഒരു വാക്കുകളുടെ ശേഖരത്തിൽ നിന്നുള്ള ഏതെങ്കിലും ചിഹ്നമാണ്; മനുഷ്യർക്കായി, ഓരോ ഇംഗ്ലീഷ് അക്ഷരവും 26-അക്ഷര അക്ഷരമാലയിൽ നിന്നുള്ള ഒരു token ആണ്. DALL·E-യുടെ വാക്കുകൾക്ക് ടെക്സ്റ്റ് ആശയങ്ങൾക്കും ചിത്രം ആശയങ്ങൾക്കും token ഉണ്ട്. പ്രത്യേകിച്ച്, ഓരോ ചിത്രത്തിന്റെ ക്യാപ്ഷനും പരമാവധി 256 BPE-എൻകോഡുചെയ്ത tokenകൾ ഉപയോഗിച്ച് 16384 വാക്കുകളുടെ വാക്കുപ്രയോഗ വലുപ്പത്തിൽ പ്രതിനിധീകരിക്കുന്നു, കൂടാതെ ചിത്രം 8192 വാക്കുകളുടെ വാക്കുപ്രയോഗ വലുപ്പത്തിൽ 1024 tokenകൾ ഉപയോഗിച്ച് പ്രതിനിധീകരിക്കുന്നു.

ചിത്രങ്ങൾ പരിശീലനത്തിനിടെ 256x256 റെസല്യൂഷനിലേക്ക് മുൻകൂട്ടി പ്രോസസ്സ് ചെയ്യപ്പെടുന്നു. VQVAE-നെപ്പോലെ, ഓരോ ചിത്രം ഡിസ്‌ക്രീറ്റ് VAE ഉപയോഗിച്ച് 32x32 ഗ്രിഡ് ഡിസ്‌ക്രീറ്റ് ലാറ്റന്റ് കോഡുകളിലേക്ക് കംപ്രസ് ചെയ്യപ്പെടുന്നു, ഇത് നാം ഒരു തുടർച്ചയായ റിലാക്സേഷൻ ഉപയോഗിച്ച് പ്രീട്രെയിൻ ചെയ്തു. വിശ്രമം ഉപയോഗിച്ച് പരിശീലനം നടത്തുന്നത് വ്യക്തമായ കോഡ്ബുക്ക്, ഇഎംഎ നഷ്ടം, അല്ലെങ്കിൽ മരിച്ച കോഡ് പുനരുജ്ജീവനം പോലുള്ള തന്ത്രങ്ങൾ ആവശ്യമില്ലാതാക്കുകയും വലിയ വാക്കുകളുടെ വലുപ്പത്തിലേക്ക് സ്കെയിൽ ചെയ്യാൻ കഴിയും എന്നതും ഞങ്ങൾ കണ്ടെത്തി.

B
കൂടുതൽ വിശദാംശങ്ങൾ പിന്നീട് വരുന്ന വിഭാഗത്തിൽ⁠ നൽകും.
17
ഈ ടാസ്ക് "വേരിയബിൾ ബൈൻഡിംഗ്" എന്ന് വിളിക്കപ്പെടുന്നു, ഇത് സാഹിത്യത്തിൽ വ്യാപകമായി പഠിക്കപ്പെട്ടിട്ടുണ്ട്.