Ġenerazzjoni ġerarkika tal-immaġnijiet ikkundizzjonata mit-test b'latenti CLIP

Mudelli kuntrastivi bħal CLIP intwerew li jitgħallmu rappreżentazzjonijiet robusti ta’ immaġnijiet li jaqbdu kemm is-semantika kif ukoll l-istil. Biex nużaw dawn ir-rappreżentazzjonijiet għall-ġenerazzjoni tal-immaġnijiet, nipproponu mudell f’żewġ stadji: prior li jiġġenera embedding ta’ immaġni CLIP mogħti caption tat-test, u decoder li jiġġenera immaġni kkundizzjonata fuq l-embedding tal-immaġni. Nuru li l-ġenerazzjoni espliċita ta’ rappreżentazzjonijiet tal-immaġni ttejjeb id-diversità tal-immaġnijiet b’telf minimu fil-fotorealiżmu u x-xebh mal-caption. Id-decoders tagħna kkundizzjonati fuq rappreżentazzjonijiet tal-immaġni jistgħu wkoll jipproduċu varjazzjonijiet ta’ immaġni li jippreservaw kemm is-semantika kif ukoll l-istil tagħha, filwaqt li jbiddlu d-dettalji mhux essenzjali nieqsa mir-rappreżentazzjoni tal-immaġni. Barra minn hekk, l-ispazju konġunt tal-embedding ta’ CLIP jippermetti manipulazzjonijiet tal-immaġni ggwidati mil-lingwa b’mod l-ebda ritratt. Nużaw mudelli ta’ diffusion għad-decoder u nesperimentaw kemm b’mudelli awtoregressivi kif ukoll ta’ diffusion għall-prior, u nsibu li dawn tal-aħħar huma aktar effiċjenti komputazzjonalment u jipproduċu kampjuni ta’ kwalità ogħla.


