Generasi gambar hierarkis bersyarat teks nganggo laten CLIP

Model kontrasif kaya CLIP wis kabukten bisa sinau representasi gambar sing tangguh lan nyekel semantik lan gaya. Kanggo nggunakke representasi iki kanggo generasi gambar, kita ngusulake model rong tahap: prior sing ngasilake embedding gambar CLIP adhedhasar caption teks, lan decoder sing ngasilake gambar kanthi syarat embedding gambar kasebut. Kita nuduhake yen ngasilake representasi gambar kanthi eksplisit nambah keragaman gambar kanthi mundhut minimal ing fotorealisme lan kemiripan caption. Decoder kita sing disyaratake dening representasi gambar uga bisa ngasilake variasi saka sawijining gambar sing njaga semantik lan gayane, nalika rincian sing ora penting lan ora ana ing representasi gambar bisa beda-beda. Kajaba iku, ruang embedding gabungan CLIP ndadekake manipulasi gambar sing dipandu basa bisa ditindakake kanthi conto tanpa latihan. Kita nggunakake model difusi kanggo decoder lan nyoba model autoregresif lan model difusi kanggo prior, lan nemokake yen sing pungkasan luwih efisien sacara komputasional lan ngasilake sampel sing luwih bermutu.

Generasi gambar hierarkis bersyarat teks nganggo laten CLIP

Abstrak

Panulis

Artikel terkait