CLIP латенттай шаталсан текст-нөхцөлт зураг үүсгэх

CLIP шиг контрастив загварууд нь утга агуулга болон хэв маягийг хоёуланг нь тусгасан, дүрсний бат бөх дүрслэлийг сурдаг нь харагдсан. Эдгээр дүрслэлийг зураг үүсгэхэд ашиглахын тулд бид хоёр үе шаттай загвар санал болгож байна: текст тайлбараас CLIP дүрсний эмбеддинг үүсгэдэг prior, мөн тухайн дүрсний эмбеддингээр нөхцөлдсөн зураг үүсгэдэг декодер. Дүрсний дүрслэлийг ил тод үүсгэх нь фото бодит байдал болон тайлбартай төстэй байдлыг маш бага алдагдуулан, зургийн олон янз байдлыг сайжруулдгийг бид харуулж байна. Дүрсний дүрслэлээр нөхцөлдсөн манай декодерууд мөн дүрсний дүрслэлд байхгүй, чухал бус дэлгэрэнгүйг өөрчилсөн ч утга агуулга, хэв маягийг нь хадгалсан нэг зургийн хувилбаруудыг гаргаж чадна. Цаашилбал, CLIP-ийн хамтарсан эмбеддингийн орон зай нь тэг оролдлого хэлбэрээр хэлээр чиглүүлсэн зураг засварыг боломжтой болгодог. Бид декодерт диффуз загвар ашиглаж, prior-д авторегресс болон диффуз загваруудыг хоёуланг нь туршсан бөгөөд сүүлийнх нь тооцооллын хувьд илүү үр ашигтай, илүү чанартай жишээ гаргадагийг тогтоосон.

CLIP латенттай шаталсан текст-нөхцөлт зураг үүсгэх

Хураангуй

Зохиогчид

Холбоотой нийтлэлүүд