Үндсэн агуулга руу алгасах
OpenAI

2022 оны дөрөвдүгээр сарын 13

Нийтлэл

CLIP латенттай шаталсан текст-нөхцөлт зураг үүсгэх

CLIP латенттай шаталсан текст-нөхцөлт зураг үүсгэх
Ачаалж байна…

Хураангуй

CLIP шиг контрастив загварууд нь утга агуулга болон хэв маягийг хоёуланг нь тусгасан, дүрсний бат бөх дүрслэлийг сурдаг нь харагдсан. Эдгээр дүрслэлийг зураг үүсгэхэд ашиглахын тулд бид хоёр үе шаттай загвар санал болгож байна: текст тайлбараас CLIP дүрсний эмбеддинг үүсгэдэг prior, мөн тухайн дүрсний эмбеддингээр нөхцөлдсөн зураг үүсгэдэг декодер. Дүрсний дүрслэлийг ил тод үүсгэх нь фото бодит байдал болон тайлбартай төстэй байдлыг маш бага алдагдуулан, зургийн олон янз байдлыг сайжруулдгийг бид харуулж байна. Дүрсний дүрслэлээр нөхцөлдсөн манай декодерууд мөн дүрсний дүрслэлд байхгүй, чухал бус дэлгэрэнгүйг өөрчилсөн ч утга агуулга, хэв маягийг нь хадгалсан нэг зургийн хувилбаруудыг гаргаж чадна. Цаашилбал, CLIP-ийн хамтарсан эмбеддингийн орон зай нь тэг оролдлого хэлбэрээр хэлээр чиглүүлсэн зураг засварыг боломжтой болгодог. Бид декодерт диффуз загвар ашиглаж, prior-д авторегресс болон диффуз загваруудыг хоёуланг нь туршсан бөгөөд сүүлийнх нь тооцооллын хувьд илүү үр ашигтай, илүү чанартай жишээ гаргадагийг тогтоосон.

Зохиогчид

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen