Aqbeż għall-kontenut prinċipali
OpenAI

20 ta’ Ġunju 2024

Pubblikazzjoni

Mudelli ta’ konsistenza

Qed jillowdja…

Il-mudelli ta’ diffużjoni avvanzaw b’mod sinifikanti l-oqsma tal-ġenerazzjoni tal-immaġni, tal-awdjo u tal-vidjo, iżda jiddependu fuq proċess iterattiv ta’ teħid ta’ kampjuni li jwassal għal ġenerazzjoni bil-mod. Biex negħlbu din il-limitazzjoni, nipproponu mudelli ta’ konsistenza, familja ġdida ta’ mudelli li jiġġeneraw kampjuni ta’ kwalità għolja billi jimmappjaw direttament l-istorbju għad-data. Huma jappoġġjaw ġenerazzjoni rapida f’pass wieħed mid-disinn, filwaqt li xorta jippermettu teħid ta’ kampjuni f’diversi passi biex jiġi skambjat il-komputazzjoni mal-kwalità tal-kampjun. Jappoġġjaw ukoll editjar tad-data l-ebda ritratt, bħall-inpainting tal-immaġni, il-kulurizzazzjoni, u s-super-riżoluzzjoni, mingħajr ma jeħtieġu taħriġ espliċitu fuq dawn il-kompiti. Il-mudelli ta’ konsistenza jistgħu jitħarrġu jew billi jiġu distillati minn mudelli ta’ diffużjoni mħarrġa minn qabel, jew bħala mudelli ġenerattivi awtonomi għal kollox. Permezz ta’ esperimenti estensivi, nuru li jegħlbu t-tekniki eżistenti ta’ distillazzjoni għal mudelli ta’ diffużjoni fit-teħid ta’ kampjuni b’pass wieħed u bi ftit passi, u jilħqu l-FID ġdid state-of-the-art ta’ 3.55 fuq CIFAR-10 u 6.20 fuq ImageNet 64x64 għal ġenerazzjoni f’pass wieħed. Meta jitħarrġu b’mod iżolat, il-mudelli ta’ konsistenza jsiru familja ġdida ta’ mudelli ġenerattivi li jistgħu jegħlbu l-mudelli ġenerattivi eżistenti f’pass wieħed u mhux avversarji fuq punti ta’ riferiment standard bħal CIFAR-10, ImageNet 64x64 u LSUN 256x256.

Awturi

Yang Song, Prafulla Dhariwal, Mark Chen, u Ilya Sutskever