
読み込んでいます...
CLIP のような対照モデルは、意味とスタイルの両方を捉える画像のロバストな表現を学習することが示されています。これらの表現を画像生成に活用するために、当社は2段階のモデルを提案します。テキストキャプションが与えられたときに CLIP 画像の埋め込みを生成する事前処理と、画像埋め込みを条件として画像を生成するデコーダーです。当社は、画像表現の明示的な生成が、画像の多様性を向上させ、フォトリアリズムとキャプションの類似性の損失が最小限に抑えられることを明らかにしました。画像表現を条件とする当社のデコーダーは、画像表現にない非本質的な詳細を変化させながら、その意味とスタイルの両方を保持する画像のバリエーションを生成することもできます。さらに、CLIP の結合埋め込み空間は、ゼロショット方式で言語ガイドによる画像操作を可能にします。デコーダーには拡散モデルを使用し、事前処理には自己回帰モデルと拡散モデルの両方を用いて実験した結果、後者のほうが計算効率が高く、より質の高いサンプルを生成することを発見しました。