一貫性モデル

拡散モデルは画像や音声、動画の生成という分野を大きく発展させましたが、反復サンプリング処理に依存しているため、生成に時間がかかります。この制約を克服するために、当社は一貫性モデルを提案します。ノイズをデータに直接マッピングすることによって、高品質のサンプルを生成する新しいモデル群です。設計上、高速なワンステップ生成をサポートする一方で、マルチステップサンプリングにより、計算と引き換えにサンプルの品質を高めることができます。また、画像のインペインティング、カラー化、超解像などのゼロショットデータ編集をサポートし、これらのタスクに関する明確な学習を必要としません。一貫性モデルは、事前学習済みの拡散モデルを蒸留するか、完全に独立した生成モデルとして学習させることもできます。徹底した実験を通じて、ワンステップおよび数ステップのサンプリングにおいて、これらは拡散モデルに対する既存の蒸留技術を凌駕することを実証し、ワンステップ生成において、CIFAR-10 で3.55、ImageNet 64x64 で6.20という最先端の FID を達成しました。単独で学習させた場合、一貫性モデルは、CIFAR-10 や ImageNet 64x64、LSUN 256x256 などの標準的なベンチマークにおいて、既存のワンステップの非敵対的生成モデルを凌駕する新しい生成モデル群となります。

一貫性モデル

著者