一貫性モデル学習技術の改良

一貫性モデルは、敵対的学習の必要なしに、１ステップで高品質データのサンプリングが可能な新規の生成モデルファミリーです。現在、一貫性モデルの最適なサンプル品質は、事前学習拡散モデルからの蒸留および学習済み指標（LPIPS など）の利用によって達成されています。しかし、蒸留では一貫性モデルの品質が事前学習拡散モデルの品質に制限され、LPIPS は評価において望ましくないバイアスを生じさせます。この課題に対処するため、蒸留なしに一貫性モデルが直接的にデータから学習するように改良された一貫性学習技術についてご紹介します。私たちは一貫性学習の根拠である理論を掘り下げ、これまで見過ごされていた欠点を特定し、その対処として教師一貫性モデルから指数移動平均を取り除きました。そして LPIPS のような学習済み指標の代わりとして、ロバスト統計からの擬似フーバー損失を利用しました。さらに、一貫性学習目的に対数正規ノイズスケジュールを導入し、学習に対して設定された反復回数ごとに、全離散化ステップを2倍にすることにしました。この変更が施され、優れたハイパーパラメータチューニングと組み合わされた一貫性モデルは、1回のサンプリングステップで CIFAR-10 と ImageNet 64×64 において、それぞれ2.51と3.25という FID スコアを出しました。これらのスコアは、以前の一貫性学習アプローチと比較して3.5倍と4倍の改善になっています。上述の2データセットにおける FID スコアは、2ステップのサンプリングでは2.24と2.77に下げることができました。こうして1ステップと2ステップの両方の設定において、蒸留の場合より優れるスコアを出し、一貫性モデルと他の最先端の生成モデルとの間のギャップが縮まる結果となりました。

一貫性モデル学習技術の改良

著者