Point-E:複雑なプロンプトから 3D 点群を生成するシステム

読み込んでいます...
テキスト条件付き 3D オブジェクト生成に関する最近の研究は有望な結果を示しているものの、最先端の手法は基本的に1つのサンプルを生成するために複数の GPU 時間を必要とします。数秒から数分でサンプルを生成する最先端の生成画像モデルとは対照的です。この論文では、単一の GPU で1~2分のうちに 3D モデルを生成する 3D オブジェクト生成の代替手法を検討します。この手法では、まずテキストから画像への拡散モデルを用いて1つの合成ビューを生成し、それから生成された画像に条件を与える第2の拡散モデルを用いて 3D 点群を生成します。これはサンプルの品質という点ではまだ最先端には及ばないものの、サンプル生成速度は1~2桁速く、一定の使用例では実用的な相殺となります。この https の URL(新しいウィンドウで開く) にて、事前学習済みの点群拡散モデル、評価コードおよびモデルを公開します。