2021年1月5日

DALL·E：テキストから画像を生成

テキストキャプションから画像を生成する DALL·E というニューラルネットワークに、自然言語で幅広い概念を表現可能にする学習を実行。

イラストレーション： Justin Jay Wang

読み込んでいます...

DALL·E は、テキスト‐画像ペアのデータセット用いて、テキストの説明文から画像を作り出すように学習させた120億パラメータバージョンの GPT‑3⁠（新しいウィンドウで開く）です。これには動物や物体の擬人化、無関係の概念の妥当な合成、文字のレンダリング、既存画像の変換などの多様な能力を備えていることが明らかになりました。

参照： DALL·E 2⁠ は、解像度を4倍に高め、よりリアルで正確な画像を生成。

読み込み中...

GPT‑3 は、言語を用いて大規模ニューラルネットワークに指示を出すことで、様々な文章の生成タスクの実行が可能であることを示しました。 Image GPT⁠ は、同タイプのニューラルネットワークを用いれば高忠実度の画像生成が可能であることを示しました。これらの成果を経て、現在では言語による視覚的概念の操作が実現可能となりました。

概要

GPT‑3 と同様に、DALL·E も Transformer 言語モデルの1つです。テキストと画像の両方を単一のデータストリームとして最大1280トークンまで受信し、最尤法を使用してすべてのトークンを次々に生成するように学習を行いました。^A

この学習手順により、DALL·E は画像をゼロから生成できるだけでなく、既存の画像中の右下隅に至る矩形領域に対しても、入力テキスト（プロンプト）に一致させて、再生成することも可能です。

私たちは、このような生成モデルを含む作業は重大かつ広範な社会的影響を持つ可能性があることを認識しています。今後は、DALL·E のようなモデルと社会問題（特定の作業プロセスと専門職に対する経済的影響など）との関係、モデルの出力に偏見が含まれる可能性、本技術が暗示する長期的倫理課題との分析を行う予定です。

能力

DALL·E は、言語の構成的構造の検討が行われた多種多様な文章から、妥当性のある画像を生成することができることが分かっています。これについて、次のセクションにおいて一連のインタラクティブな画像を用いて説明します。画像の説明文に対して表示されたサンプル画像には、CLIP⁠ で再ランク付けされた512画像のうちの上位32の画像が表示されていますが、サムネイルと外部に単独表示された画像を除き、人が選び出したものではありません。^B

属性の制御

DALL·E による物体のいくつかの属性の変更および表示回数に対する能力を試験しました。

読み込み中...

複数の物体の描画

複数の物体、それらの属性および空間的関係を同時に制御することは、新たな課題でした。例えば、「赤色の帽子、黄色い手袋、青色のシャツ、緑色のズボンを身に着けているハリネズミ」という文章を考えてみてください。この文を正しく解釈するには、DALL·E はこの動物体に衣服を正しく着せるだけでなく、混同なく関連付け（帽子と赤色）、（手袋と黄色）、（シャツと青色）、（ズボンと緑色）を行わなければなりません。^C

DALL·E のこの能力について、相対的な配置、物体の積み重ね、複数の属性の制御を行わせて試験しました。

読み込み中...

DALL·E には、少数の物体の属性と位置のある程度の制御が可能でしたが、画像の説明文の書き方が成功率に関わる可能性があります。物体が増えると、DALL·E は物体とその色の関連付けを混同してしまう傾向があり、成功率は急激に低下します。また DALL·E は、このような場合における説明文の言い換えに対しても脆弱であることが分かっています。代替の表現、意味的に同じ説明が正しく解釈されるとは限らないのです。

視点の視覚化と立体化

DALL·E は、画像の視点や作成された画像の3D化の制御も可能であることも明らかになりました。

読み込み中...

DALL·E のこの能力をさらに確認する試験として、ある有名人の頭部を等間隔の角度で連続的に描画させたところ、頭部がスムーズに回転するアニメーションが得られることが分かりました。

読み込み中...

DALL·E は、「魚眼レンズビュー」や「球面パノラマ」オプションで見られるように、画像にある種の光学的な歪みを与えることも可能なようでした。このことから、反射画像の生成能力が検討されました。

読み込み中...

内部構造・外部構造の視覚化

「超クローズアップビュー」や「X線」スタイルのサンプルから、さらに内部構造の断面図や外部構造のマクロ写真が DALL·E に生成可能であるかの検討が行われました。

読み込み中...

コンテキスト情報の推測

文章を画像に変換するタスクの指示は不完全で絶対的なものではありません。通常、1つの説明文から生成される妥当性のある画像は無限であり、1つの画像だけに限定されていません。例えば、「日の出の草原に座っているカピバラの絵」という説明文について考えてみてください。カピバラの向きによって、影を描く必要があるかもしれませんが、その情報に対する明確な指示は全くありません。スタイル・設定・時間の変更、様々な状況下における同じ物体の描画、特定の文字が書かれた物体の画像生成という3つの場合における不完全指定の問題を解決する DALL·E の能力を検討しました。

読み込み中...

信頼度の程度は様々でしたが、DALL·E は自然言語を介して3Dレンダリングエンジン機能の一部を提供可能であることを示しました。少数の物体の属性を個々に制御することが可能であり、一定の範囲内では、物体の個数、相対的な配置も制御できます。また、画像生成における位置と角度の制御、および正確な仕様での角度と照明の条件に準拠した既知の物体の生成も可能です。

明確な指定と完全な情報の入力を必要とする3Dレンダリングエンジンと異なり、通常、DALL·E は説明文に明示されていなくでも、画像に絶対に必要な内容が暗示されていれば「コンテキストを読んで対応する」ことができます。

前述の能力の応用

次に、前述の能力をファッションとインテリアデザインに用いてみました。

読み込み中...

無関係の概念の合成

言語の持つ構成的性質は、実在の物と空想上の物を説明するために概念を組み合わせることを可能にします。DALL·E には、様々なアイディアを組み合わせて物体を合成する能力もあり、そうして生成された物には現実世界には存在しそうにないものもあります。この能力の検討は、様々な概念の特性を動物に移転させる、無関係の概念からインスピレーションを得て製品をデザインするという2つの例を用いて行いました。

読み込み中...

動物イラスト

前のセクションでは、現実世界の物体の画像生成において無関係の概念を合成させる DALL·E の能力を検討しました。次に、動物と物体の擬人化、動物のキメラ、絵文字という3種のイラストにおいて、アートの観点における能力を検討しました。

読み込み中...

ゼロショット視覚的リーズニング

GPT‑3 には、追加学習を行うことなく、説明文およびプロンプトに対する回答を生成させるキューのみから多くのタスクを行うように指示することが可能です。例えば、「here is the sentence ‘a person walking his dog in the park’ translated into French:」というプロンプトを入力すると、GPT‑3 は「un homme qui promène son chien dans le parc」と回答します。この能力はゼロショットリーズニングと呼ばれます。 DALL·E では、この能力が視覚の領域に広げられ、適正なプロンプトが行われた場合には、画像から画像への数種類の変換タスクの実行が可能なことが分かりました。

読み込み中...

このような能力の発現を予想していなかったため、それを促進するためのニューラルネットワークや学習手順の変更は行っていませんでした。この成果を受けて、20世紀に広く使用された視覚 IQ テストである「レーヴン漸進的マトリックス」を用いて論理的思考問題に対する DALL·E の能力を測定しました。

読み込み中...

地理的知識

DALL·E は地理的事実、ランドマーク、近隣情報を学習していることが明らかになりました。この概念に関する知識は、驚くほど正確である場合もあれば、そうでない場合もありました。

読み込み中...

時間的知識

空間（地理）ごとに変化する概念に加えて、時間ごとに変化する概念に関する DALL·E の知識についても検討しました。

読み込み中...

アプローチのまとめと従来の研究

DALL·E は、テキストと画像の両方を1280トークン（テキストに256、画像に1024）の単一ストリームとして受信し、そのすべてを自動回帰的にモデル化するデコーダーのみのシンプルな Transformer です。64の Self-Attention 層の各々にある Attention マスクにより、各画像トークンはすべてのテキストトークンに Attention を向けることになります。DALL·E は、テキストトークンには標準的な Causal マスクを使用し、画像トークンには層に応じて、行、列、畳み込み Attention パターンのいずれかで Sparse Attention を使用します。アーキテクチャと学習手順に関する詳しい情報は、こちらの論文⁠（新しいウィンドウで開く）をお読みください。

テキストからの画像生成は、テキスト埋め込みで条件付された GAN を用いるアプローチに関する Reed et al. の先駆的研究¹以来、活発な研究領域となっています。埋め込みは、CLIP と同じように、対比損失を使用して事前トレーニングされたエンコーダーによって生成されます。StackGAN³ および StackGAN++⁴ は、マルチスケール GAN を用いて画像解像度をスケールアップし、視覚的な忠実度を向上させます。AttnGAN⁵ は、テキストと画像の特徴の間に Attention を組み込み、補助的目標としてテキストと画像の対照的特徴マッチング損失が提示されています。これは、私たちが行うオフラインでの CLIP による再ランキングと比較すると興味深いものです。その他の研究^2、6、7は、画質向上のために学習に追加の教師データソースを組み込んでいます。Nguyen et al. の研究⁸および Cho et al. の研究⁹では、事前学習されたマルチモーダル識別モデルを活用する、画像生成のためのサンプリングベースの戦略が検討されています。

VQVAE-2⁠（新しいウィンドウで開く）で用いられている棄却サンプリングと同様に、私たちは CLIP⁠ を用いて、各説明文から生成されたすべてのインタラクティブビジュアル512サンプルのうちの上位32サンプルの再ランク付けしました。この手順は、一種の言語ガイド付き検索¹⁶とも言えるもので、サンプルの質に劇的な影響を及ぼし得ます。

読み込み中...

脚注

A
トークンとは、離散的な語彙に含まれるあらゆる記号のことで、人間にとっては、英語のアルファベット26文字のうちの1文字が1トークンとなります。DALL·E の語彙では、テキストと画像の両方の概念がトークンになります。具体的には、画像の説明文（テキスト）は BPE エンコードされて最大256トークン、語彙サイズ16384で、画像は1024トークン、語彙サイズ8192と表現されます。

画像は、学習の際には解像度256x256に事前処理されます。VQVAE と同様に、各画像を離散 VAE を用いて32x32グリッドの離散潜在コードに圧縮し、連続緩和を用いて事前学習を行った。緩和を用いた学習は、明示的コードブック、EMA 損失、デッドコード復活などのトリックの必要性をなくし、大きな語彙サイズへのスケールアップを可能にすることが明らかになりました。