2020年6月17日

画像 GPT

論文を読むコードを見る ICML 2020 Paper (V1)

Illustration: Ben Barry

読み込んでいます...

言語を使って学習する大規模な transformer モデルが辻褄の合った文章を生成できるのと同様に、同じモデルを連続するピクセルを使って学習させることで、辻褄の合った補完⁠画像やサンプル⁠を生成できることが明らかになりました。モデルが生成したサンプルの品質と画像分類精度の相関関係を確率することで、私たちの最良の生成モデルの教師なし学習の設定において、トップレベルの畳み込みニューラルネットワークに匹敵する特徴が含まれていることを示します。

はじめに

教師なし学習と自己教師あり学習、¹または人間がラベル付けしたデータを使用しない学習は、機械学習の長年の課題です。最近では、BERT³、GPT‑2⁴、RoBERTa⁵、T5,⁶、およびその他の種類の transformer² モデル^{7、8、9、10}が様々な言語タスクで最高のパフォーマンスを達成し、自然言語の分野で信じられないほどの成功を収めています。しかし、これらの同様のモデルは画像分類において強力な特徴量を生成することには成功していません。.¹¹私たちの研究は、このギャップを理解し埋めることを目的としています。

BERT や GPT‑2 などの transformer モデルはドメインに依存しないため、任意の形式の1次元シーケンスにも直接適用できます。画像を長い連続したピクセルに展開して GPT‑2 を学習させたところ、（これを iGPT と呼びます）、このモデルは物体の外観やカテゴリなどの2次元画像の特性を理解しているように見えることが分かりました。これは、たとえ人間が提供したラベルによる導きがなくても、モデルが辻褄の合った多様な画像を生成できることから証明されています。さらなる証拠として、このモデルによる特徴は、多数の分類データセットにおいて最高水準のパフォーマンスを発揮し、ImageNet では最高水準に近い教師なし学習の精度^Aを実現しています。

評価	データセット	私たちの結果	iGPT 以外の最良の結果
学習した特徴のロジスティック回帰（線形プローブ）	CIFAR-10	96.3 iGPT‑L 32x32 w/ 1536の特徴	95.3 SimCLR¹²⁠ w/ 8192の特徴
	CIFAR-100	82.8 iGPT‑L 32x32 w/ 1536の特徴	80.2 SimCLR w/ 8192の特徴
	STL-10	95.5 iGPT‑L 32x32 w/ 1536の特徴	94.2 AMDIM¹³⁠ w/ 8192の特徴
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 w/ 15360 の特徴	76.5 SimCLR w/ 8192の特徴
フルファインチューニング	CIFAR-10	99.0 iGPT‑L 32x32, ImageNet で事前学習済み	99.0^b⁠ GPipe,¹⁴⁠ ImageNet で事前学習済み
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

iGPT‑XL については、ImageNet の線形プローブ（linear probe）の精度のみを示しています（他の実験は別のスーパーコンピューティング施設に移行する前に終了しなかったため）。
JFT（18,000クラスの300億枚画像)で学習されたBit-L は、99.3の結果を達成しました。

一般的な教師なし学習アルゴリズムとしての生成^17、18シーケンスモデリング^{19、20、21、22}の可能性を強調するために、私たちは敢えて自然言語処理で使用される GPT‑2 と同じ transformer アーキテクチャを採用しました。その結果、トップ性能の教師なし畳み込みネットワークに匹敵する特徴を生成するためには、大量の計算が必要となりました。.^{13、23、24、25、12}しかし、どのようなモデルが正解なのかわからない新しいドメインに直面した場合、大規模な GPT‑2 モデルがドメイン固有^26、27、28のアーキテクチャ設計の選択を必要とせずとも優れた特徴を学習できることを私達の結果は示しています。

読み込み中...

言語 GPT から画像 GPT へ

言語においては、単語予測に基づく教師なし学習アルゴリズム（GPT‑2 や BERT など）が大きな成功を納めており、さまざまな言語タスクで最高のパフォーマンスを達成しています。この成功の一因としては、文章中に具体的な下流タスクが自然に含まれていることが考えられます。例えば、質問の後に回答が続いたり、文章の後に要約が続いたりすることがよくありますが、これらが質問応答や要約に役立つ可能性があります。対照的に、ピクセルのシーケンスには、それらが属する画像が何であるかを示すラベルは明確に含まれていません。

このように明確な教師情報がなくても、GPT‑2 が画像に対して機能する理由はあります。次に続くピクセルを予測するよう訓練された大規模な transformer は最終的に、はっきりと認識できるオブジェクトを含む多様な^Bサンプルを生成することを学習する可能性があります。いったん学習すると、「合成による分析（Analysis by Synthesis）」^29、30、Cとして知られるアイデアは、モデルがオブジェクトのカテゴリについても学習していることを示唆しています。このアイデアは多くの初期の生成モデル^{31、32、33、34、35、36}に影響を与え、最近では有望なサンプルや特徴を生成した例として BigBiGAN ³⁷というモデルが挙げられます。私たちの研究では、まず、より優れた生成モデルがより強力な分類パフォーマンスを達成することを示します。次に、GPT‑2 を生成機能向けに最適化することで、多くの設定で高い分類パフォーマンスを達成し、「合成による分析」のさらなる証拠を提供します。

一般的な教師なし学習に向けて

生成的シーケンスモデリングは普遍的な教師なし学習アルゴリズムです。すべてのデータ型はバイトのシーケンスとして表すことができるため、追加のエンジニアリング作業なしで transformer をどのようなデータ型にも直接適用できます。私たちの研究では、この汎用性の力を検証するために GPT‑2 の自然言語での学習に使用されたアーキテクチャを画像生成に直接適用しました。私たちは、relative attention³⁹、sparse attention⁴⁰、 2-D position embeddings ²⁷などの手法や畳み込み³⁸など、画像特有の知識を手動でコーディングすることを意図的に避けることを選択しました。

この手法は汎用性があるがゆえに、教師なしで競争力のあるパフォーマンスを達成するためには、大量の計算を必要とします。実際、対照的な手法^{41、42、43、44、45、13、23、24、25、12}は、画像から高品質な特徴量を生成するための最も計算効率の高い方法であると言えます。しかし、教師なし transformer モデルが最高の教師なし畳み込みネットワークに匹敵すると示すことで^24、25、12、手動でコード化されたドメイン知識と計算量がトレードオフできるという証拠を提供します。手動でコード化する知識があまりない新しい領域^46、47では、計算のスケーリングが適切な手法であると考えられます。

アプローチ

ImageNet で、それぞれ7,600万、4億5500万、14億のパラメータを持つ transformer である iGPT‑S、iGPT‑M、および iGPT‑L の学習を行います。また、ImageNet と Web からの画像を組み合わせて、68億のパラメータを持つ transformer である iGPT‑XL ^Dを学習させます。dense attention を用いて長いシーケンスをモデル化するのは計算コストが大きいため、32x32、48x48、64x64の低解像度にして学習させます。

計算コストをさらに削減するために、さらに低い解像度で作業することは魅力的ですが、先行研究では、これ以上解像度を下げると画像分類における人間のパフォーマンスが急激に低下し始めることが示されています。⁴⁸代わりに、初期のカラーディスプレイパレットにヒントを得て、⁴⁹ピクセルを表す独自の9ビットカラーパレットを作成します。このパレットを使用することで、標準的な（R、G、B）パレットと比較して入力シーケンスの長さが1/3に短縮されますが、色は依然として忠実にエンコードされます。

実験結果

モデルのパフォーマンスを評価するために2つの手法を使用し、どちらも下流の分類タスクを含みます。1つ目は線形プローブ（linear probe）と呼ばれる手法で、学習済みモデルを使用して下流データセットの画像から特徴を抽出^Eし、その後ラベルにロジスティック回帰を適合させます。2つ目の手法では、下流データセットにモデル全体をファインチューニング^Fします。

次のピクセル予測は明らかに画像分類と関連がないため、最終レイヤーからの特徴ではオブジェクトのカテゴリを予測する上で最も有効でない可能性があります。最初の結果は特徴量の質が深度に対して急激に増加し、その後は穏やかに減少することを示しています。この動作は transformer を使った生成モデルが2つのフェーズで動作することを示しています。最初のフェーズでは、周囲の情報も含めた画像の特徴を構築するため、各位置で周囲情報を収集します。第2フェーズでは、この周囲の情報を含めた特徴を使用して、条件付きの次のピクセル予測タスクを解決します。線形プローブで観察された2段階のパフォーマンスは、別の教師なしニューラルネットであるボトルネックオートエンコーダに似ており、これは中央部の特徴が使用されるように手動で設計されています。

読み込み中...

次の結果は、生成パフォーマンスと特徴量の質が関連していることを示しています。モデルの規模を拡大したり、より多くの反復学習をしたりすることで生成パフォーマンスが向上し、それが直接的に特徴の質の向上につながることが分かりました。

読み込み中...

CIFAR-10、CIFAR-100、STL-10 で線形プローブを使用して特徴量を評価したところ、すべての教師ありおよび教師なし転送アルゴリズムの特徴を上回る結果を得ました。私たちの結果は、フルファインチューニングを行う設定の条件下でも説得力があります。

			ImageNet で事前学習済み
評価	モデル	精度	教師なし	教師あり
CIFAR-10 線形プローブ	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 線形プローブ	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 線形プローブ	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 ファインチューニング	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 ファインチューニング	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

私たちのモデルと、ImageNet 転送を利用する教師なしまたは教師ありのトップパフォーマンスモデルとの間で、線形プローブおよびファインチューニング精度で比較。また、CIFAR でエンドツーエンドで学習された最高性能モデルである AutoAugment も比較対象に含めます。

ImageNet を使った教師なし学習および自己教師あり学習への関心が再び高まっていることを受けて、ImageNet で線形プローブを使用してモデル性能を評価します。ImageNet の標準的な入力解像度を使って学習しないため、これは特に困難な設定です。それにもかかわらず、48x48画像上で学習された iGPT‑L の最良レイヤーから得られた1536の特徴に対する線形プローブは、65.2％のトップ1精度を達成し、AlexNet を上回っています。

対称的な手法では通常、8192の特徴で最良の結果を得られるため、比較のためには8192の埋め込み次元で iGPT を評価するのが理想的です。しかし、このようなモデルの学習は非常に計算コストがかかるため、代わりに複数のレイヤーからの特徴を連結し、近似とします。残念ながら、私達の特徴はレイヤー間で相関する傾向があるため、競争力を高めるには更に多くの特徴が必要となります。iGPT‑XL の5つのレイヤーから15360の特徴を得ると72.0%のトップ1精度を達成し、AMDIM、MoCo、CPC v2 を上回りますが、SimCLR にはかなりの差で劣っています。

手法	入力解像度	特徴	パラメータ	精度
回転⁵³	オリジナル	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	オリジナル	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	オリジナル	8192	626M	68.1
MoCo²⁴	オリジナル	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	オリジナル	2048	24M	69.3
CPC v2²⁵	オリジナル	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	オリジナル	8192	375M	76.5

私たちのモデルと最先端の自己教師ありモデルとの線形プローブ精度の比較です。私たちの手法はより多くのパラメータと計算を必要としますが、はるかに低い入力解像度で学習しながらも競争力のある性能を達成しています。

BERT のようなマスク言語モデルはほとんどの言語タスクで生成モデルを上回っているため、BERT のパフォーマンスも評価します。次のピクセルをすべての先行するピクセルから予測するよう学習させるのではなく、ピクセルの15%をマスクし、マスクされていないピクセルを使って予測するように学習させます。BERT モデルの線形プローブのパフォーマンスが著しく低いものの、ファインチューニング時には優れていることが分かりました。

読み込み中...

教師なし学習は人間によるラベル付けデータなしで優れた機能を約束しますが、最近では、限られた量の人間によるラベル付けデータを許容する半教師あり学習というより寛容な枠組みの下で大きな進展が見られています。成功している半教師有り学習法は、一貫性の正則化、データ拡張、疑似ラベル付けなどの巧妙な手法に依存することが多く、純粋な生成ベースのアプローチ^54、55は何年も競争力がありませんでした。iGPT‑L ^Gをこのサブフィールドの競合ベンチマークで評価した結果、非拡張画像からの特徴量に対する単純な線形プローブはMean Teacher ⁵⁶や MixMatch ⁵⁷は上回るが、FixMatch ⁵⁹は下回ることが分かりました。

モデル	40ラベル	250ラベル	4000ラベル
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

低いデータの CIFAR-10 でのパフォーマンスの比較。ラベル付けされていない ImageNet 画像を活用することで、iGPT‑L は Mean Teacher や MixMatch などの手法を上回りますが、最先端の手法は下回ります。私たちの半教師あり学習へのアプローチは非常にシンプルです。データ拡張やファインチューニングを行わずに、iGPT‑L の特徴にロジスティック回帰を適合させるだけなので、特別に設計された半教師付きアプローチとは大きく異なります。

存在する限界

iGPT が強力な画像特徴量を学習できる事は示したものの、私たちのアプローチには依然として限界があります。言語では GPT‑2 に使用された汎用シーケンス transformer を使用するため、今回の手法では大量の計算が必要でした。iGPT‑L は約2500 V100-days で学習したのに対し、同様の性能を持つ MoCo は24⁠モデルは約70 V100-days.で学習しました。

関連して、transformer を使用して低解像度入力をモデル化しましたが、ほとんどの自己教師ありモデルは高解像度入力を容易に処理できる畳み込みベースのエンコーダを使用しています。更に拡張するためには、ドメインに依存しないマルチスケール transformer などの新しいアーキテクチャが必要になる可能性があります。これらの限界を踏まえると、私たちの今回の研究は主に、大規模な transformer に基づく言語モデルが、ハードコード化されたドメイン知識を必要とせずに、新しいドメインで優れた教師なし表現を学習する能力を実証する上で役目を果たしたと言えます。しかし、これらのモデルを学習するための膨大なリソースコストと、畳み込みニューラルネットワーク（CNN）ベースの手法の精度向上により、これらの表現は視覚分野での実際的な現実世界のアプリケーションに採用することはできません。

最後に、生成モデルは学習に使ったデータによりバイアスを示す可能性があります。こうしたバイアスの多くは有用です。例えば、茶色と緑色のピクセルの組み合わせが葉で覆われた枝を表現すると仮定し、このバイアス使用して画像を補完することができます。しかし、これらのバイアスの中には、公平性や表現の観点から考えると有害なものもあります。例えば、モデルが科学者の視覚的概念を男性に偏って学習した場合、科学者の画像を補完する際に、性別を混在させるのではなく常に男性的な外観の人物で補完する可能性があります。開発者は、システムに入力するデータにより一層の注意を払い、そのデータが学習済みモデルのバイアスとどのように関連しているかをよりよく理解する必要があると私たちは考えています。

結論

私たちは、2次元データに関する知識と計算量をトレードオフし⁶⁰、ネットワークの中央部から予測した特徴を選択することにより、シーケンス transformer が教師なし画像分類において最上位の畳み込みネットワークと競合できることを示しました。特筆すべきは言語モデルの GPT‑2 を画像生成に直接適用することで、この結果を達成したことです。今回の結果は、そのシンプルさと汎用性により、シーケンス transformer は十分な計算リソースが与えられれば最終的に多くのドメインで優れた特徴を学習するための効果的な手法となる可能性があることを示唆しています。

求人募集を行っています。この研究分野で一緒に働きたいと思う方はぜひご応募ください⁠！

Footnotes

A
Measured through logistic regression on learned features (linear probe).
B
A transformer is trained to maximize the likelihood, and thus is mode covering, which automatically ensures the diversity of its samples.
C
The original analysis by synthesis idea is more an argument for generative models with latent variables, but because generative models without latent variables were so much better at modeling the data distribution, we thought the analysis-by-synthesis conjecture should hold for them as well.
D
We only show linear probe accuracy on ImageNet for iGPT-XL since other experiments did not finish before we needed to transition to different supercomputing facilities.
E
To extract features for a linear probe, we take the post layernorm attention block inputs at some layer and average pool over the sequence dimension.
F
To fine-tune, we take the post layernorm transformer output and average pool over the sequence dimension as input for the classification head.
G
A generative model which learns features in a purely unsupervised fashion.

References

1
LeCun, Y. (2017). “Predictive Learning⁠（新しいウィンドウで開く）.”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need⁠（新しいウィンドウで開く）.” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding⁠（新しいウィンドウで開く）.” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners⁠（新しいウィンドウで開く）.” Technical Report, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach⁠（新しいウィンドウで開く）.” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer⁠（新しいウィンドウで開く）.” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning⁠（新しいウィンドウで開く）.” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Deep Contextualized Word Representations⁠（新しいウィンドウで開く）.” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “Universal Language Model Fine-tuning for Text Classification⁠（新しいウィンドウで開く）.” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training⁠（新しいウィンドウで開く）.” Technical Report, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding⁠（新しいウィンドウで開く）.” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “A Simple Framework for Contrastive Learning of Visual Representations⁠（新しいウィンドウで開く）.” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views⁠（新しいウィンドウで開く）.” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning⁠（新しいウィンドウで開く）.” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism⁠（新しいウィンドウで開く）.” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Non-discriminative data or weak model? On the relative importance of data and model resolution⁠（新しいウィンドウで開く）.” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Principled Hybrids of Generative and Discriminative Models⁠（新しいウィンドウで開く）.” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Why does unsupervised pre-training help deep learning?⁠（新しいウィンドウで開く）.” In JMLR 2010.
19
Elman, J. (1990). “Finding Structure in Time⁠（新しいウィンドウで開く）.” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network based language model⁠（新しいウィンドウで開く）.” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “The neural autoregressive distribution estimator⁠（新しいウィンドウで開く）.” In AISTATS 2011.
22
Graves, A. (2013). “Generating sequences with recurrent neural networks⁠（新しいウィンドウで開く）.” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠（新しいウィンドウで開く）.” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast for Unsupervised Visual Representation Learning⁠（新しいウィンドウで開く）.” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Data-Efficient Image Recognition with Contrastive Predictive Coding⁠（新しいウィンドウで開く） .” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠（新しいウィンドウで開く）.” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠（新しいウィンドウで開く）.” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling⁠（新しいウィンドウで開く）.” arXiv preprint.
29
Mumford, D. (1992). “On the computational architecture of the neocortex⁠（新しいウィンドウで開く）.” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects⁠（新しいウィンドウで開く）.” In Nature Neuroscience.
31
Smolensky, P. (1986). “Information processing in dynamical systems: Foundations of harmony theory⁠（新しいウィンドウで開く）.”
32
Hinton, G. (2002). “Training Products of Experts by Minimizing Contrastive Divergence⁠（新しいウィンドウで開く）.” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “A fast learning algorithm for deep belief nets⁠（新しいウィンドウで開く）.” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Extracting and composing robust features with denoising autoencoders⁠（新しいウィンドウで開く）.” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “An analysis of single-layer networks in unsupervised feature learning⁠（新しいウィンドウで開く）.” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Building high-level features using large scale unsupervised learning⁠（新しいウィンドウで開く）.” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning⁠（新しいウィンドウで開く）.” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition⁠（新しいウィンドウで開く）.” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention with relative position representations⁠（新しいウィンドウで開く）.” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers⁠（新しいウィンドウで開く）.” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Self-organizing neural network that discovers surfaces in random-dot stereograms⁠（新しいウィンドウで開く）.” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Signature verification using a” siamese” time delay neural network⁠（新しいウィンドウで開く）.” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Distributed Representations of Words and Phrases and their Compositionality⁠（新しいウィンドウで開く） .” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding⁠（新しいウィンドウで開く） .” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization⁠（新しいウィンドウで開く）.” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Unified rational protein engineering with sequence-only deep representation learning⁠（新しいウィンドウで開く）.” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences⁠（新しいウィンドウで開く）.” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: A large data set for nonparametric object and scene recognition⁠（新しいウィンドウで開く）.” In IEEE transactions on pattern analysis and machine intelligence.
49
“List of 8-Bit Computer Hardware Graphics⁠（新しいウィンドウで開く）.” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Do Better ImageNet Models Transfer Better?⁠（新しいウィンドウで開く）.” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Learning Augmentation Strategies From Data⁠（新しいウィンドウで開く）.” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks⁠（新しいウィンドウで開く）.” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Unsupervised Representation Learning by Predicting Image Rotations⁠（新しいウィンドウで開く）.” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Semi-Supervised Learning with Deep Generative Models⁠（新しいウィンドウで開く）.” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Improved techniques for training gans⁠（新しいウィンドウで開く）.” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results⁠（新しいウィンドウで開く）.” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: A Holistic Approach to Semi-Supervised Learning⁠（新しいウィンドウで開く）.” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Unsupervised Data Augmentation for Consistency Training⁠（新しいウィンドウで開く）.” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Simplifying semi-supervised learning with consistency and confidence⁠（新しいウィンドウで開く）.” arXiv preprint.
60
Sutton, R. (2019). “The Bitter Lesson⁠（新しいウィンドウで開く）.”

Authors

Mark Chen、Alec Radford、Ilya Sutskever

Acknowledgments

Foremost, we would like to acknowledge our paper co-authors Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, and David Luan.

Thanks to the following for their feedback on this work and contributions to this release: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, and Ashish Vaswani.

Editor: Ashley Pilipiszyn

Design: Justin Jay Wang

Cover artwork: Ben Barry

すべてを表示