
Illustration: Ben Barry
教師なし学習と自己教師あり学習、1または人間がラベル付けしたデータを使用しない学習は、機械学習の長年の課題です。最近では、BERT3、GPT‑24、RoBERTa5、T5,6、およびその他の種類の transformer2 モデル7、8、9、10が様々な言語タスクで最高のパフォーマンスを達成し、自然言語の分野で信じられないほどの成功を収めています。しかし、これらの同様のモデルは画像分類において強力な特徴量を生成することには成功していません。.11私たちの研究は、このギャップを理解し埋めることを目的としています。
BERT や GPT‑2 などの transformer モデルはドメインに依存しないため、任意の形式の1次元シーケンスにも直接適用できます。画像を長い連続したピクセルに展開して GPT‑2 を学習させたところ、(これを iGPT と呼びます)、このモデルは物体の外観やカテゴリなどの2次元画像の特性を理解しているように見えることが分かりました。これは、たとえ人間が提供したラベルによる導きがなくても、モデルが辻褄の合った多様な画像を生成できることから証明されています。さらなる証拠として、このモデルによる特徴は、多数の分類データセットにおいて最高水準のパフォーマンスを発揮し、ImageNet では最高水準に近い教師なし学習の精度Aを実現しています。
評価 | データセット | 私たちの結果 | iGPT 以外の最良の結果 |
---|---|---|---|
学習した特徴のロジスティック回帰(線形プローブ) | CIFAR-10 | 96.3 iGPT‑L 32x32 w/ 1536の特徴 | 95.3 SimCLR12 w/ 8192の特徴 |
CIFAR-100 | 82.8 iGPT‑L 32x32 w/ 1536の特徴 | 80.2 SimCLR w/ 8192の特徴 | |
STL-10 | 95.5 iGPT‑L 32x32 w/ 1536の特徴 | 94.2 AMDIM13 w/ 8192の特徴 | |
ImageNet | 72.0 iGPT‑XLa 64x64 w/ 15360 の特徴 | 76.5 SimCLR w/ 8192の特徴 | |
フルファインチューニング | CIFAR-10 | 99.0 iGPT‑L 32x32, ImageNet で事前学習済み | |
ImageNet 32x32 | 66.3 iGPT‑L 32x32 | 70.2 Isometric Nets15 |
- iGPT‑XL については、ImageNet の線形プローブ(linear probe)の精度のみを示しています (他の実験は別のスーパーコンピューティング施設に移行する前に終了しなかったため)。
- JFT(18,000クラスの300億枚画像)で学習されたBit-L は、99.3の結果を達成しました。
一般的な教師なし学習アルゴリズムとしての生成17、18シーケンスモデリング19、20、21、22の可能性を強調するために、私たちは敢えて自然言語処理で使用される GPT‑2 と同じ transformer アーキテクチャを採用しました。その結果、トップ性能の教師なし畳み込みネットワークに匹敵する特徴を生成するためには、大量の計算が必要となりました。.13、23、24、25、12しかし、どのようなモデルが正解なのかわからない新しいドメインに直面した場合、大規模な GPT‑2 モデルがドメイン固有26、27、28のアーキテクチャ設計の選択を必要とせずとも優れた特徴を学習できることを私達の結果は示しています。
言語においては、単語予測に基づく教師なし学習アルゴリズム(GPT‑2 や BERT など)が大きな成功を納めており、さまざまな言語タスクで最高のパフォーマンスを達成しています。この成功の一因としては、文章中に具体的な下流タスクが自然に含まれていることが考えられます。例えば、質問の後に回答が続いたり、文章の後に要約が続いたりすることがよくありますが、これらが質問応答や要約に役立つ可能性があります。対照的に、ピクセルのシーケンスには、それらが属する画像が何であるかを示すラベルは明確に含まれていません。
このように明確な教師情報がなくても、GPT‑2 が画像に対して機能する理由はあります。次に続くピクセルを予測するよう訓練された大規模な transformer は最終的に、はっきりと認識できるオブジェクトを含む多様なBサンプルを生成することを学習する可能性があります。いったん学習すると、「合成による分析(Analysis by Synthesis)」29、30、Cとして知られるアイデアは、モデルがオブジェクトのカテゴリについても学習していることを示唆しています。このアイデアは多くの初期の生成モデル31、32、33、34、35、36に影響を与え、最近では有望なサンプルや特徴を生成した例として BigBiGAN 37というモデルが挙げられます。私たちの研究では、まず、より優れた生成モデルがより強力な分類パフォーマンスを達成することを示します。次に、GPT‑2 を生成機能向けに最適化することで、多くの設定で高い分類パフォーマンスを達成し、「合成による分析」のさらなる証拠を提供します。
生成的シーケンスモデリングは普遍的な教師なし学習アルゴリズムです。すべてのデータ型はバイトのシーケンスとして表すことができるため、追加のエンジニアリング作業なしで transformer をどのようなデータ型にも直接適用できます。私たちの研究では、この汎用性の力を検証するために GPT‑2 の自然言語での学習に使用されたアーキテクチャを画像生成に直接適用しました。私たちは、relative attention39、sparse attention40、 2-D position embeddings 27などの手法や畳み込み38など、画像特有の知識を手動でコーディングすることを意図的に避けることを選択しました。
この手法は汎用性があるがゆえに、教師なしで競争力のあるパフォーマンスを達成するためには、大量の計算を必要とします。実際、対照的な手法41、42、43、44、45、13、23、24、25、12は、画像から高品質な特徴量を生成するための最も計算効率の高い方法であると言えます。しかし、教師なし transformer モデルが最高の教師なし畳み込みネットワークに匹敵すると示すことで24、25、12、手動でコード化されたドメイン知識と計算量がトレードオフできるという証拠を提供します。手動でコード化する知識があまりない新しい領域46、47では、計算のスケーリングが適切な手法であると考えられます。
ImageNet で、それぞれ7,600万、4億5500万、14億のパラメータを持つ transformer である iGPT‑S、iGPT‑M、および iGPT‑L の学習を行います。また、ImageNet と Web からの画像を組み合わせて、68億のパラメータを持つ transformer である iGPT‑XL Dを学習させます。dense attention を用いて長いシーケンスをモデル化するのは計算コストが大きいため、32x32、48x48、64x64の低解像度にして学習させます。
計算コストをさらに削減するために、さらに低い解像度で作業することは魅力的ですが、先行研究では、これ以上解像度を下げると画像分類における人間のパフォーマンスが急激に低下し始めることが示されています。48代わりに、初期のカラーディスプレイパレットにヒントを得て、49ピクセルを表す独自の9ビットカラーパレットを作成します。このパレットを使用することで、標準的な(R、G、B)パレットと比較して入力シーケンスの長さが1/3に短縮されますが、色は依然として忠実にエンコードされます。
モデルのパフォーマンスを評価するために2つの手法を使用し、どちらも下流の分類タスクを含みます。1つ目は線形プローブ(linear probe)と呼ばれる手法で、学習済みモデルを使用して下流データセットの画像から特徴を抽出Eし、その後ラベルにロジスティック回帰を適合させます。2つ目の手法では、下流データセットにモデル全体をファインチューニングFします。
次のピクセル予測は明らかに画像分類と関連がないため、最終レイヤーからの特徴ではオブジェクトのカテゴリを予測する上で最も有効でない可能性があります。最初の結果は特徴量の質が深度に対して急激に増加し、その後は穏やかに減少することを示しています。この動作は transformer を使った生成モデルが2つのフェーズで動作することを示しています。最初のフェーズでは、周囲の情報も含めた画像の特徴を構築するため、各位置で周囲情報を収集します。第2フェーズでは、この周囲の情報を含めた特徴を使用して、条件付きの次のピクセル予測タスクを解決します。線形プローブで観察された2段階のパフォーマンスは、別の教師なしニューラルネットであるボトルネックオートエンコーダに似ており、これは中央部の特徴が使用されるように手動で設計されています。
次の結果は、生成パフォーマンスと特徴量の質が関連していることを示しています。モデルの規模を拡大したり、より多くの反復学習をしたりすることで生成パフォーマンスが向上し、それが直接的に特徴の質の向上につながることが分かりました。
CIFAR-10、CIFAR-100、STL-10 で線形プローブを使用して特徴量を評価したところ、すべての教師ありおよび教師なし転送アルゴリズムの特徴を上回る結果を得ました。私たちの結果は、フルファインチューニングを行う設定の条件下でも説得力があります。
ImageNet で事前学習済み | ||||
評価 | モデル | 精度 | 教師なし | 教師あり |
CIFAR-10 線形プローブ | ResNet-15250 | 94.0 | ✔ | |
SimCLR12 | 95.3 | ✔ | ||
iGPT‑L 32x32 | 96.3 | ✔ | ✔ | |
CIFAR-100 線形プローブ | ResNet-152 | 78.0 | ✔ | |
SimCLR | 80.2 | ✔ | ||
iGPT‑L 32x32 | 82.8 | ✔ | ||
STL-10 線形プローブ | AMDIM-L | 94.2 | ✔ | |
iGPT‑L 32x32 | 95.5 | ✔ | ||
CIFAR-10 ファインチューニング | AutoAugment | 98.5 | ||
SimCLR | 98.6 | ✔ | ||
GPipe | 99.0 | ✔ | ||
iGPT‑L | 99.0 | ✔ | ||
CIFAR-100 ファインチューニング | iGPT‑L | 88.5 | ✔ | |
SimCLR | 89.0 | ✔ | ||
AutoAugment | 89.3 | |||
EfficientNet52 | 91.7 | ✔ |
私たちのモデルと、ImageNet 転送を利用する教師なしまたは教師ありのトップパフォーマンスモデルとの間で、線形プローブおよびファインチューニング精度で比較。また、CIFAR でエンドツーエンドで学習された最高性能モデルである AutoAugment も比較対象に含めます。
ImageNet を使った教師なし学習および自己教師あり学習への関心が再び高まっていることを受けて、ImageNet で線形プローブを使用してモデル性能を評価します。ImageNet の標準的な入力解像度を使って学習しないため、これは特に困難な設定です。それにもかかわらず、48x48画像上で学習された iGPT‑L の最良レイヤーから得られた1536の特徴に対する線形プローブは、65.2%のトップ1精度を達成し、AlexNet を上回っています。
対称的な手法では通常、8192の特徴で最良の結果を得られるため、比較のためには8192の埋め込み次元で iGPT を評価するのが理想的です。しかし、このようなモデルの学習は非常に計算コストがかかるため、代わりに複数のレイヤーからの特徴を連結し、近似とします。残念ながら、私達の特徴はレイヤー間で相関する傾向があるため、競争力を高めるには更に多くの特徴が必要となります。iGPT‑XL の5つのレイヤーから15360の特徴を得ると72.0%のトップ1精度を達成し、AMDIM、MoCo、CPC v2 を上回りますが、SimCLR にはかなりの差で劣っています。
私たちのモデルと最先端の自己教師ありモデルとの線形プローブ精度の比較です。私たちの手法はより多くのパラメータと計算を必要としますが、はるかに低い入力解像度で学習しながらも競争力のある性能を達成しています。
BERT のようなマスク言語モデルはほとんどの言語タスクで生成モデルを上回っているため、BERT のパフォーマンスも評価します。次のピクセルをすべての先行するピクセルから予測するよう学習させるのではなく、ピクセルの15%をマスクし、マスクされていないピクセルを使って予測するように学習させます。BERT モデルの線形プローブのパフォーマンスが著しく低いものの、ファインチューニング時には優れていることが分かりました。
教師なし学習は人間によるラベル付けデータなしで優れた機能を約束しますが、最近では、限られた量の人間によるラベル付けデータを許容する半教師あり学習というより寛容な枠組みの下で大きな進展が見られています。成功している半教師有り学習法は、一貫性の正則化、データ拡張、疑似ラベル付けなどの巧妙な手法に依存することが多く、純粋な生成ベースのアプローチ54、55は何年も競争力がありませんでした。iGPT‑L Gをこのサブフィールドの競合ベンチマークで評価した結果、非拡張画像からの特徴量に対する単純な線形プローブはMean Teacher 56や MixMatch 57は上回るが、FixMatch 59は下回ることが分かりました。
低いデータの CIFAR-10 でのパフォーマンスの比較。ラベル付けされていない ImageNet 画像を活用することで、iGPT‑L は Mean Teacher や MixMatch などの手法を上回りますが、最先端の手法は下回ります。私たちの半教師あり学習へのアプローチは非常にシンプルです。データ拡張やファインチューニングを行わずに、iGPT‑L の特徴にロジスティック回帰を適合させるだけなので、特別に設計された半教師付きアプローチとは大きく異なります。
iGPT が強力な画像特徴量を学習できる事は示したものの、私たちのアプローチには依然として限界があります。言語では GPT‑2 に使用された汎用シーケンス transformer を使用するため、今回の手法では大量の計算が必要でした。iGPT‑L は約2500 V100-days で学習したのに対し、同様の性能を持つ MoCo は24モデルは約70 V100-days.で学習しました。
関連して、transformer を使用して低解像度入力をモデル化しましたが、ほとんどの自己教師ありモデルは高解像度入力を容易に処理できる畳み込みベースのエンコーダを使用しています。更に拡張するためには、ドメインに依存しないマルチスケール transformer などの新しいアーキテクチャが必要になる可能性があります。これらの限界を踏まえると、私たちの今回の研究は主に、大規模な transformer に基づく言語モデルが、ハードコード化されたドメイン知識を必要とせずに、新しいドメインで優れた教師なし表現を学習する能力を実証する上で役目を果たしたと言えます。しかし、これらのモデルを学習するための膨大なリソースコストと、畳み込みニューラルネットワーク(CNN)ベースの手法の精度向上により、これらの表現は視覚分野での実際的な現実世界のアプリケーションに採用することはできません。
最後に、生成モデルは学習に使ったデータによりバイアスを示す可能性があります。こうしたバイアスの多くは有用です。例えば、茶色と緑色のピクセルの組み合わせが葉で覆われた枝を表現すると仮定し、このバイアス使用して画像を補完することができます。しかし、これらのバイアスの中には、公平性や表現の観点から考えると有害なものもあります。例えば、モデルが科学者の視覚的概念を男性に偏って学習した場合、科学者の画像を補完する際に、性別を混在させるのではなく常に男性的な外観の人物で補完する可能性があります。開発者は、システムに入力するデータにより一層の注意を払い、そのデータが学習済みモデルのバイアスとどのように関連しているかをよりよく理解する必要があると私たちは考えています。
私たちは、2次元データに関する知識と計算量をトレードオフし60、ネットワークの中央部から予測した特徴を選択することにより、シーケンス transformer が教師なし画像分類において最上位の畳み込みネットワークと競合できることを示しました。特筆すべきは言語モデルの GPT‑2 を画像生成に直接適用することで、この結果を達成したことです。今回の結果は、そのシンプルさと汎用性により、シーケンス transformer は十分な計算リソースが与えられれば最終的に多くのドメインで優れた特徴を学習するための効果的な手法となる可能性があることを示唆しています。
求人募集を行っています。この研究分野で一緒に働きたいと思う方はぜひご応募ください!
Footnotes
- A
Measured through logistic regression on learned features (linear probe).
- B
A transformer is trained to maximize the likelihood, and thus is mode covering, which automatically ensures the diversity of its samples.
- C
The original analysis by synthesis idea is more an argument for generative models with latent variables, but because generative models without latent variables were so much better at modeling the data distribution, we thought the analysis-by-synthesis conjecture should hold for them as well.
- D
We only show linear probe accuracy on ImageNet for iGPT-XL since other experiments did not finish before we needed to transition to different supercomputing facilities.
- E
To extract features for a linear probe, we take the post layernorm attention block inputs at some layer and average pool over the sequence dimension.
- F
To fine-tune, we take the post layernorm transformer output and average pool over the sequence dimension as input for the classification head.
- G
A generative model which learns features in a purely unsupervised fashion.
References
- 1
LeCun, Y. (2017). “Predictive Learning(新しいウィンドウで開く).”
- 2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need(新しいウィンドウで開く).” In NeurIPS 2017.
- 3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(新しいウィンドウで開く).” arXiv preprint.
- 4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners(新しいウィンドウで開く).” Technical Report, OpenAI.
- 5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach(新しいウィンドウで開く).” arXiv preprint.
- 6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(新しいウィンドウで開く).” arXiv preprint.
- 7
Dai, A., Le, Q. V. (2015). “Semi-supervised sequence learning(新しいウィンドウで開く).” In NeurIPS 2015.
- 8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “Deep Contextualized Word Representations(新しいウィンドウで開く).” In NAACL 2018.
- 9
Howard, J., Ruder, S. (2018). “Universal Language Model Fine-tuning for Text Classification(新しいウィンドウで開く).” In ACL 2018.
- 10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training(新しいウィンドウで開く).” Technical Report, OpenAI.
- 11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: Temporal credit assignment through reminding(新しいウィンドウで開く).” In NeurIPS 2018.
- 12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “A Simple Framework for Contrastive Learning of Visual Representations(新しいウィンドウで開く).” arXiv preprint.
- 13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “Learning representations by maximizing mutual information across views(新しいウィンドウで開く).” In NeurIPS 2019.
- 14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): General Visual Representation Learning(新しいウィンドウで開く).” arXiv preprint.
- 15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism(新しいウィンドウで開く).” In NeurIPS 2019.
- 16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “Non-discriminative data or weak model? On the relative importance of data and model resolution(新しいウィンドウで開く).” In ICCV 2019.
- 17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “Principled Hybrids of Generative and Discriminative Models(新しいウィンドウで開く).” In CVPR 2006.
- 18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Why does unsupervised pre-training help deep learning?(新しいウィンドウで開く).” In JMLR 2010.
- 19
Elman, J. (1990). “Finding Structure in Time(新しいウィンドウで開く).” In Cognitive Science 1990.
- 20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network based language model(新しいウィンドウで開く).” In INTERSPEECH-2010.
- 21
Larochelle, H., Murray, I. (2011). “The neural autoregressive distribution estimator(新しいウィンドウで開く).” In AISTATS 2011.
- 22
Graves, A. (2013). “Generating sequences with recurrent neural networks(新しいウィンドウで開く).” arXiv preprint.
- 23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(新しいウィンドウで開く).” arXiv preprint.
- 24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Momentum Contrast for Unsupervised Visual Representation Learning(新しいウィンドウで開く).” arXiv preprint.
- 25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Data-Efficient Image Recognition with Contrastive Predictive Coding(新しいウィンドウで開く) .” arXiv preprint.
- 26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(新しいウィンドウで開く).” arXiv preprint.
- 27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(新しいウィンドウで開く).” In ICML 2018.
- 28
Menick, J., Kalchbrenner, N. (2018). “Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling(新しいウィンドウで開く).” arXiv preprint.
- 29
Mumford, D. (1992). “On the computational architecture of the neocortex(新しいウィンドウで開く).” In Biol. Cybern.
- 30
Rao, R., Ballard, D. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects(新しいウィンドウで開く).” In Nature Neuroscience.
- 31
Smolensky, P. (1986). “Information processing in dynamical systems: Foundations of harmony theory(新しいウィンドウで開く).”
- 32
Hinton, G. (2002). “Training Products of Experts by Minimizing Contrastive Divergence(新しいウィンドウで開く).” In MIT Press.
- 33
Hinton, G., Osindero, S., & Teh, Y. (2006). “A fast learning algorithm for deep belief nets(新しいウィンドウで開く).” In Neural Computation.
- 34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Extracting and composing robust features with denoising autoencoders(新しいウィンドウで開く).” In ICML 2008.
- 35
Coates, A., Lee, H., & Ng, A. Y. (2011). “An analysis of single-layer networks in unsupervised feature learning(新しいウィンドウで開く).” In AISTATS 2011.
- 36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “Building high-level features using large scale unsupervised learning(新しいウィンドウで開く).” In ICML 2012.
- 37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning(新しいウィンドウで開く).” In NeurIPS 2019.
- 38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition(新しいウィンドウで開く).” In CoRR 2010.
- 39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Self-attention with relative position representations(新しいウィンドウで開く).” In NAACL 2018.
- 40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Generating long sequences with sparse transformers(新しいウィンドウで開く).” arXiv preprint.
- 41
Becker, S., Hinton, G. (1991). “Self-organizing neural network that discovers surfaces in random-dot stereograms(新しいウィンドウで開く).” In Nature.
- 42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). “Signature verification using a” siamese” time delay neural network(新しいウィンドウで開く).” In NeurIPS 1994.
- 43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “Distributed Representations of Words and Phrases and their Compositionality(新しいウィンドウで開く) .” In NeurIPS 2013.
- 44
Oord, A., Li, Y., Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding(新しいウィンドウで開く) .” arXiv preprint.
- 45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Learning deep representations by mutual information estimation and maximization(新しいウィンドウで開く).” In ICLR 2019.
- 46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Unified rational protein engineering with sequence-only deep representation learning(新しいウィンドウで開く).” In Nature Methods.
- 47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences(新しいウィンドウで開く).” bioRxiv preprint.
- 48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: A large data set for nonparametric object and scene recognition(新しいウィンドウで開く).” In IEEE transactions on pattern analysis and machine intelligence.
- 49
“List of 8-Bit Computer Hardware Graphics(新しいウィンドウで開く).” Wikipedia, 8 May 2020
- 50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “Do Better ImageNet Models Transfer Better?(新しいウィンドウで開く).” In CVPR 2019.
- 51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: Learning Augmentation Strategies From Data(新しいウィンドウで開く).” In CVPR 2019.
- 52
Tan, M., Le, Q. V. (2019). “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks(新しいウィンドウで開く).” In ICML 2019.
- 53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “Unsupervised Representation Learning by Predicting Image Rotations(新しいウィンドウで開く).” In ICLR 2018.
- 54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “Semi-Supervised Learning with Deep Generative Models(新しいウィンドウで開く).” In NeurIPS 2014.
- 55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “Improved techniques for training gans(新しいウィンドウで開く).” In NeurIPS 2016.
- 56
Tarvainen, A., Valpola, H. (2017). “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results(新しいウィンドウで開く).” In NeurIPS 2017.
- 57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: A Holistic Approach to Semi-Supervised Learning(新しいウィンドウで開く).” In NeurIPS 2019.
- 58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Unsupervised Data Augmentation for Consistency Training(新しいウィンドウで開く).” arXiv preprint.
- 59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: Simplifying semi-supervised learning with consistency and confidence(新しいウィンドウで開く).” arXiv preprint.
- 60
Sutton, R. (2019). “The Bitter Lesson(新しいウィンドウで開く).”
Acknowledgments
Foremost, we would like to acknowledge our paper co-authors Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, and David Luan.
Thanks to the following for their feedback on this work and contributions to this release: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le, and Ashish Vaswani.
Editor: Ashley Pilipiszyn
Design: Justin Jay Wang
Cover artwork: Ben Barry