2021年1月5日

CLIP：テキストと画像をコネクト

イラストレーション： Justin Jay Wang

読み込んでいます...

自然言語の教師から効率的に視覚的概念を学習する CLIP というニューラルネットワークが登場。CLIP は、GPT‑2 や GPT‑3 の「ゼロショット」機能と同様に、認識対象の視覚カテゴリーの名前を提供するだけで、いかなる視覚分類ベンチマークにも適用可能です。

ディープラーニングはコンピュータービジョンに革命を起こしましたが、現行のアプローチには以下の大きな問題があります：一般的な視覚データセットは労働集約的で、作成費用が高額ですが、狭い範囲の視覚概念のみの学習となります。標準的な視覚モデルは、1つのタスクに対してのみ優れており、新しいタスクに適応させるには非常な労力を要します。ベンチマークでうまく機能するモデルは、残念ながらストレステストでのパフォーマンスが低くなります^{1、2、3、4}。これらの問題によって、コンピュータービジョンに対するディープラーニングアプローチの全体に疑問が投げかけられる結果となっています。

私たちが紹介するニューラルネットワークは、これらの問題に対処することを目的としており、インターネットから豊富に入手できる様々な画像および様々な自然言語を教師として学習させています。設計上、本ネットワークは GPT‑2⁵ や GPT‑3⁶ の「ゼロショット⁠（新しいウィンドウで開く）」機能と同様に、ベンチマーク実行のための直接最適化を行うことなく、自然言語で指示することで、様々な分類ベンチマークを実行します。これは重大な変化です。ベンチマークのための直接最適化を行わないことで、はるかに代表的な存在となるのです。私たちのシステムは、ImageNet⁠（新しいウィンドウで開く）で付けられている128万点のラベルを使った ResNet-50⁷ に匹敵するパフォーマンスを、それを使わずにゼロショットで達成し、「ロバスト性のギャップ」を最大75％縮めています。

読み込み中...

背景と関連研究

CLIP（Contrastive Language–Image Pre-training）は、ゼロショット転移、自然言語教師、マルチモーダル学習に関する膨大な量の研究に基づいて構築されています。ゼロデータ学習のアイデアは10年以上前にさかのぼりますが⁸、未見の物体カテゴリーにも適用できる汎用の方法として、最近までコンピュータービジョン分野で最も多く研究されていました^9、10。その重要な洞察は、汎用化と転移を可能にする柔軟な予測空間として自然言語を活用することでした。2013年、スタンフォード大学の Richard Socher 氏と共著者は、CIFAR-10 でモデルを学習させて単語ベクトル埋め込み空間で予測を行う概念実証を開発し、そのモデルが未見の2つのクラスを予想できることを示しました¹¹。同年、このアプローチが拡張された DeVISE では、ImageNet モデルをファインチューニングして、学習に使われた1000点のセットにはない物体の正しい予測ができる汎用化が可能なことが示されました¹²。

CLIP に非常にインスピレーションを与えたのは、FAIR の Ang Li 氏と共著者による2016年の研究で、自然言語教師を用いて、既存のコンピュータービジョン分類データセット（規準的な ImageNet データセットなど）へのゼロショット転移が可能であることが示されました¹³。これは、3000万点もの Flickr の写真のタイトル、説明、タグのテキストから、はるかに幅広い視覚的概念（visual n-grams）を予測するために ImageNet CNN をファインチューニングすることで達成され、ImageNet のゼロショットは11.5％の精度に到達しました。

最新発表の CLIP は、過去1年間の自然言語教師からの視覚的表現の学習について再考する一連の論文の一部です。この一連の研究には、Transformer³² などのより新しいアーキテクチャが用いられ、自己回帰言語モデリングを検討した VirTex³³、マスク言語モデリングを探求した ICMLM³⁴、CLIP で用いられているのと同じ対照目的を医療画像の分野で研究している ConVIRT³⁵ が含まれています。

アプローチ

私たちは、幅広い画像分類データセットにおいて競争力のあるゼロショットパフォーマンスを実現するには、単純な事前学習タスクのスケーリングで十分であることを明らかにしました。私たちの手法では、豊富に入手可能な教師ソースとして、インターネット上で得られた画像とテキストの組み合わせを用いました。このデータは、次のような CLIP のプロキシ学習タスクの作成に使われました：画像を指定し、無作為に抽出された32,768点のテキストスニペットのセットの中で、データセット内で実際にペアになっているものを予測する。

私たちは、CLIP モデルはこのタスクの解決のために、画像内の様々な視覚的概念を把握し、それとその名前の関連付けを学習する必要があり、その結果として CLIP モデルは、自由度の高い視覚的分類タスクに適用可能となるだろうと考えました。例えば、データセットのタスクが犬と猫の写真の分類である場合には、CLIP モデルが「犬の写真」または「猫の写真」という説明文とペアになる可能性が高いと予測しているかを、各画像に対して確認したのです。

読み込み中...

CLIP は、コンピュータービジョンに対する標準的なディープラーニングアプローチにおける以下のようないくつかの重大問題を軽減するために設計されました。

データセットにかかる費用が高額：ディープラーニングには多くのデータが必要であり、従来、ビジョンモデルは手作業でラベル付けされたデータセットで学習が行われました。データセットの構築には多額の費用を要し、予め決められた限定数の視覚概念の教師にしかなりません。この分野で最大クラスの取り組みである ImageNet データセットでは、22,000の物体カテゴリーの1,400万点の画像にアノテーションを行うために25,000人以上の作業者を必要としました。それに比べて、CLIP はインターネット上で既に公開されている文章と画像のペアから学習しています。高価で大規模なラベル付きデータセットの必要性を減らすための研究は以前から広く行われており、自己教師あり学習^14、15、16、対照的手法^{17、18、19、20、21}、自己学習アプローチ^22、23、生成モデル^{24、25、26、27}がよく知られています。

範囲の狭さ：ImageNet モデルは、ImageNet 内の1000カテゴリーの予測には優れていますが、「そのままで」可能なことはそれだけです。その他のタスクを実行させるには、機械学習専門家による新しいデータセットの構築、出力ヘッドの追加、モデルのファインチューニングが必要となります。それに比べて、CLIP は追加の学習例の必要なしに、幅広い視覚的分類タスクを実行するように適合させることができます。CLIP に新しいタスクに適用させるために必要なことは、CLIP のテキストエンコーダーにタスクの視覚的概念の名前を「伝える」だけです。そうすれば CLIP の視覚的表現の線形分類器が出力されるのです。この分類器の精度は、完全教師ありモデルの性能とほぼ互角なレベルです。

この下に表示するものは、様々なデータセットからゼロショットで CLIP 分類器が行った予測の無作為な例です（人が良い例を選び出したのではありません）。

読み込み中...

現実世界でのパフォーマンスの低さ：ディープラーニングシステムがビジョンベンチマークにおいて人間レベルまたは人間を超えるレベルを達成したという報告はよく見られます^28、A。しかし、実環境に実装すると、ベンチマークから期待されるパフォーマンスを下回る場合があります。言い換えますと、「ベンチマークパフォーマンス」と「実際のパフォーマンス」の間にギャップがあるということです。私たちは、このギャップはベンチマークのパフォーマンスのみを最適化するという「チート」、いわば過去問だけを勉強して試験に合格する学生のようなことをモデルが行っているために発生すると推測しました。それに比べて、CLIP モデルはベンチマーク用データで学習させることなく評価できるため、このような「チート」は不可能です。そのため、CLIP モデルのベンチマークパフォーマンスは、実環境でのパフォーマンスを良く表すものとなります。この「チート仮説」を検証するため、私たちは ImageNet を「学習」できる場合に CLIP のパフォーマンスがどのように変化するかについても測定しました。線形分類器を CLIP の機能の上に付けた場合、ImageNet のテストセットに対する CLIP の精度はほぼ10％向上しました。ただし、この分類器は「ロバストな」パフォーマンスを測定する他の7つのデータセットの評価スイートにおいては、平均してそれほど良くはない結果となりました³⁰。

重要ポイント

1.CLIP は非常に効率的

CLIP は、未フィルタリング、多種多様、高ノイズのデータから学習し、ゼロショット方式での使用が意図されています。GPT‑2 および3から、このようなデータで学習が行われたモデルが説得力のあるゼロショットパフォーマンスを達成できることが分かっています。ただし、このようなモデルはかなりの学習計算を必要とします。必要な計算量を減らすため、このアプローチの学習効率を改善するアルゴリズム的方法に注力しました。

大幅な計算の低減につながった2つのアルゴリズムの選択について報告します。1つ目に採用されたものは、画像とテキストの関連付けのための対照目的です^31、17、35。当初は VirTex³³ のような Image to Text アプローチを検討していましたが、最先端パフォーマンスを達成するためのスケーリングが問題となったのです。小・中規模の実験においては、CLIP が対照目的を用いた場合、ゼロショットの ImageNet 分類において4倍から10倍効率的であることが明らかになりました。2つ目に採用されたものは、Vision Transformer³⁶ で、これは標準的な ResNet の3倍の計算効率をもたらしました。最終的に、最高のパフォーマンスを発揮する CLIP モデルには、既存の大規模画像モデルと同様に、256GPU で2週間の学習が行われました^{37、23、38、36}。

読み込み中...

2.CLIP は柔軟で汎用性がある

CLIP モデルは自然言語から直接的に幅広い視覚的概念を学習するため、既存の ImageNet モデルよりもはるかに柔軟で汎用性があります。様々なタスクをゼロショットで実行する能力があることが分かり、これを検証するために、30以上もの異なるデータセットにおける精細な物体分類、ジオローカライゼーション、動画内の行動認識、OCR などのタスクに関する CLIP のゼロショットパフォーマンスを測定しました^B。特に、OCR 学習は標準的な ImageNet モデルには見られない素晴らしい挙動の例となりました。上図は、各ゼロショット分類器の予測を無作為に可視化したものです（人が良い例を選び出したのではありません）。

この研究結果は、線形プローブを使用した標準的な表現学習評価にも反映されました。最高の CLIP モデルは、試験した26の異なる転移データセット中の20において、公開されている最高の ImageNet モデルである Noisy Student EfficientNet-L2²³ よりも優れた結果を出しました。

読み込み中...

存在する限界

通常、CLIP は一般的な物体の認識には優れていますが、より抽象的または体系的なタスク（画像内の物体の数を数えるなど）や、より複雑なタスク（写真内で最も近い車がどれだけ近いかを予測するなど）はあまり得意ではありません。この2つのデータセットでは、ゼロショット CLIP は当て推量よりもわずかに優れる程度です。ゼロショット CLIP は、非常に精細な分類タスク（車のモデル、航空機の型式、花の種の違いの区別など）においても、それに特化したモデルほど得意ではありません。

また、事前学習データセットに含まれない画像に対する汎用化の能力はまだ不十分です。例えば、CLIP は有効な OCR システムを学習できますが、MNIST データセットの手書き数字に関して評価した場合、ゼロショット CLIP は88%の精度でしか達成できず、同データセット人間が達成する99.75%の精度をはるかに下回りました。最後に、CLIP のゼロショット分類器は言葉遣いや言い回しに過敏に反応することがあり、優れたパフォーマンスをさせるためには試行錯誤の「プロンプトエンジニアリング」が必要な場合があることが分かっています。

幅広い影響

CLIP は、ユーザーに独自の分類器の設計を可能にし、タスクに特化した学習データは不要になります。この分類の設計方法は、モデルのパフォーマンスとバイアスの両方に大きく影響する可能性があります。例えば、FairFace³⁹ の人種ラベル^Cなどのラベルセットと少数の非常に悪い言葉（「犯罪者」「獣」など）を入れた場合、そのモデルは約32.3％の割合で0～20歳の人間を非常に悪いカテゴリーに分類します。ただし、選択可能なクラスのリストに「子ども」を追加すると、この挙動は約8.7％以下に低下します。

さらに、タスク固有の学習データを必要としないことから、特定のニッチなタスクの実行は CLIP にはたやすいこととなります。このようなタスクの一部はプライバシーや監視関連のリスクを高める可能性があり、この懸念を検討するため、私たちは有名人の識別に関する CLIP のパフォーマンスを研究しました。「実環境」における有名人の画像分類を100点の候補で行った場合の CLIP は第1位精度の59.2％であり、選択肢1000点で行った場合にも第1位精度の43.3％でした。タスクにとらわれない事前学習でこの結果を達成したことは注目に値するのですが、広く入手可能な量産レベルのモデルと比較した場合、このパフォーマンスの競争力は弱いものです。CLIP の提起する課題については、さらにこの論文⁠（新しいウィンドウで開く）で検討を行っています。本研究が、このようなモデルの能力、欠点、バイアスの特徴に関する今後の研究を推進する原動力となることを願い、この課題に取り組む研究コミュニティの皆様と意見交換ができましたら幸いです。

結論

CLIP を用いて、NLP における最近の躍進の原動力となっているインターネット規模の自然言語によるタスクにとらわれない事前学習が、他の分野のディープラーニングのパフォーマンス向上にも活用可能であるかを試験しました。このアプローチをコンピュータービジョンに適用して、これまでに得られた成果は素晴らしいものです。GPT ファミリーと同様に、CLIP は事前学習の際に幅広い種類のタスクを学習します。このことはゼロショット転移で示されています。また、モデルの能力をより表す尺度となるものはゼロショット評価であることを示唆する ImageNet を使った調査結果も有望なものでした。

脚注

29
2015年、Microsoft 社の研究者グループが学習させたモデルは、初めて ImageNet において人間の第5位精度記録を上回る第5位精度を達成しました。
B
CLIP のゼロショット OCR パフォーマンスが加えられると、その OCR の意味表示は非常に有用なものとなりました。画像としてレンダリングされた SST-2 NLP データセットで評価を行った場合、 CLIP の線形分類器による表示はテキストに直接アクセスする CBoW モデルのものに匹敵しました。CLIP は、グラウンドトゥルーステキストの必要なく、ヘイトミームの検知において競争力があります。
40
FairFace は、従来の顔のデータセットに一般的であった非対称性を低減させるために、年齢、性別、人種のバランスを取るように設計された顔画像データセットです。性別は女性・男性の2グループに、人種は白人、黒人、インド人、東アジア人、東南アジア人、中東人、ラテンアメリカ人の7グループに分類されています。人種と性別には、Bowker and Star（2000）や Keyes（2018）が示すように、固有の問題があります。FairFace のデータセットは白人の顔の割合を減らしていますが、大きい人口グループ全体が反映されたものとはなっておらず、事実上、その分類はないものとされています。私たちは FairFace で定義された2つの性別と7つの人種の分類をいくつかの実験で用いましたが、このような還元主義的分類の使用を推進や推薦するためではなく、以前の研究との比較を可能にするためです。

参考文献

1
Dodge, S., & Karam, L.（2017, July）.“A study and comparison of human and deep learning recognition performance under visual distortions.⁠（新しいウィンドウで開く）”（ICCCN 2017）.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W.（2018）.“ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness.⁠（新しいウィンドウで開く）”（ICLR 2019）.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A.（2019）.“Strike (with) a pose:Neural networks are easily fooled by strange poses of familiar objects.⁠（新しいウィンドウで開く）”（CVPR 2019）.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B.（2019）.“Objectnet:A large-scale bias-controlled dataset for pushing the limits of object recognition models.⁠（新しいウィンドウで開く）”（NeurIPS 2019）.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I.（2019）.“Language Models are Unsupervised Multitask Learners.⁠（新しいウィンドウで開く）”（Technical Report, OpenAI）.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S.（2020）.“Language Models are Few-Shot Learners.⁠（新しいウィンドウで開く）”（NeurIPS 2020）.
7
He, K., Zhang, X., Ren, S., & Sun, J.（2016）.“Deep residual learning for image recognition.⁠（新しいウィンドウで開く）”（CVPR 2016）.
8
Larochelle, H., Erhan, D., & Bengio, Y.（2008, July）.“Zero-data learning of new tasks.⁠（新しいウィンドウで開く）”（AAAI 2008）.
9
Lampert, C. H., Nickisch, H., & Harmeling, S.（2009, June）.“Learning to detect unseen object classes by between-class attribute transfer.⁠（新しいウィンドウで開く）”（CVPR 2009）.
10
Lei Ba, J., Swersky, K., & Fidler, S.（2015）.“Predicting deep zero-shot convolutional neural networks using textual descriptions.⁠（新しいウィンドウで開く）”（ICCV 2015）.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A.（2013）.“Zero-shot learning through cross-modal transfer.⁠（新しいウィンドウで開く）”（NeurIPS 2013）.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T.（2013）.“Devise:A deep visual-semantic embedding model.⁠（新しいウィンドウで開く）”（NeurIPS 2013）.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L.（2017）.“Learning visual n-grams from web data.⁠（新しいウィンドウで開く）”（Proceedings of the IEEE International Conference on Computer Vision 2017）.
14
Doersch, C., Gupta, A., & Efros, A. A.（2015）.“Unsupervised visual representation learning by context prediction.⁠（新しいウィンドウで開く）”（ICCV 2015）.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L.（2019）.“S4l:Self-supervised semi-supervised learning.⁠（新しいウィンドウで開く）”（ICCV 2019）.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B.（2020）.“Bootstrap your own latent:A new approach to self-supervised learning.⁠（新しいウィンドウで開く）”（NeurIPS 2020）.
17
Oord, A. V.D., Li, Y., & Vinyals, O.（2018）.“Representation Learning with Contrastive Predictive Coding.⁠（新しいウィンドウで開く）”（arXiv preprint）.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y.（2018）.“Learning deep representations by mutual information estimation and maximization.⁠（新しいウィンドウで開く）”（ICLR 2019）.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W.（2019）.“Learning representations by maximizing mutual information across views.⁠（新しいウィンドウで開く）” （NeurIPS 2019）.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R.（2020）.“Momentum contrast for unsupervised visual representation learning.⁠（新しいウィンドウで開く）”（CVPR 2020）.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G.（2020）.“A simple framework for contrastive learning of visual representations.⁠（新しいウィンドウで開く）”（arXiv preprint）.
22
Lee, D. H.（2013, June）.“Pseudo-label:The simple and efficient semi-supervised learning method for deep neural networks.⁠（新しいウィンドウで開く）”（Workshop on challenges in representation learning, ICML 2013）.
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V.（2020）.“Self-training with noisy student improves imagenet classification.⁠（新しいウィンドウで開く）”（CVPR 2020）.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M.（2014）.“Semi-supervised learning with deep generative models.⁠（新しいウィンドウで開く）”（NeurIPS 2014）.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X.（2016）.“Improved techniques for training gans.⁠（新しいウィンドウで開く）”（NeurIPS 2016）.
26
Donahue, J., & Simonyan, K.（2019）.“Large scale adversarial representation learning.⁠（新しいウィンドウで開く）”（NeurIPS 2019）.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I.（2020, November）.“Generative pretraining from pixels.⁠（新しいウィンドウで開く）”（ICML 2020）.
28
He, K., Zhang, X., Ren, S., & Sun, J.（2015）.“Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification.⁠（新しいウィンドウで開く）”（ICCV 2015）.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C.（2015）.“Imagenet large scale visual recognition challenge.⁠（新しいウィンドウで開く）”（IJCV 2015）.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L.（2020）.“Measuring robustness to natural distribution shifts in image classification.⁠（新しいウィンドウで開く）”（NeurIPS 2020）.
31
Sohn, K.（2016）.“Improved deep metric learning with multi-class n-pair loss objective.⁠（新しいウィンドウで開く）”（NeurIPS 2016）.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I.（2017）.“Attention is all you need.⁠（新しいウィンドウで開く）”（NeurIPS 2017）.
33
Desai, K., & Johnson, J.（2020）.“VirTex:Learning Visual Representations from Textual Annotations.⁠（新しいウィンドウで開く）”（arXiv preprint）.
34
Sariyildiz, M. B., Perez, J., & Larlus, D.（2020）.“Learning Visual Representations with Caption Annotations.⁠（新しいウィンドウで開く）”（ECCV 2020）.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P.（2020）.“Contrastive Learning of Medical Visual Representations from Paired Images and Text.⁠（新しいウィンドウで開く）”（arXiv preprint）.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J.（2020）.“An image is worth 16x16 words:Transformers for image recognition at scale.⁠（新しいウィンドウで開く）”（arXiv preprint）.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L.（2018）.“Exploring the limits of weakly supervised pretraining.⁠（新しいウィンドウで開く）”（ECCV 2018）.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N.（2019）.“Big Transfer (BiT):General Visual Representation Learning.⁠（新しいウィンドウで開く）”（arXiv preprint）.
39
Kärkkäinen, K., & Joo, J.（2019）.“Fairface:Face attribute dataset for balanced race, gender, and age.⁠（新しいウィンドウで開く）”（arXiv preprint）.
40
Bowker, G., & Star, S. L.（1999）.“Sorting things out.Classification and its consequences.⁠（新しいウィンドウで開く）”（The MIT Press）.
41
Keyes, O.（2018）.“The misgendering machines:Trans/HCI implications of automatic gender recognition.⁠（新しいウィンドウで開く）”（Proceedings of the ACM on Human-Computer Interaction）.

著者

Alec Radford、Ilya Sutskever、Jong Wook Kim、Gretchen Krueger、Sandhini Agarwal

謝辞

CLIP の学習用データ作成に関与いただいた数百万人もの方々に感謝いたします。また、本プロジェクトにご貢献いただいたすべての共著者の方々にも非常に感謝しております。そして最後に、本ブログの草稿にフィードバックをしていただいた Jeff Clune、Miles Brundage、Ryan Lowe、Jakub Pachocki、Vedant Misra の各氏、コード公開のレビューを行っていただいた Matthew Knight 氏に感謝の言葉を捧げます。