2021 оны нэгдүгээр сарын 5

CLIP: Текст ба зургийг холбох нь

Зураглал: Justin Jay Wang

Ачаалж байна…

Бид CLIP нэртэй нейрон сүлжээг танилцуулж байна. Энэ нь байгалийн хэлний хяналтаас дүрслэх ойлголтуудыг үр ашигтай суралцдаг. CLIP-ийг таних ёстой дүрслэх ангиллуудын нэрийг зүгээр л өгснөөр ямар ч дүрслэх ангиллын benchmark-д хэрэглэж болно. Энэ нь GPT‑2 болон GPT‑3‑ийн “тэг оролдлого” чадвартай төстэй.

Гүний сургалт компьютер харааг хувьсгалчлан өөрчилсөн ч одоогийн аргуудад хэд хэдэн томоохон асуудал бий: ердийн харааны өгөгдлийн багцуудыг бий болгоход их хөдөлмөр, өндөр өртөг шаарддаг бөгөөд тэдгээр нь зөвхөн хязгаарлагдмал дүрслэх ойлголтуудыг заадаг; стандарт харааны загварууд нэг л даалгаварт сайн бөгөөд шинэ даалгаварт тохируулахад ихээхэн хүчин чармайлт шаарддаг; мөн benchmark дээр сайн ажилладаг загварууд stress test дээр урам хугалам муу гүйцэтгэл үзүүлдэг^{1, 2, 3, 4} нь компьютер хараанд хэрэглэгдэх гүний сургалтын бүхэл аргачлалд эргэлзээ төрүүлдэг.

Бид эдгээр асуудлыг шийдэхийг зорьсон нэг нейрон сүлжээг танилцуулж байна: энэ нь интернетэд элбэг байдаг маш олон төрлийн зураг болон маш олон янзын байгалийн хэлний хяналт дээр сургагдсан. Дизайнаараа, энэ сүлжээг байгалийн хэлээр зааварлан маш олон төрлийн ангиллын benchmark-ийг гүйцэтгүүлж болдог бөгөөд benchmark-ийн гүйцэтгэлийг шууд оновчлохгүйгээр ажилладаг нь GPT‑2⁵ болон GPT‑3⁶-ийн “тэг оролдлого⁠(шинэ цонхонд нээгдэнэ)” чадвартай төстэй. Энэ бол гол өөрчлөлт: benchmark-ийг шууд оновчлохгүй байх нь илүү төлөөлөхүйц болдгийг бид харуулсан; манай систем анхны ResNet-50⁷-ийн ImageNet⁠(шинэ цонхонд нээгдэнэ) тэг оролдлого гүйцэтгэлтэй дүйцэхийн зэрэгцээ анхны 1.28M шошголсон жишээнүүдийн алиныг нь ч ашиглалгүйгээр энэ “бат бөхийн зөрүү”-г 75% хүртэл бууруулдаг.

Ачаалж байна...

Суурь ба холбоотой ажил

CLIP (Contrastive Language–Image Pre-training) нь тэг оролдлого шилжүүлэлт, байгалийн хэлний хяналт, олон төрлийн горимт сургалтын өргөн хүрээний ажлууд дээр тулгуурладаг. Өгөгдөлгүй сургалтын санаа арав гаруй жилийн өмнөөс эхтэй⁸ боловч саяхныг хүртэл энэ нь ихэвчлэн компьютер хараанд хараахан үзэгдээгүй объектын ангилалд ерөнхийшүүлэх арга байдлаар судлагдаж байв.^{9, 10} Чухал ойлголт нь ерөнхийшүүлэлт ба шилжүүлэлтийг боломжтой болгохын тулд байгалийн хэлийг уян хатан таамаглалын орон зай болгон ашиглах явдал байв. 2013 онд Stanford-ийн Richard Socher болон хамтран зохиогчид¹¹ CIFAR-10 дээр нэг загварыг сургаж, үгийн вектор эмбеддингийн орон зайд таамаглал хийх концепцийн нотолгоог боловсруулсан бөгөөд энэ загвар өмнө нь үзэгдээгүй хоёр ангиллыг таамаглаж чаддагийг харуулсан. Мөн тэр жил DeVISE¹² энэ аргыг өргөжүүлж, ImageNet загварыг нарийн тохируулснаар анхны 1000 сургалтын багцаас гаднах объектуудыг зөв таамаглах хэмжээнд ерөнхийшүүлж болдгийг үзүүлсэн.

CLIP-д хамгийн их урам өгсөн ажил бол FAIR-ийн Ang Li болон хамтран зохиогчдын¹³ 2016 онд хийсэн ажил бөгөөд тэд байгалийн хэлний хяналтыг ашиглан ImageNet зэрэг одоо байгаа хэд хэдэн компьютер харааны ангиллын өгөгдлийн багц руу тэг оролдлого шилжүүлэлт хийхийг харуулсан. Тэд 30 сая Flickr зургийн гарчиг, тайлбар, шошгоны текстээс 훨 илүү өргөн хүрээний дүрслэх ойлголтуудыг (visual n-grams) таамаглахаар ImageNet CNN-ийг нарийн тохируулж, ImageNet тэг оролдлого дээр 11.5% нарийвчлалд хүрч чадсан.

Эцэст нь, CLIP нь өнгөрсөн нэг жилийн хугацаанд байгалийн хэлний хяналтаас дүрслэлийн төлөөлөл суралцах сэдвийг дахин авч үзсэн цуврал өгүүллүүдийн нэг хэсэг юм. Энэ чиглэл нь Трансформер³² зэрэг илүү орчин үеийн архитектуруудыг ашигладаг бөгөөд авторегрессив хэлний загварчлалыг судалсан VirTex,³³ маскласан хэлний загварчлалыг судалсан ICMLM,³⁴ мөн CLIP-д ашигласан ижил contrastive зорилгыг эмнэлгийн дүрслэлийн салбарт судалсан ConVIRT-ийг³⁵ агуулдаг.

Аргачлал

Энгийн урьдчилсан сургалтын даалгаврыг хэмжээгээр нь өсгөхөд л олон төрлийн зургийн ангиллын өгөгдлийн багц дээр өрсөлдөхүйц тэг оролдлого гүйцэтгэлд хүрэхэд хангалттай гэдгийг бид харуулж байна. Манай арга элбэг байдаг нэг хяналтын эх үүсвэрийг ашигладаг: интернет даяар байдаг зурагтай хосолсон текст. Энэ өгөгдлөөр CLIP-д зориулсан дараах орлуулга сургалтын даалгаврыг үүсгэдэг: нэг зураг өгөгдвөл, санамсаргүй түүвэрлэсэн 32,768 текстийн хэсгээс манай өгөгдлийн багцад бодитоор түүнтэй хосолсон аль нь болохыг таамаглах.

Энэ даалгаврыг шийдэхийн тулд CLIP загварууд зурган дахь олон төрлийн дүрслэх ойлголтыг таньж, тэдгээрийг нэртэй нь холбож сурах хэрэгтэй болно гэж бид зөнгөөрөө үзэж байна. Үүний үр дүнд CLIP загваруудыг бараг дурын дүрслэх ангиллын даалгаварт хэрэглэж болно. Жишээлбэл, хэрэв өгөгдлийн багцын даалгавар нь нохой ба муурын зургийг ангилах бол бид зураг бүрийн хувьд CLIP загвар “a photo of a dog” эсвэл “a photo of a cat” гэсэн текст тайлбарын алийг нь түүнтэй хослох магадлал өндөр гэж таамаглаж байгааг шалгадаг.

Ачаалж байна...

CLIP нь компьютер хараанд хэрэглэгддэг стандарт гүний сургалтын аргын хэд хэдэн томоохон асуудлыг бууруулахаар зохион бүтээгдсэн:

Өртөг өндөр өгөгдлийн багц: Гүний сургалтад маш их өгөгдөл шаардлагатай бөгөөд харааны загваруудыг уламжлалт ёсоор гараар шошголсон, бүтээхэд үнэтэй, урьдчилан тогтоосон цөөн тооны дүрслэх ойлголтод л хяналт өгдөг өгөгдлийн багцууд дээр сургаж ирсэн. Энэ салбарын хамгийн том хүчин чармайлтын нэг болох ImageNet өгөгдлийн багцад 22,000 объектын ангилалд зориулж 14 сая зургийг тайлбарлуулахын тулд 25,000 гаруй ажилтан шаардлагатай болсон. Харин CLIP нь интернетэд аль хэдийн нийтэд нээлттэй байгаа текст–зургийн хосоос суралцдаг. Өртөг өндөр, том хэмжээтэй шошголсон өгөгдлийн багцын хэрэгцээг бууруулах асуудлыг өмнөх ажлууд өргөн судалсан бөгөөд ялангуяа өөрөө хянагддаг сургалт,^{14, 15, 16} contrastive аргууд,^{17, 18, 19, 20, 21} өөрөө сургалтын хандлагууд,^{22, 23} болон үүсмэл загварчлал.^{24, 25, 26, 27}

Хязгаарлагдмал: ImageNet загвар нь ImageNet-ийн 1000 ангиллыг таамаглахдаа сайн боловч “шууд ашиглахад” түүний чадвар тийм л. Хэрэв бид өөр ямар нэгэн даалгавар гүйцэтгэхийг хүсвэл ML мэргэжилтэн шинэ өгөгдлийн багц бүтээж, гаралтын толгой нэмээд, загварыг нарийн тохируулах хэрэгтэй болдог. Харин CLIP-ийг нэмэлт сургалтын жишээ шаардалгүйгээр маш олон төрлийн дүрслэх ангиллын даалгаварт тохируулж болно. CLIP-ийг шинэ даалгаварт хэрэглэхийн тулд тухайн даалгаврын дүрслэх ойлголтуудын нэрийг CLIP-ийн текст-энкодерт “хэлэхэд” л хангалттай бөгөөд энэ нь CLIP-ийн дүрслэх төлөөллүүдийн шугаман ангилагчийг гаргана. Энэ ангилагчийн нарийвчлал нь бүрэн хянагддаг загваруудтай өрсөлдөхүйц байдаг.

Доор бид янз бүрийн өгөгдлийн багцын жишээн дээрх тэг оролдлого CLIP ангилагчдын санамсаргүй, сонгож шүүгээгүй таамаглалуудыг үзүүлэв.

Ачаалж байна...

Бодит орчин дахь сул гүйцэтгэл: Гүний сургалтын системүүдийг ихэвчлэн харааны шалгуур үзүүлэлтүүд дээр хүний түвшний, бүр хүнийхээс давсан гүйцэтгэлтэй гэж мэдээлдэг^{28, A} боловч бодит орчинд нэвтрүүлэхэд тэдний гүйцэтгэл нь тухайн benchmark-аас тогтоосон хүлээлтээс хавьгүй доогуур байж болно. Өөрөөр хэлбэл, “benchmark гүйцэтгэл” ба “бодит гүйцэтгэл” хооронд зөрүү бий. Энэ зөрүү нь загварууд benchmark дээрх гүйцэтгэлийг л оновчлох замаар “хуурдаг”-аас үүсдэг гэж бид таамаглаж байна. Энэ нь өмнөх жилүүдийн шалгалтын асуултуудыг л цээжилж шалгалт өгсөн оюутантай адил. Харин CLIP загварыг benchmark-уудын өгөгдөл дээр сургах шаардлагагүйгээр үнэлж болдог тул ийм байдлаар “хуурах” боломжгүй. Үүний үр дүнд түүний benchmark дээрх гүйцэтгэл нь бодит орчин дахь гүйцэтгэлийг илүү сайн төлөөлдөг. “Хууралтын таамаглал”-ыг шалгахын тулд CLIP-д ImageNet-д “бэлдэх” боломж олгоход гүйцэтгэл нь хэрхэн өөрчлөгдөхийг мөн хэмжсэн. CLIP-ийн шинжүүд дээр шугаман ангилагч тааруулахад ImageNet тест багц дээрх CLIP-ийн нарийвчлал бараг 10%-иар сайжирдаг. Гэвч энэ ангилагч нь “бат бөх” гүйцэтгэлийг хэмждэг өөр 7 өгөгдлийн багцын үнэлгээний багц дээр дунджаар илүү сайн биш байна.³⁰

Гол санаанууд

1. CLIP маш үр ашигтай

CLIP нь шүүлтгүй, маш олон янз, дуу чимээ ихтэй өгөгдлөөс суралцдаг бөгөөд тэг оролдлого байдлаар ашиглагдахаар зориулагдсан. GPT‑2 ба 3-аас ийм өгөгдөл дээр сурсан загварууд анхаарал татахуйц тэг оролдлого гүйцэтгэлд хүрч чаддагийг бид мэднэ; гэхдээ ийм загваруудад их хэмжээний сургалтын тооцоолол шаардлагатай. Шаардлагатай тооцооллыг бууруулахын тулд бид өөрсдийн аргын сургалтын үр ашгийг сайжруулах алгоритмын аргуудад анхаарсан.

Их хэмжээний тооцооллын хэмнэлтэд хүргэсэн хоёр алгоритмын сонголтыг бид тайлагнаж байна. Эхний сонголт нь текстийг зурагтай холбох contrastive зорилгыг нэвтрүүлсэн явдал юм.^{31, 17, 35} Бид анх VirTex-тэй төстэй зураг-ээс-текст арга судалсан³³ боловч үүнийг өргөжүүлэн хамгийн сүүлийн үеийн гүйцэтгэлд хүргэхэд хүндрэлтэй тулгарсан. Жижиг, дунд хэмжээний туршилтуудад CLIP-ийн ашигладаг contrastive зорилго нь ImageNet тэг оролдлого ангилалд 4x-10x илүү үр ашигтай болохыг бид олсон. Хоёр дахь сонголт нь Vision Transformer-ийг³⁶ нэвтрүүлсэн явдал бөгөөд энэ нь стандарт ResNet-ээс тооцооллын үр ашигт дахин 3x өсөлт өгсөн. Эцэст нь, бидний хамгийн сайн гүйцэтгэлтэй CLIP загвар 256 GPU дээр 2 долоо хоног сурдаг бөгөөд энэ нь одоогийн том хэмжээний зургийн загваруудтай төстэй.^{37, 23, 38, 36}

Ачаалж байна...

2. CLIP уян хатан бөгөөд ерөнхий

CLIP загварууд байгалийн хэлнээс өргөн хүрээний дүрслэх ойлголтуудыг шууд сурдаг тул одоо байгаа ImageNet загваруудаас мэдэгдэхүйц илүү уян хатан, ерөнхий байдаг. Тэд олон янзын даалгаврыг тэг оролдлогоор гүйцэтгэж чаддагийг бид олсон. Үүнийг батлахын тулд бид нарийн түвшний объект ангилал, газарзүйн байршил тогтоох, видео дахь үйлдэл таних, OCR зэрэг даалгавруудыг багтаасан 30 гаруй өөр өгөгдлийн багц дээр CLIP-ийн тэг оролдлого гүйцэтгэлийг хэмжсэн.^B Ялангуяа OCR сурах нь стандарт ImageNet загваруудад гардаггүй, сонирхол татам зан төлвийн жишээ юм. Дээр бид тэг оролдлого ангилагч бүрээс санамсаргүй, сонгож шүүгээгүй таамаглалыг дүрслэн үзүүлсэн.

Энэ олдвор шугаман probe ашигласан стандарт төлөөлөл сургалтын үнэлгээнд мөн туссан. Бидний хамгийн сайн CLIP загвар олон нийтэд нээлттэй байгаа хамгийн сайн ImageNet загвар болох Noisy Student EfficientNet-L2-оос²³ бидний туршсан 26 өөр шилжүүлэлтийн өгөгдлийн багцын 20 дээр илүү байна.

Ачаалж байна...

Хязгаарлалтууд

CLIP нь нийтлэг объект танихдаа ихэвчлэн сайн ажилладаг ч зурагт байгаа объектын тоог тоолох зэрэг илүү хийсвэр эсвэл системтэй даалгавар, мөн зураг дахь хамгийн ойрын машин хэр ойр байгааг таамаглах зэрэг илүү төвөгтэй даалгаварт хүндрэлтэй байдаг. Энэ хоёр өгөгдлийн багц дээр тэг оролдлого CLIP нь санамсаргүй таамаглалаас ялимгүй дээр л байна. Мөн тэг оролдлого CLIP нь машины загваруудын ялгаа, нисэх онгоцны хувилбарууд, эсвэл цэцгийн зүйлүүдийг ялгах зэрэг маш нарийн түвшний ангилалд даалгавар тусгай загваруудтай харьцуулахад хүндрэлтэй байдаг.

CLIP нь урьдчилсан сургалтын өгөгдлийн багцад хамрагдаагүй зургуудад ерөнхийшүүлэх чадвар мөн муу хэвээр байна. Жишээлбэл, CLIP чадвартай OCR систем сурдаг ч MNIST өгөгдлийн багц дахь гараар бичсэн цифрүүд дээр үнэлэхэд тэг оролдлого CLIP зөвхөн 88% нарийвчлалд хүрдэг нь уг өгөгдлийн багц дээрх хүний 99.75%-иас хавьгүй доогуур үзүүлэлт юм. Эцэст нь, CLIP-ийн тэг оролдлого ангилагчид нь үг сонголт эсвэл өгүүлбэрийн хэлбэршилтэд мэдрэмтгий байж, сайн ажиллуулахын тулд заримдаа туршиж алдах маягийн “өгөгдлийн инженерчлэл” шаарддагийг бид ажигласан.

Өргөн хүрээний нөлөөлөл

CLIP нь хүмүүст өөрсдийн ангилагчийг зохион бүтээх боломж олгож, даалгавар тусгай сургалтын өгөгдлийн хэрэгцээг арилгадаг. Эдгээр ангиллыг хэрхэн зохион бүтээх нь загварын гүйцэтгэл болон загварын хазайлтад хүчтэй нөлөөлж болно. Жишээлбэл, Fairface³⁹ арьс өнгийн шошгууд^C болон “criminal”, “animal” зэрэг хэдэн ноцтой нэр томьёог багтаасан шошгын багц өгөхөд, загвар 0–20 насны хүмүүсийн зургийг ноцтой ангилалд ~32.3%-ийн түвшинд ангилах хандлагатай байдаг. Харин боломжит ангиллуудын жагсаалтад “child” ангиллыг нэмэхэд энэ зан төлөв ~8.7% хүртэл буурдаг.

Нэмж хэлэхэд, CLIP-д даалгавар тусгай сургалтын өгөгдөл хэрэггүй тул тодорхой нарийн даалгавруудыг илүү хялбар нээж өгч чадна. Эдгээрийн зарим нь хувийн нууц эсвэл тандалттай холбоотой эрсдэл дагуулж болох бөгөөд бид энэ асуудлыг CLIP-ийн алдартан таних гүйцэтгэлийг судалж авч үзсэн. 100 нэр дэвшигчээс сонгох үед “in the wild” алдартны зургийн ангилал дээр CLIP-ийн top-1 нарийвчлал 59.2%, 1000 боломжит сонголтоос сонгох үед top-1 нарийвчлал 43.3% байна. Даалгавар-үл хамаарах урьдчилсан сургалтаар ийм үр дүнд хүрсэн нь онцлохуйц боловч энэ гүйцэтгэл өргөн хэрэглэгддэг үйлдвэрлэлийн түвшний загваруудтай харьцуулахад өрсөлдөхүйц биш юм. Бид CLIP-ийн үүсгэж буй сорилтуудыг манай өгүүлэл⁠(шинэ цонхонд нээгдэнэ) дээр цаашид судалсан бөгөөд энэ ажил ийм загваруудын чадвар, сул тал, хазайлтын шинж чанарыг тодорхойлох ирээдүйн судалгааг өдөөх болно гэж найдаж байна. Ийм асуултуудаар судалгааны нийгэмлэгтэй хамтран ажиллахдаа бид баяртай байна.

Дүгнэлт

CLIP-ээр бид сүүлийн үеийн NLP нээлтүүдийг дэмжсэн интернетийн хэмжээний байгалийн хэлэн дээрх даалгавар-үл хамаарах урьдчилсан сургалтыг бусад салбар дахь гүний сургалтын гүйцэтгэлийг сайжруулахад мөн ашиглаж болох эсэхийг шалгасан. Энэ аргыг компьютер хараанд хэрэглэхэд одоогоор үзсэн үр дүн биднийг ихэд урамшуулж байна. GPT гэр бүлийн адил CLIP нь урьдчилсан сургалтын үеэр олон төрлийн даалгавар сурдаг бөгөөд үүнийг бид тэг оролдлого шилжүүлэлтээр харуулсан. Мөн ImageNet дээрх бидний олдворууд тэг оролдлого үнэлгээ нь загварын чадварыг илүү төлөөлөх хэмжүүр болохыг санал болгож байгаад бид урамтай байна.

Хөл тэмдэглэл

29
2015 онд Microsoft-ийн судлаачдын бүлэг анх удаа ImageNet дээр хүний top-5 нарийвчлалаас давсан top-5 нарийвчлалтай загварыг сургажээ.
B
CLIP-ийн тэг оролдлого OCR гүйцэтгэл холимог боловч түүний семантик OCR дүрслэл нэлээд ашигтай. Зураг болгон хөрвүүлсэн SST-2 NLP өгөгдлийн багц дээр үнэлэхэд, CLIP-ийн дүрслэл дээрх шугаман ангилагч нь текстэд шууд хандалттай CBoW загвартай дүйцнэ. Мөн CLIP нь ground truth текст шаардалгүйгээр үзэн ядсан мемийг илрүүлэхэд өрсөлдөхүйц үзүүлэлттэй.
40
FairFace нь өмнөх нүүрний өгөгдлийн багцуудад түгээмэл байсан тэгш бус байдлыг бууруулахын тулд нас, хүйс, арьс өнгийг тэнцвэржүүлэхээр бүтээгдсэн нүүрний зургийн өгөгдлийн багц юм. Энэ нь хүйсийг 2 бүлэгт ангилдаг: эмэгтэй, эрэгтэй; арьс өнгийг 7 бүлэгт ангилдаг: White, Black, Indian, East Asian, Southeast Asian, Middle Eastern, Latino. Арьс өнгө, хүйсийн ангилалд угаасаа асуудал бий гэдгийг жишээлбэл Bowker and Star (2000) болон Keyes (2018) харуулсан. FairFace-ийн өгөгдлийн багц White нүүрний хувийг бууруулдаг ч хүн ам зүйн томоохон бүхэл бүлгүүдийн төлөөлөл дутмаг хэвээр бөгөөд ийм ангиллуудыг бодитоор арилгаж байна. Бид FairFace өгөгдлийн багцад тодорхойлсон 2 хүйсийн ангилал, 7 арьс өнгийн ангиллыг зарим туршилтад ашигладаг нь ийм хэт хялбаршуулсан ангиллыг бататгах, дэмжихийн тулд биш, харин өмнөх ажлуудтай харьцуулах боломж бүрдүүлэхийн тулд юм.

Эшлэлүүд

1
Dodge, S., & Karam, L. (2017, July). “Харааны гажуудлын нөхцөл дэх хүний болон гүний сургалтын таних гүйцэтгэлийн судалгаа ба харьцуулалт.⁠(шинэ цонхонд нээгдэнэ)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “ImageNet дээр сурсан CNN-үүд бүтэцлэлд хазайлттай; хэлбэрийн хазайлтыг нэмэгдүүлэх нь нарийвчлал ба бат бөх чанарыг сайжруулдаг.⁠(шинэ цонхонд нээгдэнэ)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Дүр аваад цохих нь: нейрон сүлжээнүүд танил объектын этгээд байрлалаар амархан хууртагддаг.⁠(шинэ цонхонд нээгдэнэ)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: объект таних загварын хязгаарыг тэлэхэд зориулсан, хазайлтыг хянасан том хэмжээний өгөгдлийн багц.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Хэлний загварууд бол хяналтгүй олон даалгаварт суралцагчид юм.⁠(шинэ цонхонд нээгдэнэ)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “Хэлний загварууд бол цөөн оролдлого суралцагчид юм.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “Зураг танихад зориулсан гүн үлдэгдэл сургалт.⁠(шинэ цонхонд нээгдэнэ)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “Шинэ даалгаврын өгөгдөлгүй сургалт.⁠(шинэ цонхонд нээгдэнэ)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “Ангилал хоорондын шинжийн шилжүүлэлтээр үзэгдээгүй объектын ангиллыг илрүүлж сурах нь.⁠(шинэ цонхонд нээгдэнэ)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “Текстэн тайлбараар гүн тэг оролдлого конволюцын нейрон сүлжээг таамаглах.⁠(шинэ цонхонд нээгдэнэ)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “Хөндлөн горимын шилжүүлэлтээр тэг оролдлого сургалт.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: гүн дүрслэл-семантикийн эмбеддинг загвар.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “Вэб өгөгдлөөс дүрслэх n-gram сургах нь.⁠(шинэ цонхонд нээгдэнэ)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “Контекст таамаглалаар хяналтгүй дүрслэх төлөөлөл сурах нь.⁠(шинэ цонхонд нээгдэнэ)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: Өөрөө хянагддаг хагас хянагддаг сургалт.⁠(шинэ цонхонд нээгдэнэ)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Өөрийн латентыг бэхжүүл: өөрөө хянагддаг сургалтын шинэ арга.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Contrastive Predictive Coding ашигласан төлөөлөл сургалт.⁠(шинэ цонхонд нээгдэнэ)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Харилцан мэдээллийг үнэлж, ихэсгэх замаар гүн төлөөлөл сурах нь.⁠(шинэ цонхонд нээгдэнэ)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “Харалтууд хоорондын харилцан мэдээллийг ихэсгэх замаар төлөөлөл сурах нь.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “Хяналтгүй дүрслэх төлөөлөл сургалтад зориулсан momentum contrast.⁠(шинэ цонхонд нээгдэнэ)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “Дүрслэх төлөөллийн contrastive сургалтын энгийн хүрээ.⁠(шинэ цонхонд нээгдэнэ)” arXiv preprint.
22
Lee, D. H. (2013, June). “Pseudo-label: гүн нейрон сүлжээнд зориулсан энгийн бөгөөд үр ашигтай хагас хянагддаг сургалтын арга.⁠(шинэ цонхонд нээгдэнэ)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “Noisy student ашигласан өөрөө сургалт нь imagenet ангиллыг сайжруулдаг.⁠(шинэ цонхонд нээгдэнэ)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “Гүн үүсмэл загвар ашигласан хагас хянагддаг сургалт.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “GAN-уудыг сургахад зориулсан сайжруулсан аргууд.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “Том хэмжээний adversarial төлөөлөл сургалт.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “Пикселээс үүсмэл урьдчилсан сургалт.⁠(шинэ цонхонд нээгдэнэ)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Rectifier-уудыг гүнзгий судлах нь: ImageNet ангилалд хүний түвшнээс давах нь.⁠(шинэ цонхонд нээгдэнэ)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Imagenet-ийн том хэмжээний дүрслэл таних сорилт.⁠(шинэ цонхонд нээгдэнэ)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “Зургийн ангилал дахь байгалийн тархалтын шилжилтэд бат бөх чанарыг хэмжих нь.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2020.
31
Sohn, K. (2016). “Олон ангиллын n-pair loss зорилгоор сайжруулсан гүн metric learning.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “Танд хэрэгтэй зүйл бол анхаарал л юм.⁠(шинэ цонхонд нээгдэнэ)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: Текстэн тайлбараас дүрслэх төлөөлөл сурах нь.⁠(шинэ цонхонд нээгдэнэ)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Caption тайлбараар дүрслэх төлөөлөл сурах нь.⁠(шинэ цонхонд нээгдэнэ)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Хосолсон зураг ба текстээс эмнэлгийн дүрслэх төлөөллийг contrastive аргаар сурах нь.⁠(шинэ цонхонд нээгдэнэ)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “Нэг зураг 16x16 үгтэй тэнцэнэ: том хэмжээнд зураг таних трансформерууд.⁠(шинэ цонхонд нээгдэнэ)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “Сул хяналттай урьдчилсан сургалтын хязгаарыг судлах нь.⁠(шинэ цонхонд нээгдэнэ)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): Ерөнхий дүрслэх төлөөлөл сургалт.⁠(шинэ цонхонд нээгдэнэ)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: тэнцвэртэй арьс өнгө, хүйс, насанд зориулсан нүүрний шинжийн өгөгдлийн багц.⁠(шинэ цонхонд нээгдэнэ)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “Юмыг эмхлэх нь. Ангилал ба түүний үр дагавар⁠(шинэ цонхонд нээгдэнэ)” Book.
41
Keyes, O. (2018). “Хүйсийг андуурдаг машинууд: автомат хүйс танихын Trans/HCI үр дагавар.⁠(шинэ цонхонд нээгдэнэ)” In Proceedings of the ACM on Human-Computer Interaction.

Зохиогчид

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, Sandhini Agarwal

Талархал

CLIP-ийг сургахад ашигласан өгөгдлийг бүтээхэд оролцсон сая сая хүнд бид талархал илэрхийлье. Мөн төсөлд хувь нэмрээ оруулсан бүх хамтран зохиогчдодоо бид баярлаж байна. Эцэст нь, энэ блогийн ноорогт санал өгсөн Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki, Vedant Misra нарт, мөн кодын нээлтийг хянасан Matthew Knight-д талархал илэрхийлье.