2021 ж. 5 қаңтар

CLIP: Мәтін мен кескіндерді байланыстыру

Иллюстрация: Justin Jay Wang

Жүктелуде…

Біз CLIP деп аталатын нейрондық желіні таныстырып отырмыз, ол табиғи тілдік қадағалау арқылы визуалды ұғымдарды тиімді үйренеді. CLIP-ті танылуы тиіс визуалды санаттардың атауларын ғана беру арқылы кез келген визуалды жіктеу бенчмаркіне қолдануға болады, бұл GPT‑2 және GPT‑3‑тің «мысалсыз» мүмкіндіктеріне ұқсас.

Терең оқыту компьютерлік көруді түбегейлі өзгерткеніне қарамастан, қазіргі тәсілдердің бірнеше ірі мәселесі бар: әдеттегі көру деректер жиындарын жасау көп еңбекті және қымбатты талап етеді, бірақ олар визуалды ұғымдардың тар жиынын ғана үйретеді; стандартты көру модельдері бір ғана тапсырмаға жақсы және тек соған жарайды, ал жаңа тапсырмаға бейімдеу үшін едәуір күш қажет; сондай-ақ бенчмарктерде жақсы жұмыс істейтін модельдер стресс-тесттерде көңіл көншітпейтіндей нашар нәтиже көрсетеді,^{1, 2, 3, 4} бұл компьютерлік көрудегі бүкіл терең оқыту тәсіліне күмән тудырады.

Біз осы мәселелерді шешуді мақсат ететін нейрондық желіні ұсынамыз: ол интернетте молынан қолжетімді әртүрлі табиғи тілдік қадағалаумен бірге келетін өте алуан түрлі кескіндерде үйретілген. Жобасы бойынша бұл желіге табиғи тілде нұсқау беріп, бенчмарк өнімділігін тікелей оңтайландырмай-ақ, көптеген жіктеу бенчмарктерін орындауға болады; бұл GPT‑2⁵ және GPT‑3‑тің⁶ «мысалсыз⁠(жаңа терезеде ашылады)» мүмкіндіктеріне ұқсас. Бұл — маңызды өзгеріс: бенчмарк үшін тікелей оңтайландырмау арқылы ол әлдеқайда өкілді болатынын көрсетеміз; біздің жүйе осы «төзімділік алшақтығын» 75%-ға дейін қысқартып, бастапқы ResNet-50⁷ моделінің ImageNet⁠(жаңа терезеде ашылады) мысалсыз режиміндегі өнімділігіне тең келеді, әрі бастапқы 1.28M таңбаланған мысалдардың ешқайсысын қолданбайды.

Жүктелуде...

Негіз және қатысты жұмыстар

CLIP (Contrastive Language–Image Pre-training) мысалсыз тасымалдау, табиғи тілдік қадағалау және мультимодальды оқыту бойынша ауқымды жұмыстарға сүйенеді. Дерексіз оқыту идеясы он жылдан астам уақыт бұрын пайда болды⁸ бірақ соңғы уақытқа дейін ол негізінен компьютерлік көруде бұрын көрілмеген нысан санаттарына жалпылау тәсілі ретінде зерттелді.^{9 және 10} Маңызды түйсік — жалпылау мен тасымалдауды іске асыру үшін икемді болжау кеңістігі ретінде табиғи тілді пайдалану болды. 2013 жылы Стэнфордтағы Ричард Сочер және әріптестері¹¹ CIFAR-10 бойынша сөз векторларының ендіру кеңістігінде болжау жасайтын модельді үйретіп, оның бұрын көрілмеген екі класты болжай алатынын көрсетіп, тұжырымдаманың жұмыс істейтінін дәлелдеді. Сол жылы DeVISE¹² осы тәсілді кеңейтіп, ImageNet моделін бастапқы 1000 үйрету жиынынан тыс нысандарды дұрыс болжай алатындай етіп дәл баптауға болатынын көрсетті.

CLIP үшін ең шабыттандырғаны — 2016 жылы FAIR-тегі Ang Li және оның әріптестерінің¹³ жұмысы; олар табиғи тілдік қадағалауды қолданып, бірнеше бар компьютерлік көру жіктеу деректер жиындарына, мысалы, канондық ImageNet деректер жиынына мысалсыз тасымалдауды жүзеге асыруға болатынын көрсетті. Олар бұған ImageNet CNN моделін 30 миллион Flickr фотосының атаулары, сипаттамалары және тегтеріндегі мәтіннен анағұрлым кең визуалды ұғымдар жиынын (visual n-grams) болжауға дәл баптау арқылы қол жеткізді және ImageNet мысалсыз режимінде 11.5% дәлдікке жетті.

Соңында, CLIP — өткен жылы табиғи тілдік қадағалау арқылы визуалды ұсынуларды үйренуді қайта қарастырған мақалалар тобының бір бөлігі. Бұл бағытта ³² трансформер сияқты заманауи архитектуралар қолданылады және оған авторегрессиялық тілдік модельдеуді зерттеген VirTex,³³ маскаланған тілдік модельдеуді қарастырған ICMLM,³⁴ және CLIP үшін қолданатын дәл сол контрастивті мақсатты, бірақ медициналық кескіндеу саласында зерттеген ConVIRT³⁵ кіреді.

Тәсіл

Қарапайым алдын ала үйрету тапсырмасын ауқымдау әртүрлі кескін жіктеу деректер жиындарында бәсекеге қабілетті мысалсыз өнімділікке жету үшін жеткілікті екенін көрсетеміз. Біздің әдіс молынан қолжетімді қадағалау көзіне сүйенеді: интернеттің әр жерінен табылатын кескіндермен жұпталған мәтін. Бұл дерек CLIP үшін келесі жанама үйрету тапсырмасын жасауға қолданылады: берілген кескін үшін кездейсоқ іріктелген 32,768 мәтін үзіндісінің қайсысы біздің деректер жиынымызда шынында сонымен жұпталғанын болжау.

Бұл тапсырманы шешу үшін біздің түйсігіміз бойынша CLIP модельдері кескіндердегі сан алуан визуалды ұғымдарды тануды және оларды атауларымен байланыстыруды үйренуі керек. Соның нәтижесінде CLIP модельдерін дерлік кез келген визуалды жіктеу тапсырмасына қолдануға болады. Мысалы, егер деректер жиынының тапсырмасы иттер мен мысықтардың фотоларын жіктеу болса, біз әр кескін үшін CLIP моделі «a photo of a dog» немесе «a photo of a cat» деген мәтіндік сипаттаманың қайсысы онымен жұпталуы ықтималырақ екенін болжай ма, соны тексереміз.

Жүктелуде...

CLIP компьютерлік көрудегі стандартты терең оқыту тәсілінің бірқатар ірі мәселелерін азайту үшін жасалған:

Қымбат деректер жиындары: Терең оқытуға көп дерек керек, ал көру модельдері дәстүрлі түрде қолмен таңбаланған, құруы қымбат және алдын ала анықталған визуалды ұғымдардың шектеулі санына ғана қадағалау беретін деректер жиындарында үйретіліп келді. Осы саладағы ең ірі бастамалардың бірі ImageNet деректер жиыны 22,000 нысан санаты үшін 14 миллион кескінді белгілеуге 25,000-нан астам жұмысшыны қажет етті. Ал CLIP интернетте ашық қолжетімді мәтін–кескін жұптарынан үйренеді. Үлкен әрі қымбат таңбаланған деректер жиындарына қажеттілікті азайту алдыңғы жұмыстарда, атап айтқанда өзін-өзі қадағалайтын оқытуда,^{14, 15, 16} контрастивті әдістерде,^{17, 18, 19, 20, 21} өзін-өзі үйрету тәсілдерінде,^{22 және 23} және генеративті модельдеуде^{24, 25, 26, 27} кеңінен зерттелді.

Тар ауқымды: ImageNet моделі 1000 ImageNet санатын болжауда жақсы, бірақ «қораптан шыққан күйінде» сонымен ғана шектеледі. Егер басқа кез келген тапсырманы орындағымыз келсе, ML маманына жаңа деректер жиынын құрып, шығыс head-ын қосып, модельді дәл баптау қажет. Ал CLIP-ті қосымша үйрету мысалдарынсыз-ақ әртүрлі визуалды жіктеу тапсырмаларына бейімдеуге болады. CLIP-ті жаңа тапсырмаға қолдану үшін, тек CLIP мәтін кодтағышына тапсырманың визуалды ұғымдарының атауларын «айтуымыз» керек, сонда ол CLIP-тің визуалды ұсынуларының сызықтық жіктеуішін шығарады. Бұл жіктеуіштің дәлдігі көбіне толық қадағаланатын модельдермен бәсекеге түсе алады.

Төменде біз әртүрлі деректер жиындарындағы мысалдар бойынша мысалсыз CLIP жіктеуіштерінің кездейсоқ, әдейі таңдалмаған болжамдарын көрсетеміз.

Жүктелуде...

Нақты әлемдегі әлсіз өнімділік: Терең оқыту жүйелері көру бенчмарктерінде адам деңгейіндегі, тіпті адамнан жоғары өнімділікке жетеді деп жиі хабарланады^{28 және A}, бірақ нақты ортада қолданылғанда олардың өнімділігі бенчмарк қалыптастырған күтуден әлдеқайда төмен болуы мүмкін. Басқаша айтқанда, «бенчмарк өнімділігі» мен «нақты өнімділік» арасында алшақтық бар. Біздің жорамалымызша, бұл алшақтық модельдер тек бенчмарктегі өнімділікті оңтайландырып, сол арқылы «алдағандықтан» туындайды; бұл өткен жылдардағы емтихан сұрақтарын ғана оқып, сынақтан өткен студентке ұқсайды. Ал CLIP моделін бенчмарктерде олардың деректерімен үйретпей-ақ бағалауға болады, сондықтан ол мұндай жолмен «алдап» кете алмайды. Соның нәтижесінде оның бенчмарк өнімділігі нақты ортадағы өнімділігін әлдеқайда дәлірек көрсетеді. «Алаяқтық гипотезасын» тексеру үшін біз CLIP-тің ImageNet үшін «дайындалуға» мүмкіндігі болғанда оның өнімділігі қалай өзгеретінін де өлшейміз. CLIP белгілерінің үстіне сызықтық жіктеуіш орнатылғанда, ол ImageNet тест жиынындағы CLIP дәлдігін шамамен 10%-ға арттырады. Алайда бұл жіктеуіш «төзімді» өнімділікті өлшейтін тағы 7 деректер жиынынан тұратын бағалау топтамасында орта есеппен жақсырақ нәтиже бермейді.³⁰

Негізгі тұжырымдар

1. CLIP өте тиімді

CLIP сүзгіден өтпеген, өте алуан түрлі және шуы көп деректерден үйренеді және мысалсыз түрде қолдануға арналған. GPT‑2 мен 3-тен мұндай деректерде үйретілген модельдердің сенімді мысалсыз өнімділікке жете алатынын білеміз; алайда мұндай модельдер елеулі есептеу ресурстарын қажет етеді. Қажет есептеуді азайту үшін біз тәсіліміздің үйрету тиімділігін жақсартудың алгоритмдік жолдарына назар аудардық.

Есептеу шығынын айтарлықтай үнемдеуге әкелген екі алгоритмдік таңдауды келтіреміз. Біріншісі — мәтін мен кескіндерді байланыстыру үшін контрастивті мақсатты қолдану.^{31, 17, 35} Бастапқыда біз VirTex-ке ұқсас кескіннен мәтінге тәсілді зерттедік,³³ бірақ оны state-of-the-art өнімділікке дейін ауқымдауда қиындықтарға тап болдық. Шағын және орта ауқымды тәжірибелерде CLIP қолданатын контрастивті мақсат ImageNet мысалсыз жіктеуінде 4x–10x тиімдірек екенін анықтадық. Екінші таңдау — Vision Transformer-ді қолдану,³⁶ ол бізге стандартты ResNet-пен салыстырғанда есептеу тиімділігінде қосымша 3x өсім берді. Нәтижесінде, ең жақсы өнімділік көрсеткен CLIP моделіміз 256 GPU-да 2 апта бойы үйретіледі, бұл бар ірі ауқымды кескін модельдеріне ұқсас.^{37, 23, 38, 36}

Жүктелуде...

2. CLIP икемді және жалпылама

Визуалды ұғымдардың кең ауқымын табиғи тілден тікелей үйренетіндіктен, CLIP модельдері бар ImageNet модельдеріне қарағанда едәуір икемді әрі жалпылама. Олардың көптеген әртүрлі тапсырманы мысалсыз орындай алатынын байқадық. Мұны растау үшін біз CLIP-тің мысалсыз өнімділігін 30-дан астам түрлі деректер жиынында өлшедік, олардың ішінде нәзік деңгейдегі нысан жіктеуі, геолокализация, бейнелердегі әрекетті тану және OCR сияқты тапсырмалар бар.^B Атап айтқанда, OCR үйрену — стандартты ImageNet модельдерінде кездеспейтін қызықты мінез-құлықтың мысалы. Жоғарыда біз әр мысалсыз жіктеуіштен кездейсоқ, әдейі таңдалмаған бір болжамды көрсетеміз.

Бұл нәтиже сызықтық зондтар қолданылатын ұсынуды үйренудің стандартты бағалауында да көрінеді. Ең жақсы CLIP моделі біз сынаған 26 түрлі тасымалдау деректер жиынының 20-сында көпшілікке қолжетімді ең үздік ImageNet моделі — Noisy Student EfficientNet-L2-ден²³ озып түседі.

Жүктелуде...

Шектеулер

CLIP әдетте кең таралған нысандарды тануда жақсы нәтиже көрсеткенімен, кескіндегі нысандар санын санау сияқты анағұрлым абстрактілі не жүйелі тапсырмаларда және фотодағы ең жақын көліктің қаншалық жақын екенін болжау сияқты күрделірек тапсырмаларда қиналады. Осы екі деректер жиынында мысалсыз CLIP кездейсоқ болжаудан сәл ғана жақсы. Сондай-ақ мысалсыз CLIP көлік модельдерінің айырмасын, ұшақ нұсқаларын немесе гүл түрлерін ажырату сияқты өте нәзік жіктеуде тапсырмаға тән модельдермен салыстырғанда қиналады.

CLIP алдын ала үйрету деректер жиыны қамтымаған кескіндерге жалпылауда да әлі әлсіз. Мысалы, CLIP қабілетті OCR жүйесін үйренсе де, MNIST деректер жиынындағы қолжазба цифрларымен бағаланғанда мысалсыз CLIP тек 88% дәлдікке жетеді, бұл осы деректер жиынындағы адамның 99.75% көрсеткішінен әлдеқайда төмен. Ақырында, CLIP-тің мысалсыз жіктеуіштері сөз қолданысына не тұжырымға сезімтал болуы мүмкін екенін байқадық және кейде жақсы жұмыс істеу үшін сынақ пен қателікке негізделген «көмексөз инженериясын» қажет етеді.

Кеңірек әсерлер

CLIP адамдарға өз жіктеуіштерін жасауға мүмкіндік береді және тапсырмаға тән үйрету деректерінің қажеттілігін жояды. Бұл кластардың қалай жасалғаны модельдің өнімділігіне де, бұрмалануларына да қатты әсер етуі мүмкін. Мысалы, Fairface³⁹ нәсіл белгілері^C және «criminal», «animal» сияқты бірнеше өрескел терминдерден тұратын белгілер жиыны берілгенде, модель 0–20 жастағы адамдардың суреттерін шамамен ~32.3% жағдайда өрескел санатқа жатқызуға бейім екенін байқадық. Алайда ықтимал кластар тізіміне «child» класын қосқанда, бұл мінез-құлық ~8.7%-ға дейін төмендейді.

Бұдан бөлек, CLIP-ке тапсырмаға тән үйрету деректері қажет болмағандықтан, ол кейбір тар ауқымды тапсырмаларды әлдеқайда жеңіл ашуы мүмкін. Бұл тапсырмалардың кейбірі құпиялылыққа немесе бақылауға қатысты тәуекелдер туғызуы мүмкін, сондықтан біз бұл алаңдаушылықты CLIP-тің атақты адамдарды сәйкестендірудегі өнімділігін зерттеу арқылы қарастырамыз. 100 кандидаттың ішінен таңдалатын «нақты ортадағы» атақты адамдар кескіндерін жіктеуде CLIP-тің top-1 дәлдігі 59.2%, ал 1000 ықтимал нұсқаның ішінен таңдағанда top-1 дәлдігі 43.3%. Тапсырмаға тәуелсіз алдын ала үйрету арқылы мұндай нәтижелерге жету назар аударарлық болғанымен, бұл өнімділік кең қолжетімді өндірістік деңгейдегі модельдермен салыстырғанда бәсекеге қабілетті емес. Біз CLIP тудыратын қиындықтарды өз мақаламызда⁠(жаңа терезеде ашылады) әрі қарай зерттейміз және бұл жұмыс осындай модельдердің мүмкіндіктерін, кемшіліктері мен бұрмалануларын сипаттау жөніндегі болашақ зерттеулерге түрткі болады деп үміттенеміз. Осындай сұрақтар бойынша зерттеу қауымдастығымен өзара әрекеттесуге қуаныштымыз.

Қорытынды

CLIP арқылы біз жақында NLP саласында серпіліс жасаған, интернет ауқымындағы табиғи тілге негізделген тапсырмаға тәуелсіз алдын ала үйретуді басқа салалардағы терең оқыту өнімділігін жақсарту үшін де пайдалануға бола ма екенін тексердік. Бұл тәсілді компьютерлік көруге қолданғандағы осы уақытқа дейін көрген нәтижелер бізді қуантады. GPT тобы сияқты, CLIP алдын ала үйрету барысында әртүрлі тапсырмаларды үйренеді, мұны біз мысалсыз тасымалдау арқылы көрсетеміз. Сондай-ақ ImageNet бойынша нәтижелеріміз бізді жігерлендіреді: олар мысалсыз бағалау модельдің мүмкіндігін неғұрлым дәл көрсететін өлшем екенін меңзейді.

Ескертпелер

29
2015 жылы Microsoft зерттеушілер тобы ImageNet бойынша top-5 дәлдігі адамдағы reported top-5 дәлдігінен асқан модельді алғаш рет үйретті.
B
CLIP-тің мысалсыз OCR өнімділігі әркелкі болғанымен, оның семантикалық OCR ұсынуы өте пайдалы. Кескін түрінде берілген SST-2 NLP деректер жиынында бағаланғанда, CLIP ұсынуындағы сызықтық жіктеуіш мәтінге тікелей қолжетімділігі бар CBoW моделіне тең келеді. Сондай-ақ CLIP нақты мәтінсіз-ақ өшпенді мемдерді анықтауда бәсекеге қабілетті.
40
FairFace — алдыңғы бет-әлпет деректер жиындарында жиі кездесетін теңгерімсіздіктерді азайту үшін жас, жыныс және нәсіл бойынша теңгерімдеуге арналған бет кескіндері деректер жиыны. Ол жынысты 2 топқа бөледі: әйел және ер, ал нәсілді 7 топқа бөледі: White, Black, Indian, East Asian, Southeast Asian, Middle Eastern және Latino. Нәсіл мен жынысты жіктеуде ішкі мәселелер бар, мұны, мысалы, Bowker and Star (2000) және Keyes (2018) көрсеткен. FairFace деректер жиыны ақ нәсілді тұлғалардың үлесін азайтқанымен, ол әлі де тұтас ірі демографиялық топтардың өкілдігін қамтымайды, сөйтіп мұндай санаттарды іс жүзінде жоққа шығарады. Біз кейбір тәжірибелерімізде FairFace деректер жиынында анықталған 2 жыныс санатын және 7 нәсіл санатын мұндай редуктивті санаттарды күшейту немесе құптау үшін емес, алдыңғы жұмыстармен салыстыруға мүмкіндік беру үшін қолданамыз.

Әдебиеттер

1
Dodge, S., & Karam, L. (2017, July). “Көру бұрмаланулары жағдайында адам және терең оқыту тану өнімділігін зерттеу және салыстыру.⁠(жаңа терезеде ашылады)” In ICCCN 2017.
2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “ImageNet-пен үйретілген CNN-дер текстураға бейім; пішінге бейімділікті күшейту дәлдік пен төзімділікті жақсартады.⁠(жаңа терезеде ашылады)” In ICLR 2019.
3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Поза жаса: нейрондық желілер таныс нысандардың оғаш қалыптарына оңай алданады.⁠(жаңа терезеде ашылады)” In CVPR 2019.
4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: нысанды тану модельдерінің шектерін ілгерілетуге арналған, бұрмалануы бақыланатын ірі ауқымды деректер жиыны.⁠(жаңа терезеде ашылады)” In NeurIPS 2019.
5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Тілдік модельдер — қадағалаусыз көптапсырмалы үйренушілер.⁠(жаңа терезеде ашылады)” Technical Report, OpenAI.
6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “Тілдік модельдер — аз мысалмен үйренушілер.⁠(жаңа терезеде ашылады)” In NeurIPS 2020.
7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “Кескінді тануға арналған терең қалдықты оқыту.⁠(жаңа терезеде ашылады)” In CVPR 2016.
8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “Жаңа тапсырмаларды дерексіз үйрену.⁠(жаңа терезеде ашылады)” In AAAI 2008.
9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “Классаралық атрибуттық тасымалдау арқылы бұрын көрілмеген нысан кластарын анықтауды үйрену.⁠(жаңа терезеде ашылады)” In CVPR 2009.
10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “Мәтіндік сипаттамаларды пайдаланып терең мысалсыз конволюциялық нейрондық желілерді болжау.⁠(жаңа терезеде ашылады)” In ICCV 2015.
11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “Кросс-модальды тасымалдау арқылы мысалсыз оқыту.⁠(жаңа терезеде ашылады)” In NeurIPS 2013.
12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: терең визуалды-семантикалық ендіру моделі.⁠(жаңа терезеде ашылады)” In NeurIPS 2013.
13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “Веб деректерінен visual n-grams үйрену.⁠(жаңа терезеде ашылады)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “Контекстті болжау арқылы қадағалаусыз визуалды ұсынуды үйрену.⁠(жаңа терезеде ашылады)” In ICCV 2015.
15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: өзін-өзі қадағалайтын жартылай қадағаланатын оқыту.⁠(жаңа терезеде ашылады)” In ICCV 2019.
16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Өз латентіңізді күшейтіңіз: өзін-өзі қадағалайтын оқытуға жаңа тәсіл.⁠(жаңа терезеде ашылады)” In NeurIPS 2020.
17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Контрастивті болжамды кодтау арқылы ұсынуларды үйрену.⁠(жаңа терезеде ашылады)” arXiv preprint.
18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Өзара ақпаратты бағалау және барынша арттыру арқылы терең ұсынуларды үйрену.⁠(жаңа терезеде ашылады)” In ICLR 2019.
19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “Көріністер арасында өзара ақпаратты барынша арттыру арқылы ұсынуларды үйрену.⁠(жаңа терезеде ашылады)” In NeurIPS 2019.
20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “Қадағалаусыз визуалды ұсынуды үйренуге арналған импульстік контраст.⁠(жаңа терезеде ашылады)” In CVPR 2020.
21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “Визуалды ұсынуларды контрастивті үйренуге арналған қарапайым негіздеме.⁠(жаңа терезеде ашылады)” arXiv preprint.
22
Lee, D. H. (2013, June). “Pseudo-label: терең нейрондық желілер үшін қарапайым әрі тиімді жартылай қадағаланатын оқыту әдісі.⁠(жаңа терезеде ашылады)” In Workshop on challenges in representation learning, ICML (2013).
23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “Шулы student-пен өзін-өзі үйрету imagenet жіктеуін жақсартады.⁠(жаңа терезеде ашылады)” In CVPR 2020.
24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “Терең генеративті модельдермен жартылай қадағаланатын оқыту.⁠(жаңа терезеде ашылады)” In NeurIPS 2014.
25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “GAN-дарды үйретуге арналған жетілдірілген тәсілдер.⁠(жаңа терезеде ашылады)” In NeurIPS 2016.
26
Donahue, J., & Simonyan, K. (2019). “Ірі ауқымды adversarial ұсынуды үйрену.⁠(жаңа терезеде ашылады)” In NeurIPS 2019.
27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “Пиксельдерден генеративті алдын ала үйрету.⁠(жаңа терезеде ашылады)” In ICML 2020.
28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Rectifier-лерді терең зерттеу: ImageNet жіктеуінде адам деңгейінен асу.⁠(жаңа терезеде ашылады)” In ICCV 2015.
29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Imagenet ірі ауқымды визуалды тану сайысы.⁠(жаңа терезеде ашылады)” In IJCV 2015.
30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “Кескін жіктеуіндегі табиғи үлестірім ығысуларға төзімділікті өлшеу.⁠(жаңа терезеде ашылады)” In NeurIPS 2020.
31
Sohn, K. (2016). “Көпкласты n-pair loss мақсаты арқылы жақсартылған терең метрикалық оқыту.⁠(жаңа терезеде ашылады)” In NeurIPS 2016.
32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “Сізге керек нәрсенің бәрі — attention.⁠(жаңа терезеде ашылады)” In NeurIPS 2017.
33
Desai, K., & Johnson, J. (2020). “VirTex: мәтіндік аннотациялардан визуалды ұсынуларды үйрену.⁠(жаңа терезеде ашылады)” arXiv preprint.
34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “Caption аннотацияларымен визуалды ұсынуларды үйрену.⁠(жаңа терезеде ашылады)” In ECCV 2020.
35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “Жұпталған кескіндер мен мәтіннен медициналық визуалды ұсынуларды контрастивті үйрену.⁠(жаңа терезеде ашылады)” arXiv preprint.
36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “Бір кескін 16x16 сөзге тұрады: кескінді ірі ауқымда тануға арналған трансформерлер.⁠(жаңа терезеде ашылады)” arXiv preprint.
37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “Әлсіз қадағаланатын алдын ала үйретудің шектерін зерттеу.⁠(жаңа терезеде ашылады)” In ECCV 2018.
38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): визуалды ұсынуларды жалпы үйрену.⁠(жаңа терезеде ашылады)” arXiv preprint.
39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: нәсіл, жыныс және жас теңгерімді болуына арналған бет атрибуттары деректер жиыны.⁠(жаңа терезеде ашылады)” arXiv preprint.
40
Bowker, G., & Star, S. L. (1999). “Заттарды ретке келтіру. Жіктеу және оның салдары⁠(жаңа терезеде ашылады)” Book.
41
Keyes, O. (2018). “Қате жыныстаушы машиналар: автоматты жынысты танудың Trans/HCI салдары.⁠(жаңа терезеде ашылады)” In Proceedings of the ACM on Human-Computer Interaction.

Авторлар

Alec Radford, Ilya Sutskever, Jong Wook Kim, Gretchen Krueger, Sandhini Agarwal

Алғыс

CLIP үйретілген деректерді жасауға қатысқан миллиондаған адамға алғыс айтқымыз келеді. Сондай-ақ жобаға қосқан үлестері үшін барлық авторластарымызға ризамыз. Соңында, осы блогтың нобайлары бойынша пікір білдіргені үшін Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki және Vedant Misra-ға, ал код релизін тексергені үшін Matthew Knight-қа алғыс білдіреміз.