17 ਜੂਨ 2020

ਇਮੇਜ GPT

ਪੇਪਰ ਪੜ੍ਹੋ ਕੋਡ ਵੇਖੋ ICML 2020 ਪੇਪਰ (V1)

Illustration: Ben Barry

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ ਪਾਇਆ ਕਿ ਜਿਵੇਂ ਭਾਸ਼ਾ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਇੱਕ ਵੱਡਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਸੁਸੰਗਤ ਪਾਠ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਓਹੀ ਸਹੀ ਮਾਡਲ ਜਦੋਂ ਪਿਕਸਲ ਕ੍ਰਮਾਂ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਵੇ ਤਾਂ ਸੁਸੰਗਤ ਇਮੇਜ ਕੰਪਲੀਸ਼ਨ⁠ ਅਤੇ ਸੈਂਪਲ⁠ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ. ਸੈਂਪਲ ਗੁਣਵੱਤਾ ਅਤੇ ਇਮੇਜ ਵਰਗੀਕਰਨ ਸਹੀਪਣ ਵਿਚਕਾਰ ਸਬੰਧ ਕਾਇਮ ਕਰਕੇ, ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਜਨਰੇਟਿਵ ਮਾਡਲ ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੀ ਸੈਟਿੰਗ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਕਨਵੋਲੂਸ਼ਨਲ ਨੈੱਟਾਂ ਨਾਲ ਟੱਕਰ ਲੈਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵੀ ਰੱਖਦਾ ਹੈ.

ਪਰਿਚਯ

Unsupervised ਅਤੇ self-supervised learning,¹ ਜਾਂ ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਤੋਂ ਬਿਨਾਂ ਸਿੱਖਣਾ, machine learning ਦੀ ਇੱਕ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਚੱਲਦੀ ਚੁਣੌਤੀ ਹੈ. ਹਾਲ ਹੀ ਵਿੱਚ, ਇਸ ਨੇ ਭਾਸ਼ਾ ਵਿੱਚ ਅਦਭੁੱਤ ਸਫਲਤਾ ਵੇਖੀ ਹੈ, ਕਿਉਂਕਿ transformer² ਮਾਡਲ ਜਿਵੇਂ BERT,³ GPT‑2,⁴ RoBERTa,⁵ T5,⁶ ਅਤੇ ਹੋਰ variants^{7, 8, 9, 10} ਨੇ ਭਾਸ਼ਾ ਦੇ ਬਹੁਤ ਵਿਆਪਕ ਕੰਮਾਂ ‘ਤੇ ਸਿਖਰਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕੀਤੀ ਹੈ. ਹਾਲਾਂਕਿ, ਇਸੇ ਵਿਸ਼ਾਲ ਵਰਗ ਦੇ ਮਾਡਲ ਇਮੇਜ ਵਰਗੀਕਰਨ ਲਈ ਮਜ਼ਬੂਤ features ਬਣਾਉਣ ਵਿੱਚ ਸਫਲ ਨਹੀਂ ਰਹੇ.¹¹ ਸਾਡਾ ਕੰਮ ਇਸ ਖਾਈ ਨੂੰ ਸਮਝਣ ਅਤੇ ਪਾਰ ਕਰਨ ਦਾ ਯਤਨ ਕਰਦਾ ਹੈ.

BERT ਅਤੇ GPT‑2 ਵਰਗੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ domain agnostic ਹੁੰਦੇ ਹਨ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਹਨਾਂ ਨੂੰ ਕਿਸੇ ਵੀ ਰੂਪ ਦੀ 1-D sequences ‘ਤੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਅਸੀਂ ਪਿਕਸਲਾਂ ਦੀਆਂ ਲੰਬੀਆਂ sequences ਵਿੱਚ unroll ਕੀਤੀਆਂ ਇਮੇਜਾਂ ‘ਤੇ GPT‑2 ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ, ਜਿਸਨੂੰ ਅਸੀਂ iGPT ਕਹਿੰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਮਾਡਲ 2-D ਇਮੇਜ ਗੁਣਾਂ ਜਿਵੇਂ ਆਬਜੈਕਟ ਦੀ ਦਿੱਖ ਅਤੇ ਸ਼੍ਰੇਣੀ ਨੂੰ ਸਮਝਦਾ ਦਿਸਦਾ ਹੈ. ਇਸਦਾ ਸਬੂਤ ਉਹ ਵਿਭਿੰਨ ਕਿਸਮ ਦੇ ਸੁਸੰਗਤ ਇਮੇਜ ਸੈਂਪਲ ਹਨ ਜੋ ਇਹ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਭਾਵੇਂ ਮਨੁੱਖੀ ਲੇਬਲਾਂ ਦੀ ਕੋਈ ਮਦਦ ਨਾ ਹੋਵੇ. ਹੋਰ ਸਬੂਤ ਵਜੋਂ, ਮਾਡਲ ਦੇ features ਕਈ ਵਰਗੀਕਰਨ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ state-of-the-art ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ImageNet ‘ਤੇ ਲਗਭਗ state-of-the-art unsupervised accuracy^A ਹਾਸਲ ਕਰਦੇ ਹਨ.

ਮੁਲਾਂਕਣ	ਡੇਟਾਸੈੱਟ	ਸਾਡਾ ਨਤੀਜਾ	ਸਭ ਤੋਂ ਵਧੀਆ ਗੈਰ-iGPT ਨਤੀਜਾ
ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ‘ਤੇ Logistic regression (linear probe)	CIFAR-10	96.3 iGPT‑L 32x32 w/ 1536 features	95.3 SimCLR¹²⁠ w/ 8192 features
	CIFAR-100	82.8 iGPT‑L 32x32 w/ 1536 features	80.2 SimCLR w/ 8192 features
	STL-10	95.5 iGPT‑L 32x32 w/ 1536 features	94.2 AMDIM¹³⁠ w/ 8192 features
	ImageNet	72.0 iGPT‑XL^a⁠ 64x64 w/ 15360 features	76.5 SimCLR w/ 8192 features
Full fine-tune	CIFAR-10	99.0 iGPT‑L 32x32, trained on ImageNet	99.0^b⁠ GPipe,¹⁴⁠ trained on ImageNet
	ImageNet 32x32	66.3 iGPT‑L 32x32	70.2 Isometric Nets¹⁵⁠

ਅਸੀਂ iGPT‑XL ਲਈ ਸਿਰਫ ImageNet linear probe accuracy ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿਉਂਕਿ ਹੋਰ ਪ੍ਰਯੋਗ ਸਾਡੇ ਵੱਖਰੀਆਂ supercomputing facilities ਵੱਲ ਜਾਣ ਦੀ ਲੋੜ ਤੋਂ ਪਹਿਲਾਂ ਮੁਕੰਮਲ ਨਹੀਂ ਹੋ ਸਕੇ.
JFT (300M images with 18K classes) ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ Bit-L ਨੇ 99.3 ਦਾ ਨਤੀਜਾ ਹਾਸਲ ਕੀਤਾ.

ਜਨਰੇਟਿਵ^{17, 18} sequence modeling^{19, 20, 21, 22} ਦੀ ਇੱਕ ਆਮ-ਉਦੇਸ਼ੀ unsupervised learning algorithm ਵਜੋਂ ਸੰਭਾਵਨਾ ਉਜਾਗਰ ਕਰਨ ਲਈ, ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ ਭਾਸ਼ਾ ਵਿੱਚ GPT‑2 ਵਾਂਗ ਹੀ ਉਹੀ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਵਰਤਦੇ ਹਾਂ. ਨਤੀਜੇ ਵਜੋਂ, ਸਿਖਰਲੇ unsupervised convolutional nets^{13, 23, 24, 25, 12} ਦੇ features ਨਾਲ ਮੁਕਾਬਲੇਯੋਗ features ਬਣਾਉਣ ਲਈ ਸਾਨੂੰ ਕਾਫ਼ੀ ਵੱਧ compute ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਹਾਲਾਂਕਿ, ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ ਜਦੋਂ ਕਿਸੇ ਨਵੇਂ domain ਦਾ ਸਾਹਮਣਾ ਹੋਵੇ ਜਿੱਥੇ ਸਹੀ model priors ਅਣਜਾਣ ਹੋਣ, ਇੱਕ ਵੱਡਾ GPT‑2 domain-specific^{26, 27, 28} architectural design choices ਦੀ ਲੋੜ ਬਿਨਾਂ ਸ਼ਾਨਦਾਰ features ਸਿੱਖ ਸਕਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਭਾਸ਼ਾ GPT ਤੋਂ ਇਮੇਜ GPT ਤੱਕ

ਭਾਸ਼ਾ ਵਿੱਚ, ਉਹ unsupervised learning algorithms ਜੋ ਸ਼ਬਦ ਅਨੁਮਾਨ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ (ਜਿਵੇਂ GPT‑2 ਅਤੇ BERT) ਬੇਹੱਦ ਸਫਲ ਰਹੀਆਂ ਹਨ ਅਤੇ ਭਾਸ਼ਾ ਦੇ ਬਹੁਤ ਵਿਆਪਕ ਕੰਮਾਂ ‘ਤੇ ਸਿਖਰਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕੀਤੀ ਹੈ. ਇਸ ਸਫਲਤਾ ਦਾ ਇੱਕ ਸੰਭਾਵੀ ਕਾਰਣ ਇਹ ਹੈ ਕਿ downstream ਭਾਸ਼ਾਈ ਕੰਮਾਂ ਦੇ ਉਦਾਹਰਨ ਪਾਠ ਵਿੱਚ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਮਿਲਦੇ ਹਨ: ਸਵਾਲਾਂ ਤੋਂ ਬਾਅਦ ਅਕਸਰ ਜਵਾਬ ਆਉਂਦੇ ਹਨ (ਜੋ question-answering ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ) ਅਤੇ ਅੰਸ਼ਾਂ ਤੋਂ ਬਾਅਦ ਅਕਸਰ ਸੰਖੇਪ ਆਉਂਦੇ ਹਨ (ਜੋ summarization ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ). ਇਸਦੇ ਉਲਟ, ਪਿਕਸਲਾਂ ਦੇ ਕ੍ਰਮ ਉਹਨਾਂ ਇਮੇਜਾਂ ਲਈ labels ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਨਹੀਂ ਰੱਖਦੇ ਜਿਨ੍ਹਾਂ ਨਾਲ ਉਹ ਸੰਬੰਧਤ ਹੁੰਦੇ ਹਨ.

ਇਸ ਸਪਸ਼ਟ supervision ਤੋਂ ਬਿਨਾਂ ਵੀ, ਇੱਕ ਕਾਰਣ ਹੈ ਕਿ ਇਮੇਜਾਂ ‘ਤੇ GPT‑2 ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ: ਅਗਲੇ ਪਿਕਸਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਕਾਫ਼ੀ ਵੱਡਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਖ਼ਿਰਕਾਰ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਛਾਣਯੋਗ ਆਬਜੈਕਟਾਂ ਵਾਲੇ ਵਿਭਿੰਨ^B ਸੈਂਪਲ ਬਣਾਉਣਾ ਸਿੱਖ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਇਹ ਐਸਾ ਕਰਨਾ ਸਿੱਖ ਲੈਂਦਾ ਹੈ, ਤਾਂ “Analysis by Synthesis”^{29, 30, C} ਨਾਮਕ ਵਿਚਾਰ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਆਬਜੈਕਟ ਸ਼੍ਰੇਣੀਆਂ ਬਾਰੇ ਵੀ ਗਿਆਨ ਹੋਵੇਗਾ. ਕਈ ਸ਼ੁਰੂਆਤੀ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼^{31, 32, 33, 34, 35, 36} ਇਸ ਵਿਚਾਰ ਤੋਂ ਪ੍ਰੇਰਿਤ ਸਨ, ਅਤੇ ਹਾਲ ਹੀ ਵਿੱਚ BigBiGAN³⁷ ਇੱਕ ਐਸਾ ਉਦਾਹਰਨ ਸੀ ਜਿਸਨੇ ਉਤਸ਼ਾਹਜਨਕ ਸੈਂਪਲ ਅਤੇ features ਦਿੱਤੇ. ਆਪਣੇ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਪਹਿਲਾਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਵਧੀਆ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਹੋਰ ਮਜ਼ਬੂਤ ਵਰਗੀਕਰਨ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਨ. ਫਿਰ, ਜਨਰੇਟਿਵ ਸਮਰੱਥਾਵਾਂ ਲਈ GPT‑2 ਨੂੰ optimize ਕਰਕੇ, ਅਸੀਂ ਕਈ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਸਿਖਰ-ਪੱਧਰੀ ਵਰਗੀਕਰਨ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਨਾਲ analysis by synthesis ਲਈ ਹੋਰ ਸਬੂਤ ਮਿਲਦਾ ਹੈ.

ਸਧਾਰਣ unsupervised learning ਵੱਲ

ਜਨਰੇਟਿਵ sequence modeling ਇੱਕ ਸਰਬਭੌਮ unsupervised learning algorithm ਹੈ: ਕਿਉਂਕਿ ਸਾਰੇ data types ਨੂੰ bytes ਦੇ ਕ੍ਰਮ ਵਜੋਂ ਦਰਸਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਨੂੰ ਵਾਧੂ engineering ਬਿਨਾਂ ਕਿਸੇ ਵੀ data type ‘ਤੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. ਸਾਡਾ ਕੰਮ ਇਸ ਆਮਪਣ ਦੀ ਤਾਕਤ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਪਰਖਦਾ ਹੈ ਕਿ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ‘ਤੇ GPT‑2 ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤੀ ਗਈ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਸਿੱਧੇ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ. ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ convolutions³⁸ ਜਾਂ relative attention,³⁹ sparse attention,⁴⁰ ਅਤੇ 2-D position embeddings²⁷ ਵਰਗੀਆਂ image-specific ਤਕਨੀਕਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਕੋਈ ਵੀ ਖ਼ਾਸ ਇਮੇਜ ਗਿਆਨ ਹੱਥੋਂ ਕੋਡ ਨਾ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕੀਤਾ.

ਇਸ ਦੀ ਆਮਪਣ ਦੇ ਨਤੀਜੇ ਵਜੋਂ, unsupervised ਸੈਟਿੰਗ ਵਿੱਚ ਮੁਕਾਬਲੇਯੋਗ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਨ ਲਈ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਕਾਫ਼ੀ ਵੱਧ compute ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਦਰਅਸਲ, ਇਮੇਜਾਂ ਤੋਂ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ features ਬਣਾਉਣ ਲਈ contrastive methods^{41, 42, 43, 44, 45, 13, 23, 24, 25, 12} ਹਾਲੇ ਵੀ ਸਭ ਤੋਂ ਗਣਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਕੁਸ਼ਲ ਤਰੀਕੇ ਹਨ. ਪਰ ਇਹ ਦਿਖਾਉਂਦਿਆਂ ਕਿ ਇੱਕ unsupervised ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਸਭ ਤੋਂ ਵਧੀਆ unsupervised convolutional nets^{24, 25, 12} ਨਾਲ ਮੁਕਾਬਲੇਯੋਗ ਹੈ, ਅਸੀਂ ਸਬੂਤ ਦਿੰਦੇ ਹਾਂ ਕਿ ਹੱਥੋਂ ਕੋਡ ਕੀਤੇ domain knowledge ਦੇ ਬਦਲੇ compute ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸੰਭਵ ਹੈ. ਨਵੇਂ domains ਵਿੱਚ,^{46, 47} ਜਿੱਥੇ ਹੱਥੋਂ ਕੋਡ ਕਰਨ ਲਈ ਬਹੁਤ ਘੱਟ ਗਿਆਨ ਹੁੰਦਾ ਹੈ, compute ਨੂੰ scale ਕਰਨਾ ਪਰਖਣ ਲਈ ਇੱਕ ਉਚਿਤ ਤਕਨੀਕ ਲੱਗਦੀ ਹੈ.

ਪਹੁੰਚ

ਅਸੀਂ ImageNet ‘ਤੇ ਕ੍ਰਮਵਾਰ 76M, 455M ਅਤੇ 1.4B ਪੈਰਾਮੀਟਰਾਂ ਵਾਲੇ ਟ੍ਰਾਂਸਫਾਰਮਰ iGPT‑S, iGPT‑M ਅਤੇ iGPT‑L ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ iGPT‑XL^D ਨੂੰ ਵੀ, ਜੋ 6.8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਹੈ, ImageNet ਅਤੇ ਵੈੱਬ ਤੋਂ ਇਮੇਜਾਂ ਦੇ ਮਿਸ਼ਰਣ ‘ਤੇ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. dense attention ਨਾਲ ਲੰਬੇ ਕ੍ਰਮਾਂ ਨੂੰ ਮਾਡਲ ਕਰਨ ਦੀ ਵੱਡੀ ਗਣਨਾਤਮਕ ਲਾਗਤ ਕਰਕੇ, ਅਸੀਂ 32x32, 48x48 ਅਤੇ 64x64 ਦੀਆਂ ਘੱਟ resolutions ‘ਤੇ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ.

ਹਾਲਾਂਕਿ compute cost ਹੋਰ ਘਟਾਉਣ ਲਈ ਇਸ ਤੋਂ ਵੀ ਘੱਟ resolutions ‘ਤੇ ਕੰਮ ਕਰਨਾ ਆਕਰਸ਼ਕ ਲੱਗਦਾ ਹੈ, ਪਿਛਲੇ ਕੰਮ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਆਕਾਰਾਂ ਤੋਂ ਹੇਠਾਂ ਇਮੇਜ ਵਰਗੀਕਰਨ ‘ਤੇ ਮਨੁੱਖੀ ਕਾਰਗੁਜ਼ਾਰੀ ਤੇਜ਼ੀ ਨਾਲ ਘਟਣ ਲੱਗਦੀ ਹੈ.⁴⁸ ਇਸਦੀ ਬਜਾਏ, ਸ਼ੁਰੂਆਤੀ ਰੰਗੀਨ display palettes ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੋਕੇ,⁴⁹ ਅਸੀਂ ਪਿਕਸਲਾਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਆਪਣੀ 9-bit color palette ਬਣਾਉਂਦੇ ਹਾਂ. ਇਸ palette ਦੀ ਵਰਤੋਂ standard (R, G, B) palette ਨਾਲੋਂ 3 ਗੁਣਾ ਛੋਟੀ input sequence length ਦਿੰਦੀ ਹੈ, ਜਦਕਿ ਰੰਗਾਂ ਨੂੰ ਫਿਰ ਵੀ ਸਹੀ ਢੰਗ ਨਾਲ encode ਕੀਤਾ ਜਾਂਦਾ ਹੈ.

ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜੇ

ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਅਸੀਂ ਦੋ ਤਰੀਕੇ ਵਰਤਦੇ ਹਾਂ, ਅਤੇ ਦੋਵੇਂ ਵਿੱਚ ਇੱਕ downstream ਵਰਗੀਕਰਨ ਕੰਮ ਸ਼ਾਮਲ ਹੈ. ਪਹਿਲਾ, ਜਿਸਨੂੰ ਅਸੀਂ linear probe ਕਹਿੰਦੇ ਹਾਂ, ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ downstream ਡੇਟਾਸੈੱਟ ਦੀਆਂ ਇਮੇਜਾਂ ਵਿੱਚੋਂ features^E ਕੱਢਦਾ ਹੈ, ਅਤੇ ਫਿਰ labels ‘ਤੇ logistic regression ਫਿਟ ਕਰਦਾ ਹੈ. ਦੂਜਾ ਤਰੀਕਾ ਪੂਰੇ ਮਾਡਲ ਨੂੰ downstream ਡੇਟਾਸੈੱਟ ‘ਤੇ fine-tune^F ਕਰਦਾ ਹੈ.

ਕਿਉਂਕਿ ਅਗਲਾ ਪਿਕਸਲ ਅਨੁਮਾਨਣਾ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਇਮੇਜ ਵਰਗੀਕਰਨ ਨਾਲ ਸੰਬੰਧਿਤ ਨਹੀਂ ਹੈ, ਇਸ ਲਈ ਆਖਰੀ ਲੇਅਰ ਤੋਂ ਮਿਲਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸ਼ਾਇਦ ਆਬਜੈਕਟ ਸ਼੍ਰੇਣੀ ਦੀਆਂ ਸਭ ਤੋਂ ਵਧੀਆ ਭਵਿੱਖਬਾਣੀਕਾਰ ਨਾ ਹੋਣ. ਸਾਡਾ ਪਹਿਲਾ ਨਤੀਜਾ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ feature quality ਡੂੰਘਾਈ ਦੇ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ ਅਤੇ ਫਿਰ ਥੋੜ੍ਹੀ ਘਟਦੀ ਹੈ. ਇਹ ਵਰਤਾਰਾ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਜਨਰੇਟਿਵ ਮਾਡਲ ਦੋ ਚਰਨਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ: ਪਹਿਲੇ ਚਰਨ ਵਿੱਚ, ਹਰ ਸਥਿਤੀ ਆਪਣੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਸੰਦਰਭ ਤੋਂ ਜਾਣਕਾਰੀ ਇਕੱਠੀ ਕਰਦੀ ਹੈ ਤਾਂ ਜੋ ਇੱਕ contextualized image feature ਬਣਾਇਆ ਜਾ ਸਕੇ. ਦੂਜੇ ਚਰਨ ਵਿੱਚ, ਇਸ contextualized feature ਦੀ ਵਰਤੋਂ conditional next pixel prediction ਕੰਮ ਹੱਲ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਸਾਡੇ linear probes ਦੀ ਦੇਖੀ ਗਈ ਦੋ-ਚਰਨੀ ਕਾਰਗੁਜ਼ਾਰੀ ਇੱਕ ਹੋਰ unsupervised neural net, bottleneck autoencoder, ਦੀ ਯਾਦ ਦਿਵਾਂਦੀ ਹੈ, ਜਿਸਨੂੰ ਹੱਥੋਂ ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਵਿਚਕਾਰਲੇ features ਵਰਤੇ ਜਾਣ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸਾਡਾ ਅਗਲਾ ਨਤੀਜਾ ਜਨਰੇਟਿਵ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ feature quality ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧ ਸਥਾਪਿਤ ਕਰਦਾ ਹੈ. ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਮਾਡਲਾਂ ਦਾ scale ਵਧਾਉਣ ਅਤੇ ਹੋਰ iterations ਲਈ ਟ੍ਰੇਨ ਕਰਨ ਨਾਲ ਵਧੀਆ ਜਨਰੇਟਿਵ ਕਾਰਗੁਜ਼ਾਰੀ ਮਿਲਦੀ ਹੈ, ਜੋ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਵਧੀਆ feature quality ਵਿੱਚ ਬਦਲ ਜਾਂਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜਦੋਂ ਅਸੀਂ CIFAR-10, CIFAR-100 ਅਤੇ STL-10 ‘ਤੇ linear probes ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ features ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ, ਅਸੀਂ ਸਾਰੇ supervised ਅਤੇ unsupervised transfer algorithms ਦੇ features ਤੋਂ ਵਧੀਆ ਕਰਦੇ ਹਾਂ. full fine-tuning ਸੈਟਿੰਗ ਵਿੱਚ ਵੀ ਸਾਡੇ ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ.

			ImageNet ‘ਤੇ ਪ੍ਰੀ-ਟ੍ਰੇਨ ਕੀਤਾ
ਮੁਲਾਂਕਣ	ਮਾਡਲ	ਸਹੀਪਣ	ਲੇਬਲਾਂ ਬਿਨਾਂ	ਲੇਬਲਾਂ ਨਾਲ
CIFAR-10 Linear Probe	ResNet-152⁵⁰	94.0		✔
	SimCLR¹²	95.3	✔
	iGPT‑L 32x32	96.3	✔	✔
CIFAR-100 Linear Probe	ResNet-152	78.0		✔
	SimCLR	80.2	✔
	iGPT‑L 32x32	82.8	✔
STL-10 Linear Probe	AMDIM-L	94.2	✔
	iGPT‑L 32x32	95.5	✔
CIFAR-10 Fine-tune	AutoAugment	98.5
	SimCLR	98.6	✔
	GPipe	99.0		✔
	iGPT‑L	99.0	✔
CIFAR-100 Fine-tune	iGPT‑L	88.5	✔
	SimCLR	89.0	✔
	AutoAugment	89.3
	EfficientNet⁵²	91.7		✔

ਸਾਡੇ ਮਾਡਲਾਂ ਅਤੇ ਸਿਖਰਲੇ ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿਚਕਾਰ linear probe ਅਤੇ fine-tune accuracy ਦੀ ਤੁਲਨਾ, ਜੋ unsupervised ਜਾਂ supervised ImageNet transfer ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ. ਅਸੀਂ AutoAugment ਵੀ ਸ਼ਾਮਲ ਕਰਦੇ ਹਾਂ, ਜੋ CIFAR ‘ਤੇ end-to-end ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਹੈ.

ImageNet ‘ਤੇ unsupervised ਅਤੇ self-supervised learning ਵਿੱਚ ਦੁਬਾਰਾ ਵਧੀ ਦਿਲਚਸਪੀ ਦੇ ਮੱਦੇਨਜ਼ਰ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ImageNet ‘ਤੇ linear probes ਨਾਲ ਵੀ ਕਰਦੇ ਹਾਂ. ਇਹ ਇੱਕ ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਮੁਸ਼ਕਲ ਸੈਟਿੰਗ ਹੈ, ਕਿਉਂਕਿ ਅਸੀਂ standard ImageNet input resolution ‘ਤੇ ਟ੍ਰੇਨ ਨਹੀਂ ਕਰਦੇ. ਫਿਰ ਵੀ, 48x48 ਇਮੇਜਾਂ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ iGPT‑L ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਲੇਅਰ ਤੋਂ 1536 features ‘ਤੇ ਇੱਕ linear probe 65.2% top-1 accuracy ਦਿੰਦਾ ਹੈ, ਜੋ AlexNet ਤੋਂ ਵਧੀਆ ਹੈ.

Contrastive methods ਆਮ ਤੌਰ ‘ਤੇ 8192 features ‘ਤੇ ਆਪਣੇ ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜੇ ਰਿਪੋਰਟ ਕਰਦੀਆਂ ਹਨ, ਇਸ ਲਈ ਤੁਲਨਾ ਲਈ ਅਸੀਂ ਆਦਰਸ਼ ਤੌਰ ‘ਤੇ 8192 embedding dimension ਵਾਲੇ iGPT ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਸੀ. ਹਾਲਾਂਕਿ, ਅਜਿਹਾ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਨਾ ਬਹੁਤ ਮਹਿੰਗਾ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਇਸਦੀ ਬਜਾਏ ਕਈ ਲੇਅਰਾਂ ਦੇ features ਜੋੜਕੇ ਇੱਕ ਲਗਭਗ ਮੁਕਾਬਲੇਯੋਗ ਰੂਪ ਵਰਤਦੇ ਹਾਂ. ਦੁੱਖ ਦੀ ਗੱਲ ਹੈ ਕਿ ਸਾਡੇ features ਲੇਅਰਾਂ ਵਿੱਚ ਆਪਸ ਵਿੱਚ ਸੰਬੰਧਿਤ ਹੁੰਦੇ ਹਨ, ਇਸ ਲਈ ਮੁਕਾਬਲੇਯੋਗ ਹੋਣ ਲਈ ਸਾਨੂੰ ਹੋਰ features ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. iGPT‑XL ਦੀਆਂ 5 ਲੇਅਰਾਂ ਤੋਂ 15360 features ਲੈਣ ‘ਤੇ 72.0% top-1 accuracy ਮਿਲਦੀ ਹੈ, ਜੋ AMDIM, MoCo ਅਤੇ CPC v2 ਤੋਂ ਵਧੀਆ ਹੈ, ਪਰ ਫਿਰ ਵੀ SimCLR ਤੋਂ ਢੰਗ ਦੇ ਫਰਕ ਨਾਲ ਘੱਟ ਹੈ.

ਤਰੀਕਾ	ਇਨਪੁੱਟ ਰੈਜ਼ੋਲਿਊਸ਼ਨ	Features	ਪੈਰਾਮੀਟਰ	ਸਹੀਪਣ
Rotation⁵³	original	8192	86M	55.4
iGPT‑L	32x32	1536	1362M	60.3
BigBiGAN³⁷	original	16384	86M	61.3
iGPT‑L	48x48	1536	1362M	65.2
AMDIM¹³	original	8192	626M	68.1
MoCo²⁴	original	8192	375M	68.6
iGPT‑XL	64x64	3072	6801M	68.7
SimCLR¹²	original	2048	24M	69.3
CPC v2²⁵	original	4096	303M	71.5
iGPT‑XL	64x64	3072 x 5	6801M	72.0
SimCLR	original	8192	375M	76.5

ਸਾਡੇ ਮਾਡਲਾਂ ਅਤੇ state-of-the-art self-supervised ਮਾਡਲਾਂ ਵਿਚਕਾਰ linear probe accuracies ਦੀ ਤੁਲਨਾ. ਅਸੀਂ ਕਾਫ਼ੀ ਘੱਟ input resolutions ‘ਤੇ ਟ੍ਰੇਨਿੰਗ ਕਰਦੇ ਹੋਏ ਵੀ ਮੁਕਾਬਲੇਯੋਗ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਾਂ, ਹਾਲਾਂਕਿ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਹੋਰ ਪੈਰਾਮੀਟਰਾਂ ਅਤੇ compute ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ.

ਕਿਉਂਕਿ BERT ਵਰਗੇ masked language models ਨੇ ਜ਼ਿਆਦਾਤਰ ਭਾਸ਼ਾਈ ਕੰਮਾਂ ‘ਤੇ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਅਸੀਂ ਆਪਣੇ ਇਮੇਜ ਮਾਡਲਾਂ ‘ਤੇ BERT ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਵੀ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ. ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਸਾਰੇ ਪਿਛਲੇ ਪਿਕਸਲਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਅਗਲਾ ਪਿਕਸਲ ਅਨੁਮਾਨਣ ਲਈ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਬਜਾਏ, ਅਸੀਂ 15% ਪਿਕਸਲਾਂ ਨੂੰ mask ਕਰਦੇ ਹਾਂ ਅਤੇ ਮਾਡਲ ਨੂੰ unmasked ਪਿਕਸਲਾਂ ਤੋਂ ਉਹਨਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਹਾਲਾਂਕਿ BERT ਮਾਡਲਾਂ ‘ਤੇ linear probe ਕਾਰਗੁਜ਼ਾਰੀ ਕਾਫ਼ੀ ਘੱਟ ਹੈ, fine-tuning ਦੌਰਾਨ ਉਹ ਬਹੁਤ ਚੰਗਾ ਕਰਦੇ ਹਨ:

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜਦੋਂ ਕਿ unsupervised learning ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਦੀ ਲੋੜ ਬਿਨਾਂ ਸ਼ਾਨਦਾਰ features ਦਾ ਵਾਅਦਾ ਕਰਦੀ ਹੈ, ਹਾਲੀਆ ਸਮੇਂ ਵਿੱਚ semi-supervised learning ਦੇ ਹੋਰ ਲਚਕੀਲੇ ਫਰੇਮਵਰਕ ਹੇਠ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਹੋਈ ਹੈ, ਜੋ ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਦੀ ਸੀਮਿਤ ਮਾਤਰਾ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ. ਸਫਲ semi-supervised ਤਰੀਕੇ ਅਕਸਰ consistency regularization, data augmentation ਜਾਂ pseudo-labeling ਵਰਗੀਆਂ ਚਤੁਰ ਤਕਨੀਕਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਅਤੇ ਖਾਲਿਸ ਜਨਰੇਟਿਵ-ਆਧਾਰਿਤ ਪਹੁੰਚਾਂ^{54, 55} ਕਈ ਸਾਲਾਂ ਤੋਂ ਮੁਕਾਬਲੇਯੋਗ ਨਹੀਂ ਰਹੀਆਂ ਹਨ. ਅਸੀਂ ਇਸ ਉਪ-ਖੇਤਰ ਲਈ ਇੱਕ ਮੁਕਾਬਲੇਯੋਗ benchmark ‘ਤੇ iGPT‑L^G ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ ਅਤੇ ਪਾਉਂਦੇ ਹਾਂ ਕਿ non-augmented ਇਮੇਜਾਂ ਦੇ features ‘ਤੇ ਇੱਕ ਸਧਾਰਣ linear probe Mean Teacher⁵⁶ ਅਤੇ MixMatch ਤੋਂ ਵਧੀਆ ਹੈ, ਹਾਲਾਂਕਿ ਇਹ FixMatch⁵⁹ ਤੋਂ ਘੱਟ ਹੈ.

ਮਾਡਲ	40 ਲੇਬਲ	250 ਲੇਬਲ	4000 ਲੇਬਲ
Improved GAN⁵⁵	—	—	81.4 ± 2.3
Mean Teacher⁵⁶	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch⁵⁷	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT‑L	73.2 ± 01.5	87.6 ± 0.6	94.3 ± 0.1
UDA⁵⁸	71.0 ± 05.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch⁵⁹ RA	86.2 ± 03.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 03.4	94.9 ± 0.3	95.7 ± 0.2

ਘੱਟ-ਡਾਟਾ CIFAR-10 ‘ਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਤੁਲਨਾ. ਕਈ unlabeled ImageNet ਇਮੇਜਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, iGPT‑L Mean Teacher ਅਤੇ MixMatch ਵਰਗੇ ਤਰੀਕਿਆਂ ਤੋਂ ਵਧੀਆ ਕਰਦਾ ਹੈ ਪਰ ਹਾਲੇ ਵੀ state-of-the-art ਤਰੀਕਿਆਂ ਤੋਂ ਘੱਟ ਹੈ. semi-supervised learning ਲਈ ਸਾਡੀ ਪਹੁੰਚ ਬਹੁਤ ਸਧਾਰਣ ਹੈ ਕਿਉਂਕਿ ਅਸੀਂ ਕਿਸੇ ਵੀ data augmentation ਜਾਂ fine-tuning ਤੋਂ ਬਿਨਾਂ ਸਿਰਫ iGPT‑L ਦੇ features ‘ਤੇ logistic regression classifier ਫਿਟ ਕਰਦੇ ਹਾਂ—ਇਹ ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਡਿਜ਼ਾਇਨ ਕੀਤੀਆਂ semi-supervised ਪਹੁੰਚਾਂ ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਹੈ.

ਸੀਮਾਵਾਂ

ਹਾਲਾਂਕਿ ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ iGPT ਸ਼ਕਤੀਸ਼ਾਲੀ ਇਮੇਜ features ਸਿੱਖਣ ਦੇ ਯੋਗ ਹੈ, ਸਾਡੀ ਪਹੁੰਚ ਵਿੱਚ ਹਾਲੇ ਵੀ ਕਈ ਮਹੱਤਵਪੂਰਨ ਸੀਮਾਵਾਂ ਹਨ. ਕਿਉਂਕਿ ਅਸੀਂ ਭਾਸ਼ਾ ਵਿੱਚ GPT‑2 ਲਈ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਆਮ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ, ਇਸ ਲਈ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਵੱਡੇ ਪੱਧਰ ਦੇ compute ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ: iGPT‑L ਨੂੰ ਲਗਭਗ 2500 V100-days ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਦਕਿ ਇਸਦੇ ਸਮਾਨ ਕਾਰਗੁਜ਼ਾਰੀ ਵਾਲਾ MoCo24⁠ ਮਾਡਲ ਲਗਭਗ 70 V100-days ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.

ਇਸੇ ਨਾਲ ਜੁੜਿਆ ਹੋਰ ਮੁੱਦਾ ਇਹ ਹੈ ਕਿ ਅਸੀਂ ਟ੍ਰਾਂਸਫਾਰਮਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਘੱਟ resolution ਵਾਲੇ inputs ਨੂੰ ਮਾਡਲ ਕਰਦੇ ਹਾਂ, ਜਦਕਿ ਜ਼ਿਆਦਾਤਰ self-supervised ਨਤੀਜੇ convolutional-ਆਧਾਰਿਤ encoders ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਜੋ ਆਸਾਨੀ ਨਾਲ ਉੱਚ resolution ਵਾਲੇ inputs ਸੰਭਾਲ ਸਕਦੇ ਹਨ. ਹੋਰ ਵੱਧ scale ਕਰਨ ਲਈ ਕੋਈ ਨਵੀਂ ਆਰਕੀਟੈਕਚਰ, ਜਿਵੇਂ domain-agnostic multiscale ਟ੍ਰਾਂਸਫਾਰਮਰ, ਦੀ ਲੋੜ ਪੈ ਸਕਦੀ ਹੈ. ਇਨ੍ਹਾਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਸਾਡਾ ਕੰਮ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਇਸ ਗੱਲ ਦਾ proof-of-concept ਪ੍ਰਦਰਸ਼ਨ ਹੈ ਕਿ ਵੱਡੇ ਟ੍ਰਾਂਸਫਾਰਮਰ-ਆਧਾਰਿਤ language models ਨਵੇਂ domains ਵਿੱਚ ਬਿਨਾਂ hardcoded domain knowledge ਦੀ ਲੋੜ ਦੇ ਸ਼ਾਨਦਾਰ unsupervised representations ਸਿੱਖ ਸਕਦੇ ਹਨ. ਹਾਲਾਂਕਿ, ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਵੱਡੀ resource cost ਅਤੇ convolutional neural-network ਆਧਾਰਿਤ ਤਰੀਕਿਆਂ ਦੀ ਵਧੀਆ accuracy ਕਰਕੇ, ਇਹ representations vision domain ਵਿੱਚ ਹਕੀਕਤੀ ਵਰਤੋਂ ਲਈ ਵਿਆਵਹਾਰਿਕ ਨਹੀਂ ਬਣਦੀਆਂ.

ਅੰਤ ਵਿੱਚ, ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਉਹ ਪੱਖਪਾਤ ਵੀ ਦਿਖਾ ਸਕਦੇ ਹਨ ਜੋ ਉਸ ਡਾਟਾ ਦਾ ਨਤੀਜਾ ਹੁੰਦੇ ਹਨ ਜਿਸ ‘ਤੇ ਉਹਨਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕਈ ਪੱਖਪਾਤ ਲਾਭਕਾਰੀ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ ਇਹ ਮੰਨਣਾ ਕਿ ਭੂਰੇ ਅਤੇ ਹਰੇ ਪਿਕਸਲਾਂ ਦਾ ਜੋੜ ਪੱਤਿਆਂ ਨਾਲ ਢੱਕੀ ਟਾਹਣੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਇਸ ਪੱਖਪਾਤ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਮੇਜ ਨੂੰ ਅੱਗੇ ਜਾਰੀ ਰੱਖਣਾ. ਪਰ ਨਿਆਂ ਅਤੇ ਪ੍ਰਤਿਨਿਧਿਤਾ ਦੇ ਨਜ਼ਰੀਏ ਨਾਲ ਵੇਖਿਆਂ, ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਪੱਖਪਾਤ ਨੁਕਸਾਨਦੇਹ ਹੋਣਗੇ. ਉਦਾਹਰਨ ਵਜੋਂ, ਜੇ ਮਾਡਲ ਵਿਗਿਆਨੀ ਦੀ ਇੱਕ ਅਜਿਹੀ ਦ੍ਰਿਸ਼ਟੀਗਤ ਧਾਰਣਾ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਮਰਦਾਂ ਵੱਲ ਝੁਕੀ ਹੋਈ ਹੋਵੇ, ਤਾਂ ਉਹ ਵਿਗਿਆਨੀਆਂ ਦੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ ਲਗਾਤਾਰ ਮਰਦ-ਪੇਸ਼ਕਾਰੀ ਲੋਕਾਂ ਨਾਲ ਹੀ ਪੂਰਾ ਕਰ ਸਕਦਾ ਹੈ, ਨਾ ਕਿ ਵੱਖ-ਵੱਖ ਲਿੰਗਾਂ ਦੇ ਮਿਲਾਪ ਨਾਲ. ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ developers ਨੂੰ ਆਪਣੇ systems ਵਿੱਚ ਦਿੱਤੇ ਜਾਣ ਵਾਲੇ ਡਾਟਾ ‘ਤੇ ਅਤੇ ਇਹ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲਾਂ ਵਿੱਚ ਪੱਖਪਾਤ ਨਾਲ ਕਿਵੇਂ ਸੰਬੰਧਿਤ ਹੈ, ਇਸ ਨੂੰ ਵਧੀਆ ਸਮਝਣ ‘ਤੇ ਵਧਦੀ ਧਿਆਨ ਦੇਣੀ ਪਵੇਗੀ.

ਨਿਸ਼ਕਰਸ਼

ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ 2-D knowledge ਦੇ ਬਦਲੇ scale⁶⁰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਤੇ ਨੈੱਟਵਰਕ ਦੇ ਵਿਚਕਾਰਲੇ ਹਿੱਸੇ ਵਿੱਚੋਂ predictive features ਚੁਣ ਕੇ, ਇੱਕ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ unsupervised ਇਮੇਜ ਵਰਗੀਕਰਨ ਲਈ ਸਿਖਰਲੇ convolutional nets ਨਾਲ ਮੁਕਾਬਲਾ ਕਰ ਸਕਦਾ ਹੈ. ਖ਼ਾਸ ਤੌਰ ‘ਤੇ, ਅਸੀਂ ਆਪਣੇ ਨਤੀਜੇ GPT‑2 language model ਨੂੰ ਸਿੱਧੇ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ‘ਤੇ ਲਾਗੂ ਕਰਕੇ ਹਾਸਲ ਕੀਤੇ. ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ ਆਪਣੀ ਸਾਦਗੀ ਅਤੇ ਆਮਪਣ ਕਰਕੇ, ਕਾਫ਼ੀ compute ਦਿੱਤਾ ਜਾਣ ‘ਤੇ ਇੱਕ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਖ਼ਿਰਕਾਰ ਕਈ domains ਵਿੱਚ ਸ਼ਾਨਦਾਰ features ਸਿੱਖਣ ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਹੋ ਸਕਦਾ ਹੈ.

ਜੇ ਤੁਸੀਂ ਇਸ ਖੋਜ ਖੇਤਰ ਵਿੱਚ ਸਾਡੇ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹੋ, ਤਾਂ ਅਸੀਂ ਭਰਤੀ ਕਰ ਰਹੇ ਹਾਂ⁠!

ਫੁੱਟਨੋਟਸ

A
ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ‘ਤੇ logistic regression ਰਾਹੀਂ ਮਾਪਿਆ ਗਿਆ (linear probe).
B
ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ likelihood ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਸ ਕਰਕੇ ਇਹ mode covering ਹੁੰਦਾ ਹੈ, ਜੋ ਆਪਣੇ ਆਪ ਹੀ ਇਸ ਦੇ ਸੈਂਪਲਾਂ ਦੀ ਵਿਭਿੰਨਤਾ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ.
C
ਮੂਲ analysis by synthesis ਵਿਚਾਰ latent variables ਵਾਲੇ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਲਈ ਵਧੇਰੇ ਤਰਕ ਸੀ, ਪਰ ਕਿਉਂਕਿ latent variables ਤੋਂ ਬਿਨਾਂ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਡਾਟਾ distribution ਨੂੰ ਮਾਡਲ ਕਰਨ ਵਿੱਚ ਕਾਫ਼ੀ ਵਧੀਆ ਸਨ, ਅਸੀਂ ਸੋਚਿਆ ਕਿ analysis-by-synthesis ਅਨੁਮਾਨ ਉਨ੍ਹਾਂ ਲਈ ਵੀ ਲਾਗੂ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ.
D
ਅਸੀਂ ImageNet ‘ਤੇ iGPT-XL ਲਈ ਸਿਰਫ linear probe accuracy ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿਉਂਕਿ ਹੋਰ ਪ੍ਰਯੋਗ ਸਾਡੇ ਵੱਲੋਂ ਵੱਖਰੀਆਂ supercomputing facilities ਵੱਲ ਜਾਣ ਦੀ ਲੋੜ ਤੋਂ ਪਹਿਲਾਂ ਮੁਕੰਮਲ ਨਹੀਂ ਹੋ ਸਕੇ.
E
linear probe ਲਈ features ਕੱਢਣ ਵਾਸਤੇ, ਅਸੀਂ ਕਿਸੇ ਲੇਅਰ ‘ਤੇ post layernorm attention block inputs ਲੈਂਦੇ ਹਾਂ ਅਤੇ sequence dimension ‘ਤੇ average pool ਕਰਦੇ ਹਾਂ.
F
fine-tune ਕਰਨ ਲਈ, ਅਸੀਂ post layernorm ਟ੍ਰਾਂਸਫਾਰਮਰ output ਲੈਂਦੇ ਹਾਂ ਅਤੇ ਇਸਨੂੰ classification head ਲਈ input ਵਜੋਂ sequence dimension ‘ਤੇ average pool ਕਰਦੇ ਹਾਂ.
G
ਇੱਕ ਜਨਰੇਟਿਵ ਮਾਡਲ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ unsupervised ਢੰਗ ਨਾਲ features ਸਿੱਖਦਾ ਹੈ.

ਹਵਾਲੇ

1
LeCun, Y. (2017). “ਪ੍ਰੇਡਿਕਟਿਵ ਲਰਨਿੰਗ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).”
2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2017.
3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: ਭਾਸ਼ਾ ਸਮਝ ਲਈ ਡੀਪ ਦੋ-ਦਿਸ਼ੀ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” Technical Report, OpenAI.
5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
7
Dai, A., Le, Q. V. (2015). “ਅਰਧ-ਨਿਗਰਾਨੀ ਕ੍ਰਮ ਸਿੱਖਿਆ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2015.
8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “ਡੀਪ ਸੰਦਰਭਿਤ ਸ਼ਬਦ ਪ੍ਰਤੀਨਿਧਿਤਾਵਾਂ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NAACL 2018.
9
Howard, J., Ruder, S. (2018). “ਪਾਠ ਵਰਗੀਕਰਨ ਲਈ ਯੂਨੀਵਰਸਲ ਭਾਸ਼ਾ ਮਾਡਲ ਫਾਈਨ-ਟਿਊਨਿੰਗ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ACL 2018.
10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “ਜਨਰੇਟਿਵ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਰਾਹੀਂ ਭਾਸ਼ਾ ਸਮਝ ਨੂੰ ਸੁਧਾਰਨਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” Technical Report, OpenAI.
11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: ਯਾਦ ਦਿਵਾਉਣ ਰਾਹੀਂ ਸਮੇਂਕਾਲੀ credit assignment⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2018.
12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “ਦ੍ਰਿਸ਼ਟੀ ਪ੍ਰਤੀਨਿਧਿਤਾਵਾਂ ਦੀ contrastive learning ਲਈ ਇੱਕ ਸਧਾਰਣ ਫਰੇਮਵਰਕ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ mutual information ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਕੇ ਪ੍ਰਤੀਨਿਧਿਤਾਵਾਂ ਸਿੱਖਣਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): ਆਮ ਦ੍ਰਿਸ਼ਟੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਸਿੱਖਿਆ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline Parallelism ਦੀ ਵਰਤੋਂ ਨਾਲ ਵਿਸ਼ਾਲ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦੀ ਕੁਸ਼ਲ ਟ੍ਰੇਨਿੰਗ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “ਗੈਰ-ਭੇਦਕ ਡਾਟਾ ਜਾਂ ਕਮਜ਼ੋਰ ਮਾਡਲ? ਡਾਟਾ ਅਤੇ ਮਾਡਲ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਦੀ ਆਪਸੀ ਮਹੱਤਤਾ ਬਾਰੇ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICCV 2019.
17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “ਜਨਰੇਟਿਵ ਅਤੇ ਭੇਦਕ ਮਾਡਲਾਂ ਦੇ ਸਿਧਾਂਤਕ ਮਿਲੇ-ਝੁਲੇ ਰੂਪ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CVPR 2006.
18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Unsupervised pre-training ਡੀਪ ਲਰਨਿੰਗ ਦੀ ਮਦਦ ਕਿਉਂ ਕਰਦੀ ਹੈ?⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In JMLR 2010.
19
Elman, J. (1990). “ਸਮੇਂ ਵਿੱਚ ਸੰਰਚਨਾ ਲੱਭਣਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Cognitive Science 1990.
20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network ਆਧਾਰਿਤ language model⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In INTERSPEECH-2010.
21
Larochelle, H., Murray, I. (2011). “ਨਿਊਰਲ autoregressive distribution estimator⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In AISTATS 2011.
22
Graves, A. (2013). “Recurrent neural networks ਨਾਲ ਕ੍ਰਮ ਬਣਾਉਣਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Unsupervised visual representation learning ਲਈ Momentum Contrast⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding ਨਾਲ ਡਾਟਾ-ਕੁਸ਼ਲ ਇਮੇਜ ਪਹਿਚਾਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2018.
28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks ਅਤੇ Multidimensional Upscaling ਨਾਲ ਉੱਚ-ਨਿਸ਼ਠਾ ਇਮੇਜ ਜਨਰੇਸ਼ਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
29
Mumford, D. (1992). “Neocortex ਦੀ ਗਣਨਾਤਮਕ ਆਰਕੀਟੈਕਚਰ ਬਾਰੇ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Biol. Cybern.
30
Rao, R., Ballard, D. (1999). “ਦ੍ਰਿਸ਼ਟੀ ਕੋਰਟੈਕਸ ਵਿੱਚ predictive coding: ਕੁਝ extra-classical receptive-field effects ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿਆਖਿਆ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Nature Neuroscience.
31
Smolensky, P. (1986). “ਗਤੀਸ਼ੀਲ ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚ ਜਾਣਕਾਰੀ ਪ੍ਰਕਿਰਿਆ: harmony theory ਦੀਆਂ ਬੁਨਿਆਦਾਂ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).”
32
Hinton, G. (2002). “Contrastive Divergence ਨੂੰ ਘੱਟ ਤੋਂ ਘੱਟ ਕਰਕੇ Products of Experts ਦੀ ਟ੍ਰੇਨਿੰਗ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In MIT Press.
33
Hinton, G., Osindero, S., & Teh, Y. (2006). “ਡੀਪ belief nets ਲਈ ਤੇਜ਼ ਸਿੱਖਣ algorithm⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Neural Computation.
34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Denoising autoencoders ਨਾਲ ਮਜ਼ਬੂਤ features ਕੱਢਣਾ ਅਤੇ ਜੋੜਨਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2008.
35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Unsupervised feature learning ਵਿੱਚ single-layer networks ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In AISTATS 2011.
36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “ਵੱਡੇ ਪੱਧਰ ਦੀ unsupervised learning ਨਾਲ ਉੱਚ-ਪੱਧਰੀ features ਬਣਾਉਣਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2012.
37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets ਹੱਥ-ਲਿਖਤ ਅੰਕ ਪਹਿਚਾਣ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CoRR 2010.
39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Relative position representations ਨਾਲ self-attention⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NAACL 2018.
40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformers ਨਾਲ ਲੰਬੇ ਕ੍ਰਮ ਬਣਾਉਣਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
41
Becker, S., Hinton, G. (1991). “Self-organizing neural network ਜੋ random-dot stereograms ਵਿੱਚ ਸਤਹਾਂ ਖੋਜਦੀ ਹੈ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Nature.
42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). ““Siamese” time delay neural network ਦੀ ਵਰਤੋਂ ਨਾਲ ਦਸਤਖ਼ਤ ਪ੍ਰਮਾਣੀਕਰਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 1994.
43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਦੀਆਂ distributed representations ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ compositionality⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2013.
44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding ਨਾਲ representation learning⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Mutual information estimation ਅਤੇ maximization ਰਾਹੀਂ deep representations ਸਿੱਖਣਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICLR 2019.
46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Sequence-only deep representation learning ਨਾਲ ਇਕਰੂਪ rational protein engineering⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Nature Methods.
47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “250 Million Protein Sequences ਤੱਕ Unsupervised Learning ਨੂੰ Scale ਕਰਨ ਨਾਲ Biological Structure ਅਤੇ Function ਉਭਰਦੇ ਹਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” bioRxiv preprint.
48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: nonparametric object ਅਤੇ scene recognition ਲਈ ਇੱਕ ਵੱਡਾ ਡਾਟਾ ਸੈੱਟ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In IEEE transactions on pattern analysis and machine intelligence.
49
“8-Bit Computer Hardware Graphics ਦੀ ਸੂਚੀ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” Wikipedia, 8 May 2020
50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “ਕੀ ਵਧੀਆ ImageNet ਮਾਡਲ ਹੋਰ ਵਧੀਆ transfer ਕਰਦੇ ਹਨ?⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CVPR 2019.
51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: ਡਾਟਾ ਤੋਂ augmentation strategies ਸਿੱਖਣਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CVPR 2019.
52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional Neural Networks ਲਈ ਮਾਡਲ ਸਕੇਲਿੰਗ ‘ਤੇ ਨਵੀਂ ਸੋਚ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2019.
53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “ਇਮੇਜ rotations ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਕੇ unsupervised representation learning⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICLR 2018.
54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “ਡੀਪ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਨਾਲ ਅਰਧ-ਨਿਗਰਾਨੀ ਸਿੱਖਿਆ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2014.
55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GANs ਦੀ ਟ੍ਰੇਨਿੰਗ ਲਈ ਸੁਧਰੇ ਤਰੀਕੇ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2016.
56
Tarvainen, A., Valpola, H. (2017). “Mean teachers ਵਧੀਆ role models ਹਨ: weight-averaged consistency targets ਅਰਧ-ਨਿਗਰਾਨੀ ਡੀਪ ਲਰਨਿੰਗ ਦੇ ਨਤੀਜੇ ਸੁਧਾਰਦੇ ਹਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2017.
57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: ਅਰਧ-ਨਿਗਰਾਨੀ ਸਿੱਖਿਆ ਲਈ ਇੱਕ ਸਮਗ੍ਰੀ ਪਹੁੰਚ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency Training ਲਈ Unsupervised Data Augmentation⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency ਅਤੇ confidence ਨਾਲ ਅਰਧ-ਨਿਗਰਾਨੀ ਸਿੱਖਿਆ ਨੂੰ ਸਧਾਰਨਾ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
60
Sutton, R. (2019). “The Bitter Lesson⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).”

ਲੇਖਕ

Mark Chen, Alec Radford, Ilya Sutskever

ਆਭਾਰ

ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਆਪਣੇ ਪੇਪਰ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal ਅਤੇ David Luan ਦਾ ਧੰਨਵਾਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ.

ਇਸ ਕੰਮ ਬਾਰੇ ਆਪਣੀ ਪ੍ਰਤੀਕਿਰਿਆ ਅਤੇ ਇਸ ਰਿਲੀਜ਼ ਵਿੱਚ ਯੋਗਦਾਨ ਲਈ ਅਸੀਂ ਹੇਠ ਲਿਖੇ ਲੋਕਾਂ ਦਾ ਧੰਨਵਾਦ ਕਰਦੇ ਹਾਂ: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le ਅਤੇ Ashish Vaswani.

ਸੰਪਾਦਕ: Ashley Pilipiszyn

ਡਿਜ਼ਾਇਨ: Justin Jay Wang

ਕਵਰ ਆਰਟਵਰਕ: Ben Barry