
Illustration: Ben Barry
ਅਸੀਂ ਪਾਇਆ ਕਿ ਜਿਵੇਂ ਭਾਸ਼ਾ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਇੱਕ ਵੱਡਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਸੁਸੰਗਤ ਪਾਠ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਓਹੀ ਸਹੀ ਮਾਡਲ ਜਦੋਂ ਪਿਕਸਲ ਕ੍ਰਮਾਂ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਵੇ ਤਾਂ ਸੁਸੰਗਤ ਇਮੇਜ ਕੰਪਲੀਸ਼ਨ ਅਤੇ ਸੈਂਪਲ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ. ਸੈਂਪਲ ਗੁਣਵੱਤਾ ਅਤੇ ਇਮੇਜ ਵਰਗੀਕਰਨ ਸਹੀਪਣ ਵਿਚਕਾਰ ਸਬੰਧ ਕਾਇਮ ਕਰਕੇ, ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਜਨਰੇਟਿਵ ਮਾਡਲ ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੀ ਸੈਟਿੰਗ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਕਨਵੋਲੂਸ਼ਨਲ ਨੈੱਟਾਂ ਨਾਲ ਟੱਕਰ ਲੈਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵੀ ਰੱਖਦਾ ਹੈ.
Unsupervised ਅਤੇ self-supervised learning,1 ਜਾਂ ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਤੋਂ ਬਿਨਾਂ ਸਿੱਖਣਾ, machine learning ਦੀ ਇੱਕ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਚੱਲਦੀ ਚੁਣੌਤੀ ਹੈ. ਹਾਲ ਹੀ ਵਿੱਚ, ਇਸ ਨੇ ਭਾਸ਼ਾ ਵਿੱਚ ਅਦਭੁੱਤ ਸਫਲਤਾ ਵੇਖੀ ਹੈ, ਕਿਉਂਕਿ transformer2 ਮਾਡਲ ਜਿਵੇਂ BERT,3 GPT‑2,4 RoBERTa,5 T5,6 ਅਤੇ ਹੋਰ variants7, 8, 9, 10 ਨੇ ਭਾਸ਼ਾ ਦੇ ਬਹੁਤ ਵਿਆਪਕ ਕੰਮਾਂ ‘ਤੇ ਸਿਖਰਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕੀਤੀ ਹੈ. ਹਾਲਾਂਕਿ, ਇਸੇ ਵਿਸ਼ਾਲ ਵਰਗ ਦੇ ਮਾਡਲ ਇਮੇਜ ਵਰਗੀਕਰਨ ਲਈ ਮਜ਼ਬੂਤ features ਬਣਾਉਣ ਵਿੱਚ ਸਫਲ ਨਹੀਂ ਰਹੇ.11 ਸਾਡਾ ਕੰਮ ਇਸ ਖਾਈ ਨੂੰ ਸਮਝਣ ਅਤੇ ਪਾਰ ਕਰਨ ਦਾ ਯਤਨ ਕਰਦਾ ਹੈ.
BERT ਅਤੇ GPT‑2 ਵਰਗੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ domain agnostic ਹੁੰਦੇ ਹਨ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਹਨਾਂ ਨੂੰ ਕਿਸੇ ਵੀ ਰੂਪ ਦੀ 1-D sequences ‘ਤੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਅਸੀਂ ਪਿਕਸਲਾਂ ਦੀਆਂ ਲੰਬੀਆਂ sequences ਵਿੱਚ unroll ਕੀਤੀਆਂ ਇਮੇਜਾਂ ‘ਤੇ GPT‑2 ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ, ਜਿਸਨੂੰ ਅਸੀਂ iGPT ਕਹਿੰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਮਾਡਲ 2-D ਇਮੇਜ ਗੁਣਾਂ ਜਿਵੇਂ ਆਬਜੈਕਟ ਦੀ ਦਿੱਖ ਅਤੇ ਸ਼੍ਰੇਣੀ ਨੂੰ ਸਮਝਦਾ ਦਿਸਦਾ ਹੈ. ਇਸਦਾ ਸਬੂਤ ਉਹ ਵਿਭਿੰਨ ਕਿਸਮ ਦੇ ਸੁਸੰਗਤ ਇਮੇਜ ਸੈਂਪਲ ਹਨ ਜੋ ਇਹ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਭਾਵੇਂ ਮਨੁੱਖੀ ਲੇਬਲਾਂ ਦੀ ਕੋਈ ਮਦਦ ਨਾ ਹੋਵੇ. ਹੋਰ ਸਬੂਤ ਵਜੋਂ, ਮਾਡਲ ਦੇ features ਕਈ ਵਰਗੀਕਰਨ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ state-of-the-art ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ImageNet ‘ਤੇ ਲਗਭਗ state-of-the-art unsupervised accuracyA ਹਾਸਲ ਕਰਦੇ ਹਨ.
ਮੁਲਾਂਕਣ | ਡੇਟਾਸੈੱਟ | ਸਾਡਾ ਨਤੀਜਾ | ਸਭ ਤੋਂ ਵਧੀਆ ਗੈਰ-iGPT ਨਤੀਜਾ |
|---|---|---|---|
ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ‘ਤੇ Logistic regression (linear probe) | CIFAR-10 | 96.3 iGPT‑L 32x32 w/ 1536 features | 95.3 SimCLR12 w/ 8192 features |
CIFAR-100 | 82.8 iGPT‑L 32x32 w/ 1536 features | 80.2 SimCLR w/ 8192 features | |
STL-10 | 95.5 iGPT‑L 32x32 w/ 1536 features | 94.2 AMDIM13 w/ 8192 features | |
ImageNet | 72.0 iGPT‑XLa 64x64 w/ 15360 features | 76.5 SimCLR w/ 8192 features | |
Full fine-tune | CIFAR-10 | 99.0 iGPT‑L 32x32, trained on ImageNet | |
ImageNet 32x32 | 66.3 iGPT‑L 32x32 | 70.2 Isometric Nets15 |
- ਅਸੀਂ iGPT‑XL ਲਈ ਸਿਰਫ ImageNet linear probe accuracy ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿਉਂਕਿ ਹੋਰ ਪ੍ਰਯੋਗ ਸਾਡੇ ਵੱਖਰੀਆਂ supercomputing facilities ਵੱਲ ਜਾਣ ਦੀ ਲੋੜ ਤੋਂ ਪਹਿਲਾਂ ਮੁਕੰਮਲ ਨਹੀਂ ਹੋ ਸਕੇ.
- JFT (300M images with 18K classes) ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ Bit-L ਨੇ 99.3 ਦਾ ਨਤੀਜਾ ਹਾਸਲ ਕੀਤਾ.
ਜਨਰੇਟਿਵ17, 18 sequence modeling19, 20, 21, 22 ਦੀ ਇੱਕ ਆਮ-ਉਦੇਸ਼ੀ unsupervised learning algorithm ਵਜੋਂ ਸੰਭਾਵਨਾ ਉਜਾਗਰ ਕਰਨ ਲਈ, ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ ਭਾਸ਼ਾ ਵਿੱਚ GPT‑2 ਵਾਂਗ ਹੀ ਉਹੀ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਵਰਤਦੇ ਹਾਂ. ਨਤੀਜੇ ਵਜੋਂ, ਸਿਖਰਲੇ unsupervised convolutional nets13, 23, 24, 25, 12 ਦੇ features ਨਾਲ ਮੁਕਾਬਲੇਯੋਗ features ਬਣਾਉਣ ਲਈ ਸਾਨੂੰ ਕਾਫ਼ੀ ਵੱਧ compute ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਹਾਲਾਂਕਿ, ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ ਜਦੋਂ ਕਿਸੇ ਨਵੇਂ domain ਦਾ ਸਾਹਮਣਾ ਹੋਵੇ ਜਿੱਥੇ ਸਹੀ model priors ਅਣਜਾਣ ਹੋਣ, ਇੱਕ ਵੱਡਾ GPT‑2 domain-specific26, 27, 28 architectural design choices ਦੀ ਲੋੜ ਬਿਨਾਂ ਸ਼ਾਨਦਾਰ features ਸਿੱਖ ਸਕਦਾ ਹੈ.
ਭਾਸ਼ਾ ਵਿੱਚ, ਉਹ unsupervised learning algorithms ਜੋ ਸ਼ਬਦ ਅਨੁਮਾਨ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ (ਜਿਵੇਂ GPT‑2 ਅਤੇ BERT) ਬੇਹੱਦ ਸਫਲ ਰਹੀਆਂ ਹਨ ਅਤੇ ਭਾਸ਼ਾ ਦੇ ਬਹੁਤ ਵਿਆਪਕ ਕੰਮਾਂ ‘ਤੇ ਸਿਖਰਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕੀਤੀ ਹੈ. ਇਸ ਸਫਲਤਾ ਦਾ ਇੱਕ ਸੰਭਾਵੀ ਕਾਰਣ ਇਹ ਹੈ ਕਿ downstream ਭਾਸ਼ਾਈ ਕੰਮਾਂ ਦੇ ਉਦਾਹਰਨ ਪਾਠ ਵਿੱਚ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਮਿਲਦੇ ਹਨ: ਸਵਾਲਾਂ ਤੋਂ ਬਾਅਦ ਅਕਸਰ ਜਵਾਬ ਆਉਂਦੇ ਹਨ (ਜੋ question-answering ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ) ਅਤੇ ਅੰਸ਼ਾਂ ਤੋਂ ਬਾਅਦ ਅਕਸਰ ਸੰਖੇਪ ਆਉਂਦੇ ਹਨ (ਜੋ summarization ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ). ਇਸਦੇ ਉਲਟ, ਪਿਕਸਲਾਂ ਦੇ ਕ੍ਰਮ ਉਹਨਾਂ ਇਮੇਜਾਂ ਲਈ labels ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਨਹੀਂ ਰੱਖਦੇ ਜਿਨ੍ਹਾਂ ਨਾਲ ਉਹ ਸੰਬੰਧਤ ਹੁੰਦੇ ਹਨ.
ਇਸ ਸਪਸ਼ਟ supervision ਤੋਂ ਬਿਨਾਂ ਵੀ, ਇੱਕ ਕਾਰਣ ਹੈ ਕਿ ਇਮੇਜਾਂ ‘ਤੇ GPT‑2 ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ: ਅਗਲੇ ਪਿਕਸਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਕਾਫ਼ੀ ਵੱਡਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਖ਼ਿਰਕਾਰ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਛਾਣਯੋਗ ਆਬਜੈਕਟਾਂ ਵਾਲੇ ਵਿਭਿੰਨB ਸੈਂਪਲ ਬਣਾਉਣਾ ਸਿੱਖ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਇਹ ਐਸਾ ਕਰਨਾ ਸਿੱਖ ਲੈਂਦਾ ਹੈ, ਤਾਂ “Analysis by Synthesis”29, 30, C ਨਾਮਕ ਵਿਚਾਰ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਆਬਜੈਕਟ ਸ਼੍ਰੇਣੀਆਂ ਬਾਰੇ ਵੀ ਗਿਆਨ ਹੋਵੇਗਾ. ਕਈ ਸ਼ੁਰੂਆਤੀ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼31, 32, 33, 34, 35, 36 ਇਸ ਵਿਚਾਰ ਤੋਂ ਪ੍ਰੇਰਿਤ ਸਨ, ਅਤੇ ਹਾਲ ਹੀ ਵਿੱਚ BigBiGAN37 ਇੱਕ ਐਸਾ ਉਦਾਹਰਨ ਸੀ ਜਿਸਨੇ ਉਤਸ਼ਾਹਜਨਕ ਸੈਂਪਲ ਅਤੇ features ਦਿੱਤੇ. ਆਪਣੇ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਪਹਿਲਾਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਵਧੀਆ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਹੋਰ ਮਜ਼ਬੂਤ ਵਰਗੀਕਰਨ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਨ. ਫਿਰ, ਜਨਰੇਟਿਵ ਸਮਰੱਥਾਵਾਂ ਲਈ GPT‑2 ਨੂੰ optimize ਕਰਕੇ, ਅਸੀਂ ਕਈ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਸਿਖਰ-ਪੱਧਰੀ ਵਰਗੀਕਰਨ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਨਾਲ analysis by synthesis ਲਈ ਹੋਰ ਸਬੂਤ ਮਿਲਦਾ ਹੈ.
ਜਨਰੇਟਿਵ sequence modeling ਇੱਕ ਸਰਬਭੌਮ unsupervised learning algorithm ਹੈ: ਕਿਉਂਕਿ ਸਾਰੇ data types ਨੂੰ bytes ਦੇ ਕ੍ਰਮ ਵਜੋਂ ਦਰਸਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਨੂੰ ਵਾਧੂ engineering ਬਿਨਾਂ ਕਿਸੇ ਵੀ data type ‘ਤੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. ਸਾਡਾ ਕੰਮ ਇਸ ਆਮਪਣ ਦੀ ਤਾਕਤ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਪਰਖਦਾ ਹੈ ਕਿ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ‘ਤੇ GPT‑2 ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤੀ ਗਈ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਸਿੱਧੇ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ. ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ convolutions38 ਜਾਂ relative attention,39 sparse attention,40 ਅਤੇ 2-D position embeddings27 ਵਰਗੀਆਂ image-specific ਤਕਨੀਕਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਕੋਈ ਵੀ ਖ਼ਾਸ ਇਮੇਜ ਗਿਆਨ ਹੱਥੋਂ ਕੋਡ ਨਾ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕੀਤਾ.
ਇਸ ਦੀ ਆਮਪਣ ਦੇ ਨਤੀਜੇ ਵਜੋਂ, unsupervised ਸੈਟਿੰਗ ਵਿੱਚ ਮੁਕਾਬਲੇਯੋਗ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਨ ਲਈ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਕਾਫ਼ੀ ਵੱਧ compute ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਦਰਅਸਲ, ਇਮੇਜਾਂ ਤੋਂ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ features ਬਣਾਉਣ ਲਈ contrastive methods41, 42, 43, 44, 45, 13, 23, 24, 25, 12 ਹਾਲੇ ਵੀ ਸਭ ਤੋਂ ਗਣਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਕੁਸ਼ਲ ਤਰੀਕੇ ਹਨ. ਪਰ ਇਹ ਦਿਖਾਉਂਦਿਆਂ ਕਿ ਇੱਕ unsupervised ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਸਭ ਤੋਂ ਵਧੀਆ unsupervised convolutional nets24, 25, 12 ਨਾਲ ਮੁਕਾਬਲੇਯੋਗ ਹੈ, ਅਸੀਂ ਸਬੂਤ ਦਿੰਦੇ ਹਾਂ ਕਿ ਹੱਥੋਂ ਕੋਡ ਕੀਤੇ domain knowledge ਦੇ ਬਦਲੇ compute ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸੰਭਵ ਹੈ. ਨਵੇਂ domains ਵਿੱਚ,46, 47 ਜਿੱਥੇ ਹੱਥੋਂ ਕੋਡ ਕਰਨ ਲਈ ਬਹੁਤ ਘੱਟ ਗਿਆਨ ਹੁੰਦਾ ਹੈ, compute ਨੂੰ scale ਕਰਨਾ ਪਰਖਣ ਲਈ ਇੱਕ ਉਚਿਤ ਤਕਨੀਕ ਲੱਗਦੀ ਹੈ.
ਅਸੀਂ ImageNet ‘ਤੇ ਕ੍ਰਮਵਾਰ 76M, 455M ਅਤੇ 1.4B ਪੈਰਾਮੀਟਰਾਂ ਵਾਲੇ ਟ੍ਰਾਂਸਫਾਰਮਰ iGPT‑S, iGPT‑M ਅਤੇ iGPT‑L ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ iGPT‑XLD ਨੂੰ ਵੀ, ਜੋ 6.8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਹੈ, ImageNet ਅਤੇ ਵੈੱਬ ਤੋਂ ਇਮੇਜਾਂ ਦੇ ਮਿਸ਼ਰਣ ‘ਤੇ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. dense attention ਨਾਲ ਲੰਬੇ ਕ੍ਰਮਾਂ ਨੂੰ ਮਾਡਲ ਕਰਨ ਦੀ ਵੱਡੀ ਗਣਨਾਤਮਕ ਲਾਗਤ ਕਰਕੇ, ਅਸੀਂ 32x32, 48x48 ਅਤੇ 64x64 ਦੀਆਂ ਘੱਟ resolutions ‘ਤੇ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ.
ਹਾਲਾਂਕਿ compute cost ਹੋਰ ਘਟਾਉਣ ਲਈ ਇਸ ਤੋਂ ਵੀ ਘੱਟ resolutions ‘ਤੇ ਕੰਮ ਕਰਨਾ ਆਕਰਸ਼ਕ ਲੱਗਦਾ ਹੈ, ਪਿਛਲੇ ਕੰਮ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਆਕਾਰਾਂ ਤੋਂ ਹੇਠਾਂ ਇਮੇਜ ਵਰਗੀਕਰਨ ‘ਤੇ ਮਨੁੱਖੀ ਕਾਰਗੁਜ਼ਾਰੀ ਤੇਜ਼ੀ ਨਾਲ ਘਟਣ ਲੱਗਦੀ ਹੈ.48 ਇਸਦੀ ਬਜਾਏ, ਸ਼ੁਰੂਆਤੀ ਰੰਗੀਨ display palettes ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੋਕੇ,49 ਅਸੀਂ ਪਿਕਸਲਾਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਆਪਣੀ 9-bit color palette ਬਣਾਉਂਦੇ ਹਾਂ. ਇਸ palette ਦੀ ਵਰਤੋਂ standard (R, G, B) palette ਨਾਲੋਂ 3 ਗੁਣਾ ਛੋਟੀ input sequence length ਦਿੰਦੀ ਹੈ, ਜਦਕਿ ਰੰਗਾਂ ਨੂੰ ਫਿਰ ਵੀ ਸਹੀ ਢੰਗ ਨਾਲ encode ਕੀਤਾ ਜਾਂਦਾ ਹੈ.
ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਅਸੀਂ ਦੋ ਤਰੀਕੇ ਵਰਤਦੇ ਹਾਂ, ਅਤੇ ਦੋਵੇਂ ਵਿੱਚ ਇੱਕ downstream ਵਰਗੀਕਰਨ ਕੰਮ ਸ਼ਾਮਲ ਹੈ. ਪਹਿਲਾ, ਜਿਸਨੂੰ ਅਸੀਂ linear probe ਕਹਿੰਦੇ ਹਾਂ, ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ downstream ਡੇਟਾਸੈੱਟ ਦੀਆਂ ਇਮੇਜਾਂ ਵਿੱਚੋਂ featuresE ਕੱਢਦਾ ਹੈ, ਅਤੇ ਫਿਰ labels ‘ਤੇ logistic regression ਫਿਟ ਕਰਦਾ ਹੈ. ਦੂਜਾ ਤਰੀਕਾ ਪੂਰੇ ਮਾਡਲ ਨੂੰ downstream ਡੇਟਾਸੈੱਟ ‘ਤੇ fine-tuneF ਕਰਦਾ ਹੈ.
ਕਿਉਂਕਿ ਅਗਲਾ ਪਿਕਸਲ ਅਨੁਮਾਨਣਾ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਇਮੇਜ ਵਰਗੀਕਰਨ ਨਾਲ ਸੰਬੰਧਿਤ ਨਹੀਂ ਹੈ, ਇਸ ਲਈ ਆਖਰੀ ਲੇਅਰ ਤੋਂ ਮਿਲਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸ਼ਾਇਦ ਆਬਜੈਕਟ ਸ਼੍ਰੇਣੀ ਦੀਆਂ ਸਭ ਤੋਂ ਵਧੀਆ ਭਵਿੱਖਬਾਣੀਕਾਰ ਨਾ ਹੋਣ. ਸਾਡਾ ਪਹਿਲਾ ਨਤੀਜਾ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ feature quality ਡੂੰਘਾਈ ਦੇ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ ਅਤੇ ਫਿਰ ਥੋੜ੍ਹੀ ਘਟਦੀ ਹੈ. ਇਹ ਵਰਤਾਰਾ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਜਨਰੇਟਿਵ ਮਾਡਲ ਦੋ ਚਰਨਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ: ਪਹਿਲੇ ਚਰਨ ਵਿੱਚ, ਹਰ ਸਥਿਤੀ ਆਪਣੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਸੰਦਰਭ ਤੋਂ ਜਾਣਕਾਰੀ ਇਕੱਠੀ ਕਰਦੀ ਹੈ ਤਾਂ ਜੋ ਇੱਕ contextualized image feature ਬਣਾਇਆ ਜਾ ਸਕੇ. ਦੂਜੇ ਚਰਨ ਵਿੱਚ, ਇਸ contextualized feature ਦੀ ਵਰਤੋਂ conditional next pixel prediction ਕੰਮ ਹੱਲ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਸਾਡੇ linear probes ਦੀ ਦੇਖੀ ਗਈ ਦੋ-ਚਰਨੀ ਕਾਰਗੁਜ਼ਾਰੀ ਇੱਕ ਹੋਰ unsupervised neural net, bottleneck autoencoder, ਦੀ ਯਾਦ ਦਿਵਾਂਦੀ ਹੈ, ਜਿਸਨੂੰ ਹੱਥੋਂ ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਵਿਚਕਾਰਲੇ features ਵਰਤੇ ਜਾਣ.
ਸਾਡਾ ਅਗਲਾ ਨਤੀਜਾ ਜਨਰੇਟਿਵ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ feature quality ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧ ਸਥਾਪਿਤ ਕਰਦਾ ਹੈ. ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਮਾਡਲਾਂ ਦਾ scale ਵਧਾਉਣ ਅਤੇ ਹੋਰ iterations ਲਈ ਟ੍ਰੇਨ ਕਰਨ ਨਾਲ ਵਧੀਆ ਜਨਰੇਟਿਵ ਕਾਰਗੁਜ਼ਾਰੀ ਮਿਲਦੀ ਹੈ, ਜੋ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਵਧੀਆ feature quality ਵਿੱਚ ਬਦਲ ਜਾਂਦੀ ਹੈ.
ਜਦੋਂ ਅਸੀਂ CIFAR-10, CIFAR-100 ਅਤੇ STL-10 ‘ਤੇ linear probes ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ features ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ, ਅਸੀਂ ਸਾਰੇ supervised ਅਤੇ unsupervised transfer algorithms ਦੇ features ਤੋਂ ਵਧੀਆ ਕਰਦੇ ਹਾਂ. full fine-tuning ਸੈਟਿੰਗ ਵਿੱਚ ਵੀ ਸਾਡੇ ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ.
ImageNet ‘ਤੇ ਪ੍ਰੀ-ਟ੍ਰੇਨ ਕੀਤਾ | ||||
ਮੁਲਾਂਕਣ | ਮਾਡਲ | ਸਹੀਪਣ | ਲੇਬਲਾਂ ਬਿਨਾਂ | ਲੇਬਲਾਂ ਨਾਲ |
CIFAR-10 Linear Probe | ResNet-15250 | 94.0 | ✔ | |
SimCLR12 | 95.3 | ✔ | ||
iGPT‑L 32x32 | 96.3 | ✔ | ✔ | |
CIFAR-100 Linear Probe | ResNet-152 | 78.0 | ✔ | |
SimCLR | 80.2 | ✔ | ||
iGPT‑L 32x32 | 82.8 | ✔ | ||
STL-10 Linear Probe | AMDIM-L | 94.2 | ✔ | |
iGPT‑L 32x32 | 95.5 | ✔ | ||
CIFAR-10 Fine-tune | AutoAugment | 98.5 | ||
SimCLR | 98.6 | ✔ | ||
GPipe | 99.0 | ✔ | ||
iGPT‑L | 99.0 | ✔ | ||
CIFAR-100 Fine-tune | iGPT‑L | 88.5 | ✔ | |
SimCLR | 89.0 | ✔ | ||
AutoAugment | 89.3 | |||
EfficientNet52 | 91.7 | ✔ |
ਸਾਡੇ ਮਾਡਲਾਂ ਅਤੇ ਸਿਖਰਲੇ ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿਚਕਾਰ linear probe ਅਤੇ fine-tune accuracy ਦੀ ਤੁਲਨਾ, ਜੋ unsupervised ਜਾਂ supervised ImageNet transfer ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ. ਅਸੀਂ AutoAugment ਵੀ ਸ਼ਾਮਲ ਕਰਦੇ ਹਾਂ, ਜੋ CIFAR ‘ਤੇ end-to-end ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਹੈ.
ImageNet ‘ਤੇ unsupervised ਅਤੇ self-supervised learning ਵਿੱਚ ਦੁਬਾਰਾ ਵਧੀ ਦਿਲਚਸਪੀ ਦੇ ਮੱਦੇਨਜ਼ਰ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ImageNet ‘ਤੇ linear probes ਨਾਲ ਵੀ ਕਰਦੇ ਹਾਂ. ਇਹ ਇੱਕ ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਮੁਸ਼ਕਲ ਸੈਟਿੰਗ ਹੈ, ਕਿਉਂਕਿ ਅਸੀਂ standard ImageNet input resolution ‘ਤੇ ਟ੍ਰੇਨ ਨਹੀਂ ਕਰਦੇ. ਫਿਰ ਵੀ, 48x48 ਇਮੇਜਾਂ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ iGPT‑L ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਲੇਅਰ ਤੋਂ 1536 features ‘ਤੇ ਇੱਕ linear probe 65.2% top-1 accuracy ਦਿੰਦਾ ਹੈ, ਜੋ AlexNet ਤੋਂ ਵਧੀਆ ਹੈ.
Contrastive methods ਆਮ ਤੌਰ ‘ਤੇ 8192 features ‘ਤੇ ਆਪਣੇ ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜੇ ਰਿਪੋਰਟ ਕਰਦੀਆਂ ਹਨ, ਇਸ ਲਈ ਤੁਲਨਾ ਲਈ ਅਸੀਂ ਆਦਰਸ਼ ਤੌਰ ‘ਤੇ 8192 embedding dimension ਵਾਲੇ iGPT ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਸੀ. ਹਾਲਾਂਕਿ, ਅਜਿਹਾ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਨਾ ਬਹੁਤ ਮਹਿੰਗਾ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਇਸਦੀ ਬਜਾਏ ਕਈ ਲੇਅਰਾਂ ਦੇ features ਜੋੜਕੇ ਇੱਕ ਲਗਭਗ ਮੁਕਾਬਲੇਯੋਗ ਰੂਪ ਵਰਤਦੇ ਹਾਂ. ਦੁੱਖ ਦੀ ਗੱਲ ਹੈ ਕਿ ਸਾਡੇ features ਲੇਅਰਾਂ ਵਿੱਚ ਆਪਸ ਵਿੱਚ ਸੰਬੰਧਿਤ ਹੁੰਦੇ ਹਨ, ਇਸ ਲਈ ਮੁਕਾਬਲੇਯੋਗ ਹੋਣ ਲਈ ਸਾਨੂੰ ਹੋਰ features ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. iGPT‑XL ਦੀਆਂ 5 ਲੇਅਰਾਂ ਤੋਂ 15360 features ਲੈਣ ‘ਤੇ 72.0% top-1 accuracy ਮਿਲਦੀ ਹੈ, ਜੋ AMDIM, MoCo ਅਤੇ CPC v2 ਤੋਂ ਵਧੀਆ ਹੈ, ਪਰ ਫਿਰ ਵੀ SimCLR ਤੋਂ ਢੰਗ ਦੇ ਫਰਕ ਨਾਲ ਘੱਟ ਹੈ.
ਤਰੀਕਾ | ਇਨਪੁੱਟ ਰੈਜ਼ੋਲਿਊਸ਼ਨ | Features | ਪੈਰਾਮੀਟਰ | ਸਹੀਪਣ |
Rotation53 | original | 8192 | 86M | 55.4 |
iGPT‑L | 32x32 | 1536 | 1362M | 60.3 |
BigBiGAN37 | original | 16384 | 86M | 61.3 |
iGPT‑L | 48x48 | 1536 | 1362M | 65.2 |
AMDIM13 | original | 8192 | 626M | 68.1 |
MoCo24 | original | 8192 | 375M | 68.6 |
iGPT‑XL | 64x64 | 3072 | 6801M | 68.7 |
SimCLR12 | original | 2048 | 24M | 69.3 |
CPC v225 | original | 4096 | 303M | 71.5 |
iGPT‑XL | 64x64 | 3072 x 5 | 6801M | 72.0 |
SimCLR | original | 8192 | 375M | 76.5 |
ਸਾਡੇ ਮਾਡਲਾਂ ਅਤੇ state-of-the-art self-supervised ਮਾਡਲਾਂ ਵਿਚਕਾਰ linear probe accuracies ਦੀ ਤੁਲਨਾ. ਅਸੀਂ ਕਾਫ਼ੀ ਘੱਟ input resolutions ‘ਤੇ ਟ੍ਰੇਨਿੰਗ ਕਰਦੇ ਹੋਏ ਵੀ ਮੁਕਾਬਲੇਯੋਗ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਾਂ, ਹਾਲਾਂਕਿ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਹੋਰ ਪੈਰਾਮੀਟਰਾਂ ਅਤੇ compute ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ.
ਕਿਉਂਕਿ BERT ਵਰਗੇ masked language models ਨੇ ਜ਼ਿਆਦਾਤਰ ਭਾਸ਼ਾਈ ਕੰਮਾਂ ‘ਤੇ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਅਸੀਂ ਆਪਣੇ ਇਮੇਜ ਮਾਡਲਾਂ ‘ਤੇ BERT ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਵੀ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ. ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਸਾਰੇ ਪਿਛਲੇ ਪਿਕਸਲਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਅਗਲਾ ਪਿਕਸਲ ਅਨੁਮਾਨਣ ਲਈ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਬਜਾਏ, ਅਸੀਂ 15% ਪਿਕਸਲਾਂ ਨੂੰ mask ਕਰਦੇ ਹਾਂ ਅਤੇ ਮਾਡਲ ਨੂੰ unmasked ਪਿਕਸਲਾਂ ਤੋਂ ਉਹਨਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਹਾਲਾਂਕਿ BERT ਮਾਡਲਾਂ ‘ਤੇ linear probe ਕਾਰਗੁਜ਼ਾਰੀ ਕਾਫ਼ੀ ਘੱਟ ਹੈ, fine-tuning ਦੌਰਾਨ ਉਹ ਬਹੁਤ ਚੰਗਾ ਕਰਦੇ ਹਨ:
ਜਦੋਂ ਕਿ unsupervised learning ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਦੀ ਲੋੜ ਬਿਨਾਂ ਸ਼ਾਨਦਾਰ features ਦਾ ਵਾਅਦਾ ਕਰਦੀ ਹੈ, ਹਾਲੀਆ ਸਮੇਂ ਵਿੱਚ semi-supervised learning ਦੇ ਹੋਰ ਲਚਕੀਲੇ ਫਰੇਮਵਰਕ ਹੇਠ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਹੋਈ ਹੈ, ਜੋ ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਦੀ ਸੀਮਿਤ ਮਾਤਰਾ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ. ਸਫਲ semi-supervised ਤਰੀਕੇ ਅਕਸਰ consistency regularization, data augmentation ਜਾਂ pseudo-labeling ਵਰਗੀਆਂ ਚਤੁਰ ਤਕਨੀਕਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਅਤੇ ਖਾਲਿਸ ਜਨਰੇਟਿਵ-ਆਧਾਰਿਤ ਪਹੁੰਚਾਂ54, 55 ਕਈ ਸਾਲਾਂ ਤੋਂ ਮੁਕਾਬਲੇਯੋਗ ਨਹੀਂ ਰਹੀਆਂ ਹਨ. ਅਸੀਂ ਇਸ ਉਪ-ਖੇਤਰ ਲਈ ਇੱਕ ਮੁਕਾਬਲੇਯੋਗ benchmark ‘ਤੇ iGPT‑LG ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ ਅਤੇ ਪਾਉਂਦੇ ਹਾਂ ਕਿ non-augmented ਇਮੇਜਾਂ ਦੇ features ‘ਤੇ ਇੱਕ ਸਧਾਰਣ linear probe Mean Teacher56 ਅਤੇ MixMatch ਤੋਂ ਵਧੀਆ ਹੈ, ਹਾਲਾਂਕਿ ਇਹ FixMatch59 ਤੋਂ ਘੱਟ ਹੈ.
ਘੱਟ-ਡਾਟਾ CIFAR-10 ‘ਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਤੁਲਨਾ. ਕਈ unlabeled ImageNet ਇਮੇਜਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, iGPT‑L Mean Teacher ਅਤੇ MixMatch ਵਰਗੇ ਤਰੀਕਿਆਂ ਤੋਂ ਵਧੀਆ ਕਰਦਾ ਹੈ ਪਰ ਹਾਲੇ ਵੀ state-of-the-art ਤਰੀਕਿਆਂ ਤੋਂ ਘੱਟ ਹੈ. semi-supervised learning ਲਈ ਸਾਡੀ ਪਹੁੰਚ ਬਹੁਤ ਸਧਾਰਣ ਹੈ ਕਿਉਂਕਿ ਅਸੀਂ ਕਿਸੇ ਵੀ data augmentation ਜਾਂ fine-tuning ਤੋਂ ਬਿਨਾਂ ਸਿਰਫ iGPT‑L ਦੇ features ‘ਤੇ logistic regression classifier ਫਿਟ ਕਰਦੇ ਹਾਂ—ਇਹ ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਡਿਜ਼ਾਇਨ ਕੀਤੀਆਂ semi-supervised ਪਹੁੰਚਾਂ ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਹੈ.
ਹਾਲਾਂਕਿ ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ iGPT ਸ਼ਕਤੀਸ਼ਾਲੀ ਇਮੇਜ features ਸਿੱਖਣ ਦੇ ਯੋਗ ਹੈ, ਸਾਡੀ ਪਹੁੰਚ ਵਿੱਚ ਹਾਲੇ ਵੀ ਕਈ ਮਹੱਤਵਪੂਰਨ ਸੀਮਾਵਾਂ ਹਨ. ਕਿਉਂਕਿ ਅਸੀਂ ਭਾਸ਼ਾ ਵਿੱਚ GPT‑2 ਲਈ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਆਮ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ, ਇਸ ਲਈ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਵੱਡੇ ਪੱਧਰ ਦੇ compute ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ: iGPT‑L ਨੂੰ ਲਗਭਗ 2500 V100-days ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਦਕਿ ਇਸਦੇ ਸਮਾਨ ਕਾਰਗੁਜ਼ਾਰੀ ਵਾਲਾ MoCo24 ਮਾਡਲ ਲਗਭਗ 70 V100-days ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.
ਇਸੇ ਨਾਲ ਜੁੜਿਆ ਹੋਰ ਮੁੱਦਾ ਇਹ ਹੈ ਕਿ ਅਸੀਂ ਟ੍ਰਾਂਸਫਾਰਮਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਘੱਟ resolution ਵਾਲੇ inputs ਨੂੰ ਮਾਡਲ ਕਰਦੇ ਹਾਂ, ਜਦਕਿ ਜ਼ਿਆਦਾਤਰ self-supervised ਨਤੀਜੇ convolutional-ਆਧਾਰਿਤ encoders ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਜੋ ਆਸਾਨੀ ਨਾਲ ਉੱਚ resolution ਵਾਲੇ inputs ਸੰਭਾਲ ਸਕਦੇ ਹਨ. ਹੋਰ ਵੱਧ scale ਕਰਨ ਲਈ ਕੋਈ ਨਵੀਂ ਆਰਕੀਟੈਕਚਰ, ਜਿਵੇਂ domain-agnostic multiscale ਟ੍ਰਾਂਸਫਾਰਮਰ, ਦੀ ਲੋੜ ਪੈ ਸਕਦੀ ਹੈ. ਇਨ੍ਹਾਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਸਾਡਾ ਕੰਮ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਇਸ ਗੱਲ ਦਾ proof-of-concept ਪ੍ਰਦਰਸ਼ਨ ਹੈ ਕਿ ਵੱਡੇ ਟ੍ਰਾਂਸਫਾਰਮਰ-ਆਧਾਰਿਤ language models ਨਵੇਂ domains ਵਿੱਚ ਬਿਨਾਂ hardcoded domain knowledge ਦੀ ਲੋੜ ਦੇ ਸ਼ਾਨਦਾਰ unsupervised representations ਸਿੱਖ ਸਕਦੇ ਹਨ. ਹਾਲਾਂਕਿ, ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਵੱਡੀ resource cost ਅਤੇ convolutional neural-network ਆਧਾਰਿਤ ਤਰੀਕਿਆਂ ਦੀ ਵਧੀਆ accuracy ਕਰਕੇ, ਇਹ representations vision domain ਵਿੱਚ ਹਕੀਕਤੀ ਵਰਤੋਂ ਲਈ ਵਿਆਵਹਾਰਿਕ ਨਹੀਂ ਬਣਦੀਆਂ.
ਅੰਤ ਵਿੱਚ, ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਉਹ ਪੱਖਪਾਤ ਵੀ ਦਿਖਾ ਸਕਦੇ ਹਨ ਜੋ ਉਸ ਡਾਟਾ ਦਾ ਨਤੀਜਾ ਹੁੰਦੇ ਹਨ ਜਿਸ ‘ਤੇ ਉਹਨਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕਈ ਪੱਖਪਾਤ ਲਾਭਕਾਰੀ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ ਇਹ ਮੰਨਣਾ ਕਿ ਭੂਰੇ ਅਤੇ ਹਰੇ ਪਿਕਸਲਾਂ ਦਾ ਜੋੜ ਪੱਤਿਆਂ ਨਾਲ ਢੱਕੀ ਟਾਹਣੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਇਸ ਪੱਖਪਾਤ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਮੇਜ ਨੂੰ ਅੱਗੇ ਜਾਰੀ ਰੱਖਣਾ. ਪਰ ਨਿਆਂ ਅਤੇ ਪ੍ਰਤਿਨਿਧਿਤਾ ਦੇ ਨਜ਼ਰੀਏ ਨਾਲ ਵੇਖਿਆਂ, ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਪੱਖਪਾਤ ਨੁਕਸਾਨਦੇਹ ਹੋਣਗੇ. ਉਦਾਹਰਨ ਵਜੋਂ, ਜੇ ਮਾਡਲ ਵਿਗਿਆਨੀ ਦੀ ਇੱਕ ਅਜਿਹੀ ਦ੍ਰਿਸ਼ਟੀਗਤ ਧਾਰਣਾ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਮਰਦਾਂ ਵੱਲ ਝੁਕੀ ਹੋਈ ਹੋਵੇ, ਤਾਂ ਉਹ ਵਿਗਿਆਨੀਆਂ ਦੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ ਲਗਾਤਾਰ ਮਰਦ-ਪੇਸ਼ਕਾਰੀ ਲੋਕਾਂ ਨਾਲ ਹੀ ਪੂਰਾ ਕਰ ਸਕਦਾ ਹੈ, ਨਾ ਕਿ ਵੱਖ-ਵੱਖ ਲਿੰਗਾਂ ਦੇ ਮਿਲਾਪ ਨਾਲ. ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ developers ਨੂੰ ਆਪਣੇ systems ਵਿੱਚ ਦਿੱਤੇ ਜਾਣ ਵਾਲੇ ਡਾਟਾ ‘ਤੇ ਅਤੇ ਇਹ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲਾਂ ਵਿੱਚ ਪੱਖਪਾਤ ਨਾਲ ਕਿਵੇਂ ਸੰਬੰਧਿਤ ਹੈ, ਇਸ ਨੂੰ ਵਧੀਆ ਸਮਝਣ ‘ਤੇ ਵਧਦੀ ਧਿਆਨ ਦੇਣੀ ਪਵੇਗੀ.
ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ 2-D knowledge ਦੇ ਬਦਲੇ scale60 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਤੇ ਨੈੱਟਵਰਕ ਦੇ ਵਿਚਕਾਰਲੇ ਹਿੱਸੇ ਵਿੱਚੋਂ predictive features ਚੁਣ ਕੇ, ਇੱਕ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ unsupervised ਇਮੇਜ ਵਰਗੀਕਰਨ ਲਈ ਸਿਖਰਲੇ convolutional nets ਨਾਲ ਮੁਕਾਬਲਾ ਕਰ ਸਕਦਾ ਹੈ. ਖ਼ਾਸ ਤੌਰ ‘ਤੇ, ਅਸੀਂ ਆਪਣੇ ਨਤੀਜੇ GPT‑2 language model ਨੂੰ ਸਿੱਧੇ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ‘ਤੇ ਲਾਗੂ ਕਰਕੇ ਹਾਸਲ ਕੀਤੇ. ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ ਆਪਣੀ ਸਾਦਗੀ ਅਤੇ ਆਮਪਣ ਕਰਕੇ, ਕਾਫ਼ੀ compute ਦਿੱਤਾ ਜਾਣ ‘ਤੇ ਇੱਕ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਖ਼ਿਰਕਾਰ ਕਈ domains ਵਿੱਚ ਸ਼ਾਨਦਾਰ features ਸਿੱਖਣ ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਹੋ ਸਕਦਾ ਹੈ.
ਜੇ ਤੁਸੀਂ ਇਸ ਖੋਜ ਖੇਤਰ ਵਿੱਚ ਸਾਡੇ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹੋ, ਤਾਂ ਅਸੀਂ ਭਰਤੀ ਕਰ ਰਹੇ ਹਾਂ!
ਫੁੱਟਨੋਟਸ
- A
ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ‘ਤੇ logistic regression ਰਾਹੀਂ ਮਾਪਿਆ ਗਿਆ (linear probe).
- B
ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ likelihood ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਸ ਕਰਕੇ ਇਹ mode covering ਹੁੰਦਾ ਹੈ, ਜੋ ਆਪਣੇ ਆਪ ਹੀ ਇਸ ਦੇ ਸੈਂਪਲਾਂ ਦੀ ਵਿਭਿੰਨਤਾ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ.
- C
ਮੂਲ analysis by synthesis ਵਿਚਾਰ latent variables ਵਾਲੇ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਲਈ ਵਧੇਰੇ ਤਰਕ ਸੀ, ਪਰ ਕਿਉਂਕਿ latent variables ਤੋਂ ਬਿਨਾਂ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਡਾਟਾ distribution ਨੂੰ ਮਾਡਲ ਕਰਨ ਵਿੱਚ ਕਾਫ਼ੀ ਵਧੀਆ ਸਨ, ਅਸੀਂ ਸੋਚਿਆ ਕਿ analysis-by-synthesis ਅਨੁਮਾਨ ਉਨ੍ਹਾਂ ਲਈ ਵੀ ਲਾਗੂ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ.
- D
ਅਸੀਂ ImageNet ‘ਤੇ iGPT-XL ਲਈ ਸਿਰਫ linear probe accuracy ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿਉਂਕਿ ਹੋਰ ਪ੍ਰਯੋਗ ਸਾਡੇ ਵੱਲੋਂ ਵੱਖਰੀਆਂ supercomputing facilities ਵੱਲ ਜਾਣ ਦੀ ਲੋੜ ਤੋਂ ਪਹਿਲਾਂ ਮੁਕੰਮਲ ਨਹੀਂ ਹੋ ਸਕੇ.
- E
linear probe ਲਈ features ਕੱਢਣ ਵਾਸਤੇ, ਅਸੀਂ ਕਿਸੇ ਲੇਅਰ ‘ਤੇ post layernorm attention block inputs ਲੈਂਦੇ ਹਾਂ ਅਤੇ sequence dimension ‘ਤੇ average pool ਕਰਦੇ ਹਾਂ.
- F
fine-tune ਕਰਨ ਲਈ, ਅਸੀਂ post layernorm ਟ੍ਰਾਂਸਫਾਰਮਰ output ਲੈਂਦੇ ਹਾਂ ਅਤੇ ਇਸਨੂੰ classification head ਲਈ input ਵਜੋਂ sequence dimension ‘ਤੇ average pool ਕਰਦੇ ਹਾਂ.
- G
ਇੱਕ ਜਨਰੇਟਿਵ ਮਾਡਲ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ unsupervised ਢੰਗ ਨਾਲ features ਸਿੱਖਦਾ ਹੈ.
ਹਵਾਲੇ
- 1
LeCun, Y. (2017). “ਪ੍ਰੇਡਿਕਟਿਵ ਲਰਨਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).”
- 2
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2017.
- 3
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). “BERT: ਭਾਸ਼ਾ ਸਮਝ ਲਈ ਡੀਪ ਦੋ-ਦਿਸ਼ੀ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ ਦੀ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 4
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” Technical Report, OpenAI.
- 5
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 6
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 7
Dai, A., Le, Q. V. (2015). “ਅਰਧ-ਨਿਗਰਾਨੀ ਕ੍ਰਮ ਸਿੱਖਿਆ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2015.
- 8
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “ਡੀਪ ਸੰਦਰਭਿਤ ਸ਼ਬਦ ਪ੍ਰਤੀਨਿਧਿਤਾਵਾਂ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NAACL 2018.
- 9
Howard, J., Ruder, S. (2018). “ਪਾਠ ਵਰਗੀਕਰਨ ਲਈ ਯੂਨੀਵਰਸਲ ਭਾਸ਼ਾ ਮਾਡਲ ਫਾਈਨ-ਟਿਊਨਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ACL 2018.
- 10
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “ਜਨਰੇਟਿਵ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਰਾਹੀਂ ਭਾਸ਼ਾ ਸਮਝ ਨੂੰ ਸੁਧਾਰਨਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” Technical Report, OpenAI.
- 11
Ke N., Goyal, A., Bilaniuk,O., Binas, J., Mozer, M., Pal, C., Bengio, Y (2018). “Sparse attentive backtracking: ਯਾਦ ਦਿਵਾਉਣ ਰਾਹੀਂ ਸਮੇਂਕਾਲੀ credit assignment(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2018.
- 12
Chen, T., Kornblith, S., Norouzi, M., Hinton, G. (2020). “ਦ੍ਰਿਸ਼ਟੀ ਪ੍ਰਤੀਨਿਧਿਤਾਵਾਂ ਦੀ contrastive learning ਲਈ ਇੱਕ ਸਧਾਰਣ ਫਰੇਮਵਰਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 13
Bachman, P., Hjelm, R., & Buchwalter, W. (2019). “ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ mutual information ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਕੇ ਪ੍ਰਤੀਨਿਧਿਤਾਵਾਂ ਸਿੱਖਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
- 14
Kolesnikov, A. & Beyer, L. & Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2019). “Big Transfer (BiT): ਆਮ ਦ੍ਰਿਸ਼ਟੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਸਿੱਖਿਆ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 15
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, Q. V., Wu, Y., & Chen, Z. (2019) “GPipe: Pipeline Parallelism ਦੀ ਵਰਤੋਂ ਨਾਲ ਵਿਸ਼ਾਲ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦੀ ਕੁਸ਼ਲ ਟ੍ਰੇਨਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
- 16
Sandler, M., Baccash, J., Zhmoginov, A., & Howard, A. (2019). “ਗੈਰ-ਭੇਦਕ ਡਾਟਾ ਜਾਂ ਕਮਜ਼ੋਰ ਮਾਡਲ? ਡਾਟਾ ਅਤੇ ਮਾਡਲ ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਦੀ ਆਪਸੀ ਮਹੱਤਤਾ ਬਾਰੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICCV 2019.
- 17
Lasserre, J., Bishop, C., & Minka, T. P. (2006). “ਜਨਰੇਟਿਵ ਅਤੇ ਭੇਦਕ ਮਾਡਲਾਂ ਦੇ ਸਿਧਾਂਤਕ ਮਿਲੇ-ਝੁਲੇ ਰੂਪ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CVPR 2006.
- 18
Erhan, D., Bengio, Y., Courville, A., Manzagol, P., Vincent, P., Bengio, S. (2010). “Unsupervised pre-training ਡੀਪ ਲਰਨਿੰਗ ਦੀ ਮਦਦ ਕਿਉਂ ਕਰਦੀ ਹੈ?(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In JMLR 2010.
- 19
Elman, J. (1990). “ਸਮੇਂ ਵਿੱਚ ਸੰਰਚਨਾ ਲੱਭਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Cognitive Science 1990.
- 20
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network ਆਧਾਰਿਤ language model(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In INTERSPEECH-2010.
- 21
Larochelle, H., Murray, I. (2011). “ਨਿਊਰਲ autoregressive distribution estimator(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In AISTATS 2011.
- 22
Graves, A. (2013). “Recurrent neural networks ਨਾਲ ਕ੍ਰਮ ਬਣਾਉਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 23
Tian, Y., Krishnan, D., & Isola, P. (2019). “Contrastive multiview coding(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 24
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2019). “Unsupervised visual representation learning ਲਈ Momentum Contrast(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 25
Henaff, O., Srinivas, A., De Fauw, J., Razavi, A., Doersch, C., Eslami, S., Oord, A. (2019). “Contrastive Predictive Coding ਨਾਲ ਡਾਟਾ-ਕੁਸ਼ਲ ਇਮੇਜ ਪਹਿਚਾਣ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 26
Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 27
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2018.
- 28
Menick, J., Kalchbrenner, N. (2018). “Subscale Pixel Networks ਅਤੇ Multidimensional Upscaling ਨਾਲ ਉੱਚ-ਨਿਸ਼ਠਾ ਇਮੇਜ ਜਨਰੇਸ਼ਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 29
Mumford, D. (1992). “Neocortex ਦੀ ਗਣਨਾਤਮਕ ਆਰਕੀਟੈਕਚਰ ਬਾਰੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Biol. Cybern.
- 30
Rao, R., Ballard, D. (1999). “ਦ੍ਰਿਸ਼ਟੀ ਕੋਰਟੈਕਸ ਵਿੱਚ predictive coding: ਕੁਝ extra-classical receptive-field effects ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿਆਖਿਆ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Nature Neuroscience.
- 31
Smolensky, P. (1986). “ਗਤੀਸ਼ੀਲ ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚ ਜਾਣਕਾਰੀ ਪ੍ਰਕਿਰਿਆ: harmony theory ਦੀਆਂ ਬੁਨਿਆਦਾਂ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).”
- 32
Hinton, G. (2002). “Contrastive Divergence ਨੂੰ ਘੱਟ ਤੋਂ ਘੱਟ ਕਰਕੇ Products of Experts ਦੀ ਟ੍ਰੇਨਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In MIT Press.
- 33
Hinton, G., Osindero, S., & Teh, Y. (2006). “ਡੀਪ belief nets ਲਈ ਤੇਜ਼ ਸਿੱਖਣ algorithm(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Neural Computation.
- 34
Vincent, P., Larochelle, H., Bengio, Y., & Manzagol, P. (2008). “Denoising autoencoders ਨਾਲ ਮਜ਼ਬੂਤ features ਕੱਢਣਾ ਅਤੇ ਜੋੜਨਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2008.
- 35
Coates, A., Lee, H., & Ng, A. Y. (2011). “Unsupervised feature learning ਵਿੱਚ single-layer networks ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In AISTATS 2011.
- 36
Le, Q. V., Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J. & Ng, A. Y. (2012). “ਵੱਡੇ ਪੱਧਰ ਦੀ unsupervised learning ਨਾਲ ਉੱਚ-ਪੱਧਰੀ features ਬਣਾਉਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2012.
- 37
Donahue, J., Simonyan, K. (2019). “Large scale adversarial representation learning(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
- 38
Ciresan, D., Meier, U., Gambardella, L. & Schmidhuber, J. (2010). “Deep Big Simple Neural Nets ਹੱਥ-ਲਿਖਤ ਅੰਕ ਪਹਿਚਾਣ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CoRR 2010.
- 39
Shaw, P., Uszkoreit, J., & Vaswani A. (2018). “Relative position representations ਨਾਲ self-attention(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NAACL 2018.
- 40
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). “Sparse transformers ਨਾਲ ਲੰਬੇ ਕ੍ਰਮ ਬਣਾਉਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 41
Becker, S., Hinton, G. (1991). “Self-organizing neural network ਜੋ random-dot stereograms ਵਿੱਚ ਸਤਹਾਂ ਖੋਜਦੀ ਹੈ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Nature.
- 42
Bromley, J., Guyon, I., LeCun, Y., Sackinger, E., & Shah, R. (1994). ““Siamese” time delay neural network ਦੀ ਵਰਤੋਂ ਨਾਲ ਦਸਤਖ਼ਤ ਪ੍ਰਮਾਣੀਕਰਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 1994.
- 43
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). “ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂਸ਼ਾਂ ਦੀਆਂ distributed representations ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ compositionality(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2013.
- 44
Oord, A., Li, Y., Vinyals, O. (2018). “Contrastive Predictive Coding ਨਾਲ representation learning(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 45
Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Mutual information estimation ਅਤੇ maximization ਰਾਹੀਂ deep representations ਸਿੱਖਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICLR 2019.
- 46
Alley, E., Khimulya, G., Biswas, S., AlQuraishi, M., Church, G. (2019). “Sequence-only deep representation learning ਨਾਲ ਇਕਰੂਪ rational protein engineering(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In Nature Methods.
- 47
Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C., Ma, J., Fergus, R. (2019). “250 Million Protein Sequences ਤੱਕ Unsupervised Learning ਨੂੰ Scale ਕਰਨ ਨਾਲ Biological Structure ਅਤੇ Function ਉਭਰਦੇ ਹਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” bioRxiv preprint.
- 48
Torralba, A., Fergus, R., Freeman, W. (2008). “80 million tiny images: nonparametric object ਅਤੇ scene recognition ਲਈ ਇੱਕ ਵੱਡਾ ਡਾਟਾ ਸੈੱਟ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In IEEE transactions on pattern analysis and machine intelligence.
- 49
“8-Bit Computer Hardware Graphics ਦੀ ਸੂਚੀ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” Wikipedia, 8 May 2020
- 50
Kornblith, S., Shlens, J., & Le, Q. V. (2019). “ਕੀ ਵਧੀਆ ImageNet ਮਾਡਲ ਹੋਰ ਵਧੀਆ transfer ਕਰਦੇ ਹਨ?(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CVPR 2019.
- 51
Cubuk, E., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2019). “AutoAugment: ਡਾਟਾ ਤੋਂ augmentation strategies ਸਿੱਖਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In CVPR 2019.
- 52
Tan, M., Le, Q. V. (2019). “EfficientNet: Convolutional Neural Networks ਲਈ ਮਾਡਲ ਸਕੇਲਿੰਗ ‘ਤੇ ਨਵੀਂ ਸੋਚ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2019.
- 53
Gidaris, S., Singh, P., & Komodakis, N. (2018). “ਇਮੇਜ rotations ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਕੇ unsupervised representation learning(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICLR 2018.
- 54
Kingma, D., Rezende, D. J., Mohamed, S., & Welling, M. (2014). “ਡੀਪ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਨਾਲ ਅਰਧ-ਨਿਗਰਾਨੀ ਸਿੱਖਿਆ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2014.
- 55
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GANs ਦੀ ਟ੍ਰੇਨਿੰਗ ਲਈ ਸੁਧਰੇ ਤਰੀਕੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2016.
- 56
Tarvainen, A., Valpola, H. (2017). “Mean teachers ਵਧੀਆ role models ਹਨ: weight-averaged consistency targets ਅਰਧ-ਨਿਗਰਾਨੀ ਡੀਪ ਲਰਨਿੰਗ ਦੇ ਨਤੀਜੇ ਸੁਧਾਰਦੇ ਹਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2017.
- 57
Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). “MixMatch: ਅਰਧ-ਨਿਗਰਾਨੀ ਸਿੱਖਿਆ ਲਈ ਇੱਕ ਸਮਗ੍ਰੀ ਪਹੁੰਚ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2019.
- 58
Xie, Q., Dai, Z., Hovy, E., Luong, M., & Le, Q. V. (2019). “Consistency Training ਲਈ Unsupervised Data Augmentation(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 59
Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). “Fixmatch: consistency ਅਤੇ confidence ਨਾਲ ਅਰਧ-ਨਿਗਰਾਨੀ ਸਿੱਖਿਆ ਨੂੰ ਸਧਾਰਨਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.
- 60
Sutton, R. (2019). “The Bitter Lesson(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).”
ਲੇਖਕ
ਆਭਾਰ
ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਆਪਣੇ ਪੇਪਰ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal ਅਤੇ David Luan ਦਾ ਧੰਨਵਾਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ.
ਇਸ ਕੰਮ ਬਾਰੇ ਆਪਣੀ ਪ੍ਰਤੀਕਿਰਿਆ ਅਤੇ ਇਸ ਰਿਲੀਜ਼ ਵਿੱਚ ਯੋਗਦਾਨ ਲਈ ਅਸੀਂ ਹੇਠ ਲਿਖੇ ਲੋਕਾਂ ਦਾ ਧੰਨਵਾਦ ਕਰਦੇ ਹਾਂ: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le ਅਤੇ Ashish Vaswani.
ਸੰਪਾਦਕ: Ashley Pilipiszyn
ਡਿਜ਼ਾਇਨ: Justin Jay Wang
ਕਵਰ ਆਰਟਵਰਕ: Ben Barry


