ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

ਅਸੀਂ ਪਾਇਆ ਕਿ ਜਿਵੇਂ ਭਾਸ਼ਾ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਇੱਕ ਵੱਡਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਸੁਸੰਗਤ ਪਾਠ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਓਹੀ ਸਹੀ ਮਾਡਲ ਜਦੋਂ ਪਿਕਸਲ ਕ੍ਰਮਾਂ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਵੇ ਤਾਂ ਸੁਸੰਗਤ ਇਮੇਜ ਕੰਪਲੀਸ਼ਨ ਅਤੇ ਸੈਂਪਲ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ. ਸੈਂਪਲ ਗੁਣਵੱਤਾ ਅਤੇ ਇਮੇਜ ਵਰਗੀਕਰਨ ਸਹੀਪਣ ਵਿਚਕਾਰ ਸਬੰਧ ਕਾਇਮ ਕਰਕੇ, ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਜਨਰੇਟਿਵ ਮਾਡਲ ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੀ ਸੈਟਿੰਗ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਕਨਵੋਲੂਸ਼ਨਲ ਨੈੱਟਾਂ ਨਾਲ ਟੱਕਰ ਲੈਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵੀ ਰੱਖਦਾ ਹੈ.

ਪਰਿਚਯ

Unsupervised ਅਤੇ self-supervised learning,1 ਜਾਂ ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਤੋਂ ਬਿਨਾਂ ਸਿੱਖਣਾ, machine learning ਦੀ ਇੱਕ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਚੱਲਦੀ ਚੁਣੌਤੀ ਹੈ. ਹਾਲ ਹੀ ਵਿੱਚ, ਇਸ ਨੇ ਭਾਸ਼ਾ ਵਿੱਚ ਅਦਭੁੱਤ ਸਫਲਤਾ ਵੇਖੀ ਹੈ, ਕਿਉਂਕਿ transformer2 ਮਾਡਲ ਜਿਵੇਂ BERT,3 GPT‑2,4 RoBERTa,5 T5,6 ਅਤੇ ਹੋਰ variants7, 8, 9, 10 ਨੇ ਭਾਸ਼ਾ ਦੇ ਬਹੁਤ ਵਿਆਪਕ ਕੰਮਾਂ ‘ਤੇ ਸਿਖਰਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕੀਤੀ ਹੈ. ਹਾਲਾਂਕਿ, ਇਸੇ ਵਿਸ਼ਾਲ ਵਰਗ ਦੇ ਮਾਡਲ ਇਮੇਜ ਵਰਗੀਕਰਨ ਲਈ ਮਜ਼ਬੂਤ features ਬਣਾਉਣ ਵਿੱਚ ਸਫਲ ਨਹੀਂ ਰਹੇ.11 ਸਾਡਾ ਕੰਮ ਇਸ ਖਾਈ ਨੂੰ ਸਮਝਣ ਅਤੇ ਪਾਰ ਕਰਨ ਦਾ ਯਤਨ ਕਰਦਾ ਹੈ.

BERT ਅਤੇ GPT‑2 ਵਰਗੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ domain agnostic ਹੁੰਦੇ ਹਨ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਹਨਾਂ ਨੂੰ ਕਿਸੇ ਵੀ ਰੂਪ ਦੀ 1-D sequences ‘ਤੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਅਸੀਂ ਪਿਕਸਲਾਂ ਦੀਆਂ ਲੰਬੀਆਂ sequences ਵਿੱਚ unroll ਕੀਤੀਆਂ ਇਮੇਜਾਂ ‘ਤੇ GPT‑2 ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ, ਜਿਸਨੂੰ ਅਸੀਂ iGPT ਕਹਿੰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਮਾਡਲ 2-D ਇਮੇਜ ਗੁਣਾਂ ਜਿਵੇਂ ਆਬਜੈਕਟ ਦੀ ਦਿੱਖ ਅਤੇ ਸ਼੍ਰੇਣੀ ਨੂੰ ਸਮਝਦਾ ਦਿਸਦਾ ਹੈ. ਇਸਦਾ ਸਬੂਤ ਉਹ ਵਿਭਿੰਨ ਕਿਸਮ ਦੇ ਸੁਸੰਗਤ ਇਮੇਜ ਸੈਂਪਲ ਹਨ ਜੋ ਇਹ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਭਾਵੇਂ ਮਨੁੱਖੀ ਲੇਬਲਾਂ ਦੀ ਕੋਈ ਮਦਦ ਨਾ ਹੋਵੇ. ਹੋਰ ਸਬੂਤ ਵਜੋਂ, ਮਾਡਲ ਦੇ features ਕਈ ਵਰਗੀਕਰਨ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ state-of-the-art ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ImageNet ‘ਤੇ ਲਗਭਗ state-of-the-art unsupervised accuracyA ਹਾਸਲ ਕਰਦੇ ਹਨ.

ਮੁਲਾਂਕਣ

ਡੇਟਾਸੈੱਟ

ਸਾਡਾ ਨਤੀਜਾ

ਸਭ ਤੋਂ ਵਧੀਆ ਗੈਰ-iGPT ਨਤੀਜਾ

ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ‘ਤੇ Logistic regression (linear probe)

CIFAR-10

96.3 iGPT‑L 32x32 w/ 1536 features

95.3 SimCLR12 w/ 8192 features

CIFAR-100

82.8 iGPT‑L 32x32 w/ 1536 features

80.2 SimCLR w/ 8192 features

STL-10

95.5 iGPT‑L 32x32 w/ 1536 features

94.2 AMDIM13 w/ 8192 features

ImageNet

72.0 iGPT‑XLa 64x64 w/ 15360 features

76.5 SimCLR w/ 8192 features

Full fine-tune

CIFAR-10

99.0 iGPT‑L 32x32, trained on ImageNet

99.0b GPipe,14 trained on ImageNet

ImageNet 32x32

66.3 iGPT‑L 32x32

70.2 Isometric Nets15

  1. ਅਸੀਂ iGPT‑XL ਲਈ ਸਿਰਫ ImageNet linear probe accuracy ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿਉਂਕਿ ਹੋਰ ਪ੍ਰਯੋਗ ਸਾਡੇ ਵੱਖਰੀਆਂ supercomputing facilities ਵੱਲ ਜਾਣ ਦੀ ਲੋੜ ਤੋਂ ਪਹਿਲਾਂ ਮੁਕੰਮਲ ਨਹੀਂ ਹੋ ਸਕੇ.
  2. JFT (300M images with 18K classes) ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ Bit-L ਨੇ 99.3 ਦਾ ਨਤੀਜਾ ਹਾਸਲ ਕੀਤਾ.

ਜਨਰੇਟਿਵ17, 18 sequence modeling19, 20, 21, 22 ਦੀ ਇੱਕ ਆਮ-ਉਦੇਸ਼ੀ unsupervised learning algorithm ਵਜੋਂ ਸੰਭਾਵਨਾ ਉਜਾਗਰ ਕਰਨ ਲਈ, ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ ਭਾਸ਼ਾ ਵਿੱਚ GPT‑2 ਵਾਂਗ ਹੀ ਉਹੀ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਰਕੀਟੈਕਚਰ ਵਰਤਦੇ ਹਾਂ. ਨਤੀਜੇ ਵਜੋਂ, ਸਿਖਰਲੇ unsupervised convolutional nets13, 23, 24, 25, 12 ਦੇ features ਨਾਲ ਮੁਕਾਬਲੇਯੋਗ features ਬਣਾਉਣ ਲਈ ਸਾਨੂੰ ਕਾਫ਼ੀ ਵੱਧ compute ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਹਾਲਾਂਕਿ, ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ ਜਦੋਂ ਕਿਸੇ ਨਵੇਂ domain ਦਾ ਸਾਹਮਣਾ ਹੋਵੇ ਜਿੱਥੇ ਸਹੀ model priors ਅਣਜਾਣ ਹੋਣ, ਇੱਕ ਵੱਡਾ GPT‑2 domain-specific26, 27, 28 architectural design choices ਦੀ ਲੋੜ ਬਿਨਾਂ ਸ਼ਾਨਦਾਰ features ਸਿੱਖ ਸਕਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਭਾਸ਼ਾ GPT ਤੋਂ ਇਮੇਜ GPT ਤੱਕ

ਭਾਸ਼ਾ ਵਿੱਚ, ਉਹ unsupervised learning algorithms ਜੋ ਸ਼ਬਦ ਅਨੁਮਾਨ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ (ਜਿਵੇਂ GPT‑2 ਅਤੇ BERT) ਬੇਹੱਦ ਸਫਲ ਰਹੀਆਂ ਹਨ ਅਤੇ ਭਾਸ਼ਾ ਦੇ ਬਹੁਤ ਵਿਆਪਕ ਕੰਮਾਂ ‘ਤੇ ਸਿਖਰਲੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕੀਤੀ ਹੈ. ਇਸ ਸਫਲਤਾ ਦਾ ਇੱਕ ਸੰਭਾਵੀ ਕਾਰਣ ਇਹ ਹੈ ਕਿ downstream ਭਾਸ਼ਾਈ ਕੰਮਾਂ ਦੇ ਉਦਾਹਰਨ ਪਾਠ ਵਿੱਚ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਮਿਲਦੇ ਹਨ: ਸਵਾਲਾਂ ਤੋਂ ਬਾਅਦ ਅਕਸਰ ਜਵਾਬ ਆਉਂਦੇ ਹਨ (ਜੋ question-answering ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ) ਅਤੇ ਅੰਸ਼ਾਂ ਤੋਂ ਬਾਅਦ ਅਕਸਰ ਸੰਖੇਪ ਆਉਂਦੇ ਹਨ (ਜੋ summarization ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ). ਇਸਦੇ ਉਲਟ, ਪਿਕਸਲਾਂ ਦੇ ਕ੍ਰਮ ਉਹਨਾਂ ਇਮੇਜਾਂ ਲਈ labels ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਨਹੀਂ ਰੱਖਦੇ ਜਿਨ੍ਹਾਂ ਨਾਲ ਉਹ ਸੰਬੰਧਤ ਹੁੰਦੇ ਹਨ.

ਇਸ ਸਪਸ਼ਟ supervision ਤੋਂ ਬਿਨਾਂ ਵੀ, ਇੱਕ ਕਾਰਣ ਹੈ ਕਿ ਇਮੇਜਾਂ ‘ਤੇ GPT‑2 ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ: ਅਗਲੇ ਪਿਕਸਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਕਾਫ਼ੀ ਵੱਡਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਖ਼ਿਰਕਾਰ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਛਾਣਯੋਗ ਆਬਜੈਕਟਾਂ ਵਾਲੇ ਵਿਭਿੰਨB ਸੈਂਪਲ ਬਣਾਉਣਾ ਸਿੱਖ ਸਕਦਾ ਹੈ. ਜਦੋਂ ਇਹ ਐਸਾ ਕਰਨਾ ਸਿੱਖ ਲੈਂਦਾ ਹੈ, ਤਾਂ “Analysis by Synthesis”29, 30, C ਨਾਮਕ ਵਿਚਾਰ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਆਬਜੈਕਟ ਸ਼੍ਰੇਣੀਆਂ ਬਾਰੇ ਵੀ ਗਿਆਨ ਹੋਵੇਗਾ. ਕਈ ਸ਼ੁਰੂਆਤੀ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼31, 32, 33, 34, 35, 36 ਇਸ ਵਿਚਾਰ ਤੋਂ ਪ੍ਰੇਰਿਤ ਸਨ, ਅਤੇ ਹਾਲ ਹੀ ਵਿੱਚ BigBiGAN37 ਇੱਕ ਐਸਾ ਉਦਾਹਰਨ ਸੀ ਜਿਸਨੇ ਉਤਸ਼ਾਹਜਨਕ ਸੈਂਪਲ ਅਤੇ features ਦਿੱਤੇ. ਆਪਣੇ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਪਹਿਲਾਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਵਧੀਆ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਹੋਰ ਮਜ਼ਬੂਤ ਵਰਗੀਕਰਨ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਨ. ਫਿਰ, ਜਨਰੇਟਿਵ ਸਮਰੱਥਾਵਾਂ ਲਈ GPT‑2 ਨੂੰ optimize ਕਰਕੇ, ਅਸੀਂ ਕਈ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਸਿਖਰ-ਪੱਧਰੀ ਵਰਗੀਕਰਨ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਨਾਲ analysis by synthesis ਲਈ ਹੋਰ ਸਬੂਤ ਮਿਲਦਾ ਹੈ.

ਸਧਾਰਣ unsupervised learning ਵੱਲ

ਜਨਰੇਟਿਵ sequence modeling ਇੱਕ ਸਰਬਭੌਮ unsupervised learning algorithm ਹੈ: ਕਿਉਂਕਿ ਸਾਰੇ data types ਨੂੰ bytes ਦੇ ਕ੍ਰਮ ਵਜੋਂ ਦਰਸਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਨੂੰ ਵਾਧੂ engineering ਬਿਨਾਂ ਕਿਸੇ ਵੀ data type ‘ਤੇ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. ਸਾਡਾ ਕੰਮ ਇਸ ਆਮਪਣ ਦੀ ਤਾਕਤ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਪਰਖਦਾ ਹੈ ਕਿ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ‘ਤੇ GPT‑2 ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤੀ ਗਈ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਸਿੱਧੇ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ. ਅਸੀਂ ਜ਼ਾਣ-ਬੁੱਝ ਕੇ convolutions38 ਜਾਂ relative attention,39 sparse attention,40 ਅਤੇ 2-D position embeddings27 ਵਰਗੀਆਂ image-specific ਤਕਨੀਕਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਕੋਈ ਵੀ ਖ਼ਾਸ ਇਮੇਜ ਗਿਆਨ ਹੱਥੋਂ ਕੋਡ ਨਾ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕੀਤਾ.

ਇਸ ਦੀ ਆਮਪਣ ਦੇ ਨਤੀਜੇ ਵਜੋਂ, unsupervised ਸੈਟਿੰਗ ਵਿੱਚ ਮੁਕਾਬਲੇਯੋਗ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਨ ਲਈ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਕਾਫ਼ੀ ਵੱਧ compute ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਦਰਅਸਲ, ਇਮੇਜਾਂ ਤੋਂ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ features ਬਣਾਉਣ ਲਈ contrastive methods41, 42, 43, 44, 45, 13, 23, 24, 25, 12 ਹਾਲੇ ਵੀ ਸਭ ਤੋਂ ਗਣਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਕੁਸ਼ਲ ਤਰੀਕੇ ਹਨ. ਪਰ ਇਹ ਦਿਖਾਉਂਦਿਆਂ ਕਿ ਇੱਕ unsupervised ਟ੍ਰਾਂਸਫਾਰਮਰ ਮਾਡਲ ਸਭ ਤੋਂ ਵਧੀਆ unsupervised convolutional nets24, 25, 12 ਨਾਲ ਮੁਕਾਬਲੇਯੋਗ ਹੈ, ਅਸੀਂ ਸਬੂਤ ਦਿੰਦੇ ਹਾਂ ਕਿ ਹੱਥੋਂ ਕੋਡ ਕੀਤੇ domain knowledge ਦੇ ਬਦਲੇ compute ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸੰਭਵ ਹੈ. ਨਵੇਂ domains ਵਿੱਚ,46, 47 ਜਿੱਥੇ ਹੱਥੋਂ ਕੋਡ ਕਰਨ ਲਈ ਬਹੁਤ ਘੱਟ ਗਿਆਨ ਹੁੰਦਾ ਹੈ, compute ਨੂੰ scale ਕਰਨਾ ਪਰਖਣ ਲਈ ਇੱਕ ਉਚਿਤ ਤਕਨੀਕ ਲੱਗਦੀ ਹੈ.

ਪਹੁੰਚ

ਅਸੀਂ ImageNet ‘ਤੇ ਕ੍ਰਮਵਾਰ 76M, 455M ਅਤੇ 1.4B ਪੈਰਾਮੀਟਰਾਂ ਵਾਲੇ ਟ੍ਰਾਂਸਫਾਰਮਰ iGPT‑S, iGPT‑M ਅਤੇ iGPT‑L ਨੂੰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ iGPT‑XLD ਨੂੰ ਵੀ, ਜੋ 6.8 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਟ੍ਰਾਂਸਫਾਰਮਰ ਹੈ, ImageNet ਅਤੇ ਵੈੱਬ ਤੋਂ ਇਮੇਜਾਂ ਦੇ ਮਿਸ਼ਰਣ ‘ਤੇ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. dense attention ਨਾਲ ਲੰਬੇ ਕ੍ਰਮਾਂ ਨੂੰ ਮਾਡਲ ਕਰਨ ਦੀ ਵੱਡੀ ਗਣਨਾਤਮਕ ਲਾਗਤ ਕਰਕੇ, ਅਸੀਂ 32x32, 48x48 ਅਤੇ 64x64 ਦੀਆਂ ਘੱਟ resolutions ‘ਤੇ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ.

ਹਾਲਾਂਕਿ compute cost ਹੋਰ ਘਟਾਉਣ ਲਈ ਇਸ ਤੋਂ ਵੀ ਘੱਟ resolutions ‘ਤੇ ਕੰਮ ਕਰਨਾ ਆਕਰਸ਼ਕ ਲੱਗਦਾ ਹੈ, ਪਿਛਲੇ ਕੰਮ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਆਕਾਰਾਂ ਤੋਂ ਹੇਠਾਂ ਇਮੇਜ ਵਰਗੀਕਰਨ ‘ਤੇ ਮਨੁੱਖੀ ਕਾਰਗੁਜ਼ਾਰੀ ਤੇਜ਼ੀ ਨਾਲ ਘਟਣ ਲੱਗਦੀ ਹੈ.48 ਇਸਦੀ ਬਜਾਏ, ਸ਼ੁਰੂਆਤੀ ਰੰਗੀਨ display palettes ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੋਕੇ,49 ਅਸੀਂ ਪਿਕਸਲਾਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਆਪਣੀ 9-bit color palette ਬਣਾਉਂਦੇ ਹਾਂ. ਇਸ palette ਦੀ ਵਰਤੋਂ standard (R, G, B) palette ਨਾਲੋਂ 3 ਗੁਣਾ ਛੋਟੀ input sequence length ਦਿੰਦੀ ਹੈ, ਜਦਕਿ ਰੰਗਾਂ ਨੂੰ ਫਿਰ ਵੀ ਸਹੀ ਢੰਗ ਨਾਲ encode ਕੀਤਾ ਜਾਂਦਾ ਹੈ.

ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜੇ

ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਅਸੀਂ ਦੋ ਤਰੀਕੇ ਵਰਤਦੇ ਹਾਂ, ਅਤੇ ਦੋਵੇਂ ਵਿੱਚ ਇੱਕ downstream ਵਰਗੀਕਰਨ ਕੰਮ ਸ਼ਾਮਲ ਹੈ. ਪਹਿਲਾ, ਜਿਸਨੂੰ ਅਸੀਂ linear probe ਕਹਿੰਦੇ ਹਾਂ, ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ downstream ਡੇਟਾਸੈੱਟ ਦੀਆਂ ਇਮੇਜਾਂ ਵਿੱਚੋਂ featuresE ਕੱਢਦਾ ਹੈ, ਅਤੇ ਫਿਰ labels ‘ਤੇ logistic regression ਫਿਟ ਕਰਦਾ ਹੈ. ਦੂਜਾ ਤਰੀਕਾ ਪੂਰੇ ਮਾਡਲ ਨੂੰ downstream ਡੇਟਾਸੈੱਟ ‘ਤੇ fine-tuneF ਕਰਦਾ ਹੈ.

ਕਿਉਂਕਿ ਅਗਲਾ ਪਿਕਸਲ ਅਨੁਮਾਨਣਾ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਇਮੇਜ ਵਰਗੀਕਰਨ ਨਾਲ ਸੰਬੰਧਿਤ ਨਹੀਂ ਹੈ, ਇਸ ਲਈ ਆਖਰੀ ਲੇਅਰ ਤੋਂ ਮਿਲਣ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸ਼ਾਇਦ ਆਬਜੈਕਟ ਸ਼੍ਰੇਣੀ ਦੀਆਂ ਸਭ ਤੋਂ ਵਧੀਆ ਭਵਿੱਖਬਾਣੀਕਾਰ ਨਾ ਹੋਣ. ਸਾਡਾ ਪਹਿਲਾ ਨਤੀਜਾ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ feature quality ਡੂੰਘਾਈ ਦੇ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ ਅਤੇ ਫਿਰ ਥੋੜ੍ਹੀ ਘਟਦੀ ਹੈ. ਇਹ ਵਰਤਾਰਾ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਜਨਰੇਟਿਵ ਮਾਡਲ ਦੋ ਚਰਨਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ: ਪਹਿਲੇ ਚਰਨ ਵਿੱਚ, ਹਰ ਸਥਿਤੀ ਆਪਣੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਸੰਦਰਭ ਤੋਂ ਜਾਣਕਾਰੀ ਇਕੱਠੀ ਕਰਦੀ ਹੈ ਤਾਂ ਜੋ ਇੱਕ contextualized image feature ਬਣਾਇਆ ਜਾ ਸਕੇ. ਦੂਜੇ ਚਰਨ ਵਿੱਚ, ਇਸ contextualized feature ਦੀ ਵਰਤੋਂ conditional next pixel prediction ਕੰਮ ਹੱਲ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਸਾਡੇ linear probes ਦੀ ਦੇਖੀ ਗਈ ਦੋ-ਚਰਨੀ ਕਾਰਗੁਜ਼ਾਰੀ ਇੱਕ ਹੋਰ unsupervised neural net, bottleneck autoencoder, ਦੀ ਯਾਦ ਦਿਵਾਂਦੀ ਹੈ, ਜਿਸਨੂੰ ਹੱਥੋਂ ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਵਿਚਕਾਰਲੇ features ਵਰਤੇ ਜਾਣ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸਾਡਾ ਅਗਲਾ ਨਤੀਜਾ ਜਨਰੇਟਿਵ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ feature quality ਦੇ ਵਿਚਕਾਰ ਸੰਬੰਧ ਸਥਾਪਿਤ ਕਰਦਾ ਹੈ. ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਮਾਡਲਾਂ ਦਾ scale ਵਧਾਉਣ ਅਤੇ ਹੋਰ iterations ਲਈ ਟ੍ਰੇਨ ਕਰਨ ਨਾਲ ਵਧੀਆ ਜਨਰੇਟਿਵ ਕਾਰਗੁਜ਼ਾਰੀ ਮਿਲਦੀ ਹੈ, ਜੋ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਵਧੀਆ feature quality ਵਿੱਚ ਬਦਲ ਜਾਂਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜਦੋਂ ਅਸੀਂ CIFAR-10, CIFAR-100 ਅਤੇ STL-10 ‘ਤੇ linear probes ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ features ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ, ਅਸੀਂ ਸਾਰੇ supervised ਅਤੇ unsupervised transfer algorithms ਦੇ features ਤੋਂ ਵਧੀਆ ਕਰਦੇ ਹਾਂ. full fine-tuning ਸੈਟਿੰਗ ਵਿੱਚ ਵੀ ਸਾਡੇ ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ.

ImageNet ‘ਤੇ ਪ੍ਰੀ-ਟ੍ਰੇਨ ਕੀਤਾ

ਮੁਲਾਂਕਣ

ਮਾਡਲ

ਸਹੀਪਣ

ਲੇਬਲਾਂ ਬਿਨਾਂ

ਲੇਬਲਾਂ ਨਾਲ

CIFAR-10

Linear Probe

ResNet-15250

94.0

SimCLR12

95.3

iGPT‑L 32x32

96.3

CIFAR-100

Linear Probe

ResNet-152

78.0

SimCLR

80.2

iGPT‑L 32x32

82.8

STL-10

Linear Probe

AMDIM-L

94.2

iGPT‑L 32x32

95.5

CIFAR-10

Fine-tune

AutoAugment

98.5

SimCLR

98.6

GPipe

99.0

iGPT‑L

99.0

CIFAR-100

Fine-tune

iGPT‑L

88.5

SimCLR

89.0

AutoAugment

89.3

EfficientNet52

91.7

ਸਾਡੇ ਮਾਡਲਾਂ ਅਤੇ ਸਿਖਰਲੇ ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿਚਕਾਰ linear probe ਅਤੇ fine-tune accuracy ਦੀ ਤੁਲਨਾ, ਜੋ unsupervised ਜਾਂ supervised ImageNet transfer ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ. ਅਸੀਂ AutoAugment ਵੀ ਸ਼ਾਮਲ ਕਰਦੇ ਹਾਂ, ਜੋ CIFAR ‘ਤੇ end-to-end ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਹੈ.

ImageNet ‘ਤੇ unsupervised ਅਤੇ self-supervised learning ਵਿੱਚ ਦੁਬਾਰਾ ਵਧੀ ਦਿਲਚਸਪੀ ਦੇ ਮੱਦੇਨਜ਼ਰ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ImageNet ‘ਤੇ linear probes ਨਾਲ ਵੀ ਕਰਦੇ ਹਾਂ. ਇਹ ਇੱਕ ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਮੁਸ਼ਕਲ ਸੈਟਿੰਗ ਹੈ, ਕਿਉਂਕਿ ਅਸੀਂ standard ImageNet input resolution ‘ਤੇ ਟ੍ਰੇਨ ਨਹੀਂ ਕਰਦੇ. ਫਿਰ ਵੀ, 48x48 ਇਮੇਜਾਂ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ iGPT‑L ਦੀ ਸਭ ਤੋਂ ਵਧੀਆ ਲੇਅਰ ਤੋਂ 1536 features ‘ਤੇ ਇੱਕ linear probe 65.2% top-1 accuracy ਦਿੰਦਾ ਹੈ, ਜੋ AlexNet ਤੋਂ ਵਧੀਆ ਹੈ.

Contrastive methods ਆਮ ਤੌਰ ‘ਤੇ 8192 features ‘ਤੇ ਆਪਣੇ ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜੇ ਰਿਪੋਰਟ ਕਰਦੀਆਂ ਹਨ, ਇਸ ਲਈ ਤੁਲਨਾ ਲਈ ਅਸੀਂ ਆਦਰਸ਼ ਤੌਰ ‘ਤੇ 8192 embedding dimension ਵਾਲੇ iGPT ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਸੀ. ਹਾਲਾਂਕਿ, ਅਜਿਹਾ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਨਾ ਬਹੁਤ ਮਹਿੰਗਾ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਇਸਦੀ ਬਜਾਏ ਕਈ ਲੇਅਰਾਂ ਦੇ features ਜੋੜਕੇ ਇੱਕ ਲਗਭਗ ਮੁਕਾਬਲੇਯੋਗ ਰੂਪ ਵਰਤਦੇ ਹਾਂ. ਦੁੱਖ ਦੀ ਗੱਲ ਹੈ ਕਿ ਸਾਡੇ features ਲੇਅਰਾਂ ਵਿੱਚ ਆਪਸ ਵਿੱਚ ਸੰਬੰਧਿਤ ਹੁੰਦੇ ਹਨ, ਇਸ ਲਈ ਮੁਕਾਬਲੇਯੋਗ ਹੋਣ ਲਈ ਸਾਨੂੰ ਹੋਰ features ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. iGPT‑XL ਦੀਆਂ 5 ਲੇਅਰਾਂ ਤੋਂ 15360 features ਲੈਣ ‘ਤੇ 72.0% top-1 accuracy ਮਿਲਦੀ ਹੈ, ਜੋ AMDIM, MoCo ਅਤੇ CPC v2 ਤੋਂ ਵਧੀਆ ਹੈ, ਪਰ ਫਿਰ ਵੀ SimCLR ਤੋਂ ਢੰਗ ਦੇ ਫਰਕ ਨਾਲ ਘੱਟ ਹੈ.

ਤਰੀਕਾ

ਇਨਪੁੱਟ ਰੈਜ਼ੋਲਿਊਸ਼ਨ

Features

ਪੈਰਾਮੀਟਰ

ਸਹੀਪਣ

Rotation53

original

8192

86M

55.4

iGPT‑L

32x32

1536

1362M

60.3

BigBiGAN37

original

16384

86M

61.3

iGPT‑L

48x48

1536

1362M

65.2

AMDIM13

original

8192

626M

68.1

MoCo24

original

8192

375M

68.6

iGPT‑XL

64x64

3072

6801M

68.7

SimCLR12

original

2048

24M

69.3

CPC v225

original

4096

303M

71.5

iGPT‑XL

64x64

3072 x 5

6801M

72.0

SimCLR

original

8192

375M

76.5

ਸਾਡੇ ਮਾਡਲਾਂ ਅਤੇ state-of-the-art self-supervised ਮਾਡਲਾਂ ਵਿਚਕਾਰ linear probe accuracies ਦੀ ਤੁਲਨਾ. ਅਸੀਂ ਕਾਫ਼ੀ ਘੱਟ input resolutions ‘ਤੇ ਟ੍ਰੇਨਿੰਗ ਕਰਦੇ ਹੋਏ ਵੀ ਮੁਕਾਬਲੇਯੋਗ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਦੇ ਹਾਂ, ਹਾਲਾਂਕਿ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਹੋਰ ਪੈਰਾਮੀਟਰਾਂ ਅਤੇ compute ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ.

ਕਿਉਂਕਿ BERT ਵਰਗੇ masked language models ਨੇ ਜ਼ਿਆਦਾਤਰ ਭਾਸ਼ਾਈ ਕੰਮਾਂ ‘ਤੇ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ ਹੈ, ਅਸੀਂ ਆਪਣੇ ਇਮੇਜ ਮਾਡਲਾਂ ‘ਤੇ BERT ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਵੀ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ. ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਸਾਰੇ ਪਿਛਲੇ ਪਿਕਸਲਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਅਗਲਾ ਪਿਕਸਲ ਅਨੁਮਾਨਣ ਲਈ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਬਜਾਏ, ਅਸੀਂ 15% ਪਿਕਸਲਾਂ ਨੂੰ mask ਕਰਦੇ ਹਾਂ ਅਤੇ ਮਾਡਲ ਨੂੰ unmasked ਪਿਕਸਲਾਂ ਤੋਂ ਉਹਨਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਹਾਲਾਂਕਿ BERT ਮਾਡਲਾਂ ‘ਤੇ linear probe ਕਾਰਗੁਜ਼ਾਰੀ ਕਾਫ਼ੀ ਘੱਟ ਹੈ, fine-tuning ਦੌਰਾਨ ਉਹ ਬਹੁਤ ਚੰਗਾ ਕਰਦੇ ਹਨ:

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜਦੋਂ ਕਿ unsupervised learning ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਦੀ ਲੋੜ ਬਿਨਾਂ ਸ਼ਾਨਦਾਰ features ਦਾ ਵਾਅਦਾ ਕਰਦੀ ਹੈ, ਹਾਲੀਆ ਸਮੇਂ ਵਿੱਚ semi-supervised learning ਦੇ ਹੋਰ ਲਚਕੀਲੇ ਫਰੇਮਵਰਕ ਹੇਠ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਹੋਈ ਹੈ, ਜੋ ਮਨੁੱਖੀ-ਲੇਬਲ ਵਾਲੇ ਡਾਟਾ ਦੀ ਸੀਮਿਤ ਮਾਤਰਾ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ. ਸਫਲ semi-supervised ਤਰੀਕੇ ਅਕਸਰ consistency regularization, data augmentation ਜਾਂ pseudo-labeling ਵਰਗੀਆਂ ਚਤੁਰ ਤਕਨੀਕਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਅਤੇ ਖਾਲਿਸ ਜਨਰੇਟਿਵ-ਆਧਾਰਿਤ ਪਹੁੰਚਾਂ54, 55 ਕਈ ਸਾਲਾਂ ਤੋਂ ਮੁਕਾਬਲੇਯੋਗ ਨਹੀਂ ਰਹੀਆਂ ਹਨ. ਅਸੀਂ ਇਸ ਉਪ-ਖੇਤਰ ਲਈ ਇੱਕ ਮੁਕਾਬਲੇਯੋਗ benchmark ‘ਤੇ iGPT‑LG ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ ਅਤੇ ਪਾਉਂਦੇ ਹਾਂ ਕਿ non-augmented ਇਮੇਜਾਂ ਦੇ features ‘ਤੇ ਇੱਕ ਸਧਾਰਣ linear probe Mean Teacher56 ਅਤੇ MixMatch ਤੋਂ ਵਧੀਆ ਹੈ, ਹਾਲਾਂਕਿ ਇਹ FixMatch59 ਤੋਂ ਘੱਟ ਹੈ.

ਮਾਡਲ

40 ਲੇਬਲ

250 ਲੇਬਲ

4000 ਲੇਬਲ

Improved GAN55

81.4 ± 2.3

Mean Teacher56

67.7 ± 2.3

90.8 ± 0.2

MixMatch57

52.5 ± 11.5

89.0 ± 0.9

93.6 ± 0.1

iGPT‑L

73.2 ± 01.5

87.6 ± 0.6

94.3 ± 0.1

UDA58

71.0 ± 05.9

91.2 ± 1.1

95.1 ± 0.2

FixMatch59 RA

86.2 ± 03.4

94.9 ± 0.7

95.7 ± 0.1

FixMatch CTA

88.6 ± 03.4

94.9 ± 0.3

95.7 ± 0.2

ਘੱਟ-ਡਾਟਾ CIFAR-10 ‘ਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਤੁਲਨਾ. ਕਈ unlabeled ImageNet ਇਮੇਜਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, iGPT‑L Mean Teacher ਅਤੇ MixMatch ਵਰਗੇ ਤਰੀਕਿਆਂ ਤੋਂ ਵਧੀਆ ਕਰਦਾ ਹੈ ਪਰ ਹਾਲੇ ਵੀ state-of-the-art ਤਰੀਕਿਆਂ ਤੋਂ ਘੱਟ ਹੈ. semi-supervised learning ਲਈ ਸਾਡੀ ਪਹੁੰਚ ਬਹੁਤ ਸਧਾਰਣ ਹੈ ਕਿਉਂਕਿ ਅਸੀਂ ਕਿਸੇ ਵੀ data augmentation ਜਾਂ fine-tuning ਤੋਂ ਬਿਨਾਂ ਸਿਰਫ iGPT‑L ਦੇ features ‘ਤੇ logistic regression classifier ਫਿਟ ਕਰਦੇ ਹਾਂ—ਇਹ ਖ਼ਾਸ ਤੌਰ ‘ਤੇ ਡਿਜ਼ਾਇਨ ਕੀਤੀਆਂ semi-supervised ਪਹੁੰਚਾਂ ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਹੈ.

ਸੀਮਾਵਾਂ

ਹਾਲਾਂਕਿ ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ iGPT ਸ਼ਕਤੀਸ਼ਾਲੀ ਇਮੇਜ features ਸਿੱਖਣ ਦੇ ਯੋਗ ਹੈ, ਸਾਡੀ ਪਹੁੰਚ ਵਿੱਚ ਹਾਲੇ ਵੀ ਕਈ ਮਹੱਤਵਪੂਰਨ ਸੀਮਾਵਾਂ ਹਨ. ਕਿਉਂਕਿ ਅਸੀਂ ਭਾਸ਼ਾ ਵਿੱਚ GPT‑2 ਲਈ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਆਮ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ, ਇਸ ਲਈ ਸਾਡੇ ਤਰੀਕੇ ਨੂੰ ਵੱਡੇ ਪੱਧਰ ਦੇ compute ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ: iGPT‑L ਨੂੰ ਲਗਭਗ 2500 V100-days ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਦਕਿ ਇਸਦੇ ਸਮਾਨ ਕਾਰਗੁਜ਼ਾਰੀ ਵਾਲਾ MoCo24 ਮਾਡਲ ਲਗਭਗ 70 V100-days ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.

ਇਸੇ ਨਾਲ ਜੁੜਿਆ ਹੋਰ ਮੁੱਦਾ ਇਹ ਹੈ ਕਿ ਅਸੀਂ ਟ੍ਰਾਂਸਫਾਰਮਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਘੱਟ resolution ਵਾਲੇ inputs ਨੂੰ ਮਾਡਲ ਕਰਦੇ ਹਾਂ, ਜਦਕਿ ਜ਼ਿਆਦਾਤਰ self-supervised ਨਤੀਜੇ convolutional-ਆਧਾਰਿਤ encoders ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਜੋ ਆਸਾਨੀ ਨਾਲ ਉੱਚ resolution ਵਾਲੇ inputs ਸੰਭਾਲ ਸਕਦੇ ਹਨ. ਹੋਰ ਵੱਧ scale ਕਰਨ ਲਈ ਕੋਈ ਨਵੀਂ ਆਰਕੀਟੈਕਚਰ, ਜਿਵੇਂ domain-agnostic multiscale ਟ੍ਰਾਂਸਫਾਰਮਰ, ਦੀ ਲੋੜ ਪੈ ਸਕਦੀ ਹੈ. ਇਨ੍ਹਾਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਸਾਡਾ ਕੰਮ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਇਸ ਗੱਲ ਦਾ proof-of-concept ਪ੍ਰਦਰਸ਼ਨ ਹੈ ਕਿ ਵੱਡੇ ਟ੍ਰਾਂਸਫਾਰਮਰ-ਆਧਾਰਿਤ language models ਨਵੇਂ domains ਵਿੱਚ ਬਿਨਾਂ hardcoded domain knowledge ਦੀ ਲੋੜ ਦੇ ਸ਼ਾਨਦਾਰ unsupervised representations ਸਿੱਖ ਸਕਦੇ ਹਨ. ਹਾਲਾਂਕਿ, ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਵੱਡੀ resource cost ਅਤੇ convolutional neural-network ਆਧਾਰਿਤ ਤਰੀਕਿਆਂ ਦੀ ਵਧੀਆ accuracy ਕਰਕੇ, ਇਹ representations vision domain ਵਿੱਚ ਹਕੀਕਤੀ ਵਰਤੋਂ ਲਈ ਵਿਆਵਹਾਰਿਕ ਨਹੀਂ ਬਣਦੀਆਂ.

ਅੰਤ ਵਿੱਚ, ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਉਹ ਪੱਖਪਾਤ ਵੀ ਦਿਖਾ ਸਕਦੇ ਹਨ ਜੋ ਉਸ ਡਾਟਾ ਦਾ ਨਤੀਜਾ ਹੁੰਦੇ ਹਨ ਜਿਸ ‘ਤੇ ਉਹਨਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕਈ ਪੱਖਪਾਤ ਲਾਭਕਾਰੀ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ ਇਹ ਮੰਨਣਾ ਕਿ ਭੂਰੇ ਅਤੇ ਹਰੇ ਪਿਕਸਲਾਂ ਦਾ ਜੋੜ ਪੱਤਿਆਂ ਨਾਲ ਢੱਕੀ ਟਾਹਣੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਇਸ ਪੱਖਪਾਤ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਮੇਜ ਨੂੰ ਅੱਗੇ ਜਾਰੀ ਰੱਖਣਾ. ਪਰ ਨਿਆਂ ਅਤੇ ਪ੍ਰਤਿਨਿਧਿਤਾ ਦੇ ਨਜ਼ਰੀਏ ਨਾਲ ਵੇਖਿਆਂ, ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਪੱਖਪਾਤ ਨੁਕਸਾਨਦੇਹ ਹੋਣਗੇ. ਉਦਾਹਰਨ ਵਜੋਂ, ਜੇ ਮਾਡਲ ਵਿਗਿਆਨੀ ਦੀ ਇੱਕ ਅਜਿਹੀ ਦ੍ਰਿਸ਼ਟੀਗਤ ਧਾਰਣਾ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਮਰਦਾਂ ਵੱਲ ਝੁਕੀ ਹੋਈ ਹੋਵੇ, ਤਾਂ ਉਹ ਵਿਗਿਆਨੀਆਂ ਦੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ ਲਗਾਤਾਰ ਮਰਦ-ਪੇਸ਼ਕਾਰੀ ਲੋਕਾਂ ਨਾਲ ਹੀ ਪੂਰਾ ਕਰ ਸਕਦਾ ਹੈ, ਨਾ ਕਿ ਵੱਖ-ਵੱਖ ਲਿੰਗਾਂ ਦੇ ਮਿਲਾਪ ਨਾਲ. ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ developers ਨੂੰ ਆਪਣੇ systems ਵਿੱਚ ਦਿੱਤੇ ਜਾਣ ਵਾਲੇ ਡਾਟਾ ‘ਤੇ ਅਤੇ ਇਹ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲਾਂ ਵਿੱਚ ਪੱਖਪਾਤ ਨਾਲ ਕਿਵੇਂ ਸੰਬੰਧਿਤ ਹੈ, ਇਸ ਨੂੰ ਵਧੀਆ ਸਮਝਣ ‘ਤੇ ਵਧਦੀ ਧਿਆਨ ਦੇਣੀ ਪਵੇਗੀ.

ਨਿਸ਼ਕਰਸ਼

ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ 2-D knowledge ਦੇ ਬਦਲੇ scale60 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਤੇ ਨੈੱਟਵਰਕ ਦੇ ਵਿਚਕਾਰਲੇ ਹਿੱਸੇ ਵਿੱਚੋਂ predictive features ਚੁਣ ਕੇ, ਇੱਕ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ unsupervised ਇਮੇਜ ਵਰਗੀਕਰਨ ਲਈ ਸਿਖਰਲੇ convolutional nets ਨਾਲ ਮੁਕਾਬਲਾ ਕਰ ਸਕਦਾ ਹੈ. ਖ਼ਾਸ ਤੌਰ ‘ਤੇ, ਅਸੀਂ ਆਪਣੇ ਨਤੀਜੇ GPT‑2 language model ਨੂੰ ਸਿੱਧੇ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ‘ਤੇ ਲਾਗੂ ਕਰਕੇ ਹਾਸਲ ਕੀਤੇ. ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ ਆਪਣੀ ਸਾਦਗੀ ਅਤੇ ਆਮਪਣ ਕਰਕੇ, ਕਾਫ਼ੀ compute ਦਿੱਤਾ ਜਾਣ ‘ਤੇ ਇੱਕ sequence ਟ੍ਰਾਂਸਫਾਰਮਰ ਆਖ਼ਿਰਕਾਰ ਕਈ domains ਵਿੱਚ ਸ਼ਾਨਦਾਰ features ਸਿੱਖਣ ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਹੋ ਸਕਦਾ ਹੈ.

ਜੇ ਤੁਸੀਂ ਇਸ ਖੋਜ ਖੇਤਰ ਵਿੱਚ ਸਾਡੇ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹੋ, ਤਾਂ ਅਸੀਂ ਭਰਤੀ ਕਰ ਰਹੇ ਹਾਂ!

ਫੁੱਟਨੋਟਸ

  1. A

    ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ‘ਤੇ logistic regression ਰਾਹੀਂ ਮਾਪਿਆ ਗਿਆ (linear probe).

  2. B

    ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ likelihood ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਸ ਕਰਕੇ ਇਹ mode covering ਹੁੰਦਾ ਹੈ, ਜੋ ਆਪਣੇ ਆਪ ਹੀ ਇਸ ਦੇ ਸੈਂਪਲਾਂ ਦੀ ਵਿਭਿੰਨਤਾ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ.

  3. C

    ਮੂਲ analysis by synthesis ਵਿਚਾਰ latent variables ਵਾਲੇ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਲਈ ਵਧੇਰੇ ਤਰਕ ਸੀ, ਪਰ ਕਿਉਂਕਿ latent variables ਤੋਂ ਬਿਨਾਂ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਡਾਟਾ distribution ਨੂੰ ਮਾਡਲ ਕਰਨ ਵਿੱਚ ਕਾਫ਼ੀ ਵਧੀਆ ਸਨ, ਅਸੀਂ ਸੋਚਿਆ ਕਿ analysis-by-synthesis ਅਨੁਮਾਨ ਉਨ੍ਹਾਂ ਲਈ ਵੀ ਲਾਗੂ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ.

  4. D

    ਅਸੀਂ ImageNet ‘ਤੇ iGPT-XL ਲਈ ਸਿਰਫ linear probe accuracy ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿਉਂਕਿ ਹੋਰ ਪ੍ਰਯੋਗ ਸਾਡੇ ਵੱਲੋਂ ਵੱਖਰੀਆਂ supercomputing facilities ਵੱਲ ਜਾਣ ਦੀ ਲੋੜ ਤੋਂ ਪਹਿਲਾਂ ਮੁਕੰਮਲ ਨਹੀਂ ਹੋ ਸਕੇ.

  5. E

    linear probe ਲਈ features ਕੱਢਣ ਵਾਸਤੇ, ਅਸੀਂ ਕਿਸੇ ਲੇਅਰ ‘ਤੇ post layernorm attention block inputs ਲੈਂਦੇ ਹਾਂ ਅਤੇ sequence dimension ‘ਤੇ average pool ਕਰਦੇ ਹਾਂ.

  6. F

    fine-tune ਕਰਨ ਲਈ, ਅਸੀਂ post layernorm ਟ੍ਰਾਂਸਫਾਰਮਰ output ਲੈਂਦੇ ਹਾਂ ਅਤੇ ਇਸਨੂੰ classification head ਲਈ input ਵਜੋਂ sequence dimension ‘ਤੇ average pool ਕਰਦੇ ਹਾਂ.

  7. G

    ਇੱਕ ਜਨਰੇਟਿਵ ਮਾਡਲ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ unsupervised ਢੰਗ ਨਾਲ features ਸਿੱਖਦਾ ਹੈ.

ਹਵਾਲੇ

  1. 1
  2. 2

    Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L., & Polosukhin, I. “Attention is All you Need(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2017.

  3. 3
  4. 4

    Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “Language Models are Unsupervised Multitask Learners(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” Technical Report, OpenAI.

  5. 5

    Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.

  6. 6

    Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. (2019). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.

  7. 7
  8. 8

    Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). “ਡੀਪ ਸੰਦਰਭਿਤ ਸ਼ਬਦ ਪ੍ਰਤੀਨਿਧਿਤਾਵਾਂ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NAACL 2018.

  9. 9
  10. 10
  11. 11
  12. 12
  13. 13
  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20

    Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., Khudanpur, S. (2010). “Recurrent neural network ਆਧਾਰਿਤ language model(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In INTERSPEECH-2010.

  21. 21
  22. 22
  23. 23
  24. 24
  25. 25
  26. 26

    Oord, A., Kalchbrenner, N., Kavukcuoglu, K. (2016). “Pixel recurrent neural networks(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint.

  27. 27

    Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018). “Image transformer(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICML 2018.

  28. 28
  29. 29
  30. 30
  31. 31
  32. 32
  33. 33
  34. 34
  35. 35
  36. 36
  37. 37
  38. 38
  39. 39
  40. 40
  41. 41
  42. 42
  43. 43
  44. 44
  45. 45

    Hjelm, R., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “Mutual information estimation ਅਤੇ maximization ਰਾਹੀਂ deep representations ਸਿੱਖਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In ICLR 2019.

  46. 46
  47. 47
  48. 48
  49. 49
  50. 50
  51. 51
  52. 52
  53. 53
  54. 54
  55. 55

    Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., Chen, X. (2016). “GANs ਦੀ ਟ੍ਰੇਨਿੰਗ ਲਈ ਸੁਧਰੇ ਤਰੀਕੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” In NeurIPS 2016.

  56. 56
  57. 57
  58. 58
  59. 59
  60. 60

ਲੇਖਕ

Mark Chen, Alec Radford, Ilya Sutskever

ਆਭਾਰ

ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਆਪਣੇ ਪੇਪਰ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal ਅਤੇ David Luan ਦਾ ਧੰਨਵਾਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ.

ਇਸ ਕੰਮ ਬਾਰੇ ਆਪਣੀ ਪ੍ਰਤੀਕਿਰਿਆ ਅਤੇ ਇਸ ਰਿਲੀਜ਼ ਵਿੱਚ ਯੋਗਦਾਨ ਲਈ ਅਸੀਂ ਹੇਠ ਲਿਖੇ ਲੋਕਾਂ ਦਾ ਧੰਨਵਾਦ ਕਰਦੇ ਹਾਂ: Vedant Misra, Noah Golmant, Johannes Otterbach, Pranav Shyam, Aditya Ramesh, Yura Burda, Harri Edwards, Chris Hallacy, Jeff Clune, Jack Clark, Irene Solaiman, Ryan Lowe, Greg Brockman, Kelly Sims, David Farhi, Will Guss, Quoc V. Le ਅਤੇ Ashish Vaswani.

ਸੰਪਾਦਕ: Ashley Pilipiszyn

ਡਿਜ਼ਾਇਨ: Justin Jay Wang

ਕਵਰ ਆਰਟਵਰਕ: Ben Barry