CLIP: ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਜੋੜਨਾ

ਚਿੱਤਰਕਲਾ: Justin Jay Wang
ਅਸੀਂ CLIP ਨਾਮਕ ਇੱਕ neural network ਪੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ supervision ਤੋਂ visual concepts ਕੁਸ਼ਲਤਾਪੂਰਵਕ ਸਿੱਖਦਾ ਹੈ. CLIP ਨੂੰ ਕਿਸੇ ਵੀ visual classification benchmark ਉੱਤੇ ਸਿਰਫ ਪਛਾਣੀਆਂ ਜਾਣ ਵਾਲੀਆਂ visual categories ਦੇ ਨਾਮ ਦੇ ਕੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਬਿਲਕੁਲ GPT‑2 ਅਤੇ GPT‑3 ਦੀਆਂ “ਜ਼ੀਰੋ-ਸ਼ਾਟ” ਸਮਰੱਥਾਵਾਂ ਵਾਂਗ.
ਹਾਲਾਂਕਿ ਡੀਪ ਲਰਨਿੰਗ ਨੇ computer vision ਵਿੱਚ ਕ੍ਰਾਂਤੀ ਲਿਆਈ ਹੈ, ਮੌਜੂਦਾ ਪਹੁੰਚਾਂ ਵਿੱਚ ਕਈ ਵੱਡੀਆਂ ਸਮੱਸਿਆਵਾਂ ਹਨ: ਆਮ vision datasets ਬਣਾਉਣ ਲਈ ਬਹੁਤ ਮਿਹਨਤ ਅਤੇ ਖਰਚਾ ਲੱਗਦਾ ਹੈ ਜਦਕਿ ਉਹ ਸਿਰਫ visual concepts ਦਾ ਇੱਕ ਸੰਕੁਚਿਤ ਸਮੂਹ ਹੀ ਸਿਖਾਉਂਦੀਆਂ ਹਨ. ਮਿਆਰੀ vision models ਇੱਕ ਸਮੇਂ ਇੱਕ ਹੀ ਕੰਮ ਵਿੱਚ ਚੰਗੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਨਵੇਂ ਕੰਮ ਲਈ ਉਨ੍ਹਾਂ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਨ ਲਈ ਵੱਡੀ ਮਿਹਨਤ ਲੱਗਦੀ ਹੈ. ਅਤੇ benchmarks ਉੱਤੇ ਚੰਗੀ ਕਾਰਗੁਜ਼ਾਰੀ ਕਰਨ ਵਾਲੇ ਮਾਡਲ stress tests ਉੱਤੇ ਨਿਰਾਸ਼ਾਜਨਕ ਤੌਰ ਉੱਤੇ ਕਮਜ਼ੋਰ ਨਿਕਲਦੇ ਹਨ,1, 2, 3, 4 ਜਿਸ ਨਾਲ computer vision ਲਈ ਪੂਰੀ ਡੀਪ ਲਰਨਿੰਗ ਪਹੁੰਚ ਉੱਤੇ ਹੀ ਸਵਾਲ ਉੱਠਦੇ ਹਨ.
ਅਸੀਂ ਇੱਕ neural network ਪੇਸ਼ ਕਰਦੇ ਹਾਂ ਜੋ ਇਨ੍ਹਾਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦਾ ਉਦੇਸ਼ ਰੱਖਦਾ ਹੈ: ਇਹ ਬਹੁਤ ਵੱਖਰੇ ਚਿੱਤਰਾਂ ਅਤੇ ਬਹੁਤ ਵੱਖਰੀ ਕੁਦਰਤੀ ਭਾਸ਼ਾ supervision ਉੱਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਇੰਟਰਨੈੱਟ ਉੱਤੇ ਪ੍ਰਚੁਰ ਮਾਤਰਾ ਵਿੱਚ ਉਪਲਬਧ ਹੈ. ਡਿਜ਼ਾਇਨ ਅਨੁਸਾਰ, ਇਸ network ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਹਦਾਇਤ ਦੇ ਕੇ ਵੱਖ-ਵੱਖ classification benchmarks ਕਰਨ ਲਈ ਕਿਹਾ ਜਾ ਸਕਦਾ ਹੈ, ਬਿਨਾਂ benchmark ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਲਈ ਸਿੱਧੇ optimize ਕੀਤੇ, ਬਿਲਕੁਲ GPT‑25 ਅਤੇ GPT‑36 ਦੀਆਂ “ਜ਼ੀਰੋ-ਸ਼ਾਟ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” ਸਮਰੱਥਾਵਾਂ ਵਾਂਗ. ਇਹ ਇੱਕ ਮੁੱਖ ਬਦਲਾਅ ਹੈ: benchmark ਲਈ ਸਿੱਧੇ optimize ਨਾ ਕਰਕੇ, ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਇਹ ਕਾਫ਼ੀ ਵੱਧ ਪ੍ਰਤੀਨਿਧਿਕ ਬਣ ਜਾਂਦਾ ਹੈ. ਸਾਡਾ ਸਿਸਟਮ ਇਸ “robustness gap” ਨੂੰ 75% ਤੱਕ ਘਟਾ ਦਿੰਦਾ ਹੈ ਅਤੇ ਮੂਲ ResNet-507 ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ImageNet(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) zero-shot ਉੱਤੇ, ਮੂਲ 1.28M labeled examples ਵਿੱਚੋਂ ਕਿਸੇ ਦਾ ਵੀ ਉਪਯੋਗ ਕੀਤੇ ਬਿਨਾਂ.
CLIP (Contrastive Language–Image Pre-training) ਜ਼ੀਰੋ-ਸ਼ਾਟ ਟ੍ਰਾਂਸਫਰ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਿਗਰਾਨੀ, ਅਤੇ multimodal learning ਉੱਤੇ ਹੋਏ ਵੱਡੇ ਕੰਮ ਦੇ ਆਧਾਰ ਉੱਤੇ ਬਣਿਆ ਹੈ. zero-data learning ਦਾ ਵਿਚਾਰ ਇੱਕ ਦਹਾਕੇ ਤੋਂ ਵੀ ਪੁਰਾਣਾ ਹੈ8 ਪਰ ਹਾਲ ਹੀ ਤੱਕ ਇਸ ਦਾ ਅਧਿਐਨ ਜ਼ਿਆਦਾਤਰ computer vision ਵਿੱਚ ਨਾ-ਵੇਖੀਆਂ object categories ਤੱਕ generalize ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਜੋਂ ਕੀਤਾ ਜਾਂਦਾ ਸੀ.9, 10 ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਮਝ ਇਹ ਸੀ ਕਿ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨੂੰ ਇੱਕ ਲਚਕੀਲੇ prediction space ਵਜੋਂ ਵਰਤਿਆ ਜਾਵੇ ਤਾਂ ਜੋ generalization ਅਤੇ transfer ਸੰਭਵ ਹੋ ਸਕਣ. 2013 ਵਿੱਚ, Stanford ਦੇ Richard Socher ਅਤੇ ਸਹਿ-ਲੇਖਕਾਂ11 ਨੇ CIFAR-10 ਉੱਤੇ ਇੱਕ ਮਾਡਲ ਟ੍ਰੇਨ ਕਰਕੇ ਇੱਕ proof of concept ਤਿਆਰ ਕੀਤਾ ਜੋ word vector embedding space ਵਿੱਚ predictions ਕਰਦਾ ਸੀ ਅਤੇ ਦਿਖਾਇਆ ਕਿ ਇਹ ਮਾਡਲ ਦੋ ਨਾ-ਵੇਖੀਆਂ classes ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਸਕਦਾ ਸੀ. ਉਸੇ ਸਾਲ DeVISE12 ਨੇ ਇਸ ਪਹੁੰਚ ਨੂੰ ਵਧਾਇਆ ਅਤੇ ਦਿਖਾਇਆ ਕਿ ImageNet ਮਾਡਲ ਨੂੰ fine-tune ਕਰਨਾ ਸੰਭਵ ਸੀ ਤਾਂ ਜੋ ਉਹ ਮੂਲ 1000 training set ਤੋਂ ਬਾਹਰ ਵਾਲੀਆਂ objects ਦੀ ਸਹੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ generalize ਕਰ ਸਕੇ.
CLIP ਲਈ ਸਭ ਤੋਂ ਪ੍ਰੇਰਣਾਦਾਇਕ ਕੰਮ FAIR ਦੇ Ang Li ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਸਹਿ-ਲੇਖਕਾਂ13 ਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੇ 2016 ਵਿੱਚ ਦਿਖਾਇਆ ਕਿ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਿਗਰਾਨੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਈ ਮੌਜੂਦਾ computer vision classification datasets, ਜਿਵੇਂ canonical ImageNet dataset, ਉੱਤੇ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਟ੍ਰਾਂਸਫਰ ਸੰਭਵ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ. ਉਨ੍ਹਾਂ ਨੇ ਇਹ ImageNet CNN ਨੂੰ fine-tune ਕਰਕੇ ਕੀਤਾ ਤਾਂ ਜੋ ਉਹ 30 ਮਿਲੀਅਨ Flickr ਫੋਟੋਆਂ ਦੇ titles, descriptions ਅਤੇ tags ਦੇ ਪਾਠ ਤੋਂ visual concepts (visual n-grams) ਦੇ ਕਾਫ਼ੀ ਵੱਡੇ ਸਮੂਹ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰੇ ਅਤੇ ਉਹ ImageNet zero-shot ਉੱਤੇ 11.5% ਸਹੀਤਾ ਤੱਕ ਪਹੁੰਚੇ.
ਅੰਤ ਵਿੱਚ, CLIP ਪਿਛਲੇ ਸਾਲ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਿਗਰਾਨੀ ਤੋਂ visual representations ਸਿੱਖਣ ਦੀ ਮੁੜ ਸਮੀਖਿਆ ਕਰਨ ਵਾਲੇ ਪੇਪਰਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਦਾ ਹਿੱਸਾ ਹੈ. ਇਸ ਕੰਮ ਦੀ ਲੜੀ ਵਿੱਚ ਹੋਰ ਆਧੁਨਿਕ architectures ਜਿਵੇਂ ਟ੍ਰਾਂਸਫਾਰਮਰ32 ਵਰਤੇ ਜਾਂਦੇ ਹਨ ਅਤੇ ਇਸ ਵਿੱਚ VirTex33 ਸ਼ਾਮਲ ਹੈ, ਜਿਸ ਨੇ autoregressive ਲੈਂਗਵੇਜ ਮਾਡਲਿੰਗ ਦੀ ਜਾਂਚ ਕੀਤੀ, ICMLM34 ਜਿਸ ਨੇ masked language modeling ਦੀ ਪੜਤਾਲ ਕੀਤੀ, ਅਤੇ ConVIRT35 ਜਿਸ ਨੇ CLIP ਲਈ ਸਾਡੇ ਵਰਤੇ contrastive objective ਦਾ ਹੀ ਅਧਿਐਨ ਕੀਤਾ ਪਰ medical imaging ਦੇ ਖੇਤਰ ਵਿੱਚ.
ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਇੱਕ ਸਧਾਰਣ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ task ਨੂੰ scale ਕਰਨਾ ਹੀ ਚਿੱਤਰ ਵਰਗੀਕਰਨ datasets ਦੀਆਂ ਬਹੁਤ ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਉੱਤੇ ਮੁਕਾਬਲਾਤਮਕ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਹੈ. ਸਾਡਾ ਤਰੀਕਾ supervision ਦੇ ਇੱਕ ਪ੍ਰਚੁਰ ਉਪਲਬਧ ਸਰੋਤ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ: ਚਿੱਤਰਾਂ ਨਾਲ ਜੋੜਿਆ ਪਾਠ ਜੋ ਸਾਰੇ ਇੰਟਰਨੈੱਟ ਉੱਤੇ ਮਿਲਦਾ ਹੈ. ਇਸ data ਦੀ ਵਰਤੋਂ CLIP ਲਈ ਹੇਠਾਂ ਦਿੱਤਾ proxy training task ਬਣਾਉਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ: ਇੱਕ ਚਿੱਤਰ ਦਿੱਤਾ ਹੋਣ ਤੇ, 32,768 ਯਾਦਰਚੱਛਿਕ ਤੌਰ ਉੱਤੇ ਚੁਣੇ ਗਏ text snippets ਦੇ ਇੱਕ ਸਮੂਹ ਵਿੱਚੋਂ ਇਹ ਭਵਿੱਖਬਾਣੀ ਕਰੋ ਕਿ ਸਾਡੇ dataset ਵਿੱਚ ਅਸਲ ਵਿੱਚ ਇਸ ਨਾਲ ਕਿਹੜਾ ਜੋੜਿਆ ਗਿਆ ਸੀ.
ਇਸ task ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਸਾਡੀ ਅੰਦਰੂਨੀ ਸਮਝ ਇਹ ਹੈ ਕਿ CLIP ਮਾਡਲਾਂ ਨੂੰ ਚਿੱਤਰਾਂ ਵਿੱਚ visual concepts ਦੀ ਇੱਕ ਵੱਡੀ ਕਿਸਮ ਦੀ ਪਛਾਣ ਕਰਨੀ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੇ ਨਾਮਾਂ ਨਾਲ ਜੋੜਨਾ ਸਿੱਖਣਾ ਪਵੇਗਾ. ਨਤੀਜੇ ਵਜੋਂ, CLIP ਮਾਡਲ ਫਿਰ ਲਗਭਗ ਮਨਮਾਨੇ visual classification tasks ਉੱਤੇ ਲਾਗੂ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ. ਉਦਾਹਰਨ ਵਜੋਂ, ਜੇ ਕਿਸੇ dataset ਦਾ ਕੰਮ ਕੁੱਤਿਆਂ ਵਿਰੁੱਧ ਬਿਲੀਆਂ ਦੀਆਂ ਫੋਟੋਆਂ ਦਾ ਵਰਗੀਕਰਨ ਕਰਨਾ ਹੈ, ਤਾਂ ਅਸੀਂ ਹਰ ਚਿੱਤਰ ਲਈ ਜਾਂਚਦੇ ਹਾਂ ਕਿ ਕੀ CLIP ਮਾਡਲ ਪਾਠ ਵਰਣਨ “a photo of a dog” ਜਾਂ “a photo of a cat” ਵਿੱਚੋਂ ਕਿਹੜੇ ਦੇ ਉਸ ਨਾਲ ਜੋੜੇ ਜਾਣ ਦੀ ਵੱਧ ਸੰਭਾਵਨਾ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ.
CLIP ਨੂੰ computer vision ਲਈ ਮਿਆਰੀ ਡੀਪ ਲਰਨਿੰਗ ਪਹੁੰਚ ਦੀਆਂ ਕਈ ਵੱਡੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਘਟਾਉਣ ਲਈ ਡਿਜ਼ਾਇਨ ਕੀਤਾ ਗਿਆ ਸੀ:
ਮਹਿੰਗੇ datasets: ਡੀਪ ਲਰਨਿੰਗ ਨੂੰ ਬਹੁਤ ਸਾਰੇ data ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਤੇ vision models ਰਿਵਾਇਤੀ ਤੌਰ ਉੱਤੇ ਹੱਥੋਂ label ਕੀਤੇ datasets ਉੱਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਜਾਂਦੇ ਰਹੇ ਹਨ ਜੋ ਬਣਾਉਣ ਵਿੱਚ ਮਹਿੰਗੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਸਿਰਫ ਪਹਿਲਾਂ ਤੋਂ ਨਿਰਧਾਰਤ visual concepts ਦੀ ਸੀਮਿਤ ਗਿਣਤੀ ਲਈ supervision ਦਿੰਦੇ ਹਨ. ਇਸ ਖੇਤਰ ਦੇ ਸਭ ਤੋਂ ਵੱਡੇ ਉੱਦਮਾਂ ਵਿੱਚੋਂ ਇੱਕ, ImageNet dataset, ਵਿੱਚ 22,000 object categories ਲਈ 14 ਮਿਲੀਅਨ ਚਿੱਤਰ annotate ਕਰਨ ਲਈ 25,000 ਤੋਂ ਵੱਧ workers ਦੀ ਲੋੜ ਪਈ. ਇਸ ਦੇ ਉਲਟ, CLIP text–image pairs ਤੋਂ ਸਿੱਖਦਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਹੀ ਇੰਟਰਨੈੱਟ ਉੱਤੇ ਸਰਵਜਨਿਕ ਤੌਰ ਉੱਤੇ ਉਪਲਬਧ ਹਨ. ਮਹਿੰਗੇ ਵੱਡੇ labeled datasets ਦੀ ਲੋੜ ਘਟਾਉਣ ਬਾਰੇ ਪਿਛਲੇ ਕੰਮਾਂ ਵਿੱਚ ਵਿਸਤਾਰ ਨਾਲ ਅਧਿਐਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਖਾਸ ਤੌਰ ਉੱਤੇ self-supervised learning,14, 15, 16 contrastive methods,17, 18, 19, 20, 21 self-training approaches,22, 23 ਅਤੇ generative modeling.24, 25, 26, 27
ਸੰਕੁਚਿਤ: ਇੱਕ ImageNet ਮਾਡਲ 1000 ImageNet categories ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਵਿੱਚ ਵਧੀਆ ਹੁੰਦਾ ਹੈ, ਪਰ “out of the box” ਇਹ ਕੇਵਲ ਇਹੀ ਕਰ ਸਕਦਾ ਹੈ. ਜੇ ਅਸੀਂ ਕੋਈ ਹੋਰ ਕੰਮ ਕਰਨਾ ਚਾਹੀਏ, ਤਾਂ ਇੱਕ ML practitioner ਨੂੰ ਨਵਾਂ dataset ਬਣਾਉਣਾ ਪੈਂਦਾ ਹੈ, ਇੱਕ output head ਜੋੜਨੀ ਪੈਂਦੀ ਹੈ, ਅਤੇ ਮਾਡਲ ਨੂੰ fine-tune ਕਰਨਾ ਪੈਂਦਾ ਹੈ. ਇਸ ਦੇ ਉਲਟ, CLIP ਨੂੰ ਵਾਧੂ training examples ਤੋਂ ਬਿਨਾਂ visual classification ਦੇ ਕਈ ਵੱਖ-ਵੱਖ ਕੰਮਾਂ ਲਈ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ. CLIP ਨੂੰ ਨਵੇਂ ਕੰਮ ਉੱਤੇ ਲਾਗੂ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਸਿਰਫ CLIP ਦੇ text-encoder ਨੂੰ ਕੰਮ ਦੇ visual concepts ਦੇ ਨਾਮ “ਦੱਸਣੇ” ਹੁੰਦੇ ਹਨ, ਅਤੇ ਇਹ CLIP ਦੀਆਂ visual representations ਦਾ ਇੱਕ linear classifier output ਕਰੇਗਾ. ਇਸ classifier ਦੀ ਸਹੀਤਾ ਅਕਸਰ fully supervised ਮਾਡਲਾਂ ਨਾਲ ਮੁਕਾਬਲਾਤਮਕ ਹੁੰਦੀ ਹੈ.
ਹੇਠਾਂ ਅਸੀਂ ਵੱਖ-ਵੱਖ datasets ਦੇ examples ਉੱਤੇ ਜ਼ੀਰੋ-ਸ਼ਾਟ CLIP classifiers ਦੀਆਂ ਯਾਦਰਚੱਛਿਕ, non-cherry picked, predictions ਦਿਖਾਉਂਦੇ ਹਾਂ.
ਕਮਜ਼ੋਰ ਅਸਲ-ਦੁਨੀਆ ਕਾਰਗੁਜ਼ਾਰੀ: ਡੀਪ ਲਰਨਿੰਗ ਸਿਸਟਮਾਂ ਬਾਰੇ ਅਕਸਰ ਦੱਸਿਆ ਜਾਂਦਾ ਹੈ ਕਿ ਉਹ vision benchmarks ਉੱਤੇ ਮਨੁੱਖੀ ਜਾਂ ਇੱਥੋਂ ਤੱਕ ਕਿ ਅਧਿਮਾਨਵੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰ ਲੈਂਦੀਆਂ ਹਨ28, A, ਪਰ ਜਦੋਂ ਉਨ੍ਹਾਂ ਨੂੰ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਤੈਨਾਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਉਨ੍ਹਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ benchmark ਤੋਂ ਬਣੀ ਉਮੀਦ ਨਾਲੋਂ ਕਾਫ਼ੀ ਘੱਟ ਹੋ ਸਕਦੀ ਹੈ. ਦੂਜੇ ਸ਼ਬਦਾਂ ਵਿੱਚ, “benchmark performance” ਅਤੇ “real performance.” ਵਿਚਕਾਰ ਇੱਕ ਖਾਈ ਹੈ. ਅਸੀਂ ਅਨੁਮਾਨ ਲਗਾਉਂਦੇ ਹਾਂ ਕਿ ਇਹ ਖਾਈ ਇਸ ਲਈ ਆਉਂਦੀ ਹੈ ਕਿਉਂਕਿ ਮਾਡਲ ਸਿਰਫ benchmark ਉੱਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਲਈ optimize ਕਰਕੇ “cheat” ਕਰਦੇ ਹਨ, ਬਿਲਕੁਲ ਉਸ ਵਿਦਿਆਰਥੀ ਵਾਂਗ ਜੋ ਸਿਰਫ ਪਿਛਲੇ ਸਾਲਾਂ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਪੜ੍ਹ ਕੇ ਇਮਤਿਹਾਨ ਪਾਸ ਕਰ ਲੈਂਦਾ ਹੈ. ਇਸ ਦੇ ਉਲਟ, CLIP ਮਾਡਲ ਨੂੰ benchmarks ਉੱਤੇ ਉਨ੍ਹਾਂ ਦੇ data ਉੱਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਬਿਨਾਂ ਮੁਲਾਂਕਣ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਇਹ ਇਸ ਤਰ੍ਹਾਂ “cheat” ਨਹੀਂ ਕਰ ਸਕਦਾ. ਇਸ ਕਾਰਨ benchmark ਉੱਤੇ ਇਸ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਅਸਲ ਦੁਨੀਆ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਕਾਫ਼ੀ ਵੱਧ ਪ੍ਰਤੀਨਿਧਿਕ ਬਣਦੀ ਹੈ. “cheating hypothesis” ਦੀ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ, ਅਸੀਂ ਇਹ ਵੀ ਮਾਪਦੇ ਹਾਂ ਕਿ ਜਦੋਂ CLIP ਨੂੰ ImageNet ਲਈ “study” ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਮਿਲਦੀ ਹੈ ਤਾਂ ਇਸ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਕਿਵੇਂ ਬਦਲਦੀ ਹੈ. ਜਦੋਂ CLIP ਦੀਆਂ features ਉੱਤੇ ਇੱਕ linear classifier fit ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ImageNet test set ਉੱਤੇ CLIP ਦੀ ਸਹੀਤਾ ਲਗਭਗ 10% ਵੱਧ ਜਾਂਦੀ ਹੈ. ਪਰ ਇਹ classifier “robust” ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਮਾਪਣ ਵਾਲੇ ਹੋਰ 7 datasets ਦੇ evaluation suite ਵਿੱਚ ਔਸਤਨ ਇਸ ਤੋਂ ਵਧੀਆ ਨਹੀਂ ਕਰਦਾ.30
1. CLIP ਬਹੁਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ
CLIP ਬਿਨਾਂ ਫਿਲਟਰ ਕੀਤੇ, ਬਹੁਤ ਵੱਖਰੇ, ਅਤੇ ਬਹੁਤ ਸ਼ੋਰ ਵਾਲੇ data ਤੋਂ ਸਿੱਖਦਾ ਹੈ, ਅਤੇ ਇਸ ਦਾ ਉਦੇਸ਼ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਢੰਗ ਨਾਲ ਵਰਤਿਆ ਜਾਣਾ ਹੈ. ਅਸੀਂ GPT‑2 ਅਤੇ 3 ਤੋਂ ਜਾਣਦੇ ਹਾਂ ਕਿ ਅਜੇਹੇ data ਉੱਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ zero-shot ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਨ. ਹਾਲਾਂਕਿ, ਅਜੇਹੇ ਮਾਡਲਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ training compute ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. ਲੋੜੀਂਦੇ compute ਨੂੰ ਘਟਾਉਣ ਲਈ, ਅਸੀਂ ਆਪਣੀ ਪਹੁੰਚ ਦੀ training efficiency ਸੁਧਾਰਣ ਦੇ algorithmic ਤਰੀਕਿਆਂ ਉੱਤੇ ਧਿਆਨ ਦਿੱਤਾ.
ਅਸੀਂ ਦੋ algorithmic ਚੋਣਾਂ ਦੀ ਰਿਪੋਰਟ ਕਰਦੇ ਹਾਂ ਜਿਨ੍ਹਾਂ ਨਾਲ compute ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਬਚਤ ਹੋਈ. ਪਹਿਲੀ ਚੋਣ text ਨੂੰ images ਨਾਲ ਜੋੜਨ ਲਈ contrastive objective ਅਪਣਾਉਣਾ ਸੀ.31, 17, 35 ਅਸੀਂ ਸ਼ੁਰੂ ਵਿੱਚ VirTex33 ਵਰਗੀ image-to-text ਪਹੁੰਚ ਦੀ ਜਾਂਚ ਕੀਤੀ ਸੀ, ਪਰ state-of-the-art ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਨ ਲਈ ਇਸ ਨੂੰ scale ਕਰਨ ਵਿੱਚ ਮੁਸ਼ਕਲਾਂ ਆਈਆਂ. ਛੋਟੇ ਤੋਂ ਮੱਧਮ ਪੱਧਰ ਦੇ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ, ਅਸੀਂ ਪਾਇਆ ਕਿ CLIP ਦੁਆਰਾ ਵਰਤਿਆ contrastive objective ਜ਼ੀਰੋ-ਸ਼ਾਟ ImageNet classification ਵਿੱਚ 4x ਤੋਂ 10x ਵੱਧ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ. ਦੂਜੀ ਚੋਣ Vision Transformer36 ਅਪਣਾਉਣਾ ਸੀ, ਜਿਸ ਨੇ ਸਾਨੂੰ ਇੱਕ ਮਿਆਰੀ ResNet ਨਾਲੋਂ compute efficiency ਵਿੱਚ ਹੋਰ 3x ਲਾਭ ਦਿੱਤਾ. ਆਖ਼ਿਰ ਵਿੱਚ, ਸਾਡਾ ਸਭ ਤੋਂ ਵਧੀਆ ਕਾਰਗੁਜ਼ਾਰੀ ਵਾਲਾ CLIP ਮਾਡਲ 256 GPUs ਉੱਤੇ 2 ਹਫ਼ਤਿਆਂ ਲਈ ਟ੍ਰੇਨ ਹੁੰਦਾ ਹੈ, ਜੋ ਮੌਜੂਦਾ ਵੱਡੇ ਪੱਧਰ ਦੇ image ਮਾਡਲਾਂ ਵਰਗਾ ਹੀ ਹੈ.37, 23, 38, 36
2. CLIP ਲਚਕੀਲਾ ਅਤੇ ਆਮ ਹੈ
ਕਿਉਂਕਿ CLIP ਮਾਡਲ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਤੋਂ ਸਿੱਧੇ visual concepts ਦੀ ਇੱਕ ਵਿਆਪਕ ਰੇਂਜ ਸਿੱਖਦੇ ਹਨ, ਇਹ ਮੌਜੂਦਾ ImageNet ਮਾਡਲਾਂ ਨਾਲੋਂ ਕਾਫ਼ੀ ਵੱਧ ਲਚਕੀਲੇ ਅਤੇ ਆਮ ਹਨ. ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਹ ਕਈ ਵੱਖਰੇ ਕੰਮ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਢੰਗ ਨਾਲ ਕਰ ਸਕਦੇ ਹਨ. ਇਸ ਦੀ ਪੁਸ਼ਟੀ ਲਈ ਅਸੀਂ CLIP ਦੀ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਕਾਰਗੁਜ਼ਾਰੀ 30 ਤੋਂ ਵੱਧ ਵੱਖਰੇ datasets ਉੱਤੇ ਮਾਪੀ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ fine-grained object classification, geo-localization, videos ਵਿੱਚ action recognition, ਅਤੇ OCR ਵਰਗੇ ਕੰਮ ਸ਼ਾਮਲ ਹਨ.B ਖਾਸ ਤੌਰ ਉੱਤੇ, OCR ਸਿੱਖਣਾ ਅਜੇਹੇ ਦਿਲਚਸਪ ਵਰਤਾਰੇ ਦੀ ਇੱਕ ਉਦਾਹਰਨ ਹੈ ਜੋ ਮਿਆਰੀ ImageNet ਮਾਡਲਾਂ ਵਿੱਚ ਨਹੀਂ ਹੁੰਦਾ. ਉੱਪਰ, ਅਸੀਂ ਹਰ zero-shot classifier ਤੋਂ ਇੱਕ ਯਾਦਰਚੱਛਿਕ non-cherry picked prediction ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਾਂ.
ਇਹ ਖੋਜ linear probes ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਇੱਕ ਮਿਆਰੀ representation learning evaluation ਵਿੱਚ ਵੀ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ. ਸਭ ਤੋਂ ਵਧੀਆ CLIP ਮਾਡਲ ਸਾਡੇ ਦੁਆਰਾ ਜਾਂਚੇ ਗਏ 26 ਵਿੱਚੋਂ 20 ਵੱਖਰੇ transfer datasets ਉੱਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਸਰਵਜਨਿਕ ਤੌਰ ਉੱਤੇ ਉਪਲਬਧ ImageNet ਮਾਡਲ, Noisy Student EfficientNet-L2,23 ਤੋਂ ਅੱਗੇ ਨਿਕਲ ਜਾਂਦਾ ਹੈ.
ਹਾਲਾਂਕਿ CLIP ਆਮ objects ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਆਮ ਤੌਰ ਉੱਤੇ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ, ਇਹ ਹੋਰ ਅਮੂਰਤ ਜਾਂ ਵਿਧੀਸੰਬੰਧੀ ਕੰਮਾਂ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਕਿਸੇ ਚਿੱਤਰ ਵਿੱਚ objects ਦੀ ਗਿਣਤੀ ਕਰਨਾ, ਅਤੇ ਹੋਰ ਜਟਿਲ ਕੰਮਾਂ ਵਿੱਚ, ਜਿਵੇਂ ਫੋਟੋ ਵਿੱਚ ਸਭ ਤੋਂ ਨੇੜੇ ਕਾਰ ਕਿੰਨੀ ਨੇੜੇ ਹੈ ਇਸ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨੀ. ਇਨ੍ਹਾਂ ਦੋ datasets ਉੱਤੇ, zero-shot CLIP ਸਿਰਫ ਯਾਦਰਚੱਛਿਕ ਅੰਦਾਜ਼ੇ ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਹੀ ਵਧੀਆ ਹੈ. zero-shot CLIP ਬਹੁਤ ਸੁੱਖਮ ਵਰਗੀਕਰਨ ਵਿੱਚ ਵੀ task-specific ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਸੰਘਰਸ਼ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ car models, aircraft ਦੇ variants, ਜਾਂ flower species ਵਿੱਚ ਫ਼ਰਕ ਦੱਸਣਾ.
CLIP ਵਿੱਚ ਉਹਨਾਂ ਚਿੱਤਰਾਂ ਲਈ generalization ਵੀ ਅਜੇ ਕਮਜ਼ੋਰ ਹੈ ਜੋ ਇਸ ਦੇ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ dataset ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਸਨ. ਉਦਾਹਰਨ ਲਈ, ਹਾਲਾਂਕਿ CLIP ਇੱਕ ਸਮਰੱਥ OCR ਸਿਸਟਮ ਸਿੱਖਦਾ ਹੈ, ਜਦੋਂ MNIST dataset ਦੇ handwritten digits ਉੱਤੇ ਇਸ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ zero-shot CLIP ਸਿਰਫ 88% ਸਹੀਤਾ ਹਾਸਲ ਕਰਦਾ ਹੈ, ਜੋ dataset ਉੱਤੇ ਮਨੁੱਖਾਂ ਦੀ 99.75% ਸਹੀਤਾ ਨਾਲੋਂ ਕਾਫ਼ੀ ਘੱਟ ਹੈ. ਆਖ਼ਿਰ ਵਿੱਚ, ਅਸੀਂ ਵੇਖਿਆ ਹੈ ਕਿ CLIP ਦੇ ਜ਼ੀਰੋ-ਸ਼ਾਟ classifiers ਸ਼ਬਦਚੋਣ ਜਾਂ ਵਾਕ-ਰਚਨਾ ਲਈ ਸੰਵੇਦਨਸ਼ੀਲ ਹੋ ਸਕਦੇ ਹਨ ਅਤੇ ਕਈ ਵਾਰ ਚੰਗੀ ਕਾਰਗੁਜ਼ਾਰੀ ਲਈ trial and error “ਪ੍ਰੌੰਪਟ ਇੰਜੀਨੀਅਰਿੰਗ” ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ.
CLIP ਲੋਕਾਂ ਨੂੰ ਆਪਣੇ classifier ਡਿਜ਼ਾਇਨ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ ਅਤੇ task-specific training data ਦੀ ਲੋੜ ਨੂੰ ਹਟਾਉਂਦਾ ਹੈ. ਇਹ classes ਕਿਵੇਂ ਡਿਜ਼ਾਇਨ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਇਸ ਦਾ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਅਤੇ ਮਾਡਲ ਪੱਖਪਾਤ ਦੋਵਾਂ ਉੱਤੇ ਵੱਡਾ ਅਸਰ ਪੈ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ ਵੇਖਦੇ ਹਾਂ ਕਿ ਜਦੋਂ Fairface39 race labelsC ਅਤੇ ਕੁਝ ਬਹੁਤ ਹੀ ਅਪਮਾਨਜਨਕ ਸ਼ਬਦ ਜਿਵੇਂ “criminal”, “animal,” ਆਦਿ ਸਮੇਤ labels ਦਾ ਇੱਕ ਸੈੱਟ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਮਾਡਲ 0–20 ਸਾਲ ਉਮਰ ਦੇ ਲੋਕਾਂ ਦੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ ~32.3% ਦਰ ਨਾਲ ਅਪਮਾਨਜਨਕ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਰੱਖਣ ਵੱਲ ਝੁਕਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਜਦੋਂ ਅਸੀਂ ਸੰਭਾਵੀ classes ਦੀ ਸੂਚੀ ਵਿੱਚ “child” ਸ਼੍ਰੇਣੀ ਜੋੜਦੇ ਹਾਂ, ਤਾਂ ਇਹ ਵਰਤਾਰਾ ~8.7% ਤੱਕ ਘਟ ਜਾਂਦਾ ਹੈ.
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕਿਉਂਕਿ CLIP ਨੂੰ task-specific training data ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ, ਇਹ ਕੁਝ niche tasks ਨੂੰ ਹੋਰ ਆਸਾਨੀ ਨਾਲ ਸੰਭਵ ਬਣਾ ਸਕਦਾ ਹੈ. ਇਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਕੰਮ ਗੋਪਨੀਯਤਾ ਜਾਂ ਨਿਗਰਾਨੀ ਨਾਲ ਸੰਬੰਧਿਤ ਖਤਰੇ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਅਸੀਂ ਇਸ ਚਿੰਤਾ ਦੀ ਜਾਂਚ CLIP ਦੀ celebrity identification ਉੱਤੇ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਅਧਿਐਨ ਕਰਕੇ ਕਰਦੇ ਹਾਂ. 100 ਉਮੀਦਵਾਰਾਂ ਵਿੱਚੋਂ ਚੋਣ ਕਰਦੇ ਸਮੇਂ “in the wild” celebrity image classification ਲਈ CLIP ਦੀ top-1 ਸਹੀਤਾ 59.2% ਹੈ ਅਤੇ 1000 ਸੰਭਾਵੀ ਚੋਣਾਂ ਵਿੱਚੋਂ ਚੋਣ ਕਰਦੇ ਸਮੇਂ top-1 ਸਹੀਤਾ 43.3% ਹੈ. ਹਾਲਾਂਕਿ task agnostic ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਨਾਲ ਇਹ ਨਤੀਜੇ ਹਾਸਲ ਕਰਨਾ ਧਿਆਨਯੋਗ ਹੈ, ਇਹ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿਆਪਕ ਤੌਰ ਉੱਤੇ ਉਪਲਬਧ production level ਮਾਡਲਾਂ ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਤੇ ਮੁਕਾਬਲਾਤਮਕ ਨਹੀਂ ਹੈ. ਅਸੀਂ ਆਪਣੇ ਪੇਪਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ CLIP ਵੱਲੋਂ ਪੈਦਾ ਕੀਤੀਆਂ ਚੁਣੌਤੀਆਂ ਦੀ ਹੋਰ ਵੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਅਤੇ ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਕੰਮ ਅਜੇਹੇ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ, ਘਾਟਾਂ ਅਤੇ ਪੱਖਪਾਤਾਂ ਦੀ ਵਰਣਨਾ ਬਾਰੇ ਭਵਿੱਖੀ ਖੋਜ ਨੂੰ ਪ੍ਰੇਰਿਤ ਕਰੇਗਾ. ਅਸੀਂ ਇਨ੍ਹਾਂ ਸਵਾਲਾਂ ਉੱਤੇ ਖੋਜ ਭਾਈਚਾਰੇ ਨਾਲ ਸੰਵਾਦ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ.
CLIP ਨਾਲ, ਅਸੀਂ ਇਹ ਜਾਂਚਿਆ ਹੈ ਕਿ ਕੀ ਇੰਟਰਨੈੱਟ ਪੱਧਰ ਦੀ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਉੱਤੇ task agnostic ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ, ਜਿਸ ਨੇ ਹਾਲ ਵਿੱਚ NLP ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਤੋੜ ਕੀਤੀ ਹੈ, ਹੋਰ ਖੇਤਰਾਂ ਲਈ ਡੀਪ ਲਰਨਿੰਗ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਸੁਧਾਰਣ ਲਈ ਵੀ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ. ਹੁਣ ਤੱਕ computer vision ਵਿੱਚ ਇਸ ਪਹੁੰਚ ਨੂੰ ਲਾਗੂ ਕਰਦੇ ਹੋਏ ਜੋ ਨਤੀਜੇ ਅਸੀਂ ਵੇਖੇ ਹਨ, ਉਹ ਸਾਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੇ ਹਨ. GPT ਪਰਿਵਾਰ ਵਾਂਗ, CLIP ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਕਈ ਕਿਸਮ ਦੇ ਕੰਮ ਸਿੱਖਦਾ ਹੈ, ਜਿਸ ਨੂੰ ਅਸੀਂ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਟ੍ਰਾਂਸਫਰ ਰਾਹੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ. ImageNet ਉੱਤੇ ਸਾਡੀਆਂ ਖੋਜਾਂ ਵੀ ਹੌਸਲਾ ਦਿੰਦੀਆਂ ਹਨ ਕਿ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਮੁਲਾਂਕਣ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਦਾ ਹੋਰ ਪ੍ਰਤੀਨਿਧਿਕ ਮਾਪ ਹੈ.
ਫੁੱਟਨੋਟਸ
- 29
2015 ਵਿੱਚ, Microsoft ਦੇ ਖੋਜਕਰਤਿਆਂ ਦੇ ਇੱਕ ਸਮੂਹ ਨੇ ਪਹਿਲੀ ਵਾਰ ਇੱਕ ਮਾਡਲ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਜਿਸ ਨੇ ImageNet ਉੱਤੇ top-5 ਸਹੀਤਾ ਹਾਸਲ ਕੀਤੀ ਜੋ ਰਿਪੋਰਟ ਕੀਤੀ ਮਨੁੱਖੀ top-5 ਸਹੀਤਾ ਤੋਂ ਵੱਧ ਸੀ.
- B
ਹਾਲਾਂਕਿ CLIP ਦੀ ਜ਼ੀਰੋ-ਸ਼ਾਟ OCR ਕਾਰਗੁਜ਼ਾਰੀ ਮਿਲੀ-ਜੁਲੀ ਹੈ, ਇਸ ਦੀ semantic OCR representation ਕਾਫ਼ੀ ਉਪਯੋਗੀ ਹੈ. ਜਦੋਂ SST-2 NLP dataset ਨੂੰ ਚਿੱਤਰਾਂ ਵਜੋਂ ਰੈਂਡਰ ਕਰਕੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ, ਤਾਂ CLIP ਦੀ representation ਉੱਤੇ ਇੱਕ linear classifier ਉਸ CBoW ਮਾਡਲ ਦੇ ਬਰਾਬਰ ਸੀ ਜਿਸ ਨੂੰ ਪਾਠ ਤੱਕ ਸਿੱਧੀ ਪਹੁੰਚ ਸੀ. CLIP ground truth ਪਾਠ ਦੀ ਲੋੜ ਬਿਨਾਂ hateful memes ਦੀ ਪਛਾਣ ਵਿੱਚ ਵੀ ਮੁਕਾਬਲਾਤਮਕ ਹੈ.
- 40
FairFace ਇੱਕ ਚਿਹਰਾ-ਚਿੱਤਰ dataset ਹੈ ਜੋ ਉਮਰ, ਲਿੰਗ ਅਤੇ ਨਸਲ ਵਿੱਚ ਸੰਤੁਲਨ ਬਣਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਤਾਂ ਜੋ ਪਿਛਲੇ face datasets ਵਿੱਚ ਆਮ ਅਸਮਾਨਤਾਵਾਂ ਘੱਟ ਹੋਣ. ਇਹ ਲਿੰਗ ਨੂੰ 2 ਸਮੂਹਾਂ ਵਿੱਚ ਵੰਡਦਾ ਹੈ: female ਅਤੇ male ਅਤੇ ਨਸਲ ਨੂੰ 7 ਸਮੂਹਾਂ ਵਿੱਚ: White, Black, Indian, East Asian, Southeast Asian, Middle Eastern ਅਤੇ Latino. ਨਸਲ ਅਤੇ ਲਿੰਗ ਵਰਗੀਕਰਨਾਂ ਨਾਲ ਮੂਲਭੂਤ ਸਮੱਸਿਆਵਾਂ ਹਨ, ਜਿਵੇਂ ਕਿ Bowker and Star (2000) ਅਤੇ Keyes (2018) ਨੇ ਦਿਖਾਇਆ ਹੈ. ਹਾਲਾਂਕਿ FairFace ਦਾ dataset White ਚਿਹਰਿਆਂ ਦਾ ਅਨੁਪਾਤ ਘਟਾਉਂਦਾ ਹੈ, ਫਿਰ ਵੀ ਇਸ ਵਿੱਚ ਕਈ ਵੱਡੇ ਆਬਾਦੀ ਸਮੂਹਾਂ ਦੀ ਨੁਮਾਇੰਦਗੀ ਨਹੀਂ ਹੈ, ਜਿਸ ਨਾਲ ਅਜਿਹੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਅਸਲ ਵਿੱਚ ਮਿਟ ਜਾਂਦੀਆਂ ਹਨ. ਅਸੀਂ ਆਪਣੇ ਕਈ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ FairFace dataset ਵਿੱਚ ਪਰਿਭਾਸ਼ਿਤ 2 ਲਿੰਗ ਸ਼੍ਰੇਣੀਆਂ ਅਤੇ 7 ਨਸਲੀ ਸ਼੍ਰੇਣੀਆਂ ਵਰਤਦੇ ਹਾਂ, ਅਜਿਹੀਆਂ ਘਟਾਉਂਦੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਦੀ ਵਰਤੋਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਜਾਂ ਸਮਰਥਨ ਦੇਣ ਲਈ ਨਹੀਂ, ਸਗੋਂ ਇਸ ਲਈ ਕਿ ਅਸੀਂ ਪਿਛਲੇ ਕੰਮ ਨਾਲ ਤੁਲਨਾ ਕਰ ਸਕੀਏ.
ਸੰਦਰਭ
- 1
Dodge, S., & Karam, L. (2017, July). “ਦ੍ਰਿਸ਼ਟੀ ਵਿਗਾੜਾਂ ਹੇਠ ਮਨੁੱਖੀ ਅਤੇ ਡੀਪ ਲਰਨਿੰਗ ਪਛਾਣ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਅਧਿਐਨ ਅਤੇ ਤੁਲਨਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICCCN 2017.
- 2
Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). “ImageNet-ਟ੍ਰੇਨ ਕੀਤੇ CNN texture ਵੱਲ ਪੱਖਪਾਤੀ ਹੁੰਦੇ ਹਨ. shape bias ਵਧਾਉਣ ਨਾਲ ਸਹੀਤਾ ਅਤੇ robustness ਸੁਧਰਦੀ ਹੈ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICLR 2019.
- 3
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W. S., & Nguyen, A. (2019). “Strike (with) a pose: ਜਾਣ-ਪਛਾਣ ਵਾਲੀਆਂ ਵਸਤੂਆਂ ਦੇ ਅਜੀਬ pose ਨਾਲ neural networks ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਧੋਖਾ ਦਿੱਤਾ ਜਾ ਸਕਦਾ ਹੈ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In CVPR 2019.
- 4
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., ... & Katz, B. (2019). “Objectnet: object recognition ਮਾਡਲਾਂ ਦੀਆਂ ਹੱਦਾਂ ਨੂੰ ਅੱਗੇ ਧੱਕਣ ਲਈ ਇੱਕ large-scale bias-controlled dataset.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2019.
- 5
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). “ਲੈਂਗਵੇਜ ਮਾਡਲਜ਼ unsupervised multitask learners ਹਨ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” Technical Report, OpenAI.
- 6
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Agarwal, S. (2020). “ਲੈਂਗਵੇਜ ਮਾਡਲਜ਼ ਫਿਊ-ਸ਼ਾਟ learners ਹਨ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2020.
- 7
He, K., Zhang, X., Ren, S., & Sun, J. (2016). “ਚਿੱਤਰ ਪਛਾਣ ਲਈ deep residual learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In CVPR 2016.
- 8
Larochelle, H., Erhan, D., & Bengio, Y. (2008, July). “ਨਵੇਂ ਕੰਮਾਂ ਦੀ zero-data learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In AAAI 2008.
- 9
Lampert, C. H., Nickisch, H., & Harmeling, S. (2009, June). “classes ਦੇ ਵਿਚਕਾਰ attribute transfer ਰਾਹੀਂ ਨਾ-ਵੇਖੀਆਂ object classes ਨੂੰ ਪਛਾਣਣਾ ਸਿੱਖਣਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In CVPR 2009.
- 10
Lei Ba, J., Swersky, K., & Fidler, S. (2015). “ਪਾਠ ਵਰਣਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ deep zero-shot convolutional neural networks ਦੀ ਭਵਿੱਖਬਾਣੀ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICCV 2015.
- 11
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “cross-modal transfer ਰਾਹੀਂ zero-shot learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2013.
- 12
Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). “Devise: ਇੱਕ deep visual-semantic embedding ਮਾਡਲ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2013.
- 13
Li, A., Jabri, A., Joulin, A., & van der Maaten, L. (2017). “ਵੈੱਬ data ਤੋਂ visual n-grams ਸਿੱਖਣਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In Proceedings of the IEEE International Conference on Computer Vision 2017.
- 14
Doersch, C., Gupta, A., & Efros, A. A. (2015). “context prediction ਰਾਹੀਂ unsupervised visual representation learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICCV 2015.
- 15
Zhai, X., Oliver, A., Kolesnikov, A., & Beyer, L. (2019). “S4l: self-supervised semi-supervised learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICCV 2019.
- 16
Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ... & Piot, B. (2020). “Bootstrap your own latent: self-supervised learning ਲਈ ਇੱਕ ਨਵੀਂ ਪਹੁੰਚ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2020.
- 17
Oord, A. V. D., Li, Y., & Vinyals, O. (2018). “Contrastive Predictive Coding ਨਾਲ representation learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” arXiv preprint.
- 18
Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). “mutual information estimation ਅਤੇ maximization ਰਾਹੀਂ deep representations ਸਿੱਖਣਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICLR 2019.
- 19
Bachman, P., Hjelm, R. D., & Buchwalter, W. (2019). “views ਵਿੱਚ mutual information ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਕੇ representations ਸਿੱਖਣਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2019.
- 20
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “unsupervised visual representation learning ਲਈ momentum contrast.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In CVPR 2020.
- 21
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). “visual representations ਦੀ contrastive learning ਲਈ ਇੱਕ ਸਧਾਰਣ framework.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” arXiv preprint.
- 22
Lee, D. H. (2013, June). “Pseudo-label: deep neural networks ਲਈ ਸਧਾਰਣ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ semi-supervised learning ਵਿਧੀ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In Workshop on challenges in representation learning, ICML (2013).
- 23
Xie, Q., Luong, M. T., Hovy, E., & Le, Q. V. (2020). “noisy student ਨਾਲ self-training imagenet classification ਨੂੰ ਸੁਧਾਰਦੀ ਹੈ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In CVPR 2020.
- 24
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). “deep ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਨਾਲ semi-supervised learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2014.
- 25
Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). “gans ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਸੁਧਰੇ ਤਰੀਕੇ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2016.
- 26
Donahue, J., & Simonyan, K. (2019). “large scale adversarial representation learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2019.
- 27
Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., & Sutskever, I. (2020, November). “pixels ਤੋਂ generative pretraining.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICML 2020.
- 28
He, K., Zhang, X., Ren, S., & Sun, J. (2015). “Rectifiers ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਜਾਣਾ: ImageNet classification ਉੱਤੇ ਮਨੁੱਖੀ ਪੱਧਰ ਤੋਂ ਉੱਪਰ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਹਾਸਲ ਕਰਨਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ICCV 2015.
- 29
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Berg, A. C. (2015). “Imagenet large scale visual recognition challenge.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In IJCV 2015.
- 30
Taori, R., Dave, A., Shankar, V., Carlini, N., Recht, B., & Schmidt, L. (2020). “ਚਿੱਤਰ ਵਰਗੀਕਰਨ ਵਿੱਚ ਕੁਦਰਤੀ distribution shifts ਪ੍ਰਤੀ robustness ਮਾਪਣਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2020.
- 31
Sohn, K. (2016). “multi-class n-pair loss objective ਨਾਲ ਸੁਧਰੀ deep metric learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2016.
- 32
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). “ਤੁਹਾਨੂੰ ਸਿਰਫ attention ਦੀ ਲੋੜ ਹੈ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In NeurIPS 2017.
- 33
Desai, K., & Johnson, J. (2020). “VirTex: textual annotations ਤੋਂ visual representations ਸਿੱਖਣਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” arXiv preprint.
- 34
Sariyildiz, M. B., Perez, J., & Larlus, D. (2020). “caption annotations ਨਾਲ visual representations ਸਿੱਖਣਾ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ECCV 2020.
- 35
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., & Langlotz, C. P. (2020). “paired images ਅਤੇ text ਤੋਂ medical visual representations ਦੀ contrastive learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” arXiv preprint.
- 36
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Uszkoreit, J. (2020). “ਇੱਕ ਚਿੱਤਰ 16x16 ਸ਼ਬਦਾਂ ਦੇ ਬਰਾਬਰ ਹੈ: ਵੱਡੇ ਪੱਧਰ ਉੱਤੇ image recognition ਲਈ Transformers.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” arXiv preprint.
- 37
Mahajan, D., Girshick, R., Ramanathan, V., He, K., Paluri, M., Li, Y., ... & van der Maaten, L. (2018). “weakly supervised pretraining ਦੀਆਂ ਹੱਦਾਂ ਦੀ ਪੜਤਾਲ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In ECCV 2018.
- 38
Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., & Houlsby, N. (2019). “Big Transfer (BiT): ਆਮ visual representation learning.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” arXiv preprint.
- 39
Kärkkäinen, K., & Joo, J. (2019). “Fairface: ਸੰਤੁਲਿਤ ਨਸਲ, ਲਿੰਗ, ਅਤੇ ਉਮਰ ਲਈ face attribute dataset.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” arXiv preprint.
- 40
Bowker, G., & Star, S. L. (1999). “ਚੀਜ਼ਾਂ ਨੂੰ ਕ੍ਰਮਬੱਧ ਕਰਨਾ. ਵਰਗੀਕਰਨ ਅਤੇ ਇਸ ਦੇ ਨਤੀਜੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” Book.
- 41
Keyes, O. (2018). “ਲਿੰਗ-ਗਲਤਕਰਨ ਮਸ਼ੀਨਾਂ: automatic gender recognition ਦੇ Trans/HCI ਨਤੀਜੇ.(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)” In Proceedings of the ACM on Human-Computer Interaction.
ਲੇਖਕ
ਆਭਾਰ
ਅਸੀਂ ਉਹਨਾਂ ਲੱਖਾਂ ਲੋਕਾਂ ਦਾ ਧੰਨਵਾਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ ਜੋ CLIP ਦੇ ਟ੍ਰੇਨਿੰਗ data ਦੀ ਰਚਨਾ ਵਿੱਚ ਸ਼ਾਮਲ ਰਹੇ. ਅਸੀਂ ਆਪਣੇ ਸਾਰੇ ਸਹਿ-ਲੇਖਕਾਂ ਦੇ ਵੀ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਯੋਗਦਾਨ ਲਈ ਆਭਾਰੀ ਹਾਂ. ਆਖ਼ਰ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਬਲੌਗ ਦੇ ਮਸੌਦਿਆਂ ਉੱਤੇ ਫੀਡਬੈਕ ਲਈ Jeff Clune, Miles Brundage, Ryan Lowe, Jakub Pachocki, ਅਤੇ Vedant Misra ਦਾ ਅਤੇ code release ਦੀ ਸਮੀਖਿਆ ਲਈ Matthew Knight ਦਾ ਧੰਨਵਾਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ.
ਡਿਜ਼ਾਇਨ ਅਤੇ ਕਵਰ ਆਰਟਵਰਕ
Justin Jay Wang


