5 ਜਨਵਰੀ 2021

DALL·E: ਟੈਕਸਟ ਤੋਂ ਇਮੇਜ ਬਣਾਉਣਾ

ਅਸੀਂ DALL·E ਨਾਮ ਦਾ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਪ੍ਰਗਟ ਕੀਤੀਆਂ ਜਾ ਸਕਣ ਵਾਲੀਆਂ ਧਾਰਣਾਵਾਂ ਦੀ ਵਿਸ਼ਾਲ ਰੇਂਜ ਲਈ ਟੈਕਸਟ ਕੈਪਸ਼ਨਾਂ ਤੋਂ ਇਮੇਜ ਬਣਾਉਂਦਾ ਹੈ.

ਚਿੱਤਰਕਲਾ: Justin Jay Wang

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

DALL·E, GPT‑3⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ 12-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਵਰਜ਼ਨ ਹੈ, ਜਿਸਨੂੰ ਟੈਕਸਟ ਵਰਣਨਾਂ ਤੋਂ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਨ ਲਈ ਟੈਕਸਟ–ਇਮੇਜ ਜੋੜਿਆਂ ਦੇ ਡਾਟਾਸੈੱਟ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ। ਅਸੀਂ ਪਾਇਆ ਹੈ ਕਿ ਇਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਜਾਨਵਰਾਂ ਅਤੇ ਵਸਤੂਆਂ ਦੇ ਮਨੁੱਖੀ-ਲੱਛਣਾਂ ਵਾਲੇ ਰੂਪ ਬਣਾਉਣਾ, ਅਸੰਬੰਧਤ ਧਾਰਣਾਵਾਂ ਨੂੰ ਯਥਾਰਥਕ ਢੰਗ ਨਾਲ ਜੋੜਨਾ, ਟੈਕਸਟ render ਕਰਨਾ, ਅਤੇ ਮੌਜੂਦਾ ਇਮੇਜਾਂ 'ਤੇ transformations ਲਾਗੂ ਕਰਨਾ.

ਇਹ ਵੀ ਵੇਖੋ: DALL·E 2⁠, ਜੋ 4x ਵੱਧ resolution ਨਾਲ ਹੋਰ ਯਥਾਰਥਕ ਅਤੇ ਸਹੀ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

GPT‑3 ਨੇ ਦਿਖਾਇਆ ਕਿ ਭਾਸ਼ਾ ਦੀ ਵਰਤੋਂ ਇੱਕ ਵੱਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਕਈ ਕਿਸਮ ਦੇ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਕੰਮ ਕਰਨ ਲਈ ਹਦਾਇਤ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। Image GPT⁠ ਨੇ ਦਿਖਾਇਆ ਕਿ ਇਸੇ ਕਿਸਮ ਦਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਉੱਚ ਨਿਸ਼ਠਾ ਨਾਲ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਨ ਲਈ ਵੀ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਅਸੀਂ ਇਨ੍ਹਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦੇ ਹੋਏ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਭਾਸ਼ਾ ਰਾਹੀਂ ਵਿਜ਼ੂਅਲ ਧਾਰਣਾਵਾਂ ਨੂੰ ਸੰਚਾਲਿਤ ਕਰਨਾ ਹੁਣ ਸੰਭਵ ਹੋ ਗਿਆ ਹੈ.

ਸੰਖੇਪ ਝਲਕ

GPT‑3 ਵਾਂਗ, DALL·E ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ language ਮਾਡਲ ਹੈ। ਇਹ ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ ਦੋਵੇਂ ਨੂੰ 1280 ਟੋਕਨ ਤੱਕ ਦੇ ਡਾਟਾ ਦੀ ਇੱਕੋ ਧਾਰਾ ਵਜੋਂ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਸਾਰੇ ਟੋਕਨ ਇੱਕ ਤੋਂ ਬਾਅਦ ਇੱਕ ਜਨਰੇਟ ਕਰਨ ਲਈ maximum likelihood ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ^A

ਇਹ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ DALL·E ਨੂੰ ਨਾ ਸਿਰਫ਼ ਬਿਲਕੁਲ ਨਵੀਂ ਇਮੇਜ ਜਨਰੇਟ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਸਗੋਂ ਮੌਜੂਦਾ ਇਮੇਜ ਦੇ ਕਿਸੇ ਵੀ ਆਇਤਾਕਾਰ ਖੇਤਰ ਨੂੰ, ਜੋ ਹੇਠਲੇ-ਸੱਜੇ ਕੋਨੇ ਤੱਕ ਫੈਲਦਾ ਹੈ, ਟੈਕਸਟ ਪ੍ਰੌੰਪਟ ਦੇ ਅਨੁਕੂਲ ਢੰਗ ਨਾਲ ਮੁੜ ਜਨਰੇਟ ਕਰਨ ਦੀ ਵੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ.

ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਨਾਲ ਸੰਬੰਧਿਤ ਕੰਮ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਅਤੇ ਵਿਸ਼ਾਲ ਸਮਾਜਕ ਪ੍ਰਭਾਵਾਂ ਦੀ ਸੰਭਾਵਨਾ ਹੈ। ਭਵਿੱਖ ਵਿੱਚ, ਅਸੀਂ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ ਕਿ DALL·E ਵਰਗੇ ਮਾਡਲ ਖਾਸ ਕੰਮਕਾਜੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਅਤੇ ਪੇਸ਼ਾਵਾਂ 'ਤੇ ਆਰਥਿਕ ਪ੍ਰਭਾਵ, ਮਾਡਲ ਆਉਟਪੁੱਟ ਵਿੱਚ ਪੱਖਪਾਤ ਦੀ ਸੰਭਾਵਨਾ, ਅਤੇ ਇਸ ਤਕਨਾਲੋਜੀ ਨਾਲ ਜੁੜੀਆਂ ਲੰਬੇ ਸਮੇਂ ਦੀਆਂ ਨੈਤਿਕ ਚੁਣੌਤੀਆਂ ਵਰਗੇ ਸਮਾਜਕ ਮਸਲਿਆਂ ਨਾਲ ਕਿਵੇਂ ਸੰਬੰਧਿਤ ਹਨ.

ਸਮਰੱਥਾਵਾਂ

ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਭਾਸ਼ਾ ਦੀ ਸੰਯੋਜਨਾਤਮਕ ਸੰਰਚਨਾ ਦੀ ਪੜਤਾਲ ਕਰਨ ਵਾਲੇ ਬਹੁਤ ਵੱਖ-ਵੱਖ ਵਾਕਾਂ ਲਈ ਯਥਾਰਥਕ ਇਮੇਜਾਂ ਬਣਾਉਣ ਦੇ ਯੋਗ ਹੈ। ਅਸੀਂ ਅਗਲੇ ਭਾਗ ਵਿੱਚ ਇੰਟਰਐਕਟਿਵ ਵਿਜ਼ੂਅਲਜ਼ ਦੀ ਇੱਕ ਲੜੀ ਰਾਹੀਂ ਇਹ ਦਰਸਾਉਂਦੇ ਹਾਂ। ਵਿਜ਼ੂਅਲਜ਼ ਵਿੱਚ ਹਰੇਕ caption ਲਈ ਦਿਖਾਏ ਗਏ ਸੈਂਪਲ CLIP⁠ ਨਾਲ reranking ਕਰਨ ਤੋਂ ਬਾਅਦ 512 ਵਿੱਚੋਂ ਸਿਖਰਲੇ 32 ਲੈ ਕੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਪਰ thumbnails ਅਤੇ ਬਾਹਰ ਦਿਖਣ ਵਾਲੀਆਂ standalone images ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਕੋਈ ਮੈਨੁਅਲ cherry-picking ਨਹੀਂ ਵਰਤਦੇ.^B

ਗੁਣਾਂ ਨੂੰ ਕੰਟਰੋਲ ਕਰਨਾ

ਅਸੀਂ DALL·E ਦੀ ਇਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਕਿ ਉਹ ਕਿਸੇ ਵਸਤੂ ਦੇ ਕਈ ਗੁਣਾਂ ਵਿੱਚ ਤਬਦੀਲੀ ਕਰ ਸਕੇ, ਨਾਲ ਹੀ ਇਹ ਵੀ ਕਿ ਉਹ ਕਿੰਨੀ ਵਾਰ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਕਈ ਵਸਤੂਆਂ ਬਣਾਉਣਾ

ਇੱਕੋ ਸਮੇਂ ਕਈ ਵਸਤੂਆਂ, ਉਹਨਾਂ ਦੇ ਗੁਣਾਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਸਥਾਨਿਕ ਸੰਬੰਧਾਂ ਨੂੰ ਕੰਟਰੋਲ ਕਰਨਾ ਇੱਕ ਨਵੀਂ ਚੁਣੌਤੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਇਹ ਵਾਕ ਲਓ “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” ਇਸ ਵਾਕ ਨੂੰ ਠੀਕ ਤਰ੍ਹਾਂ ਸਮਝਣ ਲਈ, DALL·E ਨੂੰ ਨਾ ਸਿਰਫ਼ ਕੱਪੜੇ ਦੇ ਹਰ ਹਿੱਸੇ ਨੂੰ ਜਾਨਵਰ ਨਾਲ ਠੀਕ ਤਰ੍ਹਾਂ ਜੋੜਨਾ ਹੋਵੇਗਾ, ਸਗੋਂ (hat, red), (gloves, yellow), (shirt, blue), ਅਤੇ (pants, green) ਵਾਲੇ ਸੰਬੰਧ ਵੀ ਬਣਾਉਣੇ ਹੋਣਗੇ, ਬਿਨਾਂ ਉਨ੍ਹਾਂ ਨੂੰ ਗਡ਼ਬਡ਼ ਕੀਤੇ ^C

ਅਸੀਂ DALL·E ਦੀ ਇਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਕਿ ਉਹ ਅਨੁਸਾਰੀ ਸਥਿਤੀ, ਵਸਤੂਆਂ ਨੂੰ ਇਕੱਤਰ ਰੱਖਣ ਅਤੇ ਕਈ ਗੁਣਾਂ ਨੂੰ ਕੰਟਰੋਲ ਕਰਨ ਵਿੱਚ ਇਹ ਕੰਮ ਕਰ ਸਕੇ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਹਾਲਾਂਕਿ DALL·E ਥੋੜ੍ਹੀ ਗਿਣਤੀ ਵਾਲੀਆਂ ਵਸਤੂਆਂ ਦੇ ਗੁਣਾਂ ਅਤੇ ਸਥਿਤੀਆਂ 'ਤੇ ਕੁਝ ਪੱਧਰ ਦਾ ਕੰਟਰੋਲ ਦਿੰਦਾ ਹੈ, ਪਰ ਸਫਲਤਾ ਦੀ ਦਰ caption ਦੇ ਸ਼ਬਦਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰ ਸਕਦੀ ਹੈ। ਜਿਵੇਂ-ਜਿਵੇਂ ਹੋਰ ਵਸਤੂਆਂ ਸ਼ਾਮਲ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, DALL·E ਵਸਤੂਆਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਰੰਗਾਂ ਵਿਚਕਾਰ ਸੰਬੰਧ ਗਡ਼ਬਡ਼ ਕਰਨ ਵੱਲ ਝੁਕਦਾ ਹੈ, ਅਤੇ ਸਫਲਤਾ ਦੀ ਦਰ ਤੇਜ਼ੀ ਨਾਲ ਘਟ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਹ ਵੀ ਨੋਟ ਕਰਦੇ ਹਾਂ ਕਿ ਇਨ੍ਹਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ caption ਦੇ ਮੁੜ-ਸ਼ਬਦੀਕਰਨ ਦੇ ਸੰਦਰਭ ਵਿੱਚ DALL·E ਨਾਜ਼ੁਕ ਹੈ: ਅਰਥ ਪੱਖੋਂ ਸਮਾਨ ਵਿਕਲਪੀ captions ਅਕਸਰ ਕੋਈ ਵੀ ਸਹੀ ਵਿਆਖਿਆ ਨਹੀਂ ਦਿੰਦੀਆਂ.

ਪਰਸਪੈਕਟਿਵ ਅਤੇ ਤ੍ਰਿ-ਆਯਾਮੀਅਤ ਦੀ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ

ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਕਿਸੇ ਦ੍ਰਿਸ਼ ਦੇ viewpoint ਅਤੇ ਉਸ 3D ਸ਼ੈਲੀ 'ਤੇ ਵੀ ਕੰਟਰੋਲ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਦ੍ਰਿਸ਼ ਨੂੰ render ਕੀਤਾ ਜਾਂਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਇਸ ਨੂੰ ਹੋਰ ਅੱਗੇ ਵਧਾਉਣ ਲਈ, ਅਸੀਂ DALL·E ਦੀ ਇਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਕਿ ਉਹ ਇੱਕ ਪ੍ਰਸਿੱਧ ਸ਼ਖਸੀਅਤ ਦਾ ਸਿਰ, ਇਕਸਾਰ ਦੂਰੀ ਵਾਲੇ ਕੋਣਾਂ ਦੀ ਲੜੀ ਵਿੱਚ ਹਰ ਕੋਣ ਤੋਂ, ਵਾਰ-ਵਾਰ ਬਣਾਏ, ਅਤੇ ਸਾਨੂੰ ਘੁੰਮਦੇ ਸਿਰ ਦੀ ਇੱਕ ਸਮਤਲ ਐਨੀਮੇਸ਼ਨ ਮੁੜ ਪ੍ਰਾਪਤ ਹੁੰਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

DALL·E ਲੱਗਦਾ ਹੈ ਕਿ ਦ੍ਰਿਸ਼ਾਂ 'ਤੇ ਕੁਝ ਕਿਸਮ ਦੀਆਂ optical distortions ਲਾਗੂ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਅਸੀਂ “fisheye lens view” ਅਤੇ “a spherical panorama” ਵਿਕਲਪਾਂ ਨਾਲ ਵੇਖਦੇ ਹਾਂ। ਇਸ ਨਾਲ ਸਾਨੂੰ reflections ਜਨਰੇਟ ਕਰਨ ਦੀ ਇਸਦੀ ਸਮਰੱਥਾ ਦੀ ਪੜਤਾਲ ਕਰਨ ਲਈ ਪ੍ਰੇਰਣਾ ਮਿਲੀ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਅੰਦਰੂਨੀ ਅਤੇ ਬਾਹਰੀ ਸੰਰਚਨਾ ਦੀ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ

“extreme close-up view” ਅਤੇ “x-ray” ਸ਼ੈਲੀ ਦੇ ਸੈਂਪਲਾਂ ਨੇ ਸਾਨੂੰ DALL·E ਦੀ cross-sectional views ਨਾਲ ਅੰਦਰੂਨੀ ਸੰਰਚਨਾ ਅਤੇ macro photographs ਨਾਲ ਬਾਹਰੀ ਸੰਰਚਨਾ render ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਹੋਰ ਖੰਗਾਲਣ ਲਈ ਪ੍ਰੇਰਿਆ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸੰਦਰਭਕ ਵੇਰਵਿਆਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ

ਟੈਕਸਟ ਨੂੰ ਇਮੇਜਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦਾ ਕੰਮ ਅਧੂਰਾ ਨਿਰਧਾਰਤ ਹੁੰਦਾ ਹੈ: ਇੱਕ ਇਕੱਲਾ caption ਆਮ ਤੌਰ 'ਤੇ ਬੇਅੰਤ ਯਥਾਰਥਕ ਇਮੇਜਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ਇਸ ਲਈ ਇਮੇਜ ਵਿਲੱਖਣ ਤੌਰ 'ਤੇ ਨਿਰਧਾਰਤ ਨਹੀਂ ਹੁੰਦੀ। ਉਦਾਹਰਨ ਲਈ, ਇਹ caption ਲਓ “a painting of a capybara sitting on a field at sunrise.” capybara ਦੀ ਦਿਸ਼ਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹੋਏ, ਇੱਕ shadow ਬਣਾਉਣਾ ਲਾਜ਼ਮੀ ਹੋ ਸਕਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਇਸ ਵੇਰਵੇ ਦਾ ਕਦੇ ਵੀ ਸਪਸ਼ਟ ਜ਼ਿਕਰ ਨਹੀਂ ਹੁੰਦਾ। ਅਸੀਂ DALL·E ਦੀ ਅਧੂਰੇ ਨਿਰਧਾਰਣ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਤਿੰਨ ਮਾਮਲਿਆਂ ਵਿੱਚ ਖੰਗਾਲਦੇ ਹਾਂ: ਸ਼ੈਲੀ, setting ਅਤੇ ਸਮਾਂ ਬਦਲਣਾ; ਇੱਕੋ ਵਸਤੂ ਨੂੰ ਕਈ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਵਿੱਚ ਬਣਾਉਣਾ; ਅਤੇ ਕਿਸੇ ਵਸਤੂ ਦੀ ਐਸੀ ਇਮੇਜ ਜਨਰੇਟ ਕਰਨਾ ਜਿਸ 'ਤੇ ਖਾਸ ਟੈਕਸਟ ਲਿਖਿਆ ਹੋਵੇ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਭਰੋਸੇਯੋਗਤਾ ਦੇ ਵੱਖ-ਵੱਖ ਪੱਧਰਾਂ ਨਾਲ, DALL·E ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਰਾਹੀਂ 3D rendering engine ਦੀਆਂ ਕੁਝ ਸਮਰੱਥਾਵਾਂ ਦੇ ਇਕ ਉਪਸੈੱਟ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦਾ ਹੈ। ਇਹ ਥੋੜ੍ਹੀ ਗਿਣਤੀ ਵਾਲੀਆਂ ਵਸਤੂਆਂ ਦੇ ਗੁਣਾਂ ਨੂੰ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਕੰਟਰੋਲ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਸੀਮਿਤ ਹੱਦ ਤੱਕ, ਇਹ ਵੀ ਕਿ ਕਿੰਨੀਆਂ ਹਨ ਅਤੇ ਇਕ ਦੂਜੇ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਕਿਵੇਂ ਵਿਵਸਥਿਤ ਹਨ। ਇਹ ਉਸ ਸਥਾਨ ਅਤੇ ਕੋਣ ਨੂੰ ਵੀ ਕੰਟਰੋਲ ਕਰ ਸਕਦਾ ਹੈ ਜਿੱਥੋਂ ਕੋਈ ਦ੍ਰਿਸ਼ render ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਕੋਣ ਅਤੇ ਰੌਸ਼ਨੀ ਦੀਆਂ ਸ਼ਰਤਾਂ ਦੇ ਸਟੀਕ ਨਿਰਧਾਰਣਾਂ ਅਨੁਸਾਰ ਜਾਣੀਆਂ-ਪਹਿਚਾਣੀਆਂ ਵਸਤੂਆਂ ਜਨਰੇਟ ਕਰ ਸਕਦਾ ਹੈ.

3D rendering engine ਤੋਂ ਇਲਾਵਾ, ਜਿਸਦੇ inputs ਨੂੰ ਅਸਪਸ਼ਟਤਾ ਤੋਂ ਬਿਨਾਂ ਅਤੇ ਪੂਰੀ ਵਿਸਥਾਰ ਨਾਲ ਦਰਸਾਉਣਾ ਪੈਂਦਾ ਹੈ, DALL·E ਅਕਸਰ “ਖਾਲੀ ਥਾਵਾਂ ਭਰ” ਸਕਦਾ ਹੈ ਜਦੋਂ caption ਤੋਂ ਇਹ ਸੰਕੇਤ ਮਿਲਦਾ ਹੈ ਕਿ ਇਮੇਜ ਵਿੱਚ ਕੋਈ ਖਾਸ ਵੇਰਵਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦੱਸਿਆ ਨਹੀਂ ਗਿਆ.

ਪਿਛਲੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੇ ਐਪਲੀਕੇਸ਼ਨ

ਅਗਾਂਹ, ਅਸੀਂ ਫੈਸ਼ਨ ਅਤੇ ਇੰਟੀਰੀਅਰ ਡਿਜ਼ਾਈਨ ਲਈ ਉਪਰੋਕਤ ਸਮਰੱਥਾਵਾਂ ਦੇ ਉਪਯੋਗ ਦੀ ਪੜਤਾਲ ਕਰਦੇ ਹਾਂ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਅਸੰਬੰਧਤ ਧਾਰਣਾਵਾਂ ਨੂੰ ਜੋੜਨਾ

ਭਾਸ਼ਾ ਦੀ ਸੰਯੋਜਨਾਤਮਕ ਪ੍ਰਕਿਰਤੀ ਸਾਨੂੰ ਧਾਰਣਾਵਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਕੇ ਅਸਲ ਅਤੇ ਕਲਪਿਤ ਦੋਵੇਂ ਕਿਸਮਾਂ ਦੀਆਂ ਚੀਜ਼ਾਂ ਦਾ ਵਰਣਨ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਵੱਖ-ਵੱਖ ਵਿਚਾਰਾਂ ਨੂੰ ਜੋੜ ਕੇ ਵਸਤੂਆਂ ਬਣਾਉਣ ਦੀ ਸਮਰੱਥਾ ਵੀ ਰੱਖਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਦਾ ਅਸਲ ਸੰਸਾਰ ਵਿੱਚ ਮੌਜੂਦ ਹੋਣਾ ਸੰਭਵ ਨਹੀਂ ਲੱਗਦਾ। ਅਸੀਂ ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਦੋ ਮਾਮਲਿਆਂ ਵਿੱਚ ਖੰਗਾਲਦੇ ਹਾਂ: ਵੱਖ-ਵੱਖ ਧਾਰਣਾਵਾਂ ਦੇ ਗੁਣ ਜਾਨਵਰਾਂ ਵਿੱਚ ਸਥਾਨਾਂਤਰਿਤ ਕਰਨਾ, ਅਤੇ ਅਸੰਬੰਧਤ ਧਾਰਣਾਵਾਂ ਤੋਂ ਪ੍ਰੇਰਣਾ ਲੈ ਕੇ ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ ਕਰਨਾ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜਾਨਵਰਾਂ ਦੀਆਂ ਚਿੱਤਰਕਲਾਵਾਂ

ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਅਸਲ ਸੰਸਾਰ ਦੀਆਂ ਵਸਤੂਆਂ ਦੀਆਂ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਦੇ ਸਮੇਂ DALL·E ਦੀ ਅਸੰਬੰਧਤ ਧਾਰਣਾਵਾਂ ਨੂੰ ਜੋੜਣ ਦੀ ਸਮਰੱਥਾ ਦੀ ਪੜਤਾਲ ਕੀਤੀ ਸੀ। ਇੱਥੇ, ਅਸੀਂ ਇਸ ਸਮਰੱਥਾ ਦੀ ਕਲਾ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਪੜਤਾਲ ਕਰਦੇ ਹਾਂ, ਤਿੰਨ ਕਿਸਮ ਦੀਆਂ illustrations ਲਈ: ਜਾਨਵਰਾਂ ਅਤੇ ਵਸਤੂਆਂ ਦੇ ਮਨੁੱਖੀ-ਲੱਛਣਾਂ ਵਾਲੇ ਰੂਪ, animal chimeras, ਅਤੇ emojis.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜ਼ੀਰੋ-ਸ਼ਾਟ ਵਿਜ਼ੂਅਲ ਰੀਜ਼ਨਿੰਗ

GPT‑3 ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਵਰਣਨ ਅਤੇ ਉਸਦੇ ਪ੍ਰੌੰਪਟ ਵਿੱਚ ਦਿੱਤੇ ਜਵਾਬ ਨੂੰ ਬਣਾਉਣ ਲਈ ਇੱਕ ਸੰਕੇਤ ਦੇ ਆਧਾਰ 'ਤੇ, ਬਿਨਾਂ ਕਿਸੇ ਵਾਧੂ ਟ੍ਰੇਨਿੰਗ ਦੇ, ਕਈ ਕਿਸਮ ਦੇ ਕੰਮ ਕਰਨ ਲਈ ਹਦਾਇਤ ਦਿੱਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਉਦਾਹਰਨ ਵਜੋਂ, ਜਦੋਂ ਇਸਨੂੰ ਇਹ ਵਾਕ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ “ਇਹ ਵਾਕ ‘a person walking his dog in the park’ ਦਾ French ਵਿੱਚ ਅਨੁਵਾਦ ਹੈ:”, ਤਾਂ GPT‑3 ਜਵਾਬ ਦਿੰਦਾ ਹੈ “un homme qui promène son chien dans le parc.” ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਰੀਜ਼ਨਿੰਗ. ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਸਾਨੂੰ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਵਿਜ਼ੂਅਲ ਖੇਤਰ ਤੱਕ ਵਧਾਉਂਦਾ ਹੈ, ਅਤੇ ਠੀਕ ਤਰੀਕੇ ਨਾਲ ਪ੍ਰੌੰਪਟ ਕਰਨ 'ਤੇ ਕਈ ਕਿਸਮ ਦੇ image-to-image translation ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਅਸੀਂ ਇਹ ਅਨੁਮਾਨ ਨਹੀਂ ਲਾਇਆ ਸੀ ਕਿ ਇਹ ਸਮਰੱਥਾ ਉਭਰੇਗੀ, ਅਤੇ ਇਸ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਅਸੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਜਾਂ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਕੋਈ ਤਬਦੀਲੀ ਨਹੀਂ ਕੀਤੀ। ਇਨ੍ਹਾਂ ਨਤੀਜਿਆਂ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੋ ਕੇ, ਅਸੀਂ DALL·E ਦੀ ਉਪਮਾਨਕ ਰੀਜ਼ਨਿੰਗ ਸਮੱਸਿਆਵਾਂ ਲਈ ਯੋਗਤਾ ਨੂੰ Raven’s progressive matrices, ਜੋ 20ਵੀਂ ਸਦੀ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੀ ਜਾਣ ਵਾਲੀ ਇੱਕ ਵਿਜ਼ੂਅਲ IQ ਜਾਂਚ ਹੈ, 'ਤੇ ਟੈਸਟ ਕਰਕੇ ਮਾਪਦੇ ਹਾਂ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਭੂਗੋਲਿਕ ਗਿਆਨ

ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਨੇ ਭੂਗੋਲਿਕ ਤੱਥਾਂ, ਲੈਂਡਮਾਰਕਸ ਅਤੇ ਪੜੋਸਾਂ ਬਾਰੇ ਸਿੱਖਿਆ ਹੈ। ਇਨ੍ਹਾਂ ਧਾਰਣਾਵਾਂ ਬਾਰੇ ਇਸਦਾ ਗਿਆਨ ਕੁਝ ਤਰੀਕਿਆਂ ਨਾਲ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਸਟੀਕ ਹੈ ਅਤੇ ਕੁਝ ਹੋਰਾਂ ਵਿੱਚ ਖਾਮੀਪੂਰਨ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਕਾਲਿਕ ਗਿਆਨ

DALL·E ਦੇ ਉਹਨਾਂ ਧਾਰਣਾਵਾਂ ਬਾਰੇ ਗਿਆਨ ਦੀ ਪੜਤਾਲ ਕਰਨ ਦੇ ਨਾਲ-ਨਾਲ ਜੋ ਸਥਾਨ ਦੇ ਨਾਲ ਬਦਲਦੀਆਂ ਹਨ, ਅਸੀਂ ਉਹਨਾਂ ਧਾਰਣਾਵਾਂ ਬਾਰੇ ਇਸਦੇ ਗਿਆਨ ਦੀ ਵੀ ਪੜਤਾਲ ਕਰਦੇ ਹਾਂ ਜੋ ਸਮੇਂ ਦੇ ਨਾਲ ਬਦਲਦੀਆਂ ਹਨ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਪਹੁੰਚ ਅਤੇ ਪੂਰਵ ਕੰਮ ਦਾ ਸੰਖੇਪ

DALL·E ਇੱਕ ਸਧਾਰਣ decoder-only ਟ੍ਰਾਂਸਫਾਰਮਰ ਹੈ ਜੋ ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ ਦੋਵੇਂ ਨੂੰ 1280 ਟੋਕਨ ਦੀ ਇੱਕੋ ਧਾਰਾ ਵਜੋਂ ਲੈਂਦਾ ਹੈ—ਟੈਕਸਟ ਲਈ 256 ਅਤੇ ਇਮੇਜ ਲਈ 1024—ਅਤੇ ਉਨ੍ਹਾਂ ਸਭ ਨੂੰ autoregressively ਮਾਡਲ ਕਰਦਾ ਹੈ। ਇਸ ਦੀਆਂ 64 self-attention layers ਵਿੱਚ ਹਰ ਇੱਕ 'ਤੇ attention mask ਹਰ ਇਮੇਜ ਟੋਕਨ ਨੂੰ ਸਾਰੇ ਟੈਕਸਟ ਟੋਕਨਾਂ 'ਤੇ ਧਿਆਨ ਦੇਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। DALL·E ਟੈਕਸਟ ਟੋਕਨਾਂ ਲਈ ਮਿਆਰੀ causal mask ਵਰਤਦਾ ਹੈ, ਅਤੇ ਇਮੇਜ ਟੋਕਨਾਂ ਲਈ ਲੇਅਰ ਦੇ ਅਨੁਸਾਰ row, column ਜਾਂ convolutional attention pattern ਨਾਲ sparse attention ਵਰਤਦਾ ਹੈ। ਅਸੀਂ architecture ਅਤੇ training procedure ਬਾਰੇ ਹੋਰ ਵੇਰਵੇ ਆਪਣੇ paper⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਦਿੰਦੇ ਹਾਂ.

ਟੈਕਸਟ-ਤੋਂ-ਇਮੇਜ synthesis, Reed et. al ਦੇ ਅਗਵਾਈ ਵਾਲੇ ਕੰਮ ਤੋਂ ਲੈ ਕੇ, ਖੋਜ ਦਾ ਇੱਕ ਸਰਗਰਮ ਖੇਤਰ ਰਿਹਾ ਹੈ,¹ ਜਿਸਦੀ ਪਹੁੰਚ ਟੈਕਸਟ embeddings 'ਤੇ condition ਕੀਤੇ GAN ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। Embeddings ਇੱਕ encoder ਦੁਆਰਾ ਬਣਾਏ ਜਾਂਦੇ ਹਨ ਜਿਸਨੂੰ contrastive loss ਦੀ ਵਰਤੋਂ ਕਰਕੇ pretrained ਕੀਤਾ ਗਿਆ ਹੁੰਦਾ ਹੈ, ਜੋ CLIP ਤੋਂ ਬਿਲਕੁਲ ਅਲੱਗ ਨਹੀਂ। StackGAN³ ਅਤੇ StackGAN++⁴ multi-scale GANs ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਇਮੇਜ resolution ਵਧਾਈ ਜਾ ਸਕੇ ਅਤੇ visual fidelity ਸੁਧਾਰੀ ਜਾ ਸਕੇ। AttnGAN⁵ ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ features ਵਿਚਕਾਰ attention ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਅਤੇ auxiliary objective ਵਜੋਂ contrastive text-image feature matching loss ਸੁਝਾਉਂਦਾ ਹੈ। ਇਸਦੀ ਤੁਲਨਾ CLIP ਨਾਲ ਸਾਡੇ reranking ਨਾਲ ਕਰਨੀ ਦਿਲਚਸਪ ਹੈ, ਜੋ offline ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਹੋਰ ਕੰਮ^{2, 6, 7} ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ supervision ਦੇ ਵਾਧੂ ਸਰੋਤ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਇਮੇਜ quality ਸੁਧਾਰੀ ਜਾ ਸਕੇ। ਆਖਿਰ ਵਿੱਚ, Nguyen et. al⁸ ਅਤੇ Cho et. al⁹ ਦਾ ਕੰਮ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਲਈ sampling-based ਰਣਨੀਤੀਆਂ ਦੀ ਪੜਤਾਲ ਕਰਦਾ ਹੈ ਜੋ pretrained multimodal discriminative models ਦਾ ਲਾਭ ਲੈਂਦੀਆਂ ਹਨ.

VQVAE-2⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਵਰਤੀ rejection sampling ਵਾਂਗ, ਅਸੀਂ ਸਾਰੇ ਇੰਟਰਐਕਟਿਵ ਵਿਜ਼ੂਅਲਜ਼ ਵਿੱਚ ਹਰ caption ਲਈ 512 ਸੈਂਪਲਾਂ ਵਿੱਚੋਂ ਸਿਖਰਲੇ 32 ਨੂੰ rerank ਕਰਨ ਲਈ CLIP⁠ ਵਰਤਦੇ ਹਾਂ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ language-guided search¹⁶ ਦੀ ਇੱਕ ਕਿਸਮ ਵਜੋਂ ਵੀ ਵੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਇਹ sample quality 'ਤੇ ਨਾਟਕੀ ਪ੍ਰਭਾਵ ਪਾ ਸਕਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਫੁੱਟਨੋਟਸ

A
ਟੋਕਨ ਇੱਕ discrete vocabulary ਦਾ ਕੋਈ ਵੀ symbol ਹੁੰਦਾ ਹੈ; ਮਨੁੱਖਾਂ ਲਈ, ਹਰ English ਅੱਖਰ 26-ਅੱਖਰੀ ਵਰਣਮਾਲਾ ਦਾ ਇੱਕ ਟੋਕਨ ਹੁੰਦਾ ਹੈ। DALL·E ਦੀ vocabulary ਵਿੱਚ ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ ਦੋਵੇਂ ਧਾਰਣਾਵਾਂ ਲਈ ਟੋਕਨ ਹਨ। ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਹਰ ਇਮੇਜ caption ਨੂੰ 16384 ਦੇ vocabulary size ਨਾਲ ਵੱਧ ਤੋਂ ਵੱਧ 256 BPE-encoded ਟੋਕਨਾਂ ਦੁਆਰਾ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਮੇਜ ਨੂੰ 8192 ਦੇ vocabulary size ਨਾਲ 1024 ਟੋਕਨਾਂ ਦੁਆਰਾ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ।

ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਇਮੇਜਾਂ ਨੂੰ 256x256 resolution ਲਈ preprocess ਕੀਤਾ ਜਾਂਦਾ ਹੈ। VQVAE ਵਾਂਗ, ਹਰ ਇਮੇਜ ਨੂੰ discrete VAE ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਜਿਸਨੂੰ ਅਸੀਂ continuous relaxation ਨਾਲ pretrained ਕੀਤਾ, 32x32 grid ਦੇ discrete ਲੇਟੈਂਟ ਕੋਡਜ਼ ਵਿੱਚ compress ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਅਸੀਂ ਪਾਇਆ ਕਿ relaxation ਦੀ ਵਰਤੋਂ ਨਾਲ ਟ੍ਰੇਨਿੰਗ ਕਰਨ ਨਾਲ explicit codebook, EMA loss, ਜਾਂ dead code revival ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਲੋੜ ਨਹੀਂ ਰਹਿੰਦੀ, ਅਤੇ ਇਹ ਵੱਡੇ vocabulary sizes ਤੱਕ scale ਕਰ ਸਕਦੀ ਹੈ।