DALL·E: ਟੈਕਸਟ ਤੋਂ ਇਮੇਜ ਬਣਾਉਣਾ
ਅਸੀਂ DALL·E ਨਾਮ ਦਾ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਟ੍ਰੇਨ ਕੀਤਾ ਹੈ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਪ੍ਰਗਟ ਕੀਤੀਆਂ ਜਾ ਸਕਣ ਵਾਲੀਆਂ ਧਾਰਣਾਵਾਂ ਦੀ ਵਿਸ਼ਾਲ ਰੇਂਜ ਲਈ ਟੈਕਸਟ ਕੈਪਸ਼ਨਾਂ ਤੋਂ ਇਮੇਜ ਬਣਾਉਂਦਾ ਹੈ.

ਚਿੱਤਰਕਲਾ: Justin Jay Wang
DALL·E, GPT‑3(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ 12-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਵਰਜ਼ਨ ਹੈ, ਜਿਸਨੂੰ ਟੈਕਸਟ ਵਰਣਨਾਂ ਤੋਂ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਨ ਲਈ ਟੈਕਸਟ–ਇਮੇਜ ਜੋੜਿਆਂ ਦੇ ਡਾਟਾਸੈੱਟ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ। ਅਸੀਂ ਪਾਇਆ ਹੈ ਕਿ ਇਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਜਾਨਵਰਾਂ ਅਤੇ ਵਸਤੂਆਂ ਦੇ ਮਨੁੱਖੀ-ਲੱਛਣਾਂ ਵਾਲੇ ਰੂਪ ਬਣਾਉਣਾ, ਅਸੰਬੰਧਤ ਧਾਰਣਾਵਾਂ ਨੂੰ ਯਥਾਰਥਕ ਢੰਗ ਨਾਲ ਜੋੜਨਾ, ਟੈਕਸਟ render ਕਰਨਾ, ਅਤੇ ਮੌਜੂਦਾ ਇਮੇਜਾਂ 'ਤੇ transformations ਲਾਗੂ ਕਰਨਾ.
ਇਹ ਵੀ ਵੇਖੋ: DALL·E 2, ਜੋ 4x ਵੱਧ resolution ਨਾਲ ਹੋਰ ਯਥਾਰਥਕ ਅਤੇ ਸਹੀ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਦਾ ਹੈ.
GPT‑3 ਨੇ ਦਿਖਾਇਆ ਕਿ ਭਾਸ਼ਾ ਦੀ ਵਰਤੋਂ ਇੱਕ ਵੱਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਕਈ ਕਿਸਮ ਦੇ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਕੰਮ ਕਰਨ ਲਈ ਹਦਾਇਤ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। Image GPT ਨੇ ਦਿਖਾਇਆ ਕਿ ਇਸੇ ਕਿਸਮ ਦਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਉੱਚ ਨਿਸ਼ਠਾ ਨਾਲ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਨ ਲਈ ਵੀ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਅਸੀਂ ਇਨ੍ਹਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦੇ ਹੋਏ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਭਾਸ਼ਾ ਰਾਹੀਂ ਵਿਜ਼ੂਅਲ ਧਾਰਣਾਵਾਂ ਨੂੰ ਸੰਚਾਲਿਤ ਕਰਨਾ ਹੁਣ ਸੰਭਵ ਹੋ ਗਿਆ ਹੈ.
GPT‑3 ਵਾਂਗ, DALL·E ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ language ਮਾਡਲ ਹੈ। ਇਹ ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ ਦੋਵੇਂ ਨੂੰ 1280 ਟੋਕਨ ਤੱਕ ਦੇ ਡਾਟਾ ਦੀ ਇੱਕੋ ਧਾਰਾ ਵਜੋਂ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਸਾਰੇ ਟੋਕਨ ਇੱਕ ਤੋਂ ਬਾਅਦ ਇੱਕ ਜਨਰੇਟ ਕਰਨ ਲਈ maximum likelihood ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। A
ਇਹ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ DALL·E ਨੂੰ ਨਾ ਸਿਰਫ਼ ਬਿਲਕੁਲ ਨਵੀਂ ਇਮੇਜ ਜਨਰੇਟ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਸਗੋਂ ਮੌਜੂਦਾ ਇਮੇਜ ਦੇ ਕਿਸੇ ਵੀ ਆਇਤਾਕਾਰ ਖੇਤਰ ਨੂੰ, ਜੋ ਹੇਠਲੇ-ਸੱਜੇ ਕੋਨੇ ਤੱਕ ਫੈਲਦਾ ਹੈ, ਟੈਕਸਟ ਪ੍ਰੌੰਪਟ ਦੇ ਅਨੁਕੂਲ ਢੰਗ ਨਾਲ ਮੁੜ ਜਨਰੇਟ ਕਰਨ ਦੀ ਵੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ.
ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਨਾਲ ਸੰਬੰਧਿਤ ਕੰਮ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਅਤੇ ਵਿਸ਼ਾਲ ਸਮਾਜਕ ਪ੍ਰਭਾਵਾਂ ਦੀ ਸੰਭਾਵਨਾ ਹੈ। ਭਵਿੱਖ ਵਿੱਚ, ਅਸੀਂ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ ਕਿ DALL·E ਵਰਗੇ ਮਾਡਲ ਖਾਸ ਕੰਮਕਾਜੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਅਤੇ ਪੇਸ਼ਾਵਾਂ 'ਤੇ ਆਰਥਿਕ ਪ੍ਰਭਾਵ, ਮਾਡਲ ਆਉਟਪੁੱਟ ਵਿੱਚ ਪੱਖਪਾਤ ਦੀ ਸੰਭਾਵਨਾ, ਅਤੇ ਇਸ ਤਕਨਾਲੋਜੀ ਨਾਲ ਜੁੜੀਆਂ ਲੰਬੇ ਸਮੇਂ ਦੀਆਂ ਨੈਤਿਕ ਚੁਣੌਤੀਆਂ ਵਰਗੇ ਸਮਾਜਕ ਮਸਲਿਆਂ ਨਾਲ ਕਿਵੇਂ ਸੰਬੰਧਿਤ ਹਨ.
ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਭਾਸ਼ਾ ਦੀ ਸੰਯੋਜਨਾਤਮਕ ਸੰਰਚਨਾ ਦੀ ਪੜਤਾਲ ਕਰਨ ਵਾਲੇ ਬਹੁਤ ਵੱਖ-ਵੱਖ ਵਾਕਾਂ ਲਈ ਯਥਾਰਥਕ ਇਮੇਜਾਂ ਬਣਾਉਣ ਦੇ ਯੋਗ ਹੈ। ਅਸੀਂ ਅਗਲੇ ਭਾਗ ਵਿੱਚ ਇੰਟਰਐਕਟਿਵ ਵਿਜ਼ੂਅਲਜ਼ ਦੀ ਇੱਕ ਲੜੀ ਰਾਹੀਂ ਇਹ ਦਰਸਾਉਂਦੇ ਹਾਂ। ਵਿਜ਼ੂਅਲਜ਼ ਵਿੱਚ ਹਰੇਕ caption ਲਈ ਦਿਖਾਏ ਗਏ ਸੈਂਪਲ CLIP ਨਾਲ reranking ਕਰਨ ਤੋਂ ਬਾਅਦ 512 ਵਿੱਚੋਂ ਸਿਖਰਲੇ 32 ਲੈ ਕੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਪਰ thumbnails ਅਤੇ ਬਾਹਰ ਦਿਖਣ ਵਾਲੀਆਂ standalone images ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਕੋਈ ਮੈਨੁਅਲ cherry-picking ਨਹੀਂ ਵਰਤਦੇ.B
ਅਸੀਂ DALL·E ਦੀ ਇਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਕਿ ਉਹ ਕਿਸੇ ਵਸਤੂ ਦੇ ਕਈ ਗੁਣਾਂ ਵਿੱਚ ਤਬਦੀਲੀ ਕਰ ਸਕੇ, ਨਾਲ ਹੀ ਇਹ ਵੀ ਕਿ ਉਹ ਕਿੰਨੀ ਵਾਰ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ.
ਇੱਕੋ ਸਮੇਂ ਕਈ ਵਸਤੂਆਂ, ਉਹਨਾਂ ਦੇ ਗੁਣਾਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਸਥਾਨਿਕ ਸੰਬੰਧਾਂ ਨੂੰ ਕੰਟਰੋਲ ਕਰਨਾ ਇੱਕ ਨਵੀਂ ਚੁਣੌਤੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਇਹ ਵਾਕ ਲਓ “a hedgehog wearing a red hat, yellow gloves, blue shirt, and green pants.” ਇਸ ਵਾਕ ਨੂੰ ਠੀਕ ਤਰ੍ਹਾਂ ਸਮਝਣ ਲਈ, DALL·E ਨੂੰ ਨਾ ਸਿਰਫ਼ ਕੱਪੜੇ ਦੇ ਹਰ ਹਿੱਸੇ ਨੂੰ ਜਾਨਵਰ ਨਾਲ ਠੀਕ ਤਰ੍ਹਾਂ ਜੋੜਨਾ ਹੋਵੇਗਾ, ਸਗੋਂ (hat, red), (gloves, yellow), (shirt, blue), ਅਤੇ (pants, green) ਵਾਲੇ ਸੰਬੰਧ ਵੀ ਬਣਾਉਣੇ ਹੋਣਗੇ, ਬਿਨਾਂ ਉਨ੍ਹਾਂ ਨੂੰ ਗਡ਼ਬਡ਼ ਕੀਤੇ C
ਅਸੀਂ DALL·E ਦੀ ਇਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਕਿ ਉਹ ਅਨੁਸਾਰੀ ਸਥਿਤੀ, ਵਸਤੂਆਂ ਨੂੰ ਇਕੱਤਰ ਰੱਖਣ ਅਤੇ ਕਈ ਗੁਣਾਂ ਨੂੰ ਕੰਟਰੋਲ ਕਰਨ ਵਿੱਚ ਇਹ ਕੰਮ ਕਰ ਸਕੇ.
ਹਾਲਾਂਕਿ DALL·E ਥੋੜ੍ਹੀ ਗਿਣਤੀ ਵਾਲੀਆਂ ਵਸਤੂਆਂ ਦੇ ਗੁਣਾਂ ਅਤੇ ਸਥਿਤੀਆਂ 'ਤੇ ਕੁਝ ਪੱਧਰ ਦਾ ਕੰਟਰੋਲ ਦਿੰਦਾ ਹੈ, ਪਰ ਸਫਲਤਾ ਦੀ ਦਰ caption ਦੇ ਸ਼ਬਦਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰ ਸਕਦੀ ਹੈ। ਜਿਵੇਂ-ਜਿਵੇਂ ਹੋਰ ਵਸਤੂਆਂ ਸ਼ਾਮਲ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, DALL·E ਵਸਤੂਆਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਰੰਗਾਂ ਵਿਚਕਾਰ ਸੰਬੰਧ ਗਡ਼ਬਡ਼ ਕਰਨ ਵੱਲ ਝੁਕਦਾ ਹੈ, ਅਤੇ ਸਫਲਤਾ ਦੀ ਦਰ ਤੇਜ਼ੀ ਨਾਲ ਘਟ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਹ ਵੀ ਨੋਟ ਕਰਦੇ ਹਾਂ ਕਿ ਇਨ੍ਹਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ caption ਦੇ ਮੁੜ-ਸ਼ਬਦੀਕਰਨ ਦੇ ਸੰਦਰਭ ਵਿੱਚ DALL·E ਨਾਜ਼ੁਕ ਹੈ: ਅਰਥ ਪੱਖੋਂ ਸਮਾਨ ਵਿਕਲਪੀ captions ਅਕਸਰ ਕੋਈ ਵੀ ਸਹੀ ਵਿਆਖਿਆ ਨਹੀਂ ਦਿੰਦੀਆਂ.
ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਕਿਸੇ ਦ੍ਰਿਸ਼ ਦੇ viewpoint ਅਤੇ ਉਸ 3D ਸ਼ੈਲੀ 'ਤੇ ਵੀ ਕੰਟਰੋਲ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਦ੍ਰਿਸ਼ ਨੂੰ render ਕੀਤਾ ਜਾਂਦਾ ਹੈ.
ਇਸ ਨੂੰ ਹੋਰ ਅੱਗੇ ਵਧਾਉਣ ਲਈ, ਅਸੀਂ DALL·E ਦੀ ਇਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਕਿ ਉਹ ਇੱਕ ਪ੍ਰਸਿੱਧ ਸ਼ਖਸੀਅਤ ਦਾ ਸਿਰ, ਇਕਸਾਰ ਦੂਰੀ ਵਾਲੇ ਕੋਣਾਂ ਦੀ ਲੜੀ ਵਿੱਚ ਹਰ ਕੋਣ ਤੋਂ, ਵਾਰ-ਵਾਰ ਬਣਾਏ, ਅਤੇ ਸਾਨੂੰ ਘੁੰਮਦੇ ਸਿਰ ਦੀ ਇੱਕ ਸਮਤਲ ਐਨੀਮੇਸ਼ਨ ਮੁੜ ਪ੍ਰਾਪਤ ਹੁੰਦੀ ਹੈ.
DALL·E ਲੱਗਦਾ ਹੈ ਕਿ ਦ੍ਰਿਸ਼ਾਂ 'ਤੇ ਕੁਝ ਕਿਸਮ ਦੀਆਂ optical distortions ਲਾਗੂ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਅਸੀਂ “fisheye lens view” ਅਤੇ “a spherical panorama” ਵਿਕਲਪਾਂ ਨਾਲ ਵੇਖਦੇ ਹਾਂ। ਇਸ ਨਾਲ ਸਾਨੂੰ reflections ਜਨਰੇਟ ਕਰਨ ਦੀ ਇਸਦੀ ਸਮਰੱਥਾ ਦੀ ਪੜਤਾਲ ਕਰਨ ਲਈ ਪ੍ਰੇਰਣਾ ਮਿਲੀ.
“extreme close-up view” ਅਤੇ “x-ray” ਸ਼ੈਲੀ ਦੇ ਸੈਂਪਲਾਂ ਨੇ ਸਾਨੂੰ DALL·E ਦੀ cross-sectional views ਨਾਲ ਅੰਦਰੂਨੀ ਸੰਰਚਨਾ ਅਤੇ macro photographs ਨਾਲ ਬਾਹਰੀ ਸੰਰਚਨਾ render ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਹੋਰ ਖੰਗਾਲਣ ਲਈ ਪ੍ਰੇਰਿਆ.
ਟੈਕਸਟ ਨੂੰ ਇਮੇਜਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦਾ ਕੰਮ ਅਧੂਰਾ ਨਿਰਧਾਰਤ ਹੁੰਦਾ ਹੈ: ਇੱਕ ਇਕੱਲਾ caption ਆਮ ਤੌਰ 'ਤੇ ਬੇਅੰਤ ਯਥਾਰਥਕ ਇਮੇਜਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ਇਸ ਲਈ ਇਮੇਜ ਵਿਲੱਖਣ ਤੌਰ 'ਤੇ ਨਿਰਧਾਰਤ ਨਹੀਂ ਹੁੰਦੀ। ਉਦਾਹਰਨ ਲਈ, ਇਹ caption ਲਓ “a painting of a capybara sitting on a field at sunrise.” capybara ਦੀ ਦਿਸ਼ਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹੋਏ, ਇੱਕ shadow ਬਣਾਉਣਾ ਲਾਜ਼ਮੀ ਹੋ ਸਕਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਇਸ ਵੇਰਵੇ ਦਾ ਕਦੇ ਵੀ ਸਪਸ਼ਟ ਜ਼ਿਕਰ ਨਹੀਂ ਹੁੰਦਾ। ਅਸੀਂ DALL·E ਦੀ ਅਧੂਰੇ ਨਿਰਧਾਰਣ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਤਿੰਨ ਮਾਮਲਿਆਂ ਵਿੱਚ ਖੰਗਾਲਦੇ ਹਾਂ: ਸ਼ੈਲੀ, setting ਅਤੇ ਸਮਾਂ ਬਦਲਣਾ; ਇੱਕੋ ਵਸਤੂ ਨੂੰ ਕਈ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਵਿੱਚ ਬਣਾਉਣਾ; ਅਤੇ ਕਿਸੇ ਵਸਤੂ ਦੀ ਐਸੀ ਇਮੇਜ ਜਨਰੇਟ ਕਰਨਾ ਜਿਸ 'ਤੇ ਖਾਸ ਟੈਕਸਟ ਲਿਖਿਆ ਹੋਵੇ.
ਭਰੋਸੇਯੋਗਤਾ ਦੇ ਵੱਖ-ਵੱਖ ਪੱਧਰਾਂ ਨਾਲ, DALL·E ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਰਾਹੀਂ 3D rendering engine ਦੀਆਂ ਕੁਝ ਸਮਰੱਥਾਵਾਂ ਦੇ ਇਕ ਉਪਸੈੱਟ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦਾ ਹੈ। ਇਹ ਥੋੜ੍ਹੀ ਗਿਣਤੀ ਵਾਲੀਆਂ ਵਸਤੂਆਂ ਦੇ ਗੁਣਾਂ ਨੂੰ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਕੰਟਰੋਲ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਸੀਮਿਤ ਹੱਦ ਤੱਕ, ਇਹ ਵੀ ਕਿ ਕਿੰਨੀਆਂ ਹਨ ਅਤੇ ਇਕ ਦੂਜੇ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਕਿਵੇਂ ਵਿਵਸਥਿਤ ਹਨ। ਇਹ ਉਸ ਸਥਾਨ ਅਤੇ ਕੋਣ ਨੂੰ ਵੀ ਕੰਟਰੋਲ ਕਰ ਸਕਦਾ ਹੈ ਜਿੱਥੋਂ ਕੋਈ ਦ੍ਰਿਸ਼ render ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਕੋਣ ਅਤੇ ਰੌਸ਼ਨੀ ਦੀਆਂ ਸ਼ਰਤਾਂ ਦੇ ਸਟੀਕ ਨਿਰਧਾਰਣਾਂ ਅਨੁਸਾਰ ਜਾਣੀਆਂ-ਪਹਿਚਾਣੀਆਂ ਵਸਤੂਆਂ ਜਨਰੇਟ ਕਰ ਸਕਦਾ ਹੈ.
3D rendering engine ਤੋਂ ਇਲਾਵਾ, ਜਿਸਦੇ inputs ਨੂੰ ਅਸਪਸ਼ਟਤਾ ਤੋਂ ਬਿਨਾਂ ਅਤੇ ਪੂਰੀ ਵਿਸਥਾਰ ਨਾਲ ਦਰਸਾਉਣਾ ਪੈਂਦਾ ਹੈ, DALL·E ਅਕਸਰ “ਖਾਲੀ ਥਾਵਾਂ ਭਰ” ਸਕਦਾ ਹੈ ਜਦੋਂ caption ਤੋਂ ਇਹ ਸੰਕੇਤ ਮਿਲਦਾ ਹੈ ਕਿ ਇਮੇਜ ਵਿੱਚ ਕੋਈ ਖਾਸ ਵੇਰਵਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦੱਸਿਆ ਨਹੀਂ ਗਿਆ.
ਅਗਾਂਹ, ਅਸੀਂ ਫੈਸ਼ਨ ਅਤੇ ਇੰਟੀਰੀਅਰ ਡਿਜ਼ਾਈਨ ਲਈ ਉਪਰੋਕਤ ਸਮਰੱਥਾਵਾਂ ਦੇ ਉਪਯੋਗ ਦੀ ਪੜਤਾਲ ਕਰਦੇ ਹਾਂ.
ਭਾਸ਼ਾ ਦੀ ਸੰਯੋਜਨਾਤਮਕ ਪ੍ਰਕਿਰਤੀ ਸਾਨੂੰ ਧਾਰਣਾਵਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਕੇ ਅਸਲ ਅਤੇ ਕਲਪਿਤ ਦੋਵੇਂ ਕਿਸਮਾਂ ਦੀਆਂ ਚੀਜ਼ਾਂ ਦਾ ਵਰਣਨ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਵੱਖ-ਵੱਖ ਵਿਚਾਰਾਂ ਨੂੰ ਜੋੜ ਕੇ ਵਸਤੂਆਂ ਬਣਾਉਣ ਦੀ ਸਮਰੱਥਾ ਵੀ ਰੱਖਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਦਾ ਅਸਲ ਸੰਸਾਰ ਵਿੱਚ ਮੌਜੂਦ ਹੋਣਾ ਸੰਭਵ ਨਹੀਂ ਲੱਗਦਾ। ਅਸੀਂ ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਦੋ ਮਾਮਲਿਆਂ ਵਿੱਚ ਖੰਗਾਲਦੇ ਹਾਂ: ਵੱਖ-ਵੱਖ ਧਾਰਣਾਵਾਂ ਦੇ ਗੁਣ ਜਾਨਵਰਾਂ ਵਿੱਚ ਸਥਾਨਾਂਤਰਿਤ ਕਰਨਾ, ਅਤੇ ਅਸੰਬੰਧਤ ਧਾਰਣਾਵਾਂ ਤੋਂ ਪ੍ਰੇਰਣਾ ਲੈ ਕੇ ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ ਕਰਨਾ.
ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਅਸਲ ਸੰਸਾਰ ਦੀਆਂ ਵਸਤੂਆਂ ਦੀਆਂ ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਦੇ ਸਮੇਂ DALL·E ਦੀ ਅਸੰਬੰਧਤ ਧਾਰਣਾਵਾਂ ਨੂੰ ਜੋੜਣ ਦੀ ਸਮਰੱਥਾ ਦੀ ਪੜਤਾਲ ਕੀਤੀ ਸੀ। ਇੱਥੇ, ਅਸੀਂ ਇਸ ਸਮਰੱਥਾ ਦੀ ਕਲਾ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਪੜਤਾਲ ਕਰਦੇ ਹਾਂ, ਤਿੰਨ ਕਿਸਮ ਦੀਆਂ illustrations ਲਈ: ਜਾਨਵਰਾਂ ਅਤੇ ਵਸਤੂਆਂ ਦੇ ਮਨੁੱਖੀ-ਲੱਛਣਾਂ ਵਾਲੇ ਰੂਪ, animal chimeras, ਅਤੇ emojis.
GPT‑3 ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਵਰਣਨ ਅਤੇ ਉਸਦੇ ਪ੍ਰੌੰਪਟ ਵਿੱਚ ਦਿੱਤੇ ਜਵਾਬ ਨੂੰ ਬਣਾਉਣ ਲਈ ਇੱਕ ਸੰਕੇਤ ਦੇ ਆਧਾਰ 'ਤੇ, ਬਿਨਾਂ ਕਿਸੇ ਵਾਧੂ ਟ੍ਰੇਨਿੰਗ ਦੇ, ਕਈ ਕਿਸਮ ਦੇ ਕੰਮ ਕਰਨ ਲਈ ਹਦਾਇਤ ਦਿੱਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਉਦਾਹਰਨ ਵਜੋਂ, ਜਦੋਂ ਇਸਨੂੰ ਇਹ ਵਾਕ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ “ਇਹ ਵਾਕ ‘a person walking his dog in the park’ ਦਾ French ਵਿੱਚ ਅਨੁਵਾਦ ਹੈ:”, ਤਾਂ GPT‑3 ਜਵਾਬ ਦਿੰਦਾ ਹੈ “un homme qui promène son chien dans le parc.” ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਰੀਜ਼ਨਿੰਗ. ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਸਾਨੂੰ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਵਿਜ਼ੂਅਲ ਖੇਤਰ ਤੱਕ ਵਧਾਉਂਦਾ ਹੈ, ਅਤੇ ਠੀਕ ਤਰੀਕੇ ਨਾਲ ਪ੍ਰੌੰਪਟ ਕਰਨ 'ਤੇ ਕਈ ਕਿਸਮ ਦੇ image-to-image translation ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ.
ਅਸੀਂ ਇਹ ਅਨੁਮਾਨ ਨਹੀਂ ਲਾਇਆ ਸੀ ਕਿ ਇਹ ਸਮਰੱਥਾ ਉਭਰੇਗੀ, ਅਤੇ ਇਸ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਅਸੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਜਾਂ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਕੋਈ ਤਬਦੀਲੀ ਨਹੀਂ ਕੀਤੀ। ਇਨ੍ਹਾਂ ਨਤੀਜਿਆਂ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੋ ਕੇ, ਅਸੀਂ DALL·E ਦੀ ਉਪਮਾਨਕ ਰੀਜ਼ਨਿੰਗ ਸਮੱਸਿਆਵਾਂ ਲਈ ਯੋਗਤਾ ਨੂੰ Raven’s progressive matrices, ਜੋ 20ਵੀਂ ਸਦੀ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੀ ਜਾਣ ਵਾਲੀ ਇੱਕ ਵਿਜ਼ੂਅਲ IQ ਜਾਂਚ ਹੈ, 'ਤੇ ਟੈਸਟ ਕਰਕੇ ਮਾਪਦੇ ਹਾਂ.
ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ DALL·E ਨੇ ਭੂਗੋਲਿਕ ਤੱਥਾਂ, ਲੈਂਡਮਾਰਕਸ ਅਤੇ ਪੜੋਸਾਂ ਬਾਰੇ ਸਿੱਖਿਆ ਹੈ। ਇਨ੍ਹਾਂ ਧਾਰਣਾਵਾਂ ਬਾਰੇ ਇਸਦਾ ਗਿਆਨ ਕੁਝ ਤਰੀਕਿਆਂ ਨਾਲ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਸਟੀਕ ਹੈ ਅਤੇ ਕੁਝ ਹੋਰਾਂ ਵਿੱਚ ਖਾਮੀਪੂਰਨ ਹੈ.
DALL·E ਦੇ ਉਹਨਾਂ ਧਾਰਣਾਵਾਂ ਬਾਰੇ ਗਿਆਨ ਦੀ ਪੜਤਾਲ ਕਰਨ ਦੇ ਨਾਲ-ਨਾਲ ਜੋ ਸਥਾਨ ਦੇ ਨਾਲ ਬਦਲਦੀਆਂ ਹਨ, ਅਸੀਂ ਉਹਨਾਂ ਧਾਰਣਾਵਾਂ ਬਾਰੇ ਇਸਦੇ ਗਿਆਨ ਦੀ ਵੀ ਪੜਤਾਲ ਕਰਦੇ ਹਾਂ ਜੋ ਸਮੇਂ ਦੇ ਨਾਲ ਬਦਲਦੀਆਂ ਹਨ.
DALL·E ਇੱਕ ਸਧਾਰਣ decoder-only ਟ੍ਰਾਂਸਫਾਰਮਰ ਹੈ ਜੋ ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ ਦੋਵੇਂ ਨੂੰ 1280 ਟੋਕਨ ਦੀ ਇੱਕੋ ਧਾਰਾ ਵਜੋਂ ਲੈਂਦਾ ਹੈ—ਟੈਕਸਟ ਲਈ 256 ਅਤੇ ਇਮੇਜ ਲਈ 1024—ਅਤੇ ਉਨ੍ਹਾਂ ਸਭ ਨੂੰ autoregressively ਮਾਡਲ ਕਰਦਾ ਹੈ। ਇਸ ਦੀਆਂ 64 self-attention layers ਵਿੱਚ ਹਰ ਇੱਕ 'ਤੇ attention mask ਹਰ ਇਮੇਜ ਟੋਕਨ ਨੂੰ ਸਾਰੇ ਟੈਕਸਟ ਟੋਕਨਾਂ 'ਤੇ ਧਿਆਨ ਦੇਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। DALL·E ਟੈਕਸਟ ਟੋਕਨਾਂ ਲਈ ਮਿਆਰੀ causal mask ਵਰਤਦਾ ਹੈ, ਅਤੇ ਇਮੇਜ ਟੋਕਨਾਂ ਲਈ ਲੇਅਰ ਦੇ ਅਨੁਸਾਰ row, column ਜਾਂ convolutional attention pattern ਨਾਲ sparse attention ਵਰਤਦਾ ਹੈ। ਅਸੀਂ architecture ਅਤੇ training procedure ਬਾਰੇ ਹੋਰ ਵੇਰਵੇ ਆਪਣੇ paper(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਦਿੰਦੇ ਹਾਂ.
ਟੈਕਸਟ-ਤੋਂ-ਇਮੇਜ synthesis, Reed et. al ਦੇ ਅਗਵਾਈ ਵਾਲੇ ਕੰਮ ਤੋਂ ਲੈ ਕੇ, ਖੋਜ ਦਾ ਇੱਕ ਸਰਗਰਮ ਖੇਤਰ ਰਿਹਾ ਹੈ,1 ਜਿਸਦੀ ਪਹੁੰਚ ਟੈਕਸਟ embeddings 'ਤੇ condition ਕੀਤੇ GAN ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। Embeddings ਇੱਕ encoder ਦੁਆਰਾ ਬਣਾਏ ਜਾਂਦੇ ਹਨ ਜਿਸਨੂੰ contrastive loss ਦੀ ਵਰਤੋਂ ਕਰਕੇ pretrained ਕੀਤਾ ਗਿਆ ਹੁੰਦਾ ਹੈ, ਜੋ CLIP ਤੋਂ ਬਿਲਕੁਲ ਅਲੱਗ ਨਹੀਂ। StackGAN3 ਅਤੇ StackGAN++4 multi-scale GANs ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਇਮੇਜ resolution ਵਧਾਈ ਜਾ ਸਕੇ ਅਤੇ visual fidelity ਸੁਧਾਰੀ ਜਾ ਸਕੇ। AttnGAN5 ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ features ਵਿਚਕਾਰ attention ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਅਤੇ auxiliary objective ਵਜੋਂ contrastive text-image feature matching loss ਸੁਝਾਉਂਦਾ ਹੈ। ਇਸਦੀ ਤੁਲਨਾ CLIP ਨਾਲ ਸਾਡੇ reranking ਨਾਲ ਕਰਨੀ ਦਿਲਚਸਪ ਹੈ, ਜੋ offline ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਹੋਰ ਕੰਮ2, 6, 7 ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ supervision ਦੇ ਵਾਧੂ ਸਰੋਤ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਇਮੇਜ quality ਸੁਧਾਰੀ ਜਾ ਸਕੇ। ਆਖਿਰ ਵਿੱਚ, Nguyen et. al8 ਅਤੇ Cho et. al9 ਦਾ ਕੰਮ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਲਈ sampling-based ਰਣਨੀਤੀਆਂ ਦੀ ਪੜਤਾਲ ਕਰਦਾ ਹੈ ਜੋ pretrained multimodal discriminative models ਦਾ ਲਾਭ ਲੈਂਦੀਆਂ ਹਨ.
VQVAE-2(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਵਰਤੀ rejection sampling ਵਾਂਗ, ਅਸੀਂ ਸਾਰੇ ਇੰਟਰਐਕਟਿਵ ਵਿਜ਼ੂਅਲਜ਼ ਵਿੱਚ ਹਰ caption ਲਈ 512 ਸੈਂਪਲਾਂ ਵਿੱਚੋਂ ਸਿਖਰਲੇ 32 ਨੂੰ rerank ਕਰਨ ਲਈ CLIP ਵਰਤਦੇ ਹਾਂ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ language-guided search16 ਦੀ ਇੱਕ ਕਿਸਮ ਵਜੋਂ ਵੀ ਵੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਇਹ sample quality 'ਤੇ ਨਾਟਕੀ ਪ੍ਰਭਾਵ ਪਾ ਸਕਦੀ ਹੈ.
ਫੁੱਟਨੋਟਸ
- A
ਟੋਕਨ ਇੱਕ discrete vocabulary ਦਾ ਕੋਈ ਵੀ symbol ਹੁੰਦਾ ਹੈ; ਮਨੁੱਖਾਂ ਲਈ, ਹਰ English ਅੱਖਰ 26-ਅੱਖਰੀ ਵਰਣਮਾਲਾ ਦਾ ਇੱਕ ਟੋਕਨ ਹੁੰਦਾ ਹੈ। DALL·E ਦੀ vocabulary ਵਿੱਚ ਟੈਕਸਟ ਅਤੇ ਇਮੇਜ ਦੋਵੇਂ ਧਾਰਣਾਵਾਂ ਲਈ ਟੋਕਨ ਹਨ। ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਹਰ ਇਮੇਜ caption ਨੂੰ 16384 ਦੇ vocabulary size ਨਾਲ ਵੱਧ ਤੋਂ ਵੱਧ 256 BPE-encoded ਟੋਕਨਾਂ ਦੁਆਰਾ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਮੇਜ ਨੂੰ 8192 ਦੇ vocabulary size ਨਾਲ 1024 ਟੋਕਨਾਂ ਦੁਆਰਾ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ।
ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਇਮੇਜਾਂ ਨੂੰ 256x256 resolution ਲਈ preprocess ਕੀਤਾ ਜਾਂਦਾ ਹੈ। VQVAE ਵਾਂਗ, ਹਰ ਇਮੇਜ ਨੂੰ discrete VAE ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਜਿਸਨੂੰ ਅਸੀਂ continuous relaxation ਨਾਲ pretrained ਕੀਤਾ, 32x32 grid ਦੇ discrete ਲੇਟੈਂਟ ਕੋਡਜ਼ ਵਿੱਚ compress ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਅਸੀਂ ਪਾਇਆ ਕਿ relaxation ਦੀ ਵਰਤੋਂ ਨਾਲ ਟ੍ਰੇਨਿੰਗ ਕਰਨ ਨਾਲ explicit codebook, EMA loss, ਜਾਂ dead code revival ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਲੋੜ ਨਹੀਂ ਰਹਿੰਦੀ, ਅਤੇ ਇਹ ਵੱਡੇ vocabulary sizes ਤੱਕ scale ਕਰ ਸਕਦੀ ਹੈ।
- B
ਹੋਰ ਵੇਰਵੇ ਇੱਕ ਅਗਲੇ ਭਾਗ ਵਿੱਚ ਦਿੱਤੇ ਗਏ ਹਨ।
- 17
ਇਸ ਕੰਮ ਨੂੰ variable binding ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਇਸਦਾ ਸਾਹਿਤ ਵਿੱਚ ਵਿਸਤਾਰ ਨਾਲ ਅਧਿਐਨ ਕੀਤਾ ਗਿਆ ਹੈ।
ਹਵਾਲੇ
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “ਜਨਰੇਟਿਵ adversarial text to image synthesis(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “ਕੀ ਅਤੇ ਕਿੱਥੇ ਬਣਾਉਣਾ ਹੈ, ਇਹ ਸਿੱਖਣਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: ਸਟੈਕਡ ਜਨਰੇਟਿਵ adversarial networks ਨਾਲ ਟੈਕਸਟ ਤੋਂ ਫੋਟੋ-ਯਥਾਰਥਿਕ ਇਮੇਜ synthesis(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: ਸਟੈਕਡ ਜਨਰੇਟਿਵ adversarial networks ਨਾਲ ਯਥਾਰਥਿਕ ਇਮੇਜ synthesis(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: attentional ਜਨਰੇਟਿਵ adversarial networks ਨਾਲ ਸੁਖਮ-ਪੱਧਰੀ ਟੈਕਸਟ ਤੋਂ ਇਮੇਜ ਜਨਰੇਸ਼ਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “adversarial ਟ੍ਰੇਨਿੰਗ ਰਾਹੀਂ object-driven text-to-image synthesis(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “fine-grained user attention ਦੁਆਰਾ grounded text-to-image generation(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: latent space ਵਿੱਚ ਇਮੇਜਾਂ ਦੀ ਸ਼ਰਤੀ iterative generation(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: ਮਲਟੀ-ਮੋਡਲ ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਨਾਲ ਪੇਂਟ ਕਰੋ, caption ਦਿਓ, ਅਤੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦਿਓ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”. EMNLP 2020.
- 10
Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed, and Daan Wierstra. “ਡੀਪ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਵਿੱਚ stochastic backpropagation ਅਤੇ approximate inference(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Gumbel-softmax ਨਾਲ categorical reparametrization(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: discrete random variables ਦੀ ਇੱਕ continuous relaxation(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “ਨਿਊਰਲ discrete representation learning(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “VQ-VAE-2 ਨਾਲ ਵਿਭਿੰਨ high-fidelity ਇਮੇਜਾਂ ਜਨਰੇਟ ਕਰਨਾ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Latent Language ਨਾਲ ਲਰਨਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)”.


