CLIP ਲੇਟੈਂਟਸ ਨਾਲ ਹਾਇਰਾਰਕੀਕਲ ਟੈਕਸਟ-ਕੰਡੀਸ਼ਨਲ ਇਮੇਜ ਜਨਰੇਸ਼ਨ

CLIP ਵਰਗੇ ਕਾਂਟ੍ਰਾਸਟਿਵ ਮਾਡਲਜ਼ ਨੇ ਇਹ ਦਿਖਾਇਆ ਹੈ ਕਿ ਉਹ ਚਿੱਤਰਾਂ ਦੀਆਂ ਮਜ਼ਬੂਤ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਸਿੱਖਦੇ ਹਨ ਜੋ ਅਰਥ ਅਤੇ ਸ਼ੈਲੀ ਦੋਵਾਂ ਨੂੰ ਕੈਪਚਰ ਕਰਦੀਆਂ ਹਨ. ਇਨ੍ਹਾਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਲਈ ਵਰਤਣ ਵਾਸਤੇ, ਅਸੀਂ ਦੋ-ਪੜਾਅ ਵਾਲਾ ਮਾਡਲ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ: ਇੱਕ ਪ੍ਰਾਇਅਰ ਜੋ ਟੈਕਸਟ ਕੈਪਸ਼ਨ ਦੇ ਆਧਾਰ ਤੇ CLIP ਇਮੇਜ ਐਮਬੈਡਿੰਗ ਬਣਾਉਂਦਾ ਹੈ, ਅਤੇ ਇੱਕ ਡੀਕੋਡਰ ਜੋ ਇਮੇਜ ਐਮਬੈਡਿੰਗ ਦੇ ਆਧਾਰ ਤੇ ਚਿੱਤਰ ਬਣਾਉਂਦਾ ਹੈ. ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਚਿੱਤਰ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ ਤੇ ਬਣਾਉਣ ਨਾਲ ਫੋਟੋਰੀਅਲਿਜ਼ਮ ਅਤੇ ਕੈਪਸ਼ਨ ਸਮਾਨਤਾ ਵਿੱਚ ਘੱਟ ਤੋਂ ਘੱਟ ਘਾਟੇ ਨਾਲ ਚਿੱਤਰਾਂ ਦੀ ਵਿਭਿੰਨਤਾ ਸੁਧਰਦੀ ਹੈ. ਸਾਡੀਆਂ ਇਮੇਜ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ-ਅਧਾਰਿਤ ਡੀਕੋਡਰਾਂ ਚਿੱਤਰ ਦੇ ਅਜੇਹੇ ਰੂਪਾਂਤਰ ਵੀ ਬਣਾ ਸਕਦੀਆਂ ਹਨ ਜੋ ਇਸਦਾ ਅਰਥ ਅਤੇ ਸ਼ੈਲੀ ਦੋਵੇਂ ਕਾਇਮ ਰੱਖਣ, ਜਦਕਿ ਉਹ ਗੈਰ-ਅਹਿਮ ਵੇਰਵੇ ਬਦਲਣ ਜੋ ਇਮੇਜ ਪ੍ਰਤੀਨਿਧਤਾ ਵਿੱਚ ਮੌਜੂਦ ਨਹੀਂ ਹਨ. ਇਸ ਤੋਂ ਇਲਾਵਾ, CLIP ਦਾ ਸਾਂਝਾ ਐਮਬੈਡਿੰਗ ਸਪੇਸ ਭਾਸ਼ਾ-ਮਾਰਗਦਰਸ਼ਿਤ ਚਿੱਤਰ ਸੰਪਾਦਨ ਨੂੰ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਢੰਗ ਨਾਲ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ. ਅਸੀਂ ਡੀਕੋਡਰ ਲਈ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਜ਼ ਵਰਤਦੇ ਹਾਂ ਅਤੇ ਪ੍ਰਾਇਅਰ ਲਈ ਆਟੋਰੀਗ੍ਰੈਸਿਵ ਅਤੇ ਡਿਫਿਊਜ਼ਨ ਦੋਵੇਂ ਮਾਡਲਜ਼ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਦੂਜੇ ਗਣਨਾਤਮਕ ਤੌਰ ਤੇ ਵੱਧ ਕੁਸ਼ਲ ਹਨ ਅਤੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਮੂਨੇ ਤਿਆਰ ਕਰਦੇ ਹਨ.


