ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

20 ਜੂਨ 2024

ਪ੍ਰਕਾਸ਼ਨ

ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲਜ਼ ਦੀ ਟ੍ਰੇਨਿੰਗ ਲਈ ਸੁਧਾਰੀਆਂ ਤਕਨੀਕਾਂ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲਜ਼ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਦਾ ਇੱਕ ਉਭਰਦਾ ਪਰਿਵਾਰ ਹੈ ਜੋ ਵਿਰੋਧੀ ਟ੍ਰੇਨਿੰਗ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਇੱਕ ਹੀ ਕਦਮ ਵਿੱਚ ਉੱਚ-ਗੁਣਵੱਤਾ ਡਾਟਾ ਸੈਂਪਲ ਕਰ ਸਕਦਾ ਹੈ. ਮੌਜੂਦਾ ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲਜ਼ ਪਹਿਲਾਂ ਤੋਂ ਟ੍ਰੇਨ ਕੀਤੇ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਜ਼ ਤੋਂ ਡਿਸਟਿਲ ਕਰਕੇ ਅਤੇ LPIPS ਵਰਗੇ ਸਿੱਖੇ ਹੋਏ ਮੈਟਰਿਕ ਵਰਤਕੇ ਸਭ ਤੋਂ ਵਧੀਆ ਸੈਂਪਲ ਗੁਣਵੱਤਾ ਹਾਸਲ ਕਰਦੇ ਹਨ. ਹਾਲਾਂਕਿ, ਡਿਸਟਿਲੇਸ਼ਨ ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲਜ਼ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਪਹਿਲਾਂ ਤੋਂ ਟ੍ਰੇਨ ਕੀਤੇ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲ ਤੱਕ ਸੀਮਿਤ ਕਰ ਦਿੰਦੀ ਹੈ, ਅਤੇ LPIPS ਮੁਲਾਂਕਣ ਵਿੱਚ ਅਣਚਾਹੀ ਪੱਖਪਾਤ ਪੈਦਾ ਕਰਦਾ ਹੈ. ਇਨ੍ਹਾਂ ਚੁਣੌਤੀਆਂ ਦਾ ਮੁਕਾਬਲਾ ਕਰਨ ਲਈ, ਅਸੀਂ ਕਨਸਿਸਟੈਂਸੀ ਟ੍ਰੇਨਿੰਗ ਲਈ ਸੁਧਾਰੀਆਂ ਤਕਨੀਕਾਂ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲਜ਼ ਬਿਨਾਂ ਡਿਸਟਿਲੇਸ਼ਨ ਸਿੱਧੇ ਡਾਟਾ ਤੋਂ ਸਿੱਖਦੇ ਹਨ. ਅਸੀਂ ਕਨਸਿਸਟੈਂਸੀ ਟ੍ਰੇਨਿੰਗ ਦੇ ਪਿੱਛੇ ਦੀ ਥਿਊਰੀ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਦੇ ਹਾਂ ਅਤੇ ਇੱਕ ਅਜਿਹੀ ਖਾਮੀ ਦੀ ਪਹਿਚਾਣ ਕਰਦੇ ਹਾਂ ਜਿਸ ਨੂੰ ਪਹਿਲਾਂ ਨਜ਼ਰਅੰਦਾਜ਼ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਦਾ ਅਸੀਂ ਅਧਿਆਪਕ ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲ ਤੋਂ Exponential Moving Average ਹਟਾ ਕੇ ਹੱਲ ਕਰਦੇ ਹਾਂ. LPIPS ਵਰਗੇ ਸਿੱਖੇ ਹੋਏ ਮੈਟਰਿਕਾਂ ਦੀ ਥਾਂ ਲੈਣ ਲਈ, ਅਸੀਂ ਮਜ਼ਬੂਤ ਅੰਕੜਾ-ਵਿਗਿਆਨ ਤੋਂ Pseudo-Huber loss ਅਪਣਾਉਂਦੇ ਹਾਂ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਕਨਸਿਸਟੈਂਸੀ ਟ੍ਰੇਨਿੰਗ ਉਦੇਸ਼ ਲਈ ਇੱਕ ਲੋਗਨਾਰਮਲ ਨੋਇਜ਼ ਸਕੈਡਿਊਲ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਸੁਝਾਅ ਦਿੰਦੇ ਹਾਂ ਕਿ ਨਿਰਧਾਰਤ ਗਿਣਤੀ ਦੀਆਂ ਟ੍ਰੇਨਿੰਗ ਇਟਰੇਸ਼ਨਾਂ ਤੋਂ ਬਾਅਦ ਕੁੱਲ ਡਿਸਕ੍ਰੀਟਾਈਜ਼ੇਸ਼ਨ ਕਦਮਾਂ ਨੂੰ ਦੋਗੁਣਾ ਕੀਤਾ ਜਾਵੇ. ਬਿਹਤਰ ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਟਿਊਨਿੰਗ ਨਾਲ ਮਿਲਾਕੇ, ਇਹ ਸੋਧਾਂ ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲਜ਼ ਨੂੰ ਇੱਕੋ ਸੈਂਪਲਿੰਗ ਕਦਮ ਵਿੱਚ ਕ੍ਰਮਵਾਰ CIFAR-10 ਅਤੇ ImageNet 64×64 'ਤੇ 2.51 ਅਤੇ 3.25 ਦੇ FID ਸਕੋਰ ਹਾਸਲ ਕਰਨ ਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ. ਇਹ ਸਕੋਰ ਪਹਿਲਾਂ ਦੀਆਂ ਕਨਸਿਸਟੈਂਸੀ ਟ੍ਰੇਨਿੰਗ ਪੱਧਤੀਆਂ ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਤੇ 3.5× ਅਤੇ 4× ਦਾ ਸੁਧਾਰ ਦਰਸਾਉਂਦੇ ਹਨ. ਦੋ-ਕਦਮੀ ਸੈਂਪਲਿੰਗ ਰਾਹੀਂ, ਅਸੀਂ ਇਨ੍ਹਾਂ ਦੋਨਾਂ ਡਾਟਾਸੈਟਾਂ 'ਤੇ FID ਸਕੋਰ ਹੋਰ ਘਟਾ ਕੇ 2.24 ਅਤੇ 2.77 ਕਰ ਦਿੰਦੇ ਹਾਂ, ਜਿਸ ਨਾਲ ਇੱਕ-ਕਦਮ ਅਤੇ ਦੋ-ਕਦਮ ਦੋਵੇਂ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਡਿਸਟਿਲੇਸ਼ਨ ਰਾਹੀਂ ਮਿਲੇ ਸਕੋਰਾਂ ਤੋਂ ਵੀ ਅੱਗੇ ਨਿਕਲਦੇ ਹਾਂ, ਅਤੇ ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲਜ਼ ਅਤੇ ਹੋਰ ਅਧੁਨਿਕ ਜਨਰੇਟਿਵ ਮਾਡਲਜ਼ ਵਿਚਕਾਰ ਫਰਕ ਨੂੰ ਹੋਰ ਘਟਾਉਂਦੇ ਹਾਂ.