17 ਸਤੰਬਰ 2019

ਮਲਟੀ-ਏਜੰਟ ਅੰਤਰਕਿਰਿਆ ਤੋਂ ਉਭਰਦੀ ਟੂਲ ਵਰਤੋਂ

ਸਲੇਟੀ ਗ੍ਰਿਡ ਦਾ ਆਈਸੋਮੈਟ੍ਰਿਕ ਦ੍ਰਿਸ਼ ਜਿਸਦੇ ਹਰ ਖਾਨੇ ਵਿੱਚ ਮਲਟੀ-ਏਜੰਟ ਲੁੱਕਣ-ਮਿੱਠੀ ਖੇਡ ਰਹੇ ਹਨ

ਚਿੱਤਰਣ: Ben Barry

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ ਏਜੰਟਾਂ ਨੂੰ ਲੁੱਕਣ-ਮਿੱਠੀ ਦੀ ਇੱਕ ਸਧਾਰਣ ਖੇਡ ਖੇਡਦਿਆਂ ਧੀਰੇ-ਧੀਰੇ ਹੋਰ ਜਟਿਲ ਟੂਲ ਵਰਤੋਂ ਖੋਜਦੇ ਵੇਖਿਆ ਹੈ. ਸਾਡੇ ਨਵੇਂ ਸਿਮੂਲੇਟ ਕੀਤੇ ਲੁੱਕਣ-ਮਿੱਠੀ ਵਾਤਾਵਰਣ ਵਿੱਚ ਟ੍ਰੇਨਿੰਗ ਰਾਹੀਂ, ਏਜੰਟ ਛੇ ਵੱਖਰੀਆਂ ਰਣਨੀਤੀਆਂ ਅਤੇ ਵਿਰੋਧੀ ਰਣਨੀਤੀਆਂ ਦੀ ਇੱਕ ਲੜੀ ਬਣਾਉਂਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕੁਝ ਬਾਰੇ ਸਾਨੂੰ ਪਤਾ ਨਹੀਂ ਸੀ ਕਿ ਸਾਡਾ ਵਾਤਾਵਰਣ ਸਮਰਥਨ ਕਰਦਾ ਹੈ. ਇਸ ਸਧਾਰਣ ਵਾਤਾਵਰਣ ਵਿੱਚ ਸਵੈ-ਨਿਗਰਾਨੀ ਵਾਲੀ ਉਭਰਦੀ ਜਟਿਲਤਾ ਇਹ ਵੀ ਸੁਝਾਉਂਦੀ ਹੈ ਕਿ ਬਹੁ-ਏਜੰਟ ਸਹਿ-ਅਨੁਕੂਲਨ ਕਿਸੇ ਦਿਨ ਬਹੁਤ ਹੀ ਜਟਿਲ ਅਤੇ ਬੁੱਧੀਮਾਨ ਵਿਹਾਰ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ.

ਸਾਡੇ ਵਾਤਾਵਰਣ ਵਿੱਚ, ਏਜੰਟ ਟੀਮ-ਅਧਾਰਿਤ ਲੁੱਕਣ-ਮਿੱਠੀ ਦੀ ਖੇਡ ਖੇਡਦੇ ਹਨ. ਲੁਕਣ ਵਾਲਿਆਂ (ਨੀਲੇ) ਦਾ ਕੰਮ ਖੋਜਣ ਵਾਲਿਆਂ (ਲਾਲ) ਦੀ ਨਜ਼ਰ ਤੋਂ ਬਚਣਾ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਖੋਜਣ ਵਾਲਿਆਂ ਦਾ ਕੰਮ ਲੁਕਣ ਵਾਲਿਆਂ ਨੂੰ ਨਜ਼ਰ ਵਿੱਚ ਰੱਖਣਾ ਹੁੰਦਾ ਹੈ. ਵਾਤਾਵਰਣ ਵਿੱਚ ਚੀਜ਼ਾਂ ਇੱਧਰ-ਉੱਧਰ ਪਈਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਲੁਕਣ ਵਾਲੇ ਅਤੇ ਖੋਜਣ ਵਾਲੇ ਫੜ ਸਕਦੇ ਹਨ ਅਤੇ ਥਾਂ 'ਤੇ ਲਾਕ ਕਰ ਸਕਦੇ ਹਨ, ਨਾਲ ਹੀ ਯਾਦਰਚਿੱਛ ਤੌਰ 'ਤੇ ਬਣੇ ਅਸਥਿਰ ਕਮਰੇ ਅਤੇ ਕੰਧਾਂ ਵੀ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਏਜੰਟਾਂ ਨੂੰ ਰਸਤਾ ਕੱਢਣਾ ਸਿੱਖਣਾ ਪੈਂਦਾ ਹੈ. ਖੇਡ ਸ਼ੁਰੂ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ, ਲੁਕਣ ਵਾਲਿਆਂ ਨੂੰ ਤਿਆਰੀ ਦਾ ਇੱਕ ਪੜਾਅ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਜਿਸ ਦੌਰਾਨ ਖੋਜਣ ਵਾਲੇ ਅਸਥਿਰ ਰੱਖੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਜੋ ਲੁਕਣ ਵਾਲਿਆਂ ਨੂੰ ਭੱਜਣ ਜਾਂ ਆਪਣਾ ਵਾਤਾਵਰਣ ਬਦਲਣ ਦਾ ਮੌਕਾ ਮਿਲੇ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਵਾਤਾਵਰਣ ਵਿੱਚ ਆਬਜੈਕਟਾਂ ਨਾਲ ਅੰਤਰਕਿਰਿਆ ਕਰਨ ਲਈ ਏਜੰਟਾਂ ਨੂੰ ਕੋਈ ਸਪਸ਼ਟ ਪ੍ਰੋਤਸਾਹਨ ਨਹੀਂ ਦਿੱਤੇ ਜਾਂਦੇ. ਦਿੱਤੀ ਜਾਣ ਵਾਲੀ ਇਕੱਲੀ ਨਿਗਰਾਨੀ ਲੁੱਕਣ-ਮਿੱਠੀ ਦੇ ਉਦੇਸ਼ ਰਾਹੀਂ ਹੁੰਦੀ ਹੈ. ਏਜੰਟਾਂ ਨੂੰ ਟੀਮ-ਅਧਾਰਿਤ ਰਿਵਾਰਡ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ. ਜੇ ਸਾਰੇ ਲੁਕਣ ਵਾਲੇ ਲੁਕੇ ਹੋਏ ਹੋਣ ਤਾਂ ਲੁਕਣ ਵਾਲਿਆਂ ਨੂੰ +1 ਦਾ ਰਿਵਾਰਡ ਮਿਲਦਾ ਹੈ ਅਤੇ ਜੇ ਕਿਸੇ ਵੀ ਲੁਕਣ ਵਾਲੇ ਨੂੰ ਖੋਜੀ ਦੇਖ ਲਏ ਤਾਂ -1 ਮਿਲਦਾ ਹੈ. ਖੋਜਣ ਵਾਲਿਆਂ ਨੂੰ ਇਸਦਾ ਉਲਟ ਰਿਵਾਰਡ ਮਿਲਦਾ ਹੈ, ਜੇ ਸਾਰੇ ਲੁਕਣ ਵਾਲੇ ਲੁਕੇ ਹੋਏ ਹੋਣ ਤਾਂ -1 ਅਤੇ ਨਹੀਂ ਤਾਂ +1. ਏਜੰਟ ਦੇ ਵਿਹਾਰ ਨੂੰ ਇੱਕ ਉਚਿਤ ਸੀਮਾ ਵਿੱਚ ਰੱਖਣ ਲਈ, ਜੇ ਏਜੰਟ ਖੇਡ ਖੇਤਰ ਤੋਂ ਬਹੁਤ ਦੂਰ ਚਲੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਉਹਨਾਂ 'ਤੇ ਜੁਰਮਾਨਾ ਲੱਗਦਾ ਹੈ. ਤਿਆਰੀ ਪੜਾਅ ਦੌਰਾਨ, ਸਾਰੇ ਏਜੰਟਾਂ ਨੂੰ ਸਿਫ਼ਰ ਰਿਵਾਰਡ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ.

ਆਟੋਕਰਿਕੁਲਾ ਅਤੇ ਉਭਰਦਾ ਵਿਹਾਰ

ਜਿਵੇਂ ਜਿਵੇਂ ਏਜੰਟ ਲੁੱਕਣ-ਮਿੱਠੀ ਵਿੱਚ ਇੱਕ ਦੂਜੇ ਦੇ ਖ਼ਿਲਾਫ਼ ਟ੍ਰੇਨ ਹੁੰਦੇ ਹਨ, ਵੱਧ ਤੋਂ ਵੱਧ ਛੇ ਵੱਖਰੀਆਂ ਰਣਨੀਤੀਆਂ ਉਭਰਦੀਆਂ ਹਨ. ਹਰ ਨਵੀਂ ਰਣਨੀਤੀ ਏਜੰਟਾਂ ਲਈ ਅਗਲੇ ਪੜਾਅ ਵੱਲ ਵਧਣ ਲਈ ਪਹਿਲਾਂ ਮੌਜੂਦ ਨਾ ਰਹੇ ਦਬਾਅ ਨੂੰ ਪੈਦਾ ਕਰਦੀ ਹੈ. ਧਿਆਨ ਦਿਓ ਕਿ ਏਜੰਟਾਂ ਲਈ ਆਬਜੈਕਟਾਂ ਨਾਲ ਅੰਤਰਕਿਰਿਆ ਕਰਨ ਜਾਂ ਖੋਜ ਕਰਨ ਲਈ ਕੋਈ ਸਿੱਧੇ ਪ੍ਰੋਤਸਾਹਨ ਨਹੀਂ ਹਨ. ਇਸ ਦੀ ਬਜਾਇ, ਹੇਠਾਂ ਦਿਖਾਈਆਂ ਉਭਰਦੀਆਂ ਰਣਨੀਤੀਆਂ ਬਹੁ-ਏਜੰਟ ਮੁਕਾਬਲੇ ਅਤੇ ਲੁੱਕਣ-ਮਿੱਠੀ ਦੀਆਂ ਸਰਲ ਗਤੀਵਿਧੀਆਂ ਦੁਆਰਾ ਪ੍ਰੇਰਿਤ ਆਟੋਕਰਿਕੁਲਮ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ ਨਤੀਜਾ ਹਨ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਲੁੱਕਣ-ਮਿੱਠੀ ਏਜੰਟਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ

ਅਸੀਂ ਉਹੀ ਟ੍ਰੇਨਿੰਗ ਢਾਂਚਾ ਅਤੇ ਐਲਗੋਰਿਦਮ ਵਰਤਦੇ ਹਾਂ ਜੋ OpenAI Five⁠ ਅਤੇ Dactyl⁠ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਵਰਤੇ ਗਏ ਸਨ. ਹਾਲਾਂਕਿ, ਸਾਡੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਹਰ ਏਜੰਟ ਆਪਣੀਆਂ ਖੁਦ ਦੀਆਂ ਨਿਰੀਖਣਾਂ ਅਤੇ ਲੁਕੀ ਹੋਈ ਮੈਮਰੀ ਸਟੇਟ ਦੀ ਵਰਤੋਂ ਕਰਦਿਆਂ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ. ਏਜੰਟ ਦੁਨੀਆ ਦੀ ਇਕਾਈ-ਕੇਂਦ੍ਰਿਤ ਸਟੇਟ-ਅਧਾਰਿਤ ਰਿਪ੍ਰਿਜ਼ੈਂਟੇਸ਼ਨ ਵਰਤਦੇ ਹਨ, ਜੋ ਆਬਜੈਕਟਾਂ ਅਤੇ ਹੋਰ ਏਜੰਟਾਂ ਦੇ ਸਬੰਧ ਵਿੱਚ ਪਰਮਿਊਟੇਸ਼ਨ ਇਨਵੈਰੀਅੰਟ ਹੈ.

ਹਰ ਆਬਜੈਕਟ ਨੂੰ ਐਂਬੈੱਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਫਿਰ ਮਾਸਕ ਕੀਤੇ ਰੇਜ਼ਿਡੂਅਲ ਸੈਲਫ-ਅਟੈਂਸ਼ਨ ਬਲਾਕ ਵਿੱਚੋਂ ਲੰਘਾਇਆ ਜਾਂਦਾ ਹੈ, ਉਹਨਾਂ ਵਰਗਾ ਜੋ ਟ੍ਰਾਂਸਫਾਰਮਰਾਂ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਹਨ, ਜਿੱਥੇ ਅਟੈਂਸ਼ਨ ਸਮੇਂ ਦੀ ਬਜਾਇ ਆਬਜੈਕਟਾਂ ਉੱਤੇ ਹੁੰਦੀ ਹੈ. ਜੋ ਆਬਜੈਕਟ ਨਜ਼ਰ ਦੀ ਲਾਈਨ ਵਿੱਚ ਨਹੀਂ ਹਨ ਅਤੇ ਏਜੰਟ ਦੇ ਸਾਹਮਣੇ ਨਹੀਂ ਹਨ ਉਹਨਾਂ ਨੂੰ ਮਾਸਕ ਆਉਟ ਕਰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਏਜੰਟ ਕੋਲ ਉਹਨਾਂ ਬਾਰੇ ਕੋਈ ਜਾਣਕਾਰੀ ਨਾ ਹੋਵੇ.

ਏਜੰਟ ਪਾਲਿਸੀਆਂ ਨੂੰ ਸੈਲਫ-ਪਲੇ⁠ ਅਤੇ ਪ੍ਰਾਕਸਿਮਲ ਪਾਲਿਸੀ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ⁠ ਨਾਲ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ. ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਦੌਰਾਨ, ਏਜੰਟ ਆਪਣੀ ਵੈਲਯੂ ਫੰਕਸ਼ਨ ਵਿੱਚ ਓਹਲੇ ਪਏ ਆਬਜੈਕਟਾਂ ਅਤੇ ਹੋਰ ਏਜੰਟਾਂ ਬਾਰੇ ਵਿਸ਼ੇਸ਼ ਜਾਣਕਾਰੀ ਵਰਤ ਸਕਦੇ ਹਨ.

ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਵੱਡੇ ਪੈਮਾਨੇ ਦੀ ਟ੍ਰੇਨਿੰਗ ਏਜੰਟਾਂ ਲਈ ਉਭਾਰ ਦੇ ਵੱਖ-ਵੱਖ ਪੜਾਵਾਂ ਵਿੱਚ ਅੱਗੇ ਵਧਣ ਲਈ ਨਿਰਣਾਇਕ ਸੀ. ਹੇਠਾਂ ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਵੱਖ-ਵੱਖ ਬੈਚ ਆਕਾਰਾਂ ਲਈ ਪੜਾਅ 4 (ਰੈਂਪ ਰੱਖਿਆ) ਤੱਕ ਪਹੁੰਚਣ ਵਿੱਚ ਏਜੰਟਾਂ ਨੂੰ ਕਿੰਨਾ ਸਮਾਂ ਅਤੇ ਕਿੰਨੇ ਐਪੀਸੋਡ ਲੱਗਦੇ ਹਨ. ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਬੈਚ ਆਕਾਰ ਵਧਾਉਣ ਨਾਲ ਕਨਵਰਜੈਂਸ ਤੱਕ ਪਹੁੰਚਣ ਦੇ ਵਾਲ-ਕਲਾਕ ਸਮੇਂ ਵਿੱਚ ਬਹੁਤ ਤੇਜ਼ੀ ਆਉਂਦੀ ਹੈ, ਹਾਲਾਂਕਿ 32k ਜਾਂ ਇਸ ਤੋਂ ਉੱਪਰ ਸੈਂਪਲ ਕੁਸ਼ਲਤਾ 'ਤੇ ਇਸਦਾ ਵੱਡਾ ਅਸਰ ਨਹੀਂ ਪੈਂਦਾ. ਪਰ ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ 8k ਅਤੇ 16k ਦੇ ਬੈਚ ਆਕਾਰ ਨਿਰਧਾਰਿਤ ਐਪੀਸੋਡਾਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ ਕਦੇ ਵੀ ਪੜਾਅ 4 ਤੱਕ ਨਹੀਂ ਪਹੁੰਚੇ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਮਲਟੀ-ਏਜੰਟ ਮੁਕਾਬਲਾ ਵਿਰੁੱਧ ਅੰਤਰਿਕ ਪ੍ਰੇਰਣਾ

ਇਸ ਕੰਮ ਵਿੱਚ ਅਸੀਂ ਸਬੂਤ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਏਜੰਟ ਲੁੱਕਣ-ਮਿੱਠੀ ਵਿੱਚ ਸਵੈ-ਨਿਗਰਾਨੀ ਵਾਲੇ ਆਟੋਕਰਿਕੁਲਮ ਰਾਹੀਂ ਜਟਿਲ ਰਣਨੀਤੀਆਂ ਅਤੇ ਵਿਰੋਧੀ ਰਣਨੀਤੀਆਂ ਸਿੱਖਦੇ ਹਨ. ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੇ ਢੰਗ ਨਾਲ ਕੁਸ਼ਲਤਾਵਾਂ ਸਿੱਖਣ ਦਾ ਇੱਕ ਹੋਰ ਤਰੀਕਾ ਅੰਤਰਿਕ ਪ੍ਰੇਰਣਾ ਹੈ, ਜੋ ਮਾਡਲ ਗਲਤੀ ਜਾਂ ਸਟੇਟ ਗਿਣਤੀ ਵਰਗੇ ਵੱਖ-ਵੱਖ ਮੈਟ੍ਰਿਕਾਂ ਨਾਲ ਏਜੰਟਾਂ ਨੂੰ ਖੋਜ ਲਈ ਪ੍ਰੋਤਸਾਹਿਤ ਕਰਦੀ ਹੈ. ਅਸੀਂ ਆਪਣੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਗਿਣਤੀ-ਅਧਾਰਿਤ ਐਕਸਪਲੋਰੇਸ਼ਨ ਚਲਾਇਆ, ਜਿਸ ਵਿੱਚ ਏਜੰਟ ਉਹਨਾਂ ਸਟੇਟਾਂ ਦੀ ਸਪਸ਼ਟ ਗਿਣਤੀ ਰੱਖਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਉਹ ਦੌਰਾ ਕਰ ਚੁੱਕੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਸਟੇਟਾਂ ਵੱਲ ਜਾਣ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਜਿੱਥੇ ਘੱਟ ਵਾਰ ਜਾਇਆ ਗਿਆ ਹੋਵੇ. ਇਸ ਸੈਟਿੰਗ ਵਿੱਚ ਟਿਊਨ ਕਰਨ ਲਈ ਮੁੱਖ ਮਾਡਲਿੰਗ ਚੋਣ ਸਟੇਟ ਰਿਪ੍ਰਿਜ਼ੈਂਟੇਸ਼ਨ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਆਪਣੇ ਪਹਿਲੇ ਬੇਸਲਾਈਨ ਵਿੱਚ ਅਸੀਂ ਸਟੇਟ ਵਿੱਚ ਸਿਰਫ਼ 2-D ਬਾਕਸ ਸਥਿਤੀਆਂ ਸ਼ਾਮਲ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਜੋ ਏਜੰਟਾਂ ਨੂੰ ਕੇਵਲ ਨਵੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਬਾਕਸਾਂ ਨਾਲ ਅੰਤਰਕਿਰਿਆ ਕਰਨ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਹਿਲਾਉਣ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ ਜਾਵੇ. ਫਿਰ ਅਸੀਂ ਇਸਦੀ ਤੁਲਨਾ ਇੱਕ ਗਿਣਤੀ-ਅਧਾਰਿਤ ਪਾਲਿਸੀ ਨਾਲ ਕਰਦੇ ਹਾਂ ਜੋ ਉਹ ਪੂਰਾ ਸਟੇਟ ਲੈਂਦੀ ਹੈ ਜੋ ਲੁੱਕਣ-ਮਿੱਠੀ ਖੇਡਣ ਵਾਲੇ ਏਜੰਟਾਂ ਨੂੰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜਿਵੇਂ ਦੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਲੁੱਕਣ-ਮਿੱਠੀ ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤੇ ਏਜੰਟ ਗੁਣਾਤਮਕ ਤੌਰ 'ਤੇ ਕਾਫ਼ੀ ਵੱਧ ਮਨੁੱਖ-ਵਿਆਖਿਆਯੋਗ ਵਿਹਾਰਾਂ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਕੇਂਦ੍ਰਿਤ ਹਨ, ਜਿਵੇਂ ਆਸਰਾ ਬਣਾਉਣਾ, ਜਦਕਿ ਅੰਤਰਿਕ ਪ੍ਰੇਰਣਾ ਨਾਲ ਟ੍ਰੇਨ ਕੀਤੇ ਏਜੰਟ ਚੀਜ਼ਾਂ ਨੂੰ ਬਿਨਾਂ ਕਿਸੇ ਸਪਸ਼ਟ ਦਿਸ਼ਾ ਦੇ ਹਿਲਾਉਂਦੇ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜਿਵੇਂ ਸਟੇਟ ਸਪੇਸ ਦੀ ਜਟਿਲਤਾ ਵਧਦੀ ਹੈ, ਸਾਨੂੰ ਮਿਲਦਾ ਹੈ ਕਿ ਅੰਤਰਿਕ ਪ੍ਰੇਰਣਾ ਵਿਧੀਆਂ ਦਾ ਆਪਣੇ ਵਾਤਾਵਰਣ ਦੀਆਂ ਚੀਜ਼ਾਂ ਨਾਲ ਅਰਥਪੂਰਨ ਅੰਤਰਕਿਰਿਆ ਘੱਟਦੀ ਜਾਂਦੀ ਹੈ. ਇਸ ਕਾਰਨ, ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਜਿਵੇਂ ਜਿਵੇਂ ਵਾਤਾਵਰਣ ਆਕਾਰ ਅਤੇ ਜਟਿਲਤਾ ਵਿੱਚ ਵਧਦੇ ਜਾਣਗੇ, ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਦੇ ਮਨੁੱਖ-ਸੰਬੰਧਤ ਕੁਸ਼ਲਤਾਵਾਂ ਪੈਦਾ ਕਰਨ ਲਈ ਬਹੁ-ਏਜੰਟ ਮੁਕਾਬਲਾ ਹੋਰ ਵੱਧ ਸਕੇਲਯੋਗ ਵਿਧੀ ਹੋਵੇਗੀ.

ਮੁਲਾਂਕਣ ਵਜੋਂ ਟ੍ਰਾਂਸਫਰ ਅਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ

ਪਿਛਲੇ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਲੁੱਕਣ-ਮਿੱਠੀ ਵਿੱਚ ਸਿੱਖੇ ਵਿਹਾਰਾਂ ਦੀ ਗੁਣਾਤਮਕ ਤੌਰ 'ਤੇ ਤੁਲਨਾ ਅੰਤਰਿਕ ਪ੍ਰੇਰਣਾ ਨਾਲ ਸਿੱਖੇ ਵਿਹਾਰਾਂ ਨਾਲ ਕਰਦੇ ਹਾਂ. ਪਰ ਜਿਵੇਂ ਜਿਵੇਂ ਵਾਤਾਵਰਣ ਦਾ ਪੈਮਾਨਾ ਵਧਦਾ ਹੈ, ਤਿਵੇਂ ਤਿਵੇਂ ਤਰੱਕੀ ਨੂੰ ਗੁਣਾਤਮਕ ਤੌਰ 'ਤੇ ਮਾਪਣ ਦੀ ਮੁਸ਼ਕਲ ਵੀ ਵਧੇਗੀ. ਬਹੁ-ਏਜੰਟ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਰਿਵਾਰਡ ਦਾ ਪਤਾ ਰੱਖਣਾ ਇੱਕ ਅਪਰਿਆਪਤ ਮੁਲਾਂਕਣ ਮਾਪਦੰਡ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਦਰਸਾਉਣ ਵਿੱਚ ਅਸਪਸ਼ਟ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਏਜੰਟ ਇਕਸਾਰ ਸੁਧਾਰ ਕਰ ਰਹੇ ਹਨ ਜਾਂ ਠਹਿਰ ਗਏ ਹਨ. ELO ਜਾਂ Trueskill ਵਰਗੇ ਮੈਟ੍ਰਿਕ ਹੋਰ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਮਾਪ ਸਕਦੇ ਹਨ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਪਿਛਲੇ ਪਾਲਿਸੀ ਵਰਜਨਾਂ ਜਾਂ ਕਿਸੇ ਆਬਾਦੀ ਵਿੱਚ ਹੋਰ ਪਾਲਿਸੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਸੁਧਰ ਰਿਹਾ ਹੈ ਜਾਂ ਨਹੀਂ. ਹਾਲਾਂਕਿ, ਇਹ ਮੈਟ੍ਰਿਕ ਫਿਰ ਵੀ ਇਹ ਸਮਝ ਨਹੀਂ ਦਿੰਦੇ ਕਿ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਨਵੀਆਂ ਅਨੁਕੂਲਤਾਵਾਂ ਕਾਰਨ ਹੈ ਜਾਂ ਪਹਿਲਾਂ ਸਿੱਖੀਆਂ ਕੁਸ਼ਲਤਾਵਾਂ ਦੇ ਸੁਧਾਰ ਕਾਰਨ. ਆਖ਼ਰ ਵਿੱਚ, ਵਾਤਾਵਰਣ-ਵਿਸ਼ੇਸ਼ ਅੰਕੜਿਆਂ ਜਿਵੇਂ ਵਸਤੂ ਹਿਲਚਲ ਦੀ ਵਰਤੋਂ ਵੀ ਅਸਪਸ਼ਟ ਹੋ ਸਕਦੀ ਹੈ (ਉਦਾਹਰਨ ਲਈ, ਪੂਰੀ ਹਿਲਚਲ ਨੂੰ ਟ੍ਰੈਕ ਕਰਨ ਦੀ ਚੋਣ ਇਹ ਨਹੀਂ ਦੱਸਦੀ ਕਿ ਏਜੰਟ ਕਿਸ ਦਿਸ਼ਾ ਵਿੱਚ ਹਿਲੇ), ਅਤੇ ਜਿਵੇਂ ਜਿਵੇਂ ਵਾਤਾਵਰਣ ਦਾ ਪੈਮਾਨਾ ਵਧੇਗਾ, ਪ੍ਰਯਾਪਤ ਮੈਟ੍ਰਿਕ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਮੁਸ਼ਕਲ ਅਤੇ ਮਹਿੰਗਾ ਹੋ ਜਾਵੇਗਾ.

ਅਸੀਂ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਬੁੱਧੀਮਤਾ ਟੈਸਟਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਦੀ ਵਰਤੋਂ ਦਾ ਪ੍ਰਸਤਾਵ ਰੱਖਦੇ ਹਾਂ ਜੋ ਉਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਏਜੰਟ ਆਖ਼ਿਰਕਾਰ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ. ਇਹਨਾਂ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਟ੍ਰਾਂਸਫਰ ਪ੍ਰਦਰਸ਼ਨ ਰਿਪ੍ਰਿਜ਼ੈਂਟੇਸ਼ਨ ਗੁਣਵੱਤਾ ਜਾਂ ਕੁਸ਼ਲਤਾ ਦਾ ਇੱਕ ਗਿਣਤੀਯੋਗ ਮਾਪ ਬਣ ਸਕਦਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਗਿਣਤੀ-ਅਧਾਰਿਤ ਐਕਸਪਲੋਰੇਸ਼ਨ ਨਾਲ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਦੇ ਨਾਲ ਨਾਲ ਸਕ੍ਰੈਚ ਤੋਂ ਟ੍ਰੇਨ ਕੀਤੇ ਬੇਸਲਾਈਨ ਨਾਲ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਹਾਲਾਂਕਿ ਲੁੱਕਣ-ਮਿੱਠੀ ਏਜੰਟ ਕਈ ਟ੍ਰਾਂਸਫਰ ਟਾਸਕਾਂ 'ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਹ ਪ੍ਰਦਰਸ਼ਨ ਜਾਂ ਕਨਵਰਜੈਂਸ ਸਮੇਂ ਵਿੱਚ ਨਾਟਕੀ ਸੁਧਾਰ ਨਹੀਂ ਕਰਦਾ. ਇਸਦੇ ਵਿਹਾਰ ਨੂੰ ਵੇਖ ਕੇ ਸਾਨੂੰ ਪਤਾ ਹੈ ਕਿ ਇਸ ਕੋਲ ਲੁੱਕਣ-ਮਿੱਠੀ ਖੇਡ ਵਿੱਚ ਆਸਰਾ ਬਣਾਉਣ ਲਈ ਆਬਜੈਕਟਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਹਿਲਾਉਣ ਦੀ ਲੁਕਵੀਂ ਕੁਸ਼ਲਤਾ ਹੈ. ਹਾਲਾਂਕਿ, ਜਦੋਂ ਇਸਨੂੰ ਘੱਟ ਗਿਣਤੀ ਦੇ ਸੈਂਪਲਾਂ ਨਾਲ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇਸ ਕੋਲ ਇਹ ਕੁਸ਼ਲਤਾ ਹੋਰ ਸੰਦਰਭਾਂ ਵਿੱਚ ਵਰਤਣ ਦੀ ਸਮਰੱਥਾ ਨਹੀਂ ਹੁੰਦੀ.

ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਮਿਲੇ-ਜੁਲੇ ਟ੍ਰਾਂਸਫਰ ਨਤੀਜਿਆਂ ਦਾ ਕਾਰਨ ਏਜੰਟਾਂ ਵੱਲੋਂ ਐਸੀ ਕੁਸ਼ਲਤਾ ਰਿਪ੍ਰਿਜ਼ੈਂਟੇਸ਼ਨ ਸਿੱਖਣਾ ਹੈ ਜੋ ਆਪਸ ਵਿੱਚ ਗੁੱਥੀਆਂ ਹੋਈਆਂ ਅਤੇ ਫਾਈਨ-ਟਿਊਨ ਕਰਨ ਲਈ ਮੁਸ਼ਕਲ ਹਨ. ਜਿਵੇਂ ਭਵਿੱਖ ਦੇ ਵਾਤਾਵਰਣ ਹੋਰ ਵੱਖ-ਵੱਖ ਹੋਣਗੇ ਅਤੇ ਏਜੰਟਾਂ ਨੂੰ ਹੋਰ ਸੰਦਰਭਾਂ ਵਿੱਚ ਕੁਸ਼ਲਤਾਵਾਂ ਵਰਤਣੀਆਂ ਪੈਣਗੀਆਂ, ਸਾਡਾ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ ਅਸੀਂ ਹੋਰ ਸਧਾਰਣੀਕਰਨਯੋਗ ਕੁਸ਼ਲਤਾ ਰਿਪ੍ਰਿਜ਼ੈਂਟੇਸ਼ਨ ਅਤੇ ਇਸ ਮੁਲਾਂਕਣ ਪੱਧਤੀ ਵਿੱਚ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਸੰਕੇਤ ਵੇਖਾਂਗੇ. ਅਸੀਂ ਆਪਣੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਸਿੱਖਣ ਦੀ ਤਰੱਕੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਜੋਂ ਇਹ ਮੁਲਾਂਕਣ ਟਾਸਕ ਖੁੱਲ੍ਹੇ ਸਰੋਤ ਵਜੋਂ ਵੀ ਜਾਰੀ ਕਰਦੇ ਹਾਂ.

ਹੈਰਾਨੀਜਨਕ ਵਿਹਾਰ

ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ ਏਜੰਟ ਉੱਚ-ਨਿਸ਼ਠਾ ਵਾਲੇ ਭੌਤਿਕੀ ਸਿਮੂਲੇਟਰ ਵਿੱਚ ਜਟਿਲ ਟੂਲ ਵਰਤੋਂ ਸਿੱਖ ਸਕਦੇ ਹਨ. ਹਾਲਾਂਕਿ, ਇਸ ਨਤੀਜੇ ਤੱਕ ਪਹੁੰਚਣ ਦੇ ਰਾਹ ਵਿੱਚ ਬਹੁਤ ਸਬਕ ਸਿੱਖਣ ਨੂੰ ਮਿਲੇ. ਵਾਤਾਵਰਣ ਬਣਾਉਣਾ ਆਸਾਨ ਨਹੀਂ ਹੈ ਅਤੇ ਕਾਫ਼ੀ ਵਾਰ ਇਹ ਹੁੰਦਾ ਹੈ ਕਿ ਏਜੰਟ ਤੁਹਾਡੇ ਬਣਾਏ ਵਾਤਾਵਰਣ ਜਾਂ ਭੌਤਿਕੀ ਇੰਜਣ ਦਾ ਕਿਸੇ ਅਣਚਾਹੇ ਤਰੀਕੇ ਨਾਲ ਫਾਇਦਾ ਚੁੱਕਣ ਦਾ ਰਾਹ ਲੱਭ ਲੈਂਦੇ ਹਨ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਲੇਖਕ

Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

ਫੀਡਬੈਕ

ਇਸ ਪੋਸਟ ਅਤੇ ਪੇਪਰ 'ਤੇ ਫੀਡਬੈਕ ਲਈ ਹੇਠ ਲਿਖਿਆਂ ਦਾ ਧੰਨਵਾਦ: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren