26 ਅਕਤੂਬਰ 2017

ਇੱਕ ਹਾਇਰਾਰਕੀ ਸਿੱਖਣਾ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ ਇੱਕ ਹਾਇਰਾਰਕੀਕਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਕੰਮ ਹੱਲ ਕਰਨ ਲਈ ਲਾਭਕਾਰੀ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਸਿੱਖਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਉਹ ਕੰਮ ਤੇਜ਼ੀ ਨਾਲ ਹੱਲ ਹੁੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਹਜ਼ਾਰਾਂ ਟਾਈਮਸਟੈਪ ਲੱਗਦੇ ਹਨ. ਸਾਡਾ ਐਲਗੋਰਿਦਮ, ਜਦੋਂ ਨੈਵੀਗੇਸ਼ਨ ਸਮੱਸਿਆਵਾਂ ਦੇ ਇੱਕ ਸਮੂਹ 'ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਵੱਖ-ਵੱਖ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ ਤੁਰਨ ਅਤੇ ਰਿੰਗਣ ਲਈ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦਾ ਇੱਕ ਸਮੂਹ ਖੋਜ ਲੈਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਏਜੰਟ ਨਵੇਂ ਨੈਵੀਗੇਸ਼ਨ ਕੰਮ ਜਲਦੀ ਸਿੱਖ ਲੈਂਦਾ ਹੈ.

ਇਨਸਾਨ ਜਟਿਲ ਚੁਣੌਤੀਆਂ ਨੂੰ ਛੋਟੇ, ਸੰਭਾਲਣਯੋਗ ਹਿੱਸਿਆਂ ਵਿੱਚ ਵੰਡ ਕੇ ਹੱਲ ਕਰਦੇ ਹਨ. ਪੈਨਕੇਕ ਬਣਾਉਣਾ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਇੱਕ ਲੜੀ 'ਤੇ ਮੁਸ਼ਤਮਲ ਹੁੰਦਾ ਹੈ, ਜਿਵੇਂ ਆਟਾ ਮਾਪਣਾ, ਅੰਡੇ ਫੈਂਟਣਾ, ਮਿਸ਼ਰਣ ਨੂੰ ਤਵੇ 'ਤੇ ਪਾਉਣਾ, ਚੂਲਾ ਚਾਲੂ ਕਰਨਾ, ਆਦਿ. ਇਨਸਾਨ ਇਹ ਸਿੱਖੇ ਹੋਏ ਹਿੱਸੇ ਲੜੀਵਾਰ ਜੋੜ ਕੇ ਨਵੇਂ ਕੰਮ ਤੇਜ਼ੀ ਨਾਲ ਸਿੱਖ ਸਕਦੇ ਹਨ, ਭਾਵੇਂ ਉਸ ਕੰਮ ਲਈ ਲੱਖਾਂ ਨੀਵੇਂ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ, ਅਰਥਾਤ ਇਕੱਲੀਆਂ ਮਾਸਪੇਸ਼ੀ ਸੰਕੁਚਨਾਂ, ਦੀ ਲੋੜ ਪੈ ਸਕਦੀ ਹੈ.

ਦੂਜੇ ਪਾਸੇ, ਅੱਜ ਦੀਆਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵਿਧੀਆਂ ਨੀਵੇਂ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ 'ਤੇ ਬਲਪੂਰਵਕ ਖੋਜ ਰਾਹੀਂ ਕੰਮ ਕਰਦੀਆਂ ਹਨ, ਜਿਸ ਕਰਕੇ ਨਵਾਂ ਕੰਮ ਹੱਲ ਕਰਨ ਲਈ ਬੇਹੱਦ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਕੋਸ਼ਿਸ਼ਾਂ ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਇਹ ਵਿਧੀਆਂ ਉਹਨਾਂ ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਅਕੁਸ਼ਲ ਹੋ ਜਾਂਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਟਾਈਮਸਟੈਪ ਲੱਗਦੇ ਹਨ.

ਸਾਡਾ ਹੱਲ ਹਾਇਰਾਰਕੀਕਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਵਿਚਾਰ 'ਤੇ ਆਧਾਰਿਤ ਹੈ, ਜਿਸ ਵਿੱਚ ਏਜੰਟ ਜਟਿਲ ਵਿਹਾਰਾਂ ਨੂੰ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਇੱਕ ਛੋਟੀ ਲੜੀ ਵਜੋਂ ਦਰਸਾਉਂਦੇ ਹਨ. ਇਸ ਨਾਲ ਸਾਡੇ ਏਜੰਟ ਕਾਫੀ ਮੁਸ਼ਕਲ ਕੰਮ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ: ਜਿੱਥੇ ਹੱਲ ਲਈ 2000 ਨੀਵੇਂ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, ਉੱਥੇ ਹਾਇਰਾਰਕੀਕਲ ਨੀਤੀ ਇਸ ਨੂੰ 10 ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਲੜੀ ਵਿੱਚ ਬਦਲ ਦਿੰਦੀ ਹੈ, ਅਤੇ 2000-ਪੜਾਅ ਦੀ ਲੜੀ ਦੇ ਮੁਕਾਬਲੇ 10-ਪੜਾਅ ਦੀ ਲੜੀ 'ਤੇ ਖੋਜ ਕਰਨੀ ਕਾਫੀ ਜ਼ਿਆਦਾ ਕੁਸ਼ਲ ਹੈ.

ਸਾਂਝੀਆਂ ਹਾਇਰਾਰਕੀਆਂ ਦਾ ਮੈਟਾ-ਲਰਨਿੰਗ

Flow diagram of observations undergoing policy and converting to action

ਸਾਡਾ ਐਲਗੋਰਿਦਮ, ਸਾਂਝੀਆਂ ਹਾਇਰਾਰਕੀਆਂ ਦਾ ਮੈਟਾ-ਲਰਨਿੰਗ (MLSH), ਇੱਕ ਹਾਇਰਾਰਕੀਕਲ ਨੀਤੀ ਸਿੱਖਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਇੱਕ ਮਾਸਟਰ ਨੀਤੀ ਉਪ-ਨੀਤੀਆਂ ਦੇ ਇੱਕ ਸਮੂਹ ਵਿਚਕਾਰ ਬਦਲਦੀ ਰਹਿੰਦੀ ਹੈ. ਮਾਸਟਰ ਹਰ N ਟਾਈਮਸਟੈਪਾਂ ਬਾਅਦ ਇੱਕ ਕਾਰਵਾਈ ਚੁਣਦਾ ਹੈ, ਜਿੱਥੇ ਅਸੀਂ N=200 ਲੈ ਸਕਦੇ ਹਾਂ. N ਟਾਈਮਸਟੈਪਾਂ ਲਈ ਚਲਾਈ ਗਈ ਇੱਕ ਉਪ-ਨੀਤੀ ਇੱਕ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈ ਬਣਾਉਂਦੀ ਹੈ, ਅਤੇ ਸਾਡੇ ਨੈਵੀਗੇਸ਼ਨ ਕੰਮਾਂ ਲਈ, ਉਪ-ਨੀਤੀਆਂ ਵੱਖ-ਵੱਖ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ ਤੁਰਨ ਜਾਂ ਰਿੰਗਣ ਨਾਲ ਸੰਬੰਧਿਤ ਹਨ.

ਪਹਿਲਾਂ ਦੇ ਜ਼ਿਆਦਾਤਰ ਕੰਮਾਂ ਵਿੱਚ, ਹਾਇਰਾਰਕੀਕਲ ਨੀਤੀਆਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਹੱਥੋਂ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਸ ਦੀ ਬਜਾਏ, ਅਸੀਂ ਵਾਤਾਵਰਣ ਨਾਲ ਅੰਤਰਕਿਰਿਆ ਰਾਹੀਂ ਇਸ ਹਾਇਰਾਰਕੀਕਲ ਬਣਤਰ ਨੂੰ ਆਪਣੇ ਆਪ ਖੋਜਣ ਦਾ ਲਕਸ਼ ਰੱਖਦੇ ਹਾਂ. ਮੈਟਾ-ਲਰਨਿੰਗ ਦੇ ਨਜ਼ਰੀਏ ਤੋਂ, ਅਸੀਂ ਇੱਕ ਚੰਗੀ ਹਾਇਰਾਰਕੀ ਨੂੰ ਉਹ ਮੰਨਦੇ ਹਾਂ ਜੋ ਅਣਦੇਖੇ ਕੰਮਾਂ 'ਤੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਜਲਦੀ ਹੀ ਉੱਚ ਇਨਾਮ ਤੱਕ ਪਹੁੰਚ ਜਾਵੇ. ਇਸ ਲਈ, MLSH ਐਲਗੋਰਿਦਮ ਦਾ ਉਦੇਸ਼ ਅਜਿਹੀਆਂ ਉਪ-ਨੀਤੀਆਂ ਸਿੱਖਣਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਨਾ ਦੇਖੇ ਗਏ ਕੰਮਾਂ 'ਤੇ ਤੇਜ਼ ਸਿੱਖਣ ਨੂੰ ਸੰਭਵ ਬਣਾਉਣ.

ਅਸੀਂ ਕੰਮਾਂ ਦੀ ਇੱਕ ਵੰਡ 'ਤੇ ਟ੍ਰੇਨਿੰਗ ਕਰਦੇ ਹਾਂ, ਉਪ-ਨੀਤੀਆਂ ਨੂੰ ਸਾਂਝਾ ਰੱਖਦੇ ਹੋਏ ਅਤੇ ਹਰ ਸੈਂਪਲ ਕੀਤੇ ਕੰਮ 'ਤੇ ਇੱਕ ਨਵੀਂ ਮਾਸਟਰ ਨੀਤੀ ਸਿੱਖਦੇ ਹਾਂ. ਵਾਰ-ਵਾਰ ਨਵੀਆਂ ਮਾਸਟਰ ਨੀਤੀਆਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਕਰਕੇ, ਇਹ ਪ੍ਰਕਿਰਿਆ ਆਪਣੇ ਆਪ ਅਜਿਹੀਆਂ ਉਪ-ਨੀਤੀਆਂ ਲੱਭ ਲੈਂਦੀ ਹੈ ਜੋ ਮਾਸਟਰ ਨੀਤੀ ਦੀ ਸਿੱਖਣ ਗਤੀਵਿਧੀ ਨਾਲ ਅਨੁਕੂਲ ਹੋਣ.

ਪ੍ਰਯੋਗ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸਾਡੇ AntMaze ਵਾਤਾਵਰਣ ਵਿੱਚ, ਇੱਕ Mujoco Ant ਰੋਬੋਟ ਨੂੰ 9 ਵੱਖ-ਵੱਖ ਭੁੱਲਭੁੱਲਿਆਂ ਦੀ ਇੱਕ ਵੰਡ ਵਿੱਚ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਸ ਨੂੰ ਸ਼ੁਰੂਆਤੀ ਸਥਿਤੀ ਤੋਂ ਲਕਸ਼ ਤੱਕ ਪਹੁੰਚਣਾ ਹੁੰਦਾ ਹੈ. ਸਾਡਾ ਐਲਗੋਰਿਦਮ ਸਿਰਫ਼ ਵਾਤਾਵਰਣ ਨਾਲ ਅੰਤਰਕਿਰਿਆ ਰਾਹੀਂ ਉਪ-ਨੀਤੀਆਂ ਦਾ ਇੱਕ ਵਿਭਿੰਨ ਸਮੂਹ ਲੱਭਣ ਵਿੱਚ ਸਫਲ ਰਹਿੰਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਮਿਲਾ ਕੇ ਭੁੱਲਭੁੱਲਿਆਂ ਵਾਲੇ ਕੰਮ ਹੱਲ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ. ਉਪ-ਨੀਤੀਆਂ ਦਾ ਇਹ ਸਮੂਹ ਫਿਰ ਉਹਨਾਂ ਕੰਮਾਂ ਨਾਲੋਂ ਵੱਡੇ ਕੰਮ 'ਤੇ ਦੱਖਲ ਹਾਸਲ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜਿਨ੍ਹਾਂ 'ਤੇ ਇਹਨਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ (ਪੋਸਟ ਦੀ ਸ਼ੁਰੂਆਤ ਵਾਲੀ ਵੀਡੀਓ ਵੇਖੋ).

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਕੋਡ

ਅਸੀਂ MLSH ਏਜੰਟਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਕੋਡ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਨਾਲ ਹੀ ਉਹ MuJoCo ਵਾਤਾਵਰਣ ਵੀ ਜੋ ਅਸੀਂ ਇਹਨਾਂ ਐਲਗੋਰਿਦਮਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਬਣਾਏ ਹਨ.

ਲੇਖਕ

Kevin Frans, Jonathan Ho, Peter Chen, Pieter Abbeel

ਸੰਬੰਧਿਤ ਲੇਖ

ਸਭ ਵੇਖੋ

Scaling laws for reward model overoptimization

ਪ੍ਰਕਾਸ਼ਨ19 ਅਕਤੂ 2022

Learning to play Minecraft with Video PreTraining

ਨਤੀਜਾ23 ਜੂਨ 2022

Dota 2 with large scale deep reinforcement learning

ਪ੍ਰਕਾਸ਼ਨ13 ਦਸੰ 2019