ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI
ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ ਇੱਕ ਹਾਇਰਾਰਕੀਕਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਕੰਮ ਹੱਲ ਕਰਨ ਲਈ ਲਾਭਕਾਰੀ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਸਿੱਖਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਉਹ ਕੰਮ ਤੇਜ਼ੀ ਨਾਲ ਹੱਲ ਹੁੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਹਜ਼ਾਰਾਂ ਟਾਈਮਸਟੈਪ ਲੱਗਦੇ ਹਨ. ਸਾਡਾ ਐਲਗੋਰਿਦਮ, ਜਦੋਂ ਨੈਵੀਗੇਸ਼ਨ ਸਮੱਸਿਆਵਾਂ ਦੇ ਇੱਕ ਸਮੂਹ 'ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਵੱਖ-ਵੱਖ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ ਤੁਰਨ ਅਤੇ ਰਿੰਗਣ ਲਈ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦਾ ਇੱਕ ਸਮੂਹ ਖੋਜ ਲੈਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਏਜੰਟ ਨਵੇਂ ਨੈਵੀਗੇਸ਼ਨ ਕੰਮ ਜਲਦੀ ਸਿੱਖ ਲੈਂਦਾ ਹੈ.

ਇਨਸਾਨ ਜਟਿਲ ਚੁਣੌਤੀਆਂ ਨੂੰ ਛੋਟੇ, ਸੰਭਾਲਣਯੋਗ ਹਿੱਸਿਆਂ ਵਿੱਚ ਵੰਡ ਕੇ ਹੱਲ ਕਰਦੇ ਹਨ. ਪੈਨਕੇਕ ਬਣਾਉਣਾ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਇੱਕ ਲੜੀ 'ਤੇ ਮੁਸ਼ਤਮਲ ਹੁੰਦਾ ਹੈ, ਜਿਵੇਂ ਆਟਾ ਮਾਪਣਾ, ਅੰਡੇ ਫੈਂਟਣਾ, ਮਿਸ਼ਰਣ ਨੂੰ ਤਵੇ 'ਤੇ ਪਾਉਣਾ, ਚੂਲਾ ਚਾਲੂ ਕਰਨਾ, ਆਦਿ. ਇਨਸਾਨ ਇਹ ਸਿੱਖੇ ਹੋਏ ਹਿੱਸੇ ਲੜੀਵਾਰ ਜੋੜ ਕੇ ਨਵੇਂ ਕੰਮ ਤੇਜ਼ੀ ਨਾਲ ਸਿੱਖ ਸਕਦੇ ਹਨ, ਭਾਵੇਂ ਉਸ ਕੰਮ ਲਈ ਲੱਖਾਂ ਨੀਵੇਂ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ, ਅਰਥਾਤ ਇਕੱਲੀਆਂ ਮਾਸਪੇਸ਼ੀ ਸੰਕੁਚਨਾਂ, ਦੀ ਲੋੜ ਪੈ ਸਕਦੀ ਹੈ.

ਦੂਜੇ ਪਾਸੇ, ਅੱਜ ਦੀਆਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵਿਧੀਆਂ ਨੀਵੇਂ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ 'ਤੇ ਬਲਪੂਰਵਕ ਖੋਜ ਰਾਹੀਂ ਕੰਮ ਕਰਦੀਆਂ ਹਨ, ਜਿਸ ਕਰਕੇ ਨਵਾਂ ਕੰਮ ਹੱਲ ਕਰਨ ਲਈ ਬੇਹੱਦ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਕੋਸ਼ਿਸ਼ਾਂ ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ. ਇਹ ਵਿਧੀਆਂ ਉਹਨਾਂ ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਅਕੁਸ਼ਲ ਹੋ ਜਾਂਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਟਾਈਮਸਟੈਪ ਲੱਗਦੇ ਹਨ.

ਸਾਡਾ ਹੱਲ ਹਾਇਰਾਰਕੀਕਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਵਿਚਾਰ 'ਤੇ ਆਧਾਰਿਤ ਹੈ, ਜਿਸ ਵਿੱਚ ਏਜੰਟ ਜਟਿਲ ਵਿਹਾਰਾਂ ਨੂੰ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਇੱਕ ਛੋਟੀ ਲੜੀ ਵਜੋਂ ਦਰਸਾਉਂਦੇ ਹਨ. ਇਸ ਨਾਲ ਸਾਡੇ ਏਜੰਟ ਕਾਫੀ ਮੁਸ਼ਕਲ ਕੰਮ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ: ਜਿੱਥੇ ਹੱਲ ਲਈ 2000 ਨੀਵੇਂ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, ਉੱਥੇ ਹਾਇਰਾਰਕੀਕਲ ਨੀਤੀ ਇਸ ਨੂੰ 10 ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈਆਂ ਦੀ ਲੜੀ ਵਿੱਚ ਬਦਲ ਦਿੰਦੀ ਹੈ, ਅਤੇ 2000-ਪੜਾਅ ਦੀ ਲੜੀ ਦੇ ਮੁਕਾਬਲੇ 10-ਪੜਾਅ ਦੀ ਲੜੀ 'ਤੇ ਖੋਜ ਕਰਨੀ ਕਾਫੀ ਜ਼ਿਆਦਾ ਕੁਸ਼ਲ ਹੈ.

ਸਾਂਝੀਆਂ ਹਾਇਰਾਰਕੀਆਂ ਦਾ ਮੈਟਾ-ਲਰਨਿੰਗ

Flow diagram of observations undergoing policy and converting to action

ਸਾਡਾ ਐਲਗੋਰਿਦਮ, ਸਾਂਝੀਆਂ ਹਾਇਰਾਰਕੀਆਂ ਦਾ ਮੈਟਾ-ਲਰਨਿੰਗ (MLSH), ਇੱਕ ਹਾਇਰਾਰਕੀਕਲ ਨੀਤੀ ਸਿੱਖਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਇੱਕ ਮਾਸਟਰ ਨੀਤੀ ਉਪ-ਨੀਤੀਆਂ ਦੇ ਇੱਕ ਸਮੂਹ ਵਿਚਕਾਰ ਬਦਲਦੀ ਰਹਿੰਦੀ ਹੈ. ਮਾਸਟਰ ਹਰ N ਟਾਈਮਸਟੈਪਾਂ ਬਾਅਦ ਇੱਕ ਕਾਰਵਾਈ ਚੁਣਦਾ ਹੈ, ਜਿੱਥੇ ਅਸੀਂ N=200 ਲੈ ਸਕਦੇ ਹਾਂ. N ਟਾਈਮਸਟੈਪਾਂ ਲਈ ਚਲਾਈ ਗਈ ਇੱਕ ਉਪ-ਨੀਤੀ ਇੱਕ ਉੱਚ-ਪੱਧਰੀ ਕਾਰਵਾਈ ਬਣਾਉਂਦੀ ਹੈ, ਅਤੇ ਸਾਡੇ ਨੈਵੀਗੇਸ਼ਨ ਕੰਮਾਂ ਲਈ, ਉਪ-ਨੀਤੀਆਂ ਵੱਖ-ਵੱਖ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ ਤੁਰਨ ਜਾਂ ਰਿੰਗਣ ਨਾਲ ਸੰਬੰਧਿਤ ਹਨ.

ਪਹਿਲਾਂ ਦੇ ਜ਼ਿਆਦਾਤਰ ਕੰਮਾਂ ਵਿੱਚ, ਹਾਇਰਾਰਕੀਕਲ ਨੀਤੀਆਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਹੱਥੋਂ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਸ ਦੀ ਬਜਾਏ, ਅਸੀਂ ਵਾਤਾਵਰਣ ਨਾਲ ਅੰਤਰਕਿਰਿਆ ਰਾਹੀਂ ਇਸ ਹਾਇਰਾਰਕੀਕਲ ਬਣਤਰ ਨੂੰ ਆਪਣੇ ਆਪ ਖੋਜਣ ਦਾ ਲਕਸ਼ ਰੱਖਦੇ ਹਾਂ. ਮੈਟਾ-ਲਰਨਿੰਗ ਦੇ ਨਜ਼ਰੀਏ ਤੋਂ, ਅਸੀਂ ਇੱਕ ਚੰਗੀ ਹਾਇਰਾਰਕੀ ਨੂੰ ਉਹ ਮੰਨਦੇ ਹਾਂ ਜੋ ਅਣਦੇਖੇ ਕੰਮਾਂ 'ਤੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਜਲਦੀ ਹੀ ਉੱਚ ਇਨਾਮ ਤੱਕ ਪਹੁੰਚ ਜਾਵੇ. ਇਸ ਲਈ, MLSH ਐਲਗੋਰਿਦਮ ਦਾ ਉਦੇਸ਼ ਅਜਿਹੀਆਂ ਉਪ-ਨੀਤੀਆਂ ਸਿੱਖਣਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਨਾ ਦੇਖੇ ਗਏ ਕੰਮਾਂ 'ਤੇ ਤੇਜ਼ ਸਿੱਖਣ ਨੂੰ ਸੰਭਵ ਬਣਾਉਣ.

ਅਸੀਂ ਕੰਮਾਂ ਦੀ ਇੱਕ ਵੰਡ 'ਤੇ ਟ੍ਰੇਨਿੰਗ ਕਰਦੇ ਹਾਂ, ਉਪ-ਨੀਤੀਆਂ ਨੂੰ ਸਾਂਝਾ ਰੱਖਦੇ ਹੋਏ ਅਤੇ ਹਰ ਸੈਂਪਲ ਕੀਤੇ ਕੰਮ 'ਤੇ ਇੱਕ ਨਵੀਂ ਮਾਸਟਰ ਨੀਤੀ ਸਿੱਖਦੇ ਹਾਂ. ਵਾਰ-ਵਾਰ ਨਵੀਆਂ ਮਾਸਟਰ ਨੀਤੀਆਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਕਰਕੇ, ਇਹ ਪ੍ਰਕਿਰਿਆ ਆਪਣੇ ਆਪ ਅਜਿਹੀਆਂ ਉਪ-ਨੀਤੀਆਂ ਲੱਭ ਲੈਂਦੀ ਹੈ ਜੋ ਮਾਸਟਰ ਨੀਤੀ ਦੀ ਸਿੱਖਣ ਗਤੀਵਿਧੀ ਨਾਲ ਅਨੁਕੂਲ ਹੋਣ.

ਪ੍ਰਯੋਗ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸਾਡੇ AntMaze ਵਾਤਾਵਰਣ ਵਿੱਚ, ਇੱਕ Mujoco Ant ਰੋਬੋਟ ਨੂੰ 9 ਵੱਖ-ਵੱਖ ਭੁੱਲਭੁੱਲਿਆਂ ਦੀ ਇੱਕ ਵੰਡ ਵਿੱਚ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਸ ਨੂੰ ਸ਼ੁਰੂਆਤੀ ਸਥਿਤੀ ਤੋਂ ਲਕਸ਼ ਤੱਕ ਪਹੁੰਚਣਾ ਹੁੰਦਾ ਹੈ. ਸਾਡਾ ਐਲਗੋਰਿਦਮ ਸਿਰਫ਼ ਵਾਤਾਵਰਣ ਨਾਲ ਅੰਤਰਕਿਰਿਆ ਰਾਹੀਂ ਉਪ-ਨੀਤੀਆਂ ਦਾ ਇੱਕ ਵਿਭਿੰਨ ਸਮੂਹ ਲੱਭਣ ਵਿੱਚ ਸਫਲ ਰਹਿੰਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਮਿਲਾ ਕੇ ਭੁੱਲਭੁੱਲਿਆਂ ਵਾਲੇ ਕੰਮ ਹੱਲ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ. ਉਪ-ਨੀਤੀਆਂ ਦਾ ਇਹ ਸਮੂਹ ਫਿਰ ਉਹਨਾਂ ਕੰਮਾਂ ਨਾਲੋਂ ਵੱਡੇ ਕੰਮ 'ਤੇ ਦੱਖਲ ਹਾਸਲ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜਿਨ੍ਹਾਂ 'ਤੇ ਇਹਨਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ (ਪੋਸਟ ਦੀ ਸ਼ੁਰੂਆਤ ਵਾਲੀ ਵੀਡੀਓ ਵੇਖੋ).

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਕੋਡ

ਅਸੀਂ MLSH ਏਜੰਟਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਕੋਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਨਾਲ ਹੀ ਉਹ MuJoCo ਵਾਤਾਵਰਣ ਵੀ ਜੋ ਅਸੀਂ ਇਹਨਾਂ ਐਲਗੋਰਿਦਮਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਬਣਾਏ ਹਨ.