15 ਅਕਤੂਬਰ 2019

ਰੋਬੋਟਿਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ

ਬੱਦਲਾਂ ਵਾਲੇ ਜਾਮਨੀ ਪਿਛੋਕੜ ਦੇ ਸਾਹਮਣੇ ਆਪਣੀ ਹਥੇਲੀ ਵਿੱਚ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਦਾ ਫੈਲਿਆ ਹੋਇਆ ਰੋਬੋਟ ਬਾਂਹ

ਫੋਟੋ: Eric Haines

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅਸੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦੀ ਇੱਕ ਜੋੜੀ ਨੂੰ ਮਨੁੱਖ-ਨੁਮਾ ਰੋਬੋਟਿਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿਖਾਇਆ ਹੈ. ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤੇ ਗਏ ਹਨ, OpenAI Five⁠ ਦੇ ਹੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਕੋਡ ਨੂੰ Automatic Domain Randomization (ADR) ਨਾਮ ਦੀ ਇੱਕ ਨਵੀਂ ਤਕਨੀਕ ਨਾਲ ਜੋੜ ਕੇ. ਇਹ ਸਿਸਟਮ ਅਜਿਹੀਆਂ ਸਥਿਤੀਆਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਜੋ ਇਸ ਨੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਕਦੇ ਨਹੀਂ ਵੇਖੀਆਂ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਭਰੇ ਹੋਏ ਜਿਰਾਫ਼⁠ ਵੱਲੋਂ ਠੇਲਿਆ ਜਾਣਾ. ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਿਰਫ਼ ਵਰਚੁਅਲ ਕੰਮਾਂ ਲਈ ਹੀ ਸਾਧਨ ਨਹੀਂ, ਸਗੋਂ ਅਸਲ ਦੁਨੀਆ ਦੀਆਂ ਉਹ ਸਮੱਸਿਆਵਾਂ ਵੀ ਹੱਲ ਕਰ ਸਕਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਬੇਮਿਸਾਲ ਨਿਪੁੰਨਤਾ ਲੋੜੀਂਦੀ ਹੈ.

ਮਨੁੱਖੀ ਹੱਥ ਸਾਨੂੰ ਕਈ ਕਿਸਮ ਦੇ ਕੰਮ ਹੱਲ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ. ਪਿਛਲੇ 60 ਸਾਲਾਂ ਦੀ ਰੋਬੋਟਿਕਸ ਵਿੱਚ, ਉਹ ਮੁਸ਼ਕਲ ਕੰਮ ਜੋ ਮਨੁੱਖ ਆਪਣੇ ਨਿਸ਼ਚਿਤ ਦੋ ਹੱਥਾਂ ਨਾਲ ਕਰ ਲੈਂਦੇ ਹਨ, ਲਈ ਹਰ ਕੰਮ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲਈ ਇੱਕ ਖਾਸ ਰੋਬੋਟ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਲਾਜ਼ਮੀ ਰਿਹਾ ਹੈ. ਇਕ ਵਿਕਲਪ ਵਜੋਂ, ਲੋਕਾਂ ਨੇ ਸਧਾਰਣ-ਉਦੇਸ਼ ਰੋਬੋਟਿਕ ਹਾਰਡਵੇਅਰ ਵਰਤਣ ਲਈ ਕਈ ਦਹਾਕਿਆਂ ਤੱਕ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਪਰ ਉਨ੍ਹਾਂ ਦੀਆਂ ਆਜ਼ਾਦੀ ਦੀਆਂ ਡਿਗਰੀਆਂ ਵੱਧ ਹੋਣ ਕਰਕੇ ਸੀਮਿਤ ਸਫਲਤਾ ਮਿਲੀ. ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਇੱਥੇ ਜੋ ਹਾਰਡਵੇਅਰ ਵਰਤਦੇ ਹਾਂ ਉਹ ਨਵਾਂ ਨਹੀਂ ਹੈ—ਅਸੀਂ ਜੋ ਰੋਬੋਟ ਹੱਥ ਵਰਤਦੇ ਹਾਂ ਉਹ ਪਿਛਲੇ 15 ਸਾਲਾਂ ਤੋਂ ਮੌਜੂਦ ਹੈ—ਪਰ ਸੌਫਟਵੇਅਰ ਪਹੁੰਚ ਨਵੀਂ ਹੈ.

ਮਈ 2017 ਤੋਂ, ਅਸੀਂ ਮਨੁੱਖ ਵਰਗਾ ਰੋਬੋਟਿਕ ਹੱਥ ਰੂਬਿਕਜ਼ ਕਿਊਬ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਹੱਲ ਕਰਨਾ ਸਿਖਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਾਂ. ਅਸੀਂ ਇਹ ਲਕਸ਼ ਇਸ ਲਈ ਰੱਖਿਆ ਕਿਉਂਕਿ ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਰੋਬੋਟਿਕ ਹੱਥ ਨੂੰ ਜਟਿਲ ਹੇਰਫੇਰ ਵਾਲੇ ਕੰਮ ਕਰਨਾ ਸਿਖਾਉਣਾ ਸਧਾਰਣ-ਉਦੇਸ਼ ਰੋਬੋਟਾਂ ਦੀ ਨੀਂਹ ਰੱਖਦਾ ਹੈ. ਅਸੀਂ ਜੁਲਾਈ 2017 ਵਿੱਚ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰ ਲਿਆ ਸੀ. ਪਰ ਜੁਲਾਈ 2018 ਤੱਕ, ਅਸੀਂ ਰੋਬੋਟ ਉੱਤੇ ਸਿਰਫ਼ ਇੱਕ ਬਲੌਕ ਨਾਲ ਹੇਰਫੇਰ⁠ ਕਰ ਸਕਦੇ ਸੀ. ਹੁਣ ਅਸੀਂ ਆਪਣਾ ਸ਼ੁਰੂਆਤੀ ਲਕਸ਼ ਹਾਸਲ ਕਰ ਲਿਆ ਹੈ.

A full solve of the Rubik’s Cube. This video plays at real-time and was not edited in any way.

ਇੱਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਮਨੁੱਖਾਂ ਲਈ ਵੀ ਚੁਣੌਤੀਪੂਰਣ ਕੰਮ ਹੈ, ਅਤੇ ਬੱਚਿਆਂ ਨੂੰ ਇਸ ਵਿੱਚ ਮਾਹਰ ਹੋਣ ਲਈ ਲੋੜੀਂਦੀ ਨਿਪੁੰਨਤਾ ਹਾਸਲ ਕਰਨ ਵਿੱਚ ਕਈ ਸਾਲ ਲੱਗ ਜਾਂਦੇ ਹਨ. ਹਾਲਾਂਕਿ ਸਾਡਾ ਰੋਬੋਟ ਅਜੇ ਵੀ ਆਪਣੀ ਤਕਨੀਕ ਨੂੰ ਪੂਰਾ ਨਹੀਂ ਕਰ ਸਕਿਆ⁠, ਕਿਉਂਕਿ ਇਹ ਰੂਬਿਕਜ਼ ਕਿਊਬ 60% ਵਾਰ ਹੱਲ ਕਰਦਾ ਹੈ (ਅਤੇ ਅਤਿਅਧਿਕ ਮੁਸ਼ਕਲ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਸਕ੍ਰੈਂਬਲ ਲਈ ਸਿਰਫ਼ 20% ਵਾਰ).

ਸਾਡਾ ਤਰੀਕਾ

ਅਸੀਂ ਸਿਮੂਲੇਸ਼ਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਤੇ ਹੱਲ ਦੇ ਕਦਮ ਚੁਣਣ ਲਈ Kociemba’s algorithm⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿਖਾਉਂਦੇ ਹਾਂ.^A ਡੋਮੇਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਸਿਰਫ਼ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤੇ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਅਸਲ ਰੋਬੋਟ ਤੱਕ ਟ੍ਰਾਂਸਫਰ ਹੋਣ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ.

ਸਾਡੇ ਸਾਹਮਣੇ ਸਭ ਤੋਂ ਵੱਡੀ ਚੁਣੌਤੀ ਇਹ ਸੀ ਕਿ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਅਜੇਹੇ ਵਾਤਾਵਰਣ ਬਣਾਏ ਜਾਣ ਜੋ ਅਸਲ ਦੁਨੀਆ ਦੀ ਭੌਤਿਕੀ ਨੂੰ ਪਕੜ ਸਕਣ. ਘਰਸ਼ਣ, ਲਚੀਲਾਪਣ ਅਤੇ ਡਾਇਨਾਮਿਕਸ ਵਰਗੇ ਤੱਤ ਰੂਬਿਕਜ਼ ਕਿਊਬਾਂ ਜਾਂ ਰੋਬੋਟਿਕ ਹੱਥਾਂ ਜਿਹੀਆਂ ਜਟਿਲ ਵਸਤੂਆਂ ਲਈ ਮਾਪਣ ਅਤੇ ਮਾਡਲ ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਮੁਸ਼ਕਲ ਹਨ ਅਤੇ ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਕੇਵਲ ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ.

ਇਸ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ, ਅਸੀਂ Automatic Domain Randomization (ADR) ਨਾਮ ਦੀ ਇੱਕ ਨਵੀਂ ਵਿਧੀ ਵਿਕਸਿਤ ਕੀਤੀ, ਜੋ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਲਗਾਤਾਰ ਹੋਰ ਮੁਸ਼ਕਲ ਵਾਤਾਵਰਣ ਬਣਾਉਂਦੀ ਰਹਿੰਦੀ ਹੈ.^B ਇਸ ਨਾਲ ਸਾਨੂੰ ਅਸਲ ਦੁਨੀਆ ਦਾ ਬਿਲਕੁਲ ਸਹੀ ਮਾਡਲ ਰੱਖਣ ਦੀ ਲੋੜ ਨਹੀਂ ਰਹਿੰਦੀ, ਅਤੇ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਸਿੱਖੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਲਾਗੂ ਕਰਨ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ.

ADR ਇੱਕ ਇਕੱਲੇ, ਗੈਰ-ਰੈਂਡਮਾਈਜ਼ਡ ਵਾਤਾਵਰਣ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿੱਖਦਾ ਹੈ. ਜਿਵੇਂ ਜਿਵੇਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਕੰਮ ਵਿੱਚ ਬਿਹਤਰ ਹੁੰਦਾ ਹੈ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਇੱਕ ਹੱਦ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ, ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀ ਮਾਤਰਾ ਆਪਣੇ ਆਪ ਵਧ ਜਾਂਦੀ ਹੈ. ਇਹ ਕੰਮ ਨੂੰ ਔਖਾ ਬਣਾਉਂਦਾ ਹੈ, ਕਿਉਂਕਿ ਹੁਣ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਹੋਰ ਰੈਂਡਮ ਕੀਤੇ ਵਾਤਾਵਰਣਾਂ ਲਈ ਜਨਰਲਾਈਜ਼ ਕਰਨਾ ਸਿੱਖਣਾ ਪੈਂਦਾ ਹੈ. ਨੈੱਟਵਰਕ ਸਿੱਖਦਾ ਰਹਿੰਦਾ ਹੈ ਜਦ ਤੱਕ ਇਹ ਮੁੜ ਪ੍ਰਦਰਸ਼ਨ ਹੱਦ ਤੋਂ ਉੱਪਰ ਨਹੀਂ ਨਿਕਲ ਜਾਂਦਾ, ਜਿਸ ਵੇਲੇ ਹੋਰ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਇਹ ਪ੍ਰਕਿਰਿਆ ਦੁਹਰਾਈ ਜਾਂਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਜਿਨ੍ਹਾਂ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਅਸੀਂ ਰੈਂਡਮ ਕਰਦੇ ਹਾਂ, ਉਨ੍ਹਾਂ ਵਿੱਚੋਂ ਇੱਕ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਦਾ ਆਕਾਰ ਹੈ (ਉੱਪਰ). ADR ਰੂਬਿਕਜ਼ ਕਿਊਬ ਦੇ ਨਿਸ਼ਚਿਤ ਆਕਾਰ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ ਅਤੇ ਜਿਵੇਂ ਜਿਵੇਂ ਟ੍ਰੇਨਿੰਗ ਅੱਗੇ ਵਧਦੀ ਹੈ, ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀ ਰੇਂਜ ਹੌਲੀ ਹੌਲੀ ਵਧਾਉਂਦਾ ਹੈ. ਅਸੀਂ ਇਹੋ ਜਿਹੀ ਤਕਨੀਕ ਹੋਰ ਸਾਰੇ ਪੈਰਾਮੀਟਰਾਂ 'ਤੇ ਵੀ ਲਾਗੂ ਕਰਦੇ ਹਾਂ, ਜਿਵੇਂ ਕਿ ਕਿਊਬ ਦਾ ਭਾਰ, ਰੋਬੋਟ ਦੀਆਂ ਉਂਗਲਾਂ ਦਾ ਘਰਸ਼ਣ, ਅਤੇ ਹੱਥ ਦੀ ਸਤ੍ਹਾ ਦੀ ਦ੍ਰਿਸ਼ ਸਮੱਗਰੀ. ਇਸ ਤਰ੍ਹਾਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਉਹਨਾਂ ਸਾਰੀਆਂ ਵਧਦੀਆਂ ਔਖੀਆਂ ਹਾਲਤਾਂ ਹੇਠਾਂ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿੱਖਣਾ ਪੈਂਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਲਈ ਸਾਨੂੰ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀਆਂ ਹੱਦਾਂ ਹੱਥੋਂ ਨਿਰਧਾਰਤ ਕਰਣੀਆਂ ਪੈਂਦੀਆਂ ਸਨ, ਜੋ ਮੁਸ਼ਕਲ ਹੈ ਕਿਉਂਕਿ ਬਹੁਤ ਵੱਧ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਸਿੱਖਣ ਨੂੰ ਔਖਾ ਬਣਾ ਦਿੰਦੀ ਹੈ ਪਰ ਬਹੁਤ ਘੱਟ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਅਸਲ ਰੋਬੋਟ ਤੱਕ ਟ੍ਰਾਂਸਫਰ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਂਦੀ ਹੈ. ADR ਇਹ ਸਮੱਸਿਆ ਬਿਨਾਂ ਮਨੁੱਖੀ ਦਖ਼ਲ ਦੇ ਸਮੇਂ ਨਾਲ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀਆਂ ਹੱਦਾਂ ਆਪੇ ਵਧਾ ਕੇ ਹੱਲ ਕਰਦਾ ਹੈ. ADR ਡੋਮੇਨ ਗਿਆਨ ਦੀ ਲੋੜ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਸਾਡੇ ਤਰੀਕਿਆਂ ਨੂੰ ਨਵੇਂ ਕੰਮਾਂ 'ਤੇ ਲਾਗੂ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ. ਹੱਥੋਂ ਕੀਤੀ ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੇ ਉਲਟ, ADR ਕੰਮ ਨੂੰ ਹਮੇਸ਼ਾਂ ਚੁਣੌਤੀਪੂਰਣ ਰੱਖਦਾ ਹੈ ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਕਦੇ ਸੰਮਿਲਿਤ ਨਹੀਂ ਹੁੰਦੀ.

ਅਸੀਂ ਬਲੌਕ-ਫਲਿਪਿੰਗ ਕੰਮ 'ਤੇ ADR ਦੀ ਤੁਲਨਾ ਹੱਥੋਂ ਕੀਤੀ ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਨਾਲ ਕੀਤੀ, ਜਿੱਥੇ ਸਾਡੇ ਕੋਲ ਪਹਿਲਾਂ ਹੀ ਇੱਕ ਮਜ਼ਬੂਤ ਬੇਸਲਾਈਨ⁠ ਸੀ. ਸ਼ੁਰੂ ਵਿੱਚ, ਅਸਲ ਰੋਬੋਟ ਉੱਤੇ ਸਫਲਤਾਵਾਂ ਦੀ ਗਿਣਤੀ ਦੇ ਹਿਸਾਬ ਨਾਲ ADR ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਖਰਾਬ ਹੁੰਦਾ ਹੈ. ਪਰ ਜਿਵੇਂ ADR ਐਂਟ੍ਰੋਪੀ ਵਧਾਉਂਦਾ ਹੈ, ਜੋ ਵਾਤਾਵਰਣ ਦੀ ਜਟਿਲਤਾ ਦਾ ਮਾਪ ਹੈ, ਟ੍ਰਾਂਸਫਰ ਪ੍ਰਦਰਸ਼ਨ ਆਖ਼ਿਰਕਾਰ ਬੇਸਲਾਈਨ ਨਾਲੋਂ ਦੋਗੁਣਾ ਹੋ ਜਾਂਦਾ ਹੈ—ਉਹ ਵੀ ਬਿਨਾਂ ਮਨੁੱਖੀ ਟਿਊਨਿੰਗ ਦੇ.

ਵਿਸ਼ਲੇਸ਼ਣ

ਮਜ਼ਬੂਤੀ ਦੀ ਜਾਂਚ

ADR ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅਸੀਂ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਅਜੇਹੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਟ੍ਰੇਨ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਅਸਲ ਰੋਬੋਟ ਹੱਥ 'ਤੇ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰ ਸਕਣ. ਇਹ ਇਸ ਲਈ ਸੰਭਵ ਹੈ ਕਿਉਂਕਿ ADR ਨੈੱਟਵਰਕ ਨੂੰ ਰੈਂਡਮ ਕੀਤੀਆਂ ਸਿਮੂਲੇਸ਼ਨਾਂ ਦੀ ਬੇਅੰਤ ਵੱਖਰਤਾ ਨਾਲ ਸਾਹਮਣਾ ਕਰਾਉਂਦਾ ਹੈ. ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਇਹੀ ਜਟਿਲਤਾ ਨਾਲ ਸਾਮ੍ਹਣਾ ਨੈੱਟਵਰਕ ਨੂੰ ਸਿਮੂਲੇਸ਼ਨ ਤੋਂ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਟ੍ਰਾਂਸਫਰ ਲਈ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਕਿਉਂਕਿ ਉਸਨੂੰ ਜਿਸ ਵੀ ਭੌਤਿਕ ਦੁਨੀਆ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਵੇ, ਉਸਨੂੰ ਜਲਦੀ ਪਛਾਣਣਾ ਅਤੇ ਉਸ ਅਨੁਸਾਰ ਢਲਣਾ ਸਿੱਖਣਾ ਪੈਂਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸਾਡੇ ਤਰੀਕੇ ਦੀਆਂ ਹੱਦਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਅਸੀਂ ਉਸ ਵੇਲੇ ਵੱਖ ਵੱਖ ਵਿਘਨਾਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਦੇ ਹਾਂ ਜਦੋਂ ਹੱਥ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰ ਰਿਹਾ ਹੁੰਦਾ ਹੈ. ਇਹ ਸਿਰਫ਼ ਸਾਡੇ ਕੰਟਰੋਲ ਨੈੱਟਵਰਕ ਦੀ ਮਜ਼ਬੂਤੀ ਦੀ ਜਾਂਚ ਨਹੀਂ ਕਰਦਾ, ਸਗੋਂ ਸਾਡੇ ਵਿਜ਼ਨ ਨੈੱਟਵਰਕ ਦੀ ਵੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਜਿਸਦੀ ਵਰਤੋਂ ਅਸੀਂ ਇੱਥੇ ਕਿਊਬ ਦੀ ਸਥਿਤੀ ਅਤੇ ਦਿਸ਼ਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਕਰਦੇ ਹਾਂ.

ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ADR ਨਾਲ ਟ੍ਰੇਨ ਕੀਤਾ ਸਾਡਾ ਸਿਸਟਮ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਵਿਘਨਾਂ ਦੇ ਪ੍ਰਤੀ ਮਜ਼ਬੂਤ ਹੈ, ਭਾਵੇਂ ਅਸੀਂ ਉਨ੍ਹਾਂ ਨਾਲ ਕਦੇ ਟ੍ਰੇਨਿੰਗ ਨਹੀਂ ਕੀਤੀ: ਰੋਬੋਟ ਸਾਰੇ ਪਰਖੇ ਗਏ ਵਿਘਨਾਂ ਹੇਠਾਂ ਜ਼ਿਆਦਾਤਰ ਫਲਿਪ ਅਤੇ ਫੇਸ ਰੋਟੇਸ਼ਨ ਸਫਲਤਾਪੂਰਵਕ ਕਰ ਸਕਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਸਿਖਰਲੇ ਪ੍ਰਦਰਸ਼ਨ 'ਤੇ ਨਹੀਂ.

ਉਭਰਦੀ ਮੇਟਾ-ਲਰਨਿੰਗ

ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਮੇਟਾ-ਲਰਨਿੰਗ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਜਾਂ ਸਿੱਖਣਾ ਕਿ ਕਿਵੇਂ ਸਿੱਖਣਾ ਹੈ, ਸਧਾਰਣ-ਉਦੇਸ਼ ਪ੍ਰਣਾਲੀਆਂ ਬਣਾਉਣ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਪੂਰਵ-ਸ਼ਰਤ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਉਨ੍ਹਾਂ ਨੂੰ ਆਪਣੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਬਦਲਦੀਆਂ ਹਾਲਤਾਂ ਨਾਲ ਜਲਦੀ ਅਨੁਕੂਲ ਹੋਣ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ. ADR ਦੇ ਪਿੱਛੇ ਧਾਰਨਾ ਇਹ ਹੈ ਕਿ ਮੈਮਰੀ-ਵਧੇਰੇ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਪ੍ਰਯਾਪਤ ਤੌਰ 'ਤੇ ਰੈਂਡਮ ਕੀਤੇ ਵਾਤਾਵਰਣ ਨਾਲ ਜੋੜਨ ਨਾਲ ਉਭਰਦੀ ਮੇਟਾ-ਲਰਨਿੰਗ ਹੁੰਦੀ ਹੈ, ਜਿੱਥੇ ਨੈੱਟਵਰਕ ਇੱਕ ਐਸਾ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਲਾਗੂ ਕਰਦਾ ਹੈ ਜੋ ਉਸਨੂੰ ਉਸ ਵਾਤਾਵਰਣ ਦੇ ਅਨੁਸਾਰ ਆਪਣੇ ਵਿਹਾਰ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਢਾਲਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਇਸ ਨੂੰ ਤਾਇਨਾਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ.^C

ਇਸਦੀ ਪ੍ਰਣਾਲੀਬੱਧ ਜਾਂਚ ਕਰਨ ਲਈ, ਅਸੀਂ ਵੱਖ ਵੱਖ ਵਿਘਨਾਂ ਹੇਠਾਂ ਆਪਣੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਲਈ ਪ੍ਰਤੀ ਕਿਊਬ ਫਲਿਪ ਸਫਲਤਾ ਸਮਾਂ ਮਾਪਦੇ ਹਾਂ (ਕਿਊਬ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਘੁਮਾਉਣਾ ਕਿ ਵੱਖਰਾ ਰੰਗ ਉੱਪਰ ਆ ਜਾਵੇ), ਜਿਵੇਂ ਕਿ ਨੈੱਟਵਰਕ ਦੀ ਮੈਮਰੀ ਰੀਸੈਟ ਕਰਨਾ, ਡਾਇਨਾਮਿਕਸ ਰੀਸੈਟ ਕਰਨਾ, ਜਾਂ ਕਿਸੇ ਜੋੜ ਨੂੰ ਤੋੜਨਾ. ਅਸੀਂ ਇਹ ਪ੍ਰਯੋਗ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਨਾਲ ਸਾਨੂੰ ਨਿਯੰਤਰਿਤ ਸੈਟਿੰਗ ਵਿੱਚ 10,000 ਟ੍ਰਾਇਲਾਂ ਉੱਤੇ ਔਸਤ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਣ ਦੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸ਼ੁਰੂ ਵਿੱਚ, ਜਿਵੇਂ ਜਿਵੇਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੋਰ ਫਲਿਪ ਸਫਲਤਾਪੂਰਵਕ ਕਰਦਾ ਹੈ, ਹਰ ਅਗਲਾ ਸਫਲਤਾ ਸਮਾਂ ਘਟਦਾ ਜਾਂਦਾ ਹੈ ਕਿਉਂਕਿ ਨੈੱਟਵਰਕ ਅਨੁਕੂਲ ਹੋਣਾ ਸਿੱਖਦਾ ਹੈ. ਜਦੋਂ ਵਿਘਨ ਲਾਗੂ ਕੀਤੇ ਜਾਂਦੇ ਹਨ (ਉੱਪਰਲੇ ਚਾਰਟ ਵਿੱਚ ਲੰਬਵੀਂ ਸਲੇਟੀ ਲਾਈਨਾਂ), ਅਸੀਂ ਸਫਲਤਾ ਸਮੇਂ ਵਿੱਚ ਇੱਕ ਉਛਾਲ ਵੇਖਦੇ ਹਾਂ. ਇਹ ਇਸ ਲਈ ਹੁੰਦਾ ਹੈ ਕਿਉਂਕਿ ਨੈੱਟਵਰਕ ਜੋ ਰਣਨੀਤੀ ਵਰਤ ਰਿਹਾ ਹੁੰਦਾ ਹੈ, ਉਹ ਬਦਲੇ ਹੋਏ ਵਾਤਾਵਰਣ ਵਿੱਚ ਕੰਮ ਨਹੀਂ ਕਰਦੀ. ਫਿਰ ਨੈੱਟਵਰਕ ਨਵੇਂ ਵਾਤਾਵਰਣ ਬਾਰੇ ਮੁੜ ਸਿੱਖਦਾ ਹੈ ਅਤੇ ਅਸੀਂ ਫਿਰ ਸਫਲਤਾ ਦਾ ਸਮਾਂ ਪਿਛਲੇ ਬੇਸਲਾਈਨ ਤੱਕ ਘਟਦਾ ਵੇਖਦੇ ਹਾਂ.

ਅਸੀਂ ਅਸਫਲਤਾ ਦੀ ਸੰਭਾਵਨਾ ਵੀ ਮਾਪਦੇ ਹਾਂ ਅਤੇ ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਲਈ ਵੀ ਇਹੋ ਜਿਹੇ ਪ੍ਰਯੋਗ ਕੀਤੇ (ਉੱਪਰਲੇ ਫੇਸ ਨੂੰ 90 ਡਿਗਰੀ ਘੜੀ ਦੀ ਦਿਸ਼ਾ ਵਿੱਚ ਜਾਂ ਉਲਟੀ ਦਿਸ਼ਾ ਵਿੱਚ ਘੁਮਾਉਣਾ) ਅਤੇ ਅਨੁਕੂਲਨ ਦਾ ਇਹੋ ਜਿਹਾ ਪੈਟਰਨ ਲੱਭਿਆ.^D

ਸਾਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਸਮਝਣਾ

ਸਾਡੇ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨ ਨਾਲ ਸਾਨੂੰ ਸਮਝ ਆਉਂਦੀ ਹੈ ਕਿ ਉਹ ਮੈਮਰੀ ਵਿੱਚ ਕੀ ਸੰਭਾਲ ਰਹੇ ਹਨ. ਜਿਵੇਂ ਜਿਵੇਂ ਨੈੱਟਵਰਕਾਂ ਦੀ ਜਟਿਲਤਾ ਵੱਧਦੀ ਹੈ, ਇਹ ਹੋਰ ਵੀ ਮਹੱਤਵਪੂਰਣ ਬਣ ਜਾਂਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਸਾਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੀ ਮੈਮਰੀ ਉੱਪਰ ਦਰਸਾਈ ਗਈ ਹੈ. ਅਸੀਂ ਇੰਟਰਪ੍ਰਿਟੇਬਿਲਟੀ ਟੂਲਬਾਕਸ ਦੇ ਇੱਕ ਬਿਲਡਿੰਗ ਬਲੌਕ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਰਥਾਤ non-negative matrix factorization, ਦੀ ਵਰਤੋਂ ਇਸ ਉੱਚ-ਆਯਾਮੀ ਵੇਕਟਰ ਨੂੰ 6 ਸਮੂਹਾਂ ਵਿੱਚ ਸੰਕੁਚਿਤ ਕਰਨ ਅਤੇ ਹਰ ਇਕ ਨੂੰ ਵਿਲੱਖਣ ਰੰਗ ਦੇਣ ਲਈ ਕਰਦੇ ਹਾਂ. ਫਿਰ ਅਸੀਂ ਹਰ ਟਾਈਮਸਟੈਪ ਲਈ ਇਸ ਵੇਲੇ ਹਾਵੀ ਸਮੂਹ ਦਾ ਰੰਗ ਦਿਖਾਉਂਦੇ ਹਾਂ.

ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਹਰ ਮੈਮਰੀ ਸਮੂਹ ਨਾਲ ਅਰਥਪੂਰਨ ਵਿਹਾਰ ਜੁੜਿਆ ਹੋਇਆ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ ਸਿਰਫ਼ ਨੈੱਟਵਰਕ ਦੀ ਮੈਮਰੀ ਦੇ ਹਾਵੀ ਸਮੂਹ ਨੂੰ ਵੇਖ ਕੇ ਦੱਸ ਸਕਦੇ ਹਾਂ ਕਿ ਇਹ ਕਿਊਬ ਨੂੰ ਘੁਮਾਉਣ ਵਾਲਾ ਹੈ ਜਾਂ ਉੱਪਰਲੇ ਪਾਸੇ ਨੂੰ ਘੜੀ ਦੀ ਦਿਸ਼ਾ ਵਿੱਚ ਘੁਮਾਉਣ ਵਾਲਾ ਹੈ ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਇਹ ਹੋਵੇ.

ਚੁਣੌਤੀਆਂ

ਰੋਬੋਟਿਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਅਜੇ ਵੀ ਆਸਾਨ ਨਹੀਂ ਹੈ. ਸਾਡਾ ਤਰੀਕਾ ਇਸ ਵੇਲੇ ਅਤਿਅਧਿਕ ਮੁਸ਼ਕਲ ਸਕ੍ਰੈਂਬਲ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲਾਗੂ ਕਰਨ 'ਤੇ 20% ਵਾਰ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਦਾ ਹੈ, ਜਿਸ ਲਈ 26 ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. ਸੌਖੇ ਸਕ੍ਰੈਂਬਲਾਂ ਲਈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਉਲਟਣ ਲਈ 15 ਰੋਟੇਸ਼ਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਸਫਲਤਾ ਦਰ 60% ਹੈ. ਜਦੋਂ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਡਿੱਗ ਜਾਂਦਾ ਹੈ ਜਾਂ ਸਮਾਂ ਸੀਮਾ ਪੂਰੀ ਹੋ ਜਾਂਦੀ ਹੈ, ਅਸੀਂ ਕੋਸ਼ਿਸ਼ ਨੂੰ ਅਸਫਲ ਮੰਨਦੇ ਹਾਂ. ਹਾਲਾਂਕਿ, ਸਾਡਾ ਨੈੱਟਵਰਕ ਕਿਸੇ ਵੀ ਸ਼ੁਰੂਆਤੀ ਹਾਲਤ ਤੋਂ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨ ਦੇ ਯੋਗ ਹੈ. ਇਸ ਲਈ ਜੇ ਕਿਊਬ ਡਿੱਗ ਪਏ, ਤਾਂ ਇਸਨੂੰ ਮੁੜ ਹੱਥ ਵਿੱਚ ਰੱਖ ਕੇ ਹੱਲ ਕਰਨਾ ਜਾਰੀ ਰੱਖਿਆ ਜਾ ਸਕਦਾ ਹੈ.

ਅਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਵੇਖਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਪਹਿਲੀਆਂ ਕੁਝ ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਅਤੇ ਫਲਿਪਾਂ ਦੌਰਾਨ ਕਾਫ਼ੀ ਵੱਧ ਅਸਫਲ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖਦਾ ਹੈ. ਇਹ ਇਸ ਕਰਕੇ ਹੈ ਕਿਉਂਕਿ ਉਨ੍ਹਾਂ ਸ਼ੁਰੂਆਤੀ ਰੋਟੇਸ਼ਨਾਂ ਅਤੇ ਫਲਿਪਾਂ ਦੌਰਾਨ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨ ਅਤੇ ਭੌਤਿਕ ਦੁਨੀਆ ਨਾਲ ਅਨੁਕੂਲ ਹੋਣ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਬਣਾਉਣਾ ਪੈਂਦਾ ਹੈ.

ਪਰਦੇ ਦੇ ਪਿੱਛੇ: ਰੂਬਿਕਜ਼ ਕਿਊਬ ਪ੍ਰੋਟੋਟਾਈਪ

ਸਾਡੀ ਪ੍ਰਗਤੀ ਦਾ ਮਾਪ ਕਰਨ ਅਤੇ ਸਮੱਸਿਆ ਨੂੰ ਸੰਭਾਲਣਯੋਗ ਬਣਾਉਣ ਲਈ, ਅਸੀਂ ਆਖ਼ਿਰਕਾਰ ਇੱਕ ਆਮ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨ ਵੱਲ ਕਦਮਾਂ ਵਜੋਂ ਕਿਊਬ ਦੇ ਖਾਸ ਸੰਸਕਰਣ ਬਣਾਏ ਅਤੇ ਡਿਜ਼ਾਈਨ ਕੀਤੇ.^E

Rubik’s Cube prototypes, from left to right: Locked cube, Face cube, Full cube, Giiker⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) cube, regular Rubik’s Cube.

ਪ੍ਰੋਟੋਟਾਈਪ	ਸਥਿਤੀ + ਦਿਸ਼ਾ	ਅੰਦਰੂਨੀ ਆਜ਼ਾਦੀ ਦੀਆਂ ਡਿਗਰੀਆਂ (ਸੈਂਸਰ)
ਲੌਕਡ ਕਿਊਬ	ਵਿਜ਼ਨ	0 (ਕੋਈ ਸੈਂਸਰ ਨਹੀਂ)
ਫੇਸ ਕਿਊਬ	PhaseSpace	2 (PhaseSpace)
ਫੁਲ ਕਿਊਬ	PhaseSpace	6 (PhaseSpace)
Giiker ਕਿਊਬ	ਵਿਜ਼ਨ	6 (ਅੰਦਰੂਨੀ ਸੈਂਸਰ)
ਆਮ ਰੂਬਿਕਜ਼ ਕਿਊਬ	ਵਿਜ਼ਨ	6 (ਵਿਜ਼ਨ)

ਅਗਲੇ ਕਦਮ

ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਮਨੁੱਖੀ ਪੱਧਰ ਦੀ ਨਿਪੁੰਨਤਾ ਸਧਾਰਣ-ਉਦੇਸ਼ ਰੋਬੋਟ ਬਣਾਉਣ ਦੇ ਰਸਤੇ 'ਤੇ ਹੈ ਅਤੇ ਅਸੀਂ ਇਸ ਦਿਸ਼ਾ ਵਿੱਚ ਅੱਗੇ ਵੱਧਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ.

ਜੇ ਤੁਸੀਂ ਵਧਦੇ ਹੋਏ ਹੋਰ ਸਧਾਰਣ AI ਸਿਸਟਮ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਚਾਹੇ ਰੋਬੋਟਿਕ ਹੋਣ ਜਾਂ ਵਰਚੁਅਲ, ਅਸੀਂ ਭਰਤੀ ਕਰ ਰਹੇ ਹਾਂ⁠!

ਫੁੱਟਨੋਟਸ

A
ਅਸੀਂ ਉਹਨਾਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਧਿਆਨ ਦੇਂਦੇ ਹਾਂ ਜੋ ਇਸ ਵੇਲੇ ਮਸ਼ੀਨਾਂ ਲਈ ਹਾਸਲ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ: ਪਰਸੈਪਸ਼ਨ ਅਤੇ ਨਿਪੁੰਨ ਹੇਰਫੇਰ. ਇਸ ਲਈ ਅਸੀਂ ਆਪਣੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ Kociemba’s algorithm ਵੱਲੋਂ ਬਣਾਈਆਂ ਲੋੜੀਂਦੀਆਂ ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਅਤੇ ਕਿਊਬ ਫਲਿਪਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨਾ ਸਿਖਾਉਂਦੇ ਹਾਂ.
B
ਸਾਡਾ ਕੰਮ POET⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਘਣੀ ਤਰ੍ਹਾਂ ਸੰਬੰਧਿਤ ਹੈ, ਜੋ 2D ਵਾਤਾਵਰਣ ਆਪੇ ਬਣਾਉਂਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਸਾਡਾ ਕੰਮ ਸਾਰੇ ਵਾਤਾਵਰਣਾਂ ਉੱਤੇ ਇਕੱਠੀ ਨੀਤੀ ਸਿੱਖਦਾ ਹੈ, ਜੋ ਕਿਸੇ ਵੀ ਨਵੇਂ ਬਣੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਟ੍ਰਾਂਸਫਰ ਹੋ ਜਾਂਦੀ ਹੈ.
C
ਹੋਰ ਠੋਸ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਇਹ ਧਾਰਨਾ ਰੱਖਦੇ ਹਾਂ ਕਿ ਬੇਹੱਦ ਜਟਿਲਤਾ ਵਾਲੇ ਵਾਤਾਵਰਣਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀਮਿਤ ਸਮਰੱਥਾ ਵਾਲਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੈੱਟਵਰਕ ਨੂੰ ਇੱਕ ਵਿਸ਼ੇਸ਼-ਉਦੇਸ਼ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਸਿੱਖਣ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਹਰ ਇਕੱਲੇ ਵਾਤਾਵਰਣ ਲਈ ਹੱਲ ਯਾਦ ਨਹੀਂ ਰੱਖ ਸਕਦਾ ਅਤੇ ਕੋਈ ਇੱਕ ਇਕੱਲੀ ਮਜ਼ਬੂਤ ਨੀਤੀ ਨਹੀਂ ਹੁੰਦੀ ਜੋ ਸਾਰੀ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਹੇਠਾਂ ਕੰਮ ਕਰੇ.
D
ਪੂਰੇ ਨਤੀਜਿਆਂ ਲਈ ਕਿਰਪਾ ਕਰਕੇ ਸਾਡਾ ਪੇਪਰ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ.
E
ਅਸੀਂ ਜੋ ਇਕੱਲਾ ਸੋਧ ਕੀਤਾ, ਉਹ ਹਰ ਕੇਂਦਰੀ ਕਿਊਬਲੈਟ ਦੇ ਰੰਗੀਨ ਸਟਿਕਰ ਦਾ ਇੱਕ ਛੋਟਾ ਹਿੱਸਾ ਕੱਟਣਾ ਸੀ. ਇਹ ਘੁੰਮਣ ਸਮਮਿਤੀ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੂੰ ਤੋੜਣ ਲਈ ਲਾਜ਼ਮੀ ਸੀ.

ਲੇਖਕ

OpenAI, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, Jonas Schneider, Nikolas Tezak, Jerry Tworek, Peter Welinder, Lilian Weng, Qiming Yuan, Wojciech Zaremba, Lei Zhang

ਧੰਨਵਾਦ

ਇਸ ਪੋਸਟ ਅਤੇ ਪੇਪਰ ਦੇ ਮਸੌਦਿਆਂ 'ਤੇ ਫੀਡਬੈਕ ਲਈ ਹੇਠਲਿਖਤ ਲੋਕਾਂ ਦਾ ਧੰਨਵਾਦ: Josh Achiam, Greg Brockman, Nick Cammarata, Jack Clark, Jeff Clune, Ruben D’Sa, Harri Edwards, David Farhi, Ken Goldberg, Leslie P. Kaelbling, Hyeonwoo Noh, Lerrel Pinto, John Schulman, Ilya Sutskever & Tao Xu.

ਵੀਡੀਓ: Peter Jordan (Director), Yvette Solis (Producer), Brooke Chan (Producer)

ਸੰਪਾਦਕ: Ashley Pilipiszyn

ਡਿਜ਼ਾਈਨ: Justin Jay Wang & Ben Barry

ਫੋਟੋਗ੍ਰਾਫੀ: Eric Haines

ਸੰਬੰਧਿਤ ਲੇਖ

ਸਭ ਵੇਖੋ

CLIP: ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਜੋੜਨਾ

ਮੀਲ ਪੱਥਰ5 ਜਨ 2021

Learning dexterity

ਮੀਲ ਪੱਥਰ30 ਜੁਲਾ 2018

Retro Contest: Results

ਨਤੀਜਾ22 ਜੂਨ 2018