ਰੋਬੋਟਿਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ

ਫੋਟੋ: Eric Haines
ਅਸੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦੀ ਇੱਕ ਜੋੜੀ ਨੂੰ ਮਨੁੱਖ-ਨੁਮਾ ਰੋਬੋਟਿਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿਖਾਇਆ ਹੈ. ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤੇ ਗਏ ਹਨ, OpenAI Five ਦੇ ਹੀ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਕੋਡ ਨੂੰ Automatic Domain Randomization (ADR) ਨਾਮ ਦੀ ਇੱਕ ਨਵੀਂ ਤਕਨੀਕ ਨਾਲ ਜੋੜ ਕੇ. ਇਹ ਸਿਸਟਮ ਅਜਿਹੀਆਂ ਸਥਿਤੀਆਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਜੋ ਇਸ ਨੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਕਦੇ ਨਹੀਂ ਵੇਖੀਆਂ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਭਰੇ ਹੋਏ ਜਿਰਾਫ਼ ਵੱਲੋਂ ਠੇਲਿਆ ਜਾਣਾ. ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਿਰਫ਼ ਵਰਚੁਅਲ ਕੰਮਾਂ ਲਈ ਹੀ ਸਾਧਨ ਨਹੀਂ, ਸਗੋਂ ਅਸਲ ਦੁਨੀਆ ਦੀਆਂ ਉਹ ਸਮੱਸਿਆਵਾਂ ਵੀ ਹੱਲ ਕਰ ਸਕਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਬੇਮਿਸਾਲ ਨਿਪੁੰਨਤਾ ਲੋੜੀਂਦੀ ਹੈ.
ਮਨੁੱਖੀ ਹੱਥ ਸਾਨੂੰ ਕਈ ਕਿਸਮ ਦੇ ਕੰਮ ਹੱਲ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ. ਪਿਛਲੇ 60 ਸਾਲਾਂ ਦੀ ਰੋਬੋਟਿਕਸ ਵਿੱਚ, ਉਹ ਮੁਸ਼ਕਲ ਕੰਮ ਜੋ ਮਨੁੱਖ ਆਪਣੇ ਨਿਸ਼ਚਿਤ ਦੋ ਹੱਥਾਂ ਨਾਲ ਕਰ ਲੈਂਦੇ ਹਨ, ਲਈ ਹਰ ਕੰਮ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲਈ ਇੱਕ ਖਾਸ ਰੋਬੋਟ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਲਾਜ਼ਮੀ ਰਿਹਾ ਹੈ. ਇਕ ਵਿਕਲਪ ਵਜੋਂ, ਲੋਕਾਂ ਨੇ ਸਧਾਰਣ-ਉਦੇਸ਼ ਰੋਬੋਟਿਕ ਹਾਰਡਵੇਅਰ ਵਰਤਣ ਲਈ ਕਈ ਦਹਾਕਿਆਂ ਤੱਕ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਪਰ ਉਨ੍ਹਾਂ ਦੀਆਂ ਆਜ਼ਾਦੀ ਦੀਆਂ ਡਿਗਰੀਆਂ ਵੱਧ ਹੋਣ ਕਰਕੇ ਸੀਮਿਤ ਸਫਲਤਾ ਮਿਲੀ. ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਇੱਥੇ ਜੋ ਹਾਰਡਵੇਅਰ ਵਰਤਦੇ ਹਾਂ ਉਹ ਨਵਾਂ ਨਹੀਂ ਹੈ—ਅਸੀਂ ਜੋ ਰੋਬੋਟ ਹੱਥ ਵਰਤਦੇ ਹਾਂ ਉਹ ਪਿਛਲੇ 15 ਸਾਲਾਂ ਤੋਂ ਮੌਜੂਦ ਹੈ—ਪਰ ਸੌਫਟਵੇਅਰ ਪਹੁੰਚ ਨਵੀਂ ਹੈ.
ਮਈ 2017 ਤੋਂ, ਅਸੀਂ ਮਨੁੱਖ ਵਰਗਾ ਰੋਬੋਟਿਕ ਹੱਥ ਰੂਬਿਕਜ਼ ਕਿਊਬ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਹੱਲ ਕਰਨਾ ਸਿਖਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਾਂ. ਅਸੀਂ ਇਹ ਲਕਸ਼ ਇਸ ਲਈ ਰੱਖਿਆ ਕਿਉਂਕਿ ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਰੋਬੋਟਿਕ ਹੱਥ ਨੂੰ ਜਟਿਲ ਹੇਰਫੇਰ ਵਾਲੇ ਕੰਮ ਕਰਨਾ ਸਿਖਾਉਣਾ ਸਧਾਰਣ-ਉਦੇਸ਼ ਰੋਬੋਟਾਂ ਦੀ ਨੀਂਹ ਰੱਖਦਾ ਹੈ. ਅਸੀਂ ਜੁਲਾਈ 2017 ਵਿੱਚ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰ ਲਿਆ ਸੀ. ਪਰ ਜੁਲਾਈ 2018 ਤੱਕ, ਅਸੀਂ ਰੋਬੋਟ ਉੱਤੇ ਸਿਰਫ਼ ਇੱਕ ਬਲੌਕ ਨਾਲ ਹੇਰਫੇਰ ਕਰ ਸਕਦੇ ਸੀ. ਹੁਣ ਅਸੀਂ ਆਪਣਾ ਸ਼ੁਰੂਆਤੀ ਲਕਸ਼ ਹਾਸਲ ਕਰ ਲਿਆ ਹੈ.
A full solve of the Rubik’s Cube. This video plays at real-time and was not edited in any way.
ਇੱਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਮਨੁੱਖਾਂ ਲਈ ਵੀ ਚੁਣੌਤੀਪੂਰਣ ਕੰਮ ਹੈ, ਅਤੇ ਬੱਚਿਆਂ ਨੂੰ ਇਸ ਵਿੱਚ ਮਾਹਰ ਹੋਣ ਲਈ ਲੋੜੀਂਦੀ ਨਿਪੁੰਨਤਾ ਹਾਸਲ ਕਰਨ ਵਿੱਚ ਕਈ ਸਾਲ ਲੱਗ ਜਾਂਦੇ ਹਨ. ਹਾਲਾਂਕਿ ਸਾਡਾ ਰੋਬੋਟ ਅਜੇ ਵੀ ਆਪਣੀ ਤਕਨੀਕ ਨੂੰ ਪੂਰਾ ਨਹੀਂ ਕਰ ਸਕਿਆ, ਕਿਉਂਕਿ ਇਹ ਰੂਬਿਕਜ਼ ਕਿਊਬ 60% ਵਾਰ ਹੱਲ ਕਰਦਾ ਹੈ (ਅਤੇ ਅਤਿਅਧਿਕ ਮੁਸ਼ਕਲ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਸਕ੍ਰੈਂਬਲ ਲਈ ਸਿਰਫ਼ 20% ਵਾਰ).
ਅਸੀਂ ਸਿਮੂਲੇਸ਼ਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਤੇ ਹੱਲ ਦੇ ਕਦਮ ਚੁਣਣ ਲਈ Kociemba’s algorithm(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿਖਾਉਂਦੇ ਹਾਂ.A ਡੋਮੇਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਸਿਰਫ਼ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਟ੍ਰੇਨ ਕੀਤੇ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਅਸਲ ਰੋਬੋਟ ਤੱਕ ਟ੍ਰਾਂਸਫਰ ਹੋਣ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ.

ਸਾਡੇ ਸਾਹਮਣੇ ਸਭ ਤੋਂ ਵੱਡੀ ਚੁਣੌਤੀ ਇਹ ਸੀ ਕਿ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਅਜੇਹੇ ਵਾਤਾਵਰਣ ਬਣਾਏ ਜਾਣ ਜੋ ਅਸਲ ਦੁਨੀਆ ਦੀ ਭੌਤਿਕੀ ਨੂੰ ਪਕੜ ਸਕਣ. ਘਰਸ਼ਣ, ਲਚੀਲਾਪਣ ਅਤੇ ਡਾਇਨਾਮਿਕਸ ਵਰਗੇ ਤੱਤ ਰੂਬਿਕਜ਼ ਕਿਊਬਾਂ ਜਾਂ ਰੋਬੋਟਿਕ ਹੱਥਾਂ ਜਿਹੀਆਂ ਜਟਿਲ ਵਸਤੂਆਂ ਲਈ ਮਾਪਣ ਅਤੇ ਮਾਡਲ ਕਰਨ ਵਿੱਚ ਬਹੁਤ ਮੁਸ਼ਕਲ ਹਨ ਅਤੇ ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਕੇਵਲ ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ.
ਇਸ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ, ਅਸੀਂ Automatic Domain Randomization (ADR) ਨਾਮ ਦੀ ਇੱਕ ਨਵੀਂ ਵਿਧੀ ਵਿਕਸਿਤ ਕੀਤੀ, ਜੋ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਲਗਾਤਾਰ ਹੋਰ ਮੁਸ਼ਕਲ ਵਾਤਾਵਰਣ ਬਣਾਉਂਦੀ ਰਹਿੰਦੀ ਹੈ.B ਇਸ ਨਾਲ ਸਾਨੂੰ ਅਸਲ ਦੁਨੀਆ ਦਾ ਬਿਲਕੁਲ ਸਹੀ ਮਾਡਲ ਰੱਖਣ ਦੀ ਲੋੜ ਨਹੀਂ ਰਹਿੰਦੀ, ਅਤੇ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਸਿੱਖੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਲਾਗੂ ਕਰਨ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ.
ADR ਇੱਕ ਇਕੱਲੇ, ਗੈਰ-ਰੈਂਡਮਾਈਜ਼ਡ ਵਾਤਾਵਰਣ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿੱਖਦਾ ਹੈ. ਜਿਵੇਂ ਜਿਵੇਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਕੰਮ ਵਿੱਚ ਬਿਹਤਰ ਹੁੰਦਾ ਹੈ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਇੱਕ ਹੱਦ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ, ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀ ਮਾਤਰਾ ਆਪਣੇ ਆਪ ਵਧ ਜਾਂਦੀ ਹੈ. ਇਹ ਕੰਮ ਨੂੰ ਔਖਾ ਬਣਾਉਂਦਾ ਹੈ, ਕਿਉਂਕਿ ਹੁਣ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਹੋਰ ਰੈਂਡਮ ਕੀਤੇ ਵਾਤਾਵਰਣਾਂ ਲਈ ਜਨਰਲਾਈਜ਼ ਕਰਨਾ ਸਿੱਖਣਾ ਪੈਂਦਾ ਹੈ. ਨੈੱਟਵਰਕ ਸਿੱਖਦਾ ਰਹਿੰਦਾ ਹੈ ਜਦ ਤੱਕ ਇਹ ਮੁੜ ਪ੍ਰਦਰਸ਼ਨ ਹੱਦ ਤੋਂ ਉੱਪਰ ਨਹੀਂ ਨਿਕਲ ਜਾਂਦਾ, ਜਿਸ ਵੇਲੇ ਹੋਰ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਇਹ ਪ੍ਰਕਿਰਿਆ ਦੁਹਰਾਈ ਜਾਂਦੀ ਹੈ.
ਜਿਨ੍ਹਾਂ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਅਸੀਂ ਰੈਂਡਮ ਕਰਦੇ ਹਾਂ, ਉਨ੍ਹਾਂ ਵਿੱਚੋਂ ਇੱਕ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਦਾ ਆਕਾਰ ਹੈ (ਉੱਪਰ). ADR ਰੂਬਿਕਜ਼ ਕਿਊਬ ਦੇ ਨਿਸ਼ਚਿਤ ਆਕਾਰ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ ਅਤੇ ਜਿਵੇਂ ਜਿਵੇਂ ਟ੍ਰੇਨਿੰਗ ਅੱਗੇ ਵਧਦੀ ਹੈ, ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀ ਰੇਂਜ ਹੌਲੀ ਹੌਲੀ ਵਧਾਉਂਦਾ ਹੈ. ਅਸੀਂ ਇਹੋ ਜਿਹੀ ਤਕਨੀਕ ਹੋਰ ਸਾਰੇ ਪੈਰਾਮੀਟਰਾਂ 'ਤੇ ਵੀ ਲਾਗੂ ਕਰਦੇ ਹਾਂ, ਜਿਵੇਂ ਕਿ ਕਿਊਬ ਦਾ ਭਾਰ, ਰੋਬੋਟ ਦੀਆਂ ਉਂਗਲਾਂ ਦਾ ਘਰਸ਼ਣ, ਅਤੇ ਹੱਥ ਦੀ ਸਤ੍ਹਾ ਦੀ ਦ੍ਰਿਸ਼ ਸਮੱਗਰੀ. ਇਸ ਤਰ੍ਹਾਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਉਹਨਾਂ ਸਾਰੀਆਂ ਵਧਦੀਆਂ ਔਖੀਆਂ ਹਾਲਤਾਂ ਹੇਠਾਂ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਸਿੱਖਣਾ ਪੈਂਦਾ ਹੈ.
ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਲਈ ਸਾਨੂੰ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀਆਂ ਹੱਦਾਂ ਹੱਥੋਂ ਨਿਰਧਾਰਤ ਕਰਣੀਆਂ ਪੈਂਦੀਆਂ ਸਨ, ਜੋ ਮੁਸ਼ਕਲ ਹੈ ਕਿਉਂਕਿ ਬਹੁਤ ਵੱਧ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਸਿੱਖਣ ਨੂੰ ਔਖਾ ਬਣਾ ਦਿੰਦੀ ਹੈ ਪਰ ਬਹੁਤ ਘੱਟ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਅਸਲ ਰੋਬੋਟ ਤੱਕ ਟ੍ਰਾਂਸਫਰ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਂਦੀ ਹੈ. ADR ਇਹ ਸਮੱਸਿਆ ਬਿਨਾਂ ਮਨੁੱਖੀ ਦਖ਼ਲ ਦੇ ਸਮੇਂ ਨਾਲ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੀਆਂ ਹੱਦਾਂ ਆਪੇ ਵਧਾ ਕੇ ਹੱਲ ਕਰਦਾ ਹੈ. ADR ਡੋਮੇਨ ਗਿਆਨ ਦੀ ਲੋੜ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਸਾਡੇ ਤਰੀਕਿਆਂ ਨੂੰ ਨਵੇਂ ਕੰਮਾਂ 'ਤੇ ਲਾਗੂ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ. ਹੱਥੋਂ ਕੀਤੀ ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਦੇ ਉਲਟ, ADR ਕੰਮ ਨੂੰ ਹਮੇਸ਼ਾਂ ਚੁਣੌਤੀਪੂਰਣ ਰੱਖਦਾ ਹੈ ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਕਦੇ ਸੰਮਿਲਿਤ ਨਹੀਂ ਹੁੰਦੀ.
ਅਸੀਂ ਬਲੌਕ-ਫਲਿਪਿੰਗ ਕੰਮ 'ਤੇ ADR ਦੀ ਤੁਲਨਾ ਹੱਥੋਂ ਕੀਤੀ ਡੋਮੇਨ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਨਾਲ ਕੀਤੀ, ਜਿੱਥੇ ਸਾਡੇ ਕੋਲ ਪਹਿਲਾਂ ਹੀ ਇੱਕ ਮਜ਼ਬੂਤ ਬੇਸਲਾਈਨ ਸੀ. ਸ਼ੁਰੂ ਵਿੱਚ, ਅਸਲ ਰੋਬੋਟ ਉੱਤੇ ਸਫਲਤਾਵਾਂ ਦੀ ਗਿਣਤੀ ਦੇ ਹਿਸਾਬ ਨਾਲ ADR ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਖਰਾਬ ਹੁੰਦਾ ਹੈ. ਪਰ ਜਿਵੇਂ ADR ਐਂਟ੍ਰੋਪੀ ਵਧਾਉਂਦਾ ਹੈ, ਜੋ ਵਾਤਾਵਰਣ ਦੀ ਜਟਿਲਤਾ ਦਾ ਮਾਪ ਹੈ, ਟ੍ਰਾਂਸਫਰ ਪ੍ਰਦਰਸ਼ਨ ਆਖ਼ਿਰਕਾਰ ਬੇਸਲਾਈਨ ਨਾਲੋਂ ਦੋਗੁਣਾ ਹੋ ਜਾਂਦਾ ਹੈ—ਉਹ ਵੀ ਬਿਨਾਂ ਮਨੁੱਖੀ ਟਿਊਨਿੰਗ ਦੇ.
ADR ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅਸੀਂ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਅਜੇਹੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਟ੍ਰੇਨ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਅਸਲ ਰੋਬੋਟ ਹੱਥ 'ਤੇ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰ ਸਕਣ. ਇਹ ਇਸ ਲਈ ਸੰਭਵ ਹੈ ਕਿਉਂਕਿ ADR ਨੈੱਟਵਰਕ ਨੂੰ ਰੈਂਡਮ ਕੀਤੀਆਂ ਸਿਮੂਲੇਸ਼ਨਾਂ ਦੀ ਬੇਅੰਤ ਵੱਖਰਤਾ ਨਾਲ ਸਾਹਮਣਾ ਕਰਾਉਂਦਾ ਹੈ. ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਇਹੀ ਜਟਿਲਤਾ ਨਾਲ ਸਾਮ੍ਹਣਾ ਨੈੱਟਵਰਕ ਨੂੰ ਸਿਮੂਲੇਸ਼ਨ ਤੋਂ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਟ੍ਰਾਂਸਫਰ ਲਈ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਕਿਉਂਕਿ ਉਸਨੂੰ ਜਿਸ ਵੀ ਭੌਤਿਕ ਦੁਨੀਆ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਵੇ, ਉਸਨੂੰ ਜਲਦੀ ਪਛਾਣਣਾ ਅਤੇ ਉਸ ਅਨੁਸਾਰ ਢਲਣਾ ਸਿੱਖਣਾ ਪੈਂਦਾ ਹੈ.
ਸਾਡੇ ਤਰੀਕੇ ਦੀਆਂ ਹੱਦਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਅਸੀਂ ਉਸ ਵੇਲੇ ਵੱਖ ਵੱਖ ਵਿਘਨਾਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਦੇ ਹਾਂ ਜਦੋਂ ਹੱਥ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰ ਰਿਹਾ ਹੁੰਦਾ ਹੈ. ਇਹ ਸਿਰਫ਼ ਸਾਡੇ ਕੰਟਰੋਲ ਨੈੱਟਵਰਕ ਦੀ ਮਜ਼ਬੂਤੀ ਦੀ ਜਾਂਚ ਨਹੀਂ ਕਰਦਾ, ਸਗੋਂ ਸਾਡੇ ਵਿਜ਼ਨ ਨੈੱਟਵਰਕ ਦੀ ਵੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਜਿਸਦੀ ਵਰਤੋਂ ਅਸੀਂ ਇੱਥੇ ਕਿਊਬ ਦੀ ਸਥਿਤੀ ਅਤੇ ਦਿਸ਼ਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਕਰਦੇ ਹਾਂ.
ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ADR ਨਾਲ ਟ੍ਰੇਨ ਕੀਤਾ ਸਾਡਾ ਸਿਸਟਮ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਵਿਘਨਾਂ ਦੇ ਪ੍ਰਤੀ ਮਜ਼ਬੂਤ ਹੈ, ਭਾਵੇਂ ਅਸੀਂ ਉਨ੍ਹਾਂ ਨਾਲ ਕਦੇ ਟ੍ਰੇਨਿੰਗ ਨਹੀਂ ਕੀਤੀ: ਰੋਬੋਟ ਸਾਰੇ ਪਰਖੇ ਗਏ ਵਿਘਨਾਂ ਹੇਠਾਂ ਜ਼ਿਆਦਾਤਰ ਫਲਿਪ ਅਤੇ ਫੇਸ ਰੋਟੇਸ਼ਨ ਸਫਲਤਾਪੂਰਵਕ ਕਰ ਸਕਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਸਿਖਰਲੇ ਪ੍ਰਦਰਸ਼ਨ 'ਤੇ ਨਹੀਂ.
ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਮੇਟਾ-ਲਰਨਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਜਾਂ ਸਿੱਖਣਾ ਕਿ ਕਿਵੇਂ ਸਿੱਖਣਾ ਹੈ, ਸਧਾਰਣ-ਉਦੇਸ਼ ਪ੍ਰਣਾਲੀਆਂ ਬਣਾਉਣ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਪੂਰਵ-ਸ਼ਰਤ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਉਨ੍ਹਾਂ ਨੂੰ ਆਪਣੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਬਦਲਦੀਆਂ ਹਾਲਤਾਂ ਨਾਲ ਜਲਦੀ ਅਨੁਕੂਲ ਹੋਣ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ. ADR ਦੇ ਪਿੱਛੇ ਧਾਰਨਾ ਇਹ ਹੈ ਕਿ ਮੈਮਰੀ-ਵਧੇਰੇ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਪ੍ਰਯਾਪਤ ਤੌਰ 'ਤੇ ਰੈਂਡਮ ਕੀਤੇ ਵਾਤਾਵਰਣ ਨਾਲ ਜੋੜਨ ਨਾਲ ਉਭਰਦੀ ਮੇਟਾ-ਲਰਨਿੰਗ ਹੁੰਦੀ ਹੈ, ਜਿੱਥੇ ਨੈੱਟਵਰਕ ਇੱਕ ਐਸਾ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਲਾਗੂ ਕਰਦਾ ਹੈ ਜੋ ਉਸਨੂੰ ਉਸ ਵਾਤਾਵਰਣ ਦੇ ਅਨੁਸਾਰ ਆਪਣੇ ਵਿਹਾਰ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਢਾਲਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਇਸ ਨੂੰ ਤਾਇਨਾਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ.C
ਇਸਦੀ ਪ੍ਰਣਾਲੀਬੱਧ ਜਾਂਚ ਕਰਨ ਲਈ, ਅਸੀਂ ਵੱਖ ਵੱਖ ਵਿਘਨਾਂ ਹੇਠਾਂ ਆਪਣੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਲਈ ਪ੍ਰਤੀ ਕਿਊਬ ਫਲਿਪ ਸਫਲਤਾ ਸਮਾਂ ਮਾਪਦੇ ਹਾਂ (ਕਿਊਬ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਘੁਮਾਉਣਾ ਕਿ ਵੱਖਰਾ ਰੰਗ ਉੱਪਰ ਆ ਜਾਵੇ), ਜਿਵੇਂ ਕਿ ਨੈੱਟਵਰਕ ਦੀ ਮੈਮਰੀ ਰੀਸੈਟ ਕਰਨਾ, ਡਾਇਨਾਮਿਕਸ ਰੀਸੈਟ ਕਰਨਾ, ਜਾਂ ਕਿਸੇ ਜੋੜ ਨੂੰ ਤੋੜਨਾ. ਅਸੀਂ ਇਹ ਪ੍ਰਯੋਗ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਨਾਲ ਸਾਨੂੰ ਨਿਯੰਤਰਿਤ ਸੈਟਿੰਗ ਵਿੱਚ 10,000 ਟ੍ਰਾਇਲਾਂ ਉੱਤੇ ਔਸਤ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਣ ਦੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ.
ਸ਼ੁਰੂ ਵਿੱਚ, ਜਿਵੇਂ ਜਿਵੇਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੋਰ ਫਲਿਪ ਸਫਲਤਾਪੂਰਵਕ ਕਰਦਾ ਹੈ, ਹਰ ਅਗਲਾ ਸਫਲਤਾ ਸਮਾਂ ਘਟਦਾ ਜਾਂਦਾ ਹੈ ਕਿਉਂਕਿ ਨੈੱਟਵਰਕ ਅਨੁਕੂਲ ਹੋਣਾ ਸਿੱਖਦਾ ਹੈ. ਜਦੋਂ ਵਿਘਨ ਲਾਗੂ ਕੀਤੇ ਜਾਂਦੇ ਹਨ (ਉੱਪਰਲੇ ਚਾਰਟ ਵਿੱਚ ਲੰਬਵੀਂ ਸਲੇਟੀ ਲਾਈਨਾਂ), ਅਸੀਂ ਸਫਲਤਾ ਸਮੇਂ ਵਿੱਚ ਇੱਕ ਉਛਾਲ ਵੇਖਦੇ ਹਾਂ. ਇਹ ਇਸ ਲਈ ਹੁੰਦਾ ਹੈ ਕਿਉਂਕਿ ਨੈੱਟਵਰਕ ਜੋ ਰਣਨੀਤੀ ਵਰਤ ਰਿਹਾ ਹੁੰਦਾ ਹੈ, ਉਹ ਬਦਲੇ ਹੋਏ ਵਾਤਾਵਰਣ ਵਿੱਚ ਕੰਮ ਨਹੀਂ ਕਰਦੀ. ਫਿਰ ਨੈੱਟਵਰਕ ਨਵੇਂ ਵਾਤਾਵਰਣ ਬਾਰੇ ਮੁੜ ਸਿੱਖਦਾ ਹੈ ਅਤੇ ਅਸੀਂ ਫਿਰ ਸਫਲਤਾ ਦਾ ਸਮਾਂ ਪਿਛਲੇ ਬੇਸਲਾਈਨ ਤੱਕ ਘਟਦਾ ਵੇਖਦੇ ਹਾਂ.
ਅਸੀਂ ਅਸਫਲਤਾ ਦੀ ਸੰਭਾਵਨਾ ਵੀ ਮਾਪਦੇ ਹਾਂ ਅਤੇ ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਲਈ ਵੀ ਇਹੋ ਜਿਹੇ ਪ੍ਰਯੋਗ ਕੀਤੇ (ਉੱਪਰਲੇ ਫੇਸ ਨੂੰ 90 ਡਿਗਰੀ ਘੜੀ ਦੀ ਦਿਸ਼ਾ ਵਿੱਚ ਜਾਂ ਉਲਟੀ ਦਿਸ਼ਾ ਵਿੱਚ ਘੁਮਾਉਣਾ) ਅਤੇ ਅਨੁਕੂਲਨ ਦਾ ਇਹੋ ਜਿਹਾ ਪੈਟਰਨ ਲੱਭਿਆ.D
ਸਾਡੇ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨ ਨਾਲ ਸਾਨੂੰ ਸਮਝ ਆਉਂਦੀ ਹੈ ਕਿ ਉਹ ਮੈਮਰੀ ਵਿੱਚ ਕੀ ਸੰਭਾਲ ਰਹੇ ਹਨ. ਜਿਵੇਂ ਜਿਵੇਂ ਨੈੱਟਵਰਕਾਂ ਦੀ ਜਟਿਲਤਾ ਵੱਧਦੀ ਹੈ, ਇਹ ਹੋਰ ਵੀ ਮਹੱਤਵਪੂਰਣ ਬਣ ਜਾਂਦਾ ਹੈ.
ਸਾਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੀ ਮੈਮਰੀ ਉੱਪਰ ਦਰਸਾਈ ਗਈ ਹੈ. ਅਸੀਂ ਇੰਟਰਪ੍ਰਿਟੇਬਿਲਟੀ ਟੂਲਬਾਕਸ ਦੇ ਇੱਕ ਬਿਲਡਿੰਗ ਬਲੌਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਰਥਾਤ non-negative matrix factorization, ਦੀ ਵਰਤੋਂ ਇਸ ਉੱਚ-ਆਯਾਮੀ ਵੇਕਟਰ ਨੂੰ 6 ਸਮੂਹਾਂ ਵਿੱਚ ਸੰਕੁਚਿਤ ਕਰਨ ਅਤੇ ਹਰ ਇਕ ਨੂੰ ਵਿਲੱਖਣ ਰੰਗ ਦੇਣ ਲਈ ਕਰਦੇ ਹਾਂ. ਫਿਰ ਅਸੀਂ ਹਰ ਟਾਈਮਸਟੈਪ ਲਈ ਇਸ ਵੇਲੇ ਹਾਵੀ ਸਮੂਹ ਦਾ ਰੰਗ ਦਿਖਾਉਂਦੇ ਹਾਂ.
ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਹਰ ਮੈਮਰੀ ਸਮੂਹ ਨਾਲ ਅਰਥਪੂਰਨ ਵਿਹਾਰ ਜੁੜਿਆ ਹੋਇਆ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ ਸਿਰਫ਼ ਨੈੱਟਵਰਕ ਦੀ ਮੈਮਰੀ ਦੇ ਹਾਵੀ ਸਮੂਹ ਨੂੰ ਵੇਖ ਕੇ ਦੱਸ ਸਕਦੇ ਹਾਂ ਕਿ ਇਹ ਕਿਊਬ ਨੂੰ ਘੁਮਾਉਣ ਵਾਲਾ ਹੈ ਜਾਂ ਉੱਪਰਲੇ ਪਾਸੇ ਨੂੰ ਘੜੀ ਦੀ ਦਿਸ਼ਾ ਵਿੱਚ ਘੁਮਾਉਣ ਵਾਲਾ ਹੈ ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਇਹ ਹੋਵੇ.
ਰੋਬੋਟਿਕ ਹੱਥ ਨਾਲ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨਾ ਅਜੇ ਵੀ ਆਸਾਨ ਨਹੀਂ ਹੈ. ਸਾਡਾ ਤਰੀਕਾ ਇਸ ਵੇਲੇ ਅਤਿਅਧਿਕ ਮੁਸ਼ਕਲ ਸਕ੍ਰੈਂਬਲ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲਾਗੂ ਕਰਨ 'ਤੇ 20% ਵਾਰ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਦਾ ਹੈ, ਜਿਸ ਲਈ 26 ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ. ਸੌਖੇ ਸਕ੍ਰੈਂਬਲਾਂ ਲਈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਉਲਟਣ ਲਈ 15 ਰੋਟੇਸ਼ਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਸਫਲਤਾ ਦਰ 60% ਹੈ. ਜਦੋਂ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਡਿੱਗ ਜਾਂਦਾ ਹੈ ਜਾਂ ਸਮਾਂ ਸੀਮਾ ਪੂਰੀ ਹੋ ਜਾਂਦੀ ਹੈ, ਅਸੀਂ ਕੋਸ਼ਿਸ਼ ਨੂੰ ਅਸਫਲ ਮੰਨਦੇ ਹਾਂ. ਹਾਲਾਂਕਿ, ਸਾਡਾ ਨੈੱਟਵਰਕ ਕਿਸੇ ਵੀ ਸ਼ੁਰੂਆਤੀ ਹਾਲਤ ਤੋਂ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨ ਦੇ ਯੋਗ ਹੈ. ਇਸ ਲਈ ਜੇ ਕਿਊਬ ਡਿੱਗ ਪਏ, ਤਾਂ ਇਸਨੂੰ ਮੁੜ ਹੱਥ ਵਿੱਚ ਰੱਖ ਕੇ ਹੱਲ ਕਰਨਾ ਜਾਰੀ ਰੱਖਿਆ ਜਾ ਸਕਦਾ ਹੈ.
ਅਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਵੇਖਦੇ ਹਾਂ ਕਿ ਸਾਡਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਪਹਿਲੀਆਂ ਕੁਝ ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਅਤੇ ਫਲਿਪਾਂ ਦੌਰਾਨ ਕਾਫ਼ੀ ਵੱਧ ਅਸਫਲ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖਦਾ ਹੈ. ਇਹ ਇਸ ਕਰਕੇ ਹੈ ਕਿਉਂਕਿ ਉਨ੍ਹਾਂ ਸ਼ੁਰੂਆਤੀ ਰੋਟੇਸ਼ਨਾਂ ਅਤੇ ਫਲਿਪਾਂ ਦੌਰਾਨ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨ ਅਤੇ ਭੌਤਿਕ ਦੁਨੀਆ ਨਾਲ ਅਨੁਕੂਲ ਹੋਣ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਬਣਾਉਣਾ ਪੈਂਦਾ ਹੈ.
ਸਾਡੀ ਪ੍ਰਗਤੀ ਦਾ ਮਾਪ ਕਰਨ ਅਤੇ ਸਮੱਸਿਆ ਨੂੰ ਸੰਭਾਲਣਯੋਗ ਬਣਾਉਣ ਲਈ, ਅਸੀਂ ਆਖ਼ਿਰਕਾਰ ਇੱਕ ਆਮ ਰੂਬਿਕਜ਼ ਕਿਊਬ ਹੱਲ ਕਰਨ ਵੱਲ ਕਦਮਾਂ ਵਜੋਂ ਕਿਊਬ ਦੇ ਖਾਸ ਸੰਸਕਰਣ ਬਣਾਏ ਅਤੇ ਡਿਜ਼ਾਈਨ ਕੀਤੇ.E

Rubik’s Cube prototypes, from left to right: Locked cube, Face cube, Full cube, Giiker(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) cube, regular Rubik’s Cube.
ਪ੍ਰੋਟੋਟਾਈਪ | ਸਥਿਤੀ + ਦਿਸ਼ਾ | ਅੰਦਰੂਨੀ ਆਜ਼ਾਦੀ ਦੀਆਂ ਡਿਗਰੀਆਂ (ਸੈਂਸਰ) |
ਲੌਕਡ ਕਿਊਬ | ਵਿਜ਼ਨ | 0 (ਕੋਈ ਸੈਂਸਰ ਨਹੀਂ) |
ਫੇਸ ਕਿਊਬ | PhaseSpace | 2 (PhaseSpace) |
ਫੁਲ ਕਿਊਬ | PhaseSpace | 6 (PhaseSpace) |
Giiker ਕਿਊਬ | ਵਿਜ਼ਨ | 6 (ਅੰਦਰੂਨੀ ਸੈਂਸਰ) |
ਆਮ ਰੂਬਿਕਜ਼ ਕਿਊਬ | ਵਿਜ਼ਨ | 6 (ਵਿਜ਼ਨ) |
ਸਾਡਾ ਮੰਨਣਾ ਹੈ ਕਿ ਮਨੁੱਖੀ ਪੱਧਰ ਦੀ ਨਿਪੁੰਨਤਾ ਸਧਾਰਣ-ਉਦੇਸ਼ ਰੋਬੋਟ ਬਣਾਉਣ ਦੇ ਰਸਤੇ 'ਤੇ ਹੈ ਅਤੇ ਅਸੀਂ ਇਸ ਦਿਸ਼ਾ ਵਿੱਚ ਅੱਗੇ ਵੱਧਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ.
ਜੇ ਤੁਸੀਂ ਵਧਦੇ ਹੋਏ ਹੋਰ ਸਧਾਰਣ AI ਸਿਸਟਮ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਚਾਹੇ ਰੋਬੋਟਿਕ ਹੋਣ ਜਾਂ ਵਰਚੁਅਲ, ਅਸੀਂ ਭਰਤੀ ਕਰ ਰਹੇ ਹਾਂ!
ਫੁੱਟਨੋਟਸ
- A
ਅਸੀਂ ਉਹਨਾਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਧਿਆਨ ਦੇਂਦੇ ਹਾਂ ਜੋ ਇਸ ਵੇਲੇ ਮਸ਼ੀਨਾਂ ਲਈ ਹਾਸਲ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੈ: ਪਰਸੈਪਸ਼ਨ ਅਤੇ ਨਿਪੁੰਨ ਹੇਰਫੇਰ. ਇਸ ਲਈ ਅਸੀਂ ਆਪਣੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ Kociemba’s algorithm ਵੱਲੋਂ ਬਣਾਈਆਂ ਲੋੜੀਂਦੀਆਂ ਫੇਸ ਰੋਟੇਸ਼ਨਾਂ ਅਤੇ ਕਿਊਬ ਫਲਿਪਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨਾ ਸਿਖਾਉਂਦੇ ਹਾਂ.
- B
ਸਾਡਾ ਕੰਮ POET(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਘਣੀ ਤਰ੍ਹਾਂ ਸੰਬੰਧਿਤ ਹੈ, ਜੋ 2D ਵਾਤਾਵਰਣ ਆਪੇ ਬਣਾਉਂਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਸਾਡਾ ਕੰਮ ਸਾਰੇ ਵਾਤਾਵਰਣਾਂ ਉੱਤੇ ਇਕੱਠੀ ਨੀਤੀ ਸਿੱਖਦਾ ਹੈ, ਜੋ ਕਿਸੇ ਵੀ ਨਵੇਂ ਬਣੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਟ੍ਰਾਂਸਫਰ ਹੋ ਜਾਂਦੀ ਹੈ.
- C
ਹੋਰ ਠੋਸ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਇਹ ਧਾਰਨਾ ਰੱਖਦੇ ਹਾਂ ਕਿ ਬੇਹੱਦ ਜਟਿਲਤਾ ਵਾਲੇ ਵਾਤਾਵਰਣਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀਮਿਤ ਸਮਰੱਥਾ ਵਾਲਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੈੱਟਵਰਕ ਨੂੰ ਇੱਕ ਵਿਸ਼ੇਸ਼-ਉਦੇਸ਼ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਸਿੱਖਣ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਹਰ ਇਕੱਲੇ ਵਾਤਾਵਰਣ ਲਈ ਹੱਲ ਯਾਦ ਨਹੀਂ ਰੱਖ ਸਕਦਾ ਅਤੇ ਕੋਈ ਇੱਕ ਇਕੱਲੀ ਮਜ਼ਬੂਤ ਨੀਤੀ ਨਹੀਂ ਹੁੰਦੀ ਜੋ ਸਾਰੀ ਰੈਂਡਮਾਈਜ਼ੇਸ਼ਨ ਹੇਠਾਂ ਕੰਮ ਕਰੇ.
- D
ਪੂਰੇ ਨਤੀਜਿਆਂ ਲਈ ਕਿਰਪਾ ਕਰਕੇ ਸਾਡਾ ਪੇਪਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ.
- E
ਅਸੀਂ ਜੋ ਇਕੱਲਾ ਸੋਧ ਕੀਤਾ, ਉਹ ਹਰ ਕੇਂਦਰੀ ਕਿਊਬਲੈਟ ਦੇ ਰੰਗੀਨ ਸਟਿਕਰ ਦਾ ਇੱਕ ਛੋਟਾ ਹਿੱਸਾ ਕੱਟਣਾ ਸੀ. ਇਹ ਘੁੰਮਣ ਸਮਮਿਤੀ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੂੰ ਤੋੜਣ ਲਈ ਲਾਜ਼ਮੀ ਸੀ.
ਲੇਖਕ
ਧੰਨਵਾਦ
ਇਸ ਪੋਸਟ ਅਤੇ ਪੇਪਰ ਦੇ ਮਸੌਦਿਆਂ 'ਤੇ ਫੀਡਬੈਕ ਲਈ ਹੇਠਲਿਖਤ ਲੋਕਾਂ ਦਾ ਧੰਨਵਾਦ: Josh Achiam, Greg Brockman, Nick Cammarata, Jack Clark, Jeff Clune, Ruben D’Sa, Harri Edwards, David Farhi, Ken Goldberg, Leslie P. Kaelbling, Hyeonwoo Noh, Lerrel Pinto, John Schulman, Ilya Sutskever & Tao Xu.
ਵੀਡੀਓ: Peter Jordan (Director), Yvette Solis (Producer), Brooke Chan (Producer)
ਸੰਪਾਦਕ: Ashley Pilipiszyn
ਡਿਜ਼ਾਈਨ: Justin Jay Wang & Ben Barry
ਫੋਟੋਗ੍ਰਾਫੀ: Eric Haines


