મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI
લોડિંગ…

અમે એક હાયરાર્કિકલ રીઇન્ફોર્સમેન્ટ લર્નિંગ અલ્ગોરિધમ વિકસાવ્યો છે, જે વિવિધ કાર્યો ઉકેલવા માટે ઉપયોગી ઉચ્ચ-સ્તરીય ક્રિયાઓ શીખે છે, જેથી હજારો ટાઇમસ્ટેપ્સ જરૂરી હોય તેવા કાર્યો ઝડપથી ઉકેલી શકાય. અમારો અલ્ગોરિધમ, જ્યારે નેવિગેશન સમસ્યાઓના સમૂહ પર લાગુ કરવામાં આવે છે, ત્યારે અલગ-અલગ દિશાઓમાં ચાલવા અને ક્રોલ કરવા માટેની ઉચ્ચ-સ્તરીય ક્રિયાઓનો સમૂહ શોધે છે, જે એજન્ટને નવા નેવિગેશન કાર્યો ઝડપથી માસ્ટર કરવામાં સક્ષમ બનાવે છે.

માનવો જટિલ પડકારોને નાના, સંભાળી શકાય એવા ઘટકોમાં વહેંચીને ઉકેલે છે. પેનકેક બનાવવાની પ્રક્રિયામાં ઉચ્ચ-સ્તરીય ક્રિયાઓની શ્રેણી હોય છે, જેમ કે લોટ માપવો, ઇંડા ફેન્ટવા, મિશ્રણને પૅનમાં નાખવું, સ્ટોવ ચાલુ કરવો, અને આગળ પણ આવું જ. માનવો આ શીખેલા ઘટકોને અનુક્રમે જોડીને નવા કાર્યો ઝડપથી શીખી શકે છે, ભલે તે કાર્યમાં લાખો નીચા-સ્તરના પગલાં, એટલે કે વ્યક્તિગત પેશી સંકોચનો, સામેલ હોય.

બીજી તરફ, આજની રીઇન્ફોર્સમેન્ટ લર્નિંગ પદ્ધતિઓ નીચા-સ્તરના પગલાંઓ પર brute force શોધ દ્વારા કાર્ય કરે છે, જેથી નવા કાર્યને ઉકેલવા માટે અત્યંત મોટી સંખ્યામાં પ્રયત્નોની જરૂર પડે છે. જ્યાં મોટા પ્રમાણમાં ટાઇમસ્ટેપ્સ લાગે છે એવા કાર્યો ઉકેલવામાં આ પદ્ધતિઓ બહુ અકાર્યક્ષમ બની જાય છે.

અમારું સમાધાન હાયરાર્કિકલ રીઇન્ફોર્સમેન્ટ લર્નિંગના વિચાર પર આધારિત છે, જેમાં એજન્ટ જટિલ વર્તનોને ઉચ્ચ-સ્તરીય ક્રિયાઓની ટૂંકી શ્રેણી તરીકે રજૂ કરે છે. આથી અમારા એજન્ટો ઘણી વધુ મુશ્કેલ કાર્યો ઉકેલી શકે છે: જ્યાં સમાધાન માટે 2000 નીચા-સ્તરના પગલાં જરૂરી હોય, ત્યાં હાયરાર્કિકલ નીતિ તેને 10 ઉચ્ચ-સ્તરીય ક્રિયાઓની શ્રેણીમાં ફેરવે છે, અને 2000-પગલાંની શ્રેણી કરતાં 10-પગલાંની શ્રેણી પર શોધ કરવી ઘણી વધુ કાર્યક્ષમ છે.

મેટા-લર્નિંગ શેર્ડ હાયરાર્કીઝ

Flow diagram of observations undergoing policy and converting to action

અમારો અલ્ગોરિધમ, મેટા-લર્નિંગ શેર્ડ હાયરાર્કીઝ (MLSH), એક હાયરાર્કિકલ નીતિ શીખે છે જેમાં એક માસ્ટર નીતિ સબ-નીતિઓના સમૂહ વચ્ચે સ્વિચ કરે છે. માસ્ટર દરેક N ટાઇમસ્ટેપ્સે એક ક્રિયા પસંદ કરે છે, જ્યાં અમે N=200 લઈ શકીએ. N ટાઇમસ્ટેપ્સ માટે ચલાવવામાં આવતી સબ-નીતિ એક ઉચ્ચ-સ્તરીય ક્રિયા બને છે, અને અમારા નેવિગેશન કાર્યો માટે, સબ-નીતિઓ અલગ-અલગ દિશામાં ચાલવા અથવા ક્રોલ કરવા સાથે સંબંધિત છે.

અગાઉના મોટા ભાગના કામમાં, હાયરાર્કિકલ નીતિઓ સ્પષ્ટ રીતે હાથેથી એન્જિનિયર કરવામાં આવી હતી. તેના બદલે, અમારું લક્ષ્ય પર્યાવરણ સાથેની પરસ્પર ક્રિયા દ્વારા આ હાયરાર્કિકલ રચનાને આપમેળે શોધવાનું છે. મેટા-લર્નિંગના દૃષ્ટિકોણથી, અમે સારી હાયરાર્કીને એવી માનીએ છીએ કે જે અજાણ્યા કાર્યો પર તાલીમ દરમિયાન ઝડપથી ઉચ્ચ ઇનામ સુધી પહોંચે. તેથી, MLSH અલ્ગોરિધમનું લક્ષ્ય એવી સબ-નીતિઓ શીખવાનું છે જે પહેલાં અજાણ્યા રહેલા કાર્યો પર ઝડપી લર્નિંગ સક્ષમ બનાવે.

અમે કાર્યોના વિતરણ પર તાલીમ આપીએ છીએ, સબ-નીતિઓને શેર કરતાં દરેક નમૂનાકૃત કાર્ય પર નવી માસ્ટર નીતિ શીખીએ છીએ. નવી માસ્ટર નીતિઓને વારંવાર તાલીમ આપવાથી, આ પ્રક્રિયા આપમેળે એવી સબ-નીતિઓ શોધે છે જે માસ્ટર નીતિના લર્નિંગ ડાયનામિક્સને અનુરૂપ હોય.

પ્રયોગો

લોડ થઈ રહ્યું છે...

અમારા AntMaze પર્યાવરણમાં, એક Mujoco Ant રોબોટને 9 અલગ-અલગ મેઝના વિતરણમાં મૂકવામાં આવે છે અને તેને શરૂઆતની સ્થિતિથી લક્ષ્ય સુધી નેવિગેટ કરવું પડે છે. અમારો અલ્ગોરિધમ સફળતાપૂર્વક સબ-નીતિઓનો વિવિધ સમૂહ શોધી શકે છે જેને એકસાથે અનુક્રમે ગોઠવીને માત્ર પર્યાવરણ સાથેની પરસ્પર ક્રિયા દ્વારા મેઝ કાર્યો ઉકેલી શકાય. ત્યારબાદ આ સબ-નીતિઓના સમૂહનો ઉપયોગ તેઓને જેમના પર તાલીમ આપવામાં આવી હતી તેનાથી મોટા કાર્યમાં પ્રાવિણ્ય મેળવવા માટે થઈ શકે છે (પોસ્ટની શરૂઆતમાં વિડિયો જુઓ).

લોડ થઈ રહ્યું છે...

કોડ

અમે MLSH એજન્ટોને તાલીમ આપવા માટેનો કોડ(નવી વિન્ડોમાં ખૂલે છે) તેમજ આ અલ્ગોરિધમ્સનું મૂલ્યાંકન કરવા માટે અમે બનાવેલા MuJoCo પર્યાવરણો રિલીઝ કરી રહ્યા છીએ.