26 ઑક્ટોબર, 2017

એક હાયરાર્કી શીખવી

લોડિંગ…

અમે એક હાયરાર્કિકલ રીઇન્ફોર્સમેન્ટ લર્નિંગ અલ્ગોરિધમ વિકસાવ્યો છે, જે વિવિધ કાર્યો ઉકેલવા માટે ઉપયોગી ઉચ્ચ-સ્તરીય ક્રિયાઓ શીખે છે, જેથી હજારો ટાઇમસ્ટેપ્સ જરૂરી હોય તેવા કાર્યો ઝડપથી ઉકેલી શકાય. અમારો અલ્ગોરિધમ, જ્યારે નેવિગેશન સમસ્યાઓના સમૂહ પર લાગુ કરવામાં આવે છે, ત્યારે અલગ-અલગ દિશાઓમાં ચાલવા અને ક્રોલ કરવા માટેની ઉચ્ચ-સ્તરીય ક્રિયાઓનો સમૂહ શોધે છે, જે એજન્ટને નવા નેવિગેશન કાર્યો ઝડપથી માસ્ટર કરવામાં સક્ષમ બનાવે છે.

માનવો જટિલ પડકારોને નાના, સંભાળી શકાય એવા ઘટકોમાં વહેંચીને ઉકેલે છે. પેનકેક બનાવવાની પ્રક્રિયામાં ઉચ્ચ-સ્તરીય ક્રિયાઓની શ્રેણી હોય છે, જેમ કે લોટ માપવો, ઇંડા ફેન્ટવા, મિશ્રણને પૅનમાં નાખવું, સ્ટોવ ચાલુ કરવો, અને આગળ પણ આવું જ. માનવો આ શીખેલા ઘટકોને અનુક્રમે જોડીને નવા કાર્યો ઝડપથી શીખી શકે છે, ભલે તે કાર્યમાં લાખો નીચા-સ્તરના પગલાં, એટલે કે વ્યક્તિગત પેશી સંકોચનો, સામેલ હોય.

બીજી તરફ, આજની રીઇન્ફોર્સમેન્ટ લર્નિંગ પદ્ધતિઓ નીચા-સ્તરના પગલાંઓ પર brute force શોધ દ્વારા કાર્ય કરે છે, જેથી નવા કાર્યને ઉકેલવા માટે અત્યંત મોટી સંખ્યામાં પ્રયત્નોની જરૂર પડે છે. જ્યાં મોટા પ્રમાણમાં ટાઇમસ્ટેપ્સ લાગે છે એવા કાર્યો ઉકેલવામાં આ પદ્ધતિઓ બહુ અકાર્યક્ષમ બની જાય છે.

અમારું સમાધાન હાયરાર્કિકલ રીઇન્ફોર્સમેન્ટ લર્નિંગના વિચાર પર આધારિત છે, જેમાં એજન્ટ જટિલ વર્તનોને ઉચ્ચ-સ્તરીય ક્રિયાઓની ટૂંકી શ્રેણી તરીકે રજૂ કરે છે. આથી અમારા એજન્ટો ઘણી વધુ મુશ્કેલ કાર્યો ઉકેલી શકે છે: જ્યાં સમાધાન માટે 2000 નીચા-સ્તરના પગલાં જરૂરી હોય, ત્યાં હાયરાર્કિકલ નીતિ તેને 10 ઉચ્ચ-સ્તરીય ક્રિયાઓની શ્રેણીમાં ફેરવે છે, અને 2000-પગલાંની શ્રેણી કરતાં 10-પગલાંની શ્રેણી પર શોધ કરવી ઘણી વધુ કાર્યક્ષમ છે.

મેટા-લર્નિંગ શેર્ડ હાયરાર્કીઝ

Flow diagram of observations undergoing policy and converting to action

અમારો અલ્ગોરિધમ, મેટા-લર્નિંગ શેર્ડ હાયરાર્કીઝ (MLSH), એક હાયરાર્કિકલ નીતિ શીખે છે જેમાં એક માસ્ટર નીતિ સબ-નીતિઓના સમૂહ વચ્ચે સ્વિચ કરે છે. માસ્ટર દરેક N ટાઇમસ્ટેપ્સે એક ક્રિયા પસંદ કરે છે, જ્યાં અમે N=200 લઈ શકીએ. N ટાઇમસ્ટેપ્સ માટે ચલાવવામાં આવતી સબ-નીતિ એક ઉચ્ચ-સ્તરીય ક્રિયા બને છે, અને અમારા નેવિગેશન કાર્યો માટે, સબ-નીતિઓ અલગ-અલગ દિશામાં ચાલવા અથવા ક્રોલ કરવા સાથે સંબંધિત છે.

અગાઉના મોટા ભાગના કામમાં, હાયરાર્કિકલ નીતિઓ સ્પષ્ટ રીતે હાથેથી એન્જિનિયર કરવામાં આવી હતી. તેના બદલે, અમારું લક્ષ્ય પર્યાવરણ સાથેની પરસ્પર ક્રિયા દ્વારા આ હાયરાર્કિકલ રચનાને આપમેળે શોધવાનું છે. મેટા-લર્નિંગના દૃષ્ટિકોણથી, અમે સારી હાયરાર્કીને એવી માનીએ છીએ કે જે અજાણ્યા કાર્યો પર તાલીમ દરમિયાન ઝડપથી ઉચ્ચ ઇનામ સુધી પહોંચે. તેથી, MLSH અલ્ગોરિધમનું લક્ષ્ય એવી સબ-નીતિઓ શીખવાનું છે જે પહેલાં અજાણ્યા રહેલા કાર્યો પર ઝડપી લર્નિંગ સક્ષમ બનાવે.

અમે કાર્યોના વિતરણ પર તાલીમ આપીએ છીએ, સબ-નીતિઓને શેર કરતાં દરેક નમૂનાકૃત કાર્ય પર નવી માસ્ટર નીતિ શીખીએ છીએ. નવી માસ્ટર નીતિઓને વારંવાર તાલીમ આપવાથી, આ પ્રક્રિયા આપમેળે એવી સબ-નીતિઓ શોધે છે જે માસ્ટર નીતિના લર્નિંગ ડાયનામિક્સને અનુરૂપ હોય.

પ્રયોગો

લોડ થઈ રહ્યું છે...

અમારા AntMaze પર્યાવરણમાં, એક Mujoco Ant રોબોટને 9 અલગ-અલગ મેઝના વિતરણમાં મૂકવામાં આવે છે અને તેને શરૂઆતની સ્થિતિથી લક્ષ્ય સુધી નેવિગેટ કરવું પડે છે. અમારો અલ્ગોરિધમ સફળતાપૂર્વક સબ-નીતિઓનો વિવિધ સમૂહ શોધી શકે છે જેને એકસાથે અનુક્રમે ગોઠવીને માત્ર પર્યાવરણ સાથેની પરસ્પર ક્રિયા દ્વારા મેઝ કાર્યો ઉકેલી શકાય. ત્યારબાદ આ સબ-નીતિઓના સમૂહનો ઉપયોગ તેઓને જેમના પર તાલીમ આપવામાં આવી હતી તેનાથી મોટા કાર્યમાં પ્રાવિણ્ય મેળવવા માટે થઈ શકે છે (પોસ્ટની શરૂઆતમાં વિડિયો જુઓ).

લોડ થઈ રહ્યું છે...

કોડ

અમે MLSH એજન્ટોને તાલીમ આપવા માટેનો કોડ⁠(નવી વિન્ડોમાં ખૂલે છે) તેમજ આ અલ્ગોરિધમ્સનું મૂલ્યાંકન કરવા માટે અમે બનાવેલા MuJoCo પર્યાવરણો રિલીઝ કરી રહ્યા છીએ.

લેખકો

Kevin Frans, Jonathan Ho, Peter Chen, Pieter Abbeel

સંબંધિત લેખો

બધું જુઓ

Scaling laws for reward model overoptimization

પ્રકાશન19 ઑક્ટો, 2022

Learning to play Minecraft with Video PreTraining

નિષ્કર્ષ23 જૂન, 2022

Dota 2 with large scale deep reinforcement learning

પ્રકાશન13 ડિસે, 2019