Solving math word problems

અમે એવી સિસ્ટમને તાલીમ આપી છે જે fine-tuned GPT‑3 મોડલ કરતાં લગભગ બમણી ચોકસાઈથી પ્રાથમિક શાળાના ગણિતના પ્રશ્નો ઉકેલે છે. તે વાસ્તવિક બાળકો જેટલા પ્રશ્નોમાંથી લગભગ 90% પ્રશ્નો ઉકેલે છે: 9-12 વર્ષની ઉંમરના બાળકોના નાના નમૂનાએ અમારા ડેટાસેટની કસોટીમાં 60% મેળવ્યા, જ્યારે અમારી સિસ્ટમે એ જ પ્રશ્નોમાં 55% મેળવ્યા.
આ કેમ મહત્વનું છે
આ મહત્વનું છે કારણ કે આજનું AI હજુ સામાન્ય સમજ પર આધારિત બહુ-પગથિયાવાળું રિઝનિંગ કરવામાં ઘણું નબળું છે, જે પ્રાથમિક શાળાના બાળકો માટે પણ સહેલું છે. અમે આ પરિણામો અમારા મોડલને પોતાની ભૂલો ઓળખવાનું શીખવીને હાંસલ કર્યા, જેથી તે કામ લાગતો ઉકેલ મળે ત્યાં સુધી વારંવાર પ્રયત્ન કરી શકે.
GPT‑3 જેવા મોટા ભાષા મોડલો પાસે ઘણી પ્રભાવશાળી ક્ષમતાઓ છે, જેમાં અનેક લેખન શૈલીઓની નકલ કરવાની તેમની ક્ષમતા અને તેમનું વ્યાપક તથ્યજ્ઞાન સામેલ છે. પરંતુ તેઓ એવા કાર્યોમાં સંઘર્ષ કરે છે, જેમાં ચોક્કસ બહુ-પગથિયાવાળું રিজનિંગ જરૂરી હોય, જેમ કે પ્રાથમિક શાળાના ગણિતના શબ્દપ્રશ્નો ઉકેલવા. મોડલ સાચા ઉકેલોની લયની નકલ કરી શકે છે, છતાં તે નિયમિત રીતે તર્કમાં ગંભીર ભૂલો પેદા કરે છે.
જટિલ તાર્કિક ક્ષેત્રોમાં માનવીય પ્રદર્શન સુધી પહોંચવા માટે, અમારા મોડલોએ પોતાની ભૂલો ઓળખવી અને પગલાં વિચારીને પસંદ કરવાનું શીખવું જરૂરી છે. તે માટે, અમે પ્રસ્તાવિત ઉકેલ સાચો છે કે નહીં તેનું મૂલ્યાંકન કરવા વેરિફાયર તાલીમ આપીએ છીએ. નવા પ્રશ્નને ઉકેલવા માટે, અમે ઘણા પ્રસ્તાવિત ઉકેલોમાંથી શ્રેષ્ઠ પસંદ કરવા વેરિફાયરનો ઉપયોગ કરીએ છીએ. અમારી પદ્ધતિઓનું મૂલ્યાંકન કરવા માટે અમે નવું GSM8K ડેટાસેટ એકત્ર કર્યું, અને સંશોધનને સરળ બનાવવા માટે અમે આ ડેટાસેટ જાહેર કરી રહ્યા છીએ.
નીચેના દસ ઉદાહરણોમાં, અમે અમારી નવી પદ્ધતિ verification દ્વારા બનેલા ઉકેલો અને અમારી બેઝલાઇન પદ્ધતિ fine-tuning દ્વારા બનેલા ઉકેલો બતાવીએ છીએ.
GSM8Kમાં 8.5K ઉચ્ચ-ગુણવત્તાવાળા પ્રાથમિક શાળાના ગણિતના શબ્દપ્રશ્નો સામેલ છે. દરેક પ્રશ્ન ઉકેલવા માટે 2 થી 8 પગલાં લે છે, અને ઉકેલોમાં મુખ્યત્વે મૂળભૂત ગણિતીય ક્રિયાઓ (+ − × ÷) નો ઉપયોગ કરીને સરળ ગણતરીઓની શ્રેણી કરીને અંતિમ જવાબ સુધી પહોંચવામાં આવે છે. fine-tuned અદ્યતન ભાષા મોડલો આ ડેટાસેટ પર નબળું પ્રદર્શન કરે છે, મુખ્યત્વે પ્રશ્નોની ઊંચી વિવિધતાને કારણે. સાથે સાથે, GSM8Kના ઉકેલો ફક્ત પ્રાથમિક સંકલ્પનાઓ પર આધાર રાખે છે, તેથી ટેસ્ટમાં ઊંચું પ્રદર્શન મેળવવું એક હાંસલ કરી શકાય એવું લક્ષ્ય છે.
GSM8Kમાં ઉકેલો શુદ્ધ ગણિતીય અભિવ્યક્તિઓ તરીકે નહીં પરંતુ સ્વાભાવિક ભાષામાં લખાયેલા છે. સ્વાભાવિક ભાષા પર ટકી રહેતાં, મોડલ-જનરેટેડ ઉકેલો માનવો માટે વધુ સરળતાથી સમજાય એવા બને છે, અને અમારી પદ્ધતિઓ પ્રમાણમાં ક્ષેત્ર-નિરપેક્ષ રહે છે.
ગણિતીય રિઝનિંગમાં એક મહત્વપૂર્ણ પડકાર એ છે કે વ્યક્તિગત ભૂલો પ્રત્યે ખૂબ ઊંચી સંવેદનશીલતા હોય છે. ઑટોરિગ્રેસિવ મોડલો, જે દરેક ઉકેલ ટોકન પછી ટોકન બનાવે છે, તેમની પોતાની ભૂલો સુધારવાની કોઈ વ્યવસ્થા ધરાવતા નથી. માર્ગથી ભટકેલા ઉકેલો ઝડપથી અસમર્થનીય બની જાય છે, જેમ કે આપેલા ઉદાહરણોમાં જોઈ શકાય છે.
અમે આ સમસ્યાનો ઉકેલ મોડલ-જનરેટેડ ઉકેલોની સાચાશનું મૂલ્યાંકન કરવા વેરિફાયર તાલીમ આપીને કરીએ છીએ. વેરિફાયરને અનેક સંભવિત ઉકેલો આપવામાં આવે છે, જે બધા મોડલએ જ લખેલા હોય છે, અને તેઓને એ નક્કી કરવાનું તાલીમ આપવામાં આવે છે કે તેમાં કયા, જો હોય તો, સાચા છે.
ટેસ્ટ સમયે નવા પ્રશ્નને ઉકેલવા માટે, અમે 100 ઉમેદવાર ઉકેલો બનાવીએ છીએ અને પછી વેરિફાયર દ્વારા સૌથી ઊંચું ક્રમ આપેલા ઉકેલને પસંદ કરીએ છીએ. વેરિફાયરને આ મૂળભૂત વિકલ્પસમૃદ્ધિનો લાભ મળે છે, અને એ વાતનો પણ કે ચકાસણી ઘણીવાર જનરેશન કરતાં સરળ કાર્ય હોય છે.
અમે જોયું છે કે જો ડેટાસેટ પૂરતું મોટું હોય તો verificationથી પ્રદર્શનમાં મજબૂત વધારો મળે છે. બહુ નાનાં ડેટાસેટમાં, અમારી માન્યતા છે કે વેરિફાયર ગણિતીય રિઝનિંગના વધુ ઉપયોગી ગુણધર્મો શીખવાને બદલે તાલીમ સમૂહના અંતિમ જવાબોને યાદ રાખીને overfit કરે છે.
સંપૂર્ણ તાલીમ સમૂહ પર, 6B પેરામીટર verification, fine-tuned 175B પેરામીટર મોડલ કરતાં થોડું સારું પ્રદર્શન કરે છે, જે આશરે 30x મોડલ સાઇઝ વધારાને સમકક્ષ પ્રદર્શન વધારો આપે છે. વધુમાં, વર્તમાન પરિણામોના આધારે અંદાજ લગાવીએ તો, વધારાના ડેટા સાથે verification વધુ અસરકારક રીતે સ્કેલ થતું દેખાય છે.
સાચા તર્ક રજૂ કરવું અને ખોટા તર્કને ઓળખવું વધુ સામાન્ય AI વિકસાવવા માટેના મુખ્ય પડકારો છે. પ્રાથમિક શાળાનું ગણિત આ ક્ષમતાઓ માટે એક આદર્શ પરીક્ષણક્ષેત્ર છે. GSM8Kનાં પ્રશ્નો ધારણાત્મક રીતે સરળ છે, છતાં એક સૂક્ષ્મ ભૂલ સંપૂર્ણ ઉકેલને પાટા પરથી ઉતારી દેવા માટે પૂરતી છે. આવી ભૂલો ઓળખવી અને ટાળવી અમારા મોડલોએ વિકસાવવાની એક નિર્ણાયક કુશળતા છે. વેરિફાયર તાલીમ આપીને, અમે અમારા મોડલને સારા ઉકેલો અને સંપૂર્ણ રીતે કામ ન લાગેલા ઉકેલો વચ્ચે ભેદ કરવાનું શીખવીએ છીએ. જેમ જેમ અમે અમારા મોડલોને વધુ તાર્કિક રીતે જટિલ ક્ષેત્રોમાં લાગુ કરવાનો પ્રયત્ન કરીશું, તેમ તેમ આ કુશળતાઓ વધુને વધુ પ્રાસંગિક બનશે તેવી અમારી અપેક્ષા છે.
લેખકો
આભારવિદિ
GSM8K ડેટા સંગ્રહ કરવા બદલ Surge AIની ટીમનો આભાર.
અમારા પેપરના સહ-લેખકોનો આભાર: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, અને Christopher Hesse.
આ પ્રકાશન પર પ્રતિસાદ આપનાર સૌનો આભાર: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, અને Steve Dowling.
અમારી કસોટી આપવા સ્વયંસેવક બનેલા વિદ્યાર્થીઓનો આભાર!


