29 ઑક્ટોબર, 2021

Solving math word problems

લોડિંગ…

અમે એવી સિસ્ટમને તાલીમ આપી છે જે fine-tuned GPT‑3 મોડલ કરતાં લગભગ બમણી ચોકસાઈથી પ્રાથમિક શાળાના ગણિતના પ્રશ્નો ઉકેલે છે. તે વાસ્તવિક બાળકો જેટલા પ્રશ્નોમાંથી લગભગ 90% પ્રશ્નો ઉકેલે છે: 9-12 વર્ષની ઉંમરના બાળકોના નાના નમૂનાએ અમારા ડેટાસેટની કસોટીમાં 60% મેળવ્યા, જ્યારે અમારી સિસ્ટમે એ જ પ્રશ્નોમાં 55% મેળવ્યા.

આ કેમ મહત્વનું છે

આ મહત્વનું છે કારણ કે આજનું AI હજુ સામાન્ય સમજ પર આધારિત બહુ-પગથિયાવાળું રિઝનિંગ કરવામાં ઘણું નબળું છે, જે પ્રાથમિક શાળાના બાળકો માટે પણ સહેલું છે. અમે આ પરિણામો અમારા મોડલને પોતાની ભૂલો ઓળખવાનું શીખવીને હાંસલ કર્યા, જેથી તે કામ લાગતો ઉકેલ મળે ત્યાં સુધી વારંવાર પ્રયત્ન કરી શકે.

પરિચય

GPT‑3 જેવા મોટા ભાષા મોડલો પાસે ઘણી પ્રભાવશાળી ક્ષમતાઓ છે, જેમાં અનેક લેખન શૈલીઓની નકલ કરવાની તેમની ક્ષમતા અને તેમનું વ્યાપક તથ્યજ્ઞાન સામેલ છે. પરંતુ તેઓ એવા કાર્યોમાં સંઘર્ષ કરે છે, જેમાં ચોક્કસ બહુ-પગથિયાવાળું રিজનિંગ જરૂરી હોય, જેમ કે પ્રાથમિક શાળાના ગણિતના શબ્દપ્રશ્નો ઉકેલવા. મોડલ સાચા ઉકેલોની લયની નકલ કરી શકે છે, છતાં તે નિયમિત રીતે તર્કમાં ગંભીર ભૂલો પેદા કરે છે.

જટિલ તાર્કિક ક્ષેત્રોમાં માનવીય પ્રદર્શન સુધી પહોંચવા માટે, અમારા મોડલોએ પોતાની ભૂલો ઓળખવી અને પગલાં વિચારીને પસંદ કરવાનું શીખવું જરૂરી છે. તે માટે, અમે પ્રસ્તાવિત ઉકેલ સાચો છે કે નહીં તેનું મૂલ્યાંકન કરવા વેરિફાયર તાલીમ આપીએ છીએ. નવા પ્રશ્નને ઉકેલવા માટે, અમે ઘણા પ્રસ્તાવિત ઉકેલોમાંથી શ્રેષ્ઠ પસંદ કરવા વેરિફાયરનો ઉપયોગ કરીએ છીએ. અમારી પદ્ધતિઓનું મૂલ્યાંકન કરવા માટે અમે નવું GSM8K ડેટાસેટ એકત્ર કર્યું, અને સંશોધનને સરળ બનાવવા માટે અમે આ ડેટાસેટ જાહેર કરી રહ્યા છીએ.

નીચેના દસ ઉદાહરણોમાં, અમે અમારી નવી પદ્ધતિ verification દ્વારા બનેલા ઉકેલો અને અમારી બેઝલાઇન પદ્ધતિ fine-tuning દ્વારા બનેલા ઉકેલો બતાવીએ છીએ.

લોડ થઈ રહ્યું છે...

GSM8K ડેટાસેટ

GSM8Kમાં 8.5K ઉચ્ચ-ગુણવત્તાવાળા પ્રાથમિક શાળાના ગણિતના શબ્દપ્રશ્નો સામેલ છે. દરેક પ્રશ્ન ઉકેલવા માટે 2 થી 8 પગલાં લે છે, અને ઉકેલોમાં મુખ્યત્વે મૂળભૂત ગણિતીય ક્રિયાઓ (+ − × ÷) નો ઉપયોગ કરીને સરળ ગણતરીઓની શ્રેણી કરીને અંતિમ જવાબ સુધી પહોંચવામાં આવે છે. fine-tuned અદ્યતન ભાષા મોડલો આ ડેટાસેટ પર નબળું પ્રદર્શન કરે છે, મુખ્યત્વે પ્રશ્નોની ઊંચી વિવિધતાને કારણે. સાથે સાથે, GSM8Kના ઉકેલો ફક્ત પ્રાથમિક સંકલ્પનાઓ પર આધાર રાખે છે, તેથી ટેસ્ટમાં ઊંચું પ્રદર્શન મેળવવું એક હાંસલ કરી શકાય એવું લક્ષ્ય છે.

GSM8Kમાં ઉકેલો શુદ્ધ ગણિતીય અભિવ્યક્તિઓ તરીકે નહીં પરંતુ સ્વાભાવિક ભાષામાં લખાયેલા છે. સ્વાભાવિક ભાષા પર ટકી રહેતાં, મોડલ-જનરેટેડ ઉકેલો માનવો માટે વધુ સરળતાથી સમજાય એવા બને છે, અને અમારી પદ્ધતિઓ પ્રમાણમાં ક્ષેત્ર-નિરપેક્ષ રહે છે.

વેરિફાયરનું તાલીમકરણ: પોતાની ભૂલોમાંથી શીખતા મોડલ

ગણિતીય રિઝનિંગમાં એક મહત્વપૂર્ણ પડકાર એ છે કે વ્યક્તિગત ભૂલો પ્રત્યે ખૂબ ઊંચી સંવેદનશીલતા હોય છે. ઑટોરિગ્રેસિવ મોડલો, જે દરેક ઉકેલ ટોકન પછી ટોકન બનાવે છે, તેમની પોતાની ભૂલો સુધારવાની કોઈ વ્યવસ્થા ધરાવતા નથી. માર્ગથી ભટકેલા ઉકેલો ઝડપથી અસમર્થનીય બની જાય છે, જેમ કે આપેલા ઉદાહરણોમાં જોઈ શકાય છે.

અમે આ સમસ્યાનો ઉકેલ મોડલ-જનરેટેડ ઉકેલોની સાચાશનું મૂલ્યાંકન કરવા વેરિફાયર તાલીમ આપીને કરીએ છીએ. વેરિફાયરને અનેક સંભવિત ઉકેલો આપવામાં આવે છે, જે બધા મોડલએ જ લખેલા હોય છે, અને તેઓને એ નક્કી કરવાનું તાલીમ આપવામાં આવે છે કે તેમાં કયા, જો હોય તો, સાચા છે.

ટેસ્ટ સમયે નવા પ્રશ્નને ઉકેલવા માટે, અમે 100 ઉમેદવાર ઉકેલો બનાવીએ છીએ અને પછી વેરિફાયર દ્વારા સૌથી ઊંચું ક્રમ આપેલા ઉકેલને પસંદ કરીએ છીએ. વેરિફાયરને આ મૂળભૂત વિકલ્પસમૃદ્ધિનો લાભ મળે છે, અને એ વાતનો પણ કે ચકાસણી ઘણીવાર જનરેશન કરતાં સરળ કાર્ય હોય છે.

લોડ થઈ રહ્યું છે...

અમે જોયું છે કે જો ડેટાસેટ પૂરતું મોટું હોય તો verificationથી પ્રદર્શનમાં મજબૂત વધારો મળે છે. બહુ નાનાં ડેટાસેટમાં, અમારી માન્યતા છે કે વેરિફાયર ગણિતીય રિઝનિંગના વધુ ઉપયોગી ગુણધર્મો શીખવાને બદલે તાલીમ સમૂહના અંતિમ જવાબોને યાદ રાખીને overfit કરે છે.

સંપૂર્ણ તાલીમ સમૂહ પર, 6B પેરામીટર verification, fine-tuned 175B પેરામીટર મોડલ કરતાં થોડું સારું પ્રદર્શન કરે છે, જે આશરે 30x મોડલ સાઇઝ વધારાને સમકક્ષ પ્રદર્શન વધારો આપે છે. વધુમાં, વર્તમાન પરિણામોના આધારે અંદાજ લગાવીએ તો, વધારાના ડેટા સાથે verification વધુ અસરકારક રીતે સ્કેલ થતું દેખાય છે.

નિષ્કર્ષ

સાચા તર્ક રજૂ કરવું અને ખોટા તર્કને ઓળખવું વધુ સામાન્ય AI વિકસાવવા માટેના મુખ્ય પડકારો છે. પ્રાથમિક શાળાનું ગણિત આ ક્ષમતાઓ માટે એક આદર્શ પરીક્ષણક્ષેત્ર છે. GSM8Kનાં પ્રશ્નો ધારણાત્મક રીતે સરળ છે, છતાં એક સૂક્ષ્મ ભૂલ સંપૂર્ણ ઉકેલને પાટા પરથી ઉતારી દેવા માટે પૂરતી છે. આવી ભૂલો ઓળખવી અને ટાળવી અમારા મોડલોએ વિકસાવવાની એક નિર્ણાયક કુશળતા છે. વેરિફાયર તાલીમ આપીને, અમે અમારા મોડલને સારા ઉકેલો અને સંપૂર્ણ રીતે કામ ન લાગેલા ઉકેલો વચ્ચે ભેદ કરવાનું શીખવીએ છીએ. જેમ જેમ અમે અમારા મોડલોને વધુ તાર્કિક રીતે જટિલ ક્ષેત્રોમાં લાગુ કરવાનો પ્રયત્ન કરીશું, તેમ તેમ આ કુશળતાઓ વધુને વધુ પ્રાસંગિક બનશે તેવી અમારી અપેક્ષા છે.

લેખકો

Karl Cobbe, Vineet Kosaraju, John Schulman

આભારવિદિ

GSM8K ડેટા સંગ્રહ કરવા બદલ Surge AIની ટીમનો આભાર.

અમારા પેપરના સહ-લેખકોનો આભાર: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, અને Christopher Hesse.

આ પ્રકાશન પર પ્રતિસાદ આપનાર સૌનો આભાર: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, અને Steve Dowling.

અમારી કસોટી આપવા સ્વયંસેવક બનેલા વિદ્યાર્થીઓનો આભાર!

સંબંધિત લેખો

બધું જુઓ

Three farmers using a mobile app outside

ખેડૂતો માટે કૃષિ ડેટાબેઝ બનાવવું

12 જાન્યુ, 2024

AI Website Builder સાથે મિનિટોમાં વેબસાઇટ્સ બનાવવી

29 મે, 2025

LLM-સંચાલિત આરોગ્ય સોલ્યુશન્સ પહોંચાડતા

4 જાન્યુ, 2024