Solving math word problems

Ħarriġna sistema li ssolvi problemi tal-matematika tal-iskola primarja bi kważi d-doppju tal-preċiżjoni ta’ mudell GPT‑3 irfinat b’fine-tuning. Issolvi madwar 90% tan-numru ta’ problemi li jsolvu tfal reali: kampjun żgħir ta’ tfal ta’ bejn 9 u 12-il sena kiseb 60% f’test mis-sett tad-data tagħna, filwaqt li s-sistema tagħna kisbet 55% fuq dawk l-istess problemi.
Għaliex huwa importanti
Dan huwa importanti għaliex l-AI tal-lum għadha pjuttost dgħajfa fir-raġunament ta’ sens komun f’ħafna passi, li hu faċli anke għal tfal tal-iskola primarja. Ksiebna dawn ir-riżultati billi ħarrigna l-mudell tagħna biex jagħraf l-iżbalji tiegħu, sabiex ikun jista’ jerġa’ jipprova ripetutament sakemm isib soluzzjoni li taħdem.
Mudelli kbar tal-lingwa bħal GPT‑3 għandhom ħafna ħiliet impressjonanti, inkluża l-kapaċità tagħhom li jimitaw ħafna stili ta’ kitba, u l-għarfien fattwali estensiv tagħhom. Madankollu, isibuha diffiċli biex iwettqu kompiti li jeħtieġu raġunament preċiż f’ħafna passi, bħal biex isolvu problemi tal-kliem tal-matematika tal-iskola primarja. Għalkemm il-mudell jista’ jimita r-ritmu ta’ soluzzjonijiet korretti, regolarment jipproduċi żbalji kritiċi fil-loġika.
Biex nilħqu l-prestazzjoni tal-bniedem f’oqsma loġiċi kumplessi, il-mudelli tagħna jridu jitgħallmu jagħrfu l-iżbalji tagħhom u jagħżlu l-passi tagħhom b’attenzjoni. Għal dan il-għan, inħarrġu verifikaturi biex jevalwaw jekk soluzzjoni proposta hijiex korretta jew le. Biex insolvu problema ġdida, nużaw verifikaturi biex nagħżlu l-aħjar fost ħafna soluzzjonijiet proposti. Ġbarna s-sett tad-data l-ġdid GSM8K biex nevalwaw il-metodi tagħna, u qed noħorġu dan is-sett tad-data biex niffaċilitaw ir-riċerka.
Fl-għaxar eżempji ta’ hawn taħt, nuru soluzzjonijiet iġġenerati bil-metodu l-ġdid tagħna, il-verifika, u l-metodu bażi tagħna, il-fine-tuning.
GSM8K jikkonsisti minn 8.5K problemi tal-kliem tal-matematika ta’ kwalità għolja għall-iskola primarja. Kull problema tieħu bejn 2 u 8 passi biex tissolva, u s-soluzzjonijiet jinvolvu prinċipalment it-twettiq ta’ sekwenza ta’ kalkoli elementari bl-użu ta’ operazzjonijiet aritmetiċi bażiċi (+ − × ÷) biex tintlaħaq it-tweġiba finali. Mudelli tal-lingwa avvanzati, irfinati b’fine-tuning, għandhom prestazzjoni fqira fuq dan is-sett tad-data, prinċipalment minħabba d-diversità għolja tal-problemi. Fl-istess ħin, is-soluzzjonijiet ta’ GSM8K jiddependu biss fuq kunċetti elementari, għalhekk prestazzjoni għolja fit-test hija mira li tista’ tintlaħaq.
Is-soluzzjonijiet f’GSM8K huma miktuba b’lingwa naturali aktar milli bħala espressjonijiet matematiċi puri. Billi nżommu mal-lingwa naturali, is-soluzzjonijiet iġġenerati mill-mudell ikunu aktar faċli biex jinftiehmu mill-bnedmin, u l-metodi tagħna jibqgħu relattivament indipendenti mid-dominju.
Sfida sinifikanti fir-raġunament matematiku hija s-sensittività għolja għal żbalji individwali. Mudelli awtoregressivi, li jiġġeneraw kull soluzzjoni token b’token, m’għandhom l-ebda mekkaniżmu biex jikkoreġu l-iżbalji tagħhom stess. Soluzzjonijiet li jitbiegħdu mit-triq it-tajba malajr isiru impossibbli biex jiġu rkuprati, kif jidher fl-eżempji pprovduti.
Nindirizzaw din il-problema billi nħarrġu verifikaturi biex jevalwaw il-korrettezza ta’ soluzzjonijiet iġġenerati mill-mudell. Il-verifikaturi jingħataw ħafna soluzzjonijiet possibbli, kollha miktuba mill-mudell innifsu, u jiġu mħarrġa jiddeċiedu liema minnhom, jekk hemm, huma korretti.
Biex insolvu problema ġdida fil-ħin tat-test, niġġeneraw 100 soluzzjoni kandidata u mbagħad nagħżlu s-soluzzjoni li tikklassifika l-ogħla skont il-verifikatur. Il-verifikaturi jibbenefikaw minn din l-għażla inerenti, kif ukoll mill-fatt li l-verifika ħafna drabi hija kompitu aktar sempliċi mill-ġenerazzjoni.
Sibna li niksbu żieda qawwija fil-prestazzjoni mill-verifika, sakemm is-sett tad-data jkun kbir biżżejjed. B’settijiet tad-data li huma żgħar wisq, nemmnu li l-verifikaturi jagħmlu overfitting billi jimmemorizzaw it-tweġibiet finali fis-sett tat-taħriġ, minflok ma jitgħallmu xi proprjetajiet aktar utli tar-raġunament matematiku.
Fuq is-sett sħiħ tat-taħriġ, verifika ta’ 6B parametri tegħleb bi ftit mudell ta’ 175B parametri irfinat b’fine-tuning, u tagħti żieda fil-prestazzjoni li hija bejn wieħed u ieħor ekwivalenti għal żieda ta’ 30x fid-daqs tal-mudell. Barra minn hekk, il-verifika tidher li tiskala b’mod aktar effettiv b’data addizzjonali, jekk nagħmlu estrapolazzjoni abbażi tar-riżultati attwali.
Il-produzzjoni ta’ argumenti korretti u l-għarfien ta’ dawk mhux korretti huma sfidi ewlenin fl-iżvilupp ta’ AI aktar ġenerali. Il-matematika tal-iskola primarja hija ambjent ideali biex jiġu ttestjati dawn il-kapaċitajiet. Il-problemi f’GSM8K huma sempliċi fil-kunċett, iżda żball sottili wieħed huwa biżżejjed biex ifixkel soluzzjoni sħiħa. L-identifikazzjoni u l-evitar ta’ dawn l-iżbalji hija ħila kruċjali li l-mudelli tagħna għandhom jiżviluppaw. Billi nħarrġu verifikaturi, ngħallmu lill-mudelli tagħna jifirdu s-soluzzjonijiet tajbin minn dawk li ma rnexxewx għal kollox. Nistennew li dawn il-ħiliet isiru dejjem aktar rilevanti hekk kif nippruvaw napplikaw il-mudelli tagħna għal oqsma loġikament aktar kumplessi.
Awturi
Ringrazzjamenti
Nirringrazzjaw lit-tim ta’ Surge AI talli wettaq il-ġbir tad-data ta’ GSM8K.
Nirringrazzjaw lill-koawturi tal-artiklu tagħna: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, u Christopher Hesse.
Nirringrazzjaw lil dawk li taw feedback dwar din ir-rilaxx: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, u Steve Dowling.
Grazzi lill-istudenti li offrew ruħhom volontarjament biex jagħmlu t-test tagħna!


