Solving math word problems

Kita wis nglatih sistem sing ngrampungake soal matematika tingkat SD kanthi akurasi meh kaping pindho tinimbang model GPT‑3 sing di-fine-tune. Sistem iki ngrampungake kira-kira 90% saka jumlah soal sing bisa dirampungake bocah nyata: sampel cilik bocah umur 9–12 taun entuk nilai 60% ing tes saka dataset kita, dene sistem kita entuk 55% ing soal-soal sing padha.
Napa iki penting
Iki penting amarga AI jaman saiki isih cukup ringkih ing nalar multilangkah adhedhasar akal sehat, sing sejatine gampang malah kanggo bocah SD. Kita nggayuh asil iki kanthi nglatih model supaya ngenali kesalahane dhewe, supaya bisa nyoba bola-bali nganti nemokake solusi sing bisa mlaku.
Model basa gedhe kaya GPT‑3 nduweni akeh kabisan sing nyengsemake, kalebu kemampuan niru macem-macem gaya nulis lan kawruh faktual sing jembar. Nanging, model iki isih kangelan nindakake tugas sing mbutuhake nalar multilangkah sing akurat, kaya ngrampungake soal crita matematika tingkat SD. Sanajan model bisa niru irama solusi sing bener, model iki kerep ngasilake kesalahan logika sing kritis.
Kanggo nyandhingi kinerja manungsa ing domain logis sing kompleks, model kita kudu sinau ngenali kesalahane dhewe lan milih langkah kanthi tliti. Kanggo kuwi, kita nglatih verifier kanggo ngevaluasi apa solusi sing diajokake iku bener utawa ora. Kanggo ngrampungake masalah anyar, kita nggunakake verifier kanggo milih solusi paling apik saka akeh solusi sing diajokake. Kita nglumpukake dataset GSM8K anyar kanggo ngevaluasi metode kita, lan kita nerbitake dataset iki kanggo ndhukung riset.
Ing sepuluh conto ing ngisor iki, kita nuduhake solusi sing diasilake metode anyar kita, verification, lan metode dhasar kita, fine-tuning.
GSM8K ngemot 8,5K soal crita matematika tingkat SD sing berkualitas dhuwur. Saben soal butuh antara 2 nganti 8 langkah kanggo dirampungake, lan solusine utamane nglibatake urutan petungan dhasar nganggo operasi aritmetika dhasar (+ − × ÷) kanggo nggayuh jawaban pungkasan. Model basa mutakhir sing wis di-fine-tune nuduhake kinerja sing kurang apik ing dataset iki, utamane amarga keragaman soal sing dhuwur. Ing wektu sing padha, solusi GSM8K mung gumantung marang konsep dhasar, mula nggayuh kinerja tes sing dhuwur iku tujuan sing cukup bisa digayuh.
Solusi ing GSM8K ditulis nganggo basa alami, dudu minangka ekspresi matematika murni. Kanthi tetep nganggo basa alami, solusi sing diasilake model luwih gampang diinterpretasi manungsa, lan metode kita tetep relatif agnostik marang domain.
Salah siji tantangan gedhe ing nalar matematika yaiku sensitivitas sing dhuwur marang kesalahan individu. Model autoregresif, sing ngasilake saben solusi token demi token, ora nduweni mekanisme kanggo mbenerake kesalahane dhewe. Solusi sing wiwit mlenceng saka jalur cepet dadi ora bisa dibalekake maneh, kaya sing katon ing conto-conto sing diwenehake.
Kita ngatasi masalah iki kanthi nglatih verifier kanggo ngevaluasi kabeneran solusi sing diasilake model. Verifier diwenehi akeh solusi sing mungkin, kabeh ditulis dening model dhewe, lan dilatih kanggo mutusake solusi endi sing bener, yen ana.
Kanggo ngrampungake masalah anyar nalika wektu tes, kita ngasilake 100 solusi kandidat banjur milih solusi sing nduweni peringkat paling dhuwur miturut verifier. Verifier entuk manfaat saka opsionalitas sing sipate bawaan iki, uga saka kasunyatan yen verification asring dadi tugas sing luwih prasaja tinimbang generation.
Kita nemokake manawa verification menehi peningkatan kinerja sing kuwat, anggere dataset cukup gedhe. Yen dataset cilik banget, kita percaya verifier dadi overfit amarga mung ngapalake jawaban pungkasan ing set latihan, dudu sinau sipat-sipat nalar matematika liyane sing luwih migunani.
Ing set latihan lengkap, verification 6B parameter rada ngluwihi kinerja model 175B parameter sing di-fine-tune, menehi peningkatan kinerja sing kira-kira padha karo nambah ukuran model 30x. Kajaba iku, verification katon luwih efektif kanggo diskalakake kanthi tambahan data, yen kita ngekstrapolasi adhedhasar asil saiki.
Ngasilake argumentasi sing bener lan ngenali sing salah minangka tantangan utama ing ngembangake AI sing luwih umum. Matematika tingkat SD minangka papan uji sing ideal kanggo kabisan iki. Soal-soal ing GSM8K prasaja saka sisi konsep, nanging siji kesalahan alus wae cukup kanggo nggagalkake kabeh solusi. Ngenali lan nyingkiri kesalahan kaya mangkono minangka katrampilan penting sing kudu dikembangake model kita. Kanthi nglatih verifier, kita mulang model supaya bisa misahake solusi sing apik saka solusi sing durung cukup pas. Kita ngarepake katrampilan iki bakal dadi saya relevan nalika kita nyoba nerapake model kita menyang domain sing luwih kompleks sacara logis.
Panulis
Ucapan matur nuwun
Matur nuwun marang tim Surge AI sing wis nindakake pangumpulan data GSM8K.
Matur nuwun marang para panulis bebarengan makalah iki: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, lan Christopher Hesse.
Matur nuwun marang para pihak sing wis menehi masukan tumrap rilis iki: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, lan Steve Dowling.
Matur nuwun marang para siswa sing gelem dadi sukarelawan kanggo melu tes kita!


