Пређите на главни садржај
OpenAI

Obučili smo sistem koji rešava matematičke zadatke za osnovnu školu sa gotovo dvostruko većom tačnošću od fino podešenog modela GPT‑3. Rešava oko 90% onoliko zadataka koliko i prava deca: mali uzorak dece uzrasta 9–12 godina osvojio je 60% na testu iz našeg skupa podataka, dok je naš sistem na tim istim zadacima osvojio 55%.

Zašto je to važno

Ovo je važno zato što je današnja veštačka inteligencija i dalje prilično slaba u zdravorazumskom višekoračnom rezonovanju, koje je lako čak i osnovcima. Ove rezultate postigli smo tako što smo naš model obučili da prepoznaje svoje greške, kako bi mogao da pokušava iznova dok ne pronađe rešenje koje funkcioniše.

Uvod

Veliki jezički modeli poput GPT‑3 imaju mnogo impresivnih sposobnosti, uključujući sposobnost da oponašaju mnoge stilove pisanja i široko činjenično znanje. Međutim, muče se sa zadacima koji zahtevaju tačno višekoračno rezonovanje, kao što je rešavanje tekstualnih zadataka iz matematike za osnovnu školu. Iako model može da oponaša ritam ispravnih rešenja, redovno pravi ključne greške u logici.

Da bi naši modeli dostigli ljudski učinak u složenim logičkim oblastima, moraju da nauče da prepoznaju sopstvene greške i pažljivo biraju korake. U tu svrhu obučavamo verifikatore da procenjuju da li je predloženo rešenje tačno ili ne. Za rešavanje novog problema koristimo verifikatore da izaberemo najbolje među mnogim predloženim rešenjima. Prikupili smo novi skup podataka GSM8K da bismo procenili naše metode i objavljujemo ga kako bismo olakšali istraživanja.

U deset primera u nastavku prikazujemo rešenja generisana našom novom metodom, verifikacijom, i našom osnovnom metodom, finim podešavanjem.

Учитавање...

Skup podataka GSM8K

GSM8K se sastoji od 8,5 hiljada visokokvalitetnih tekstualnih zadataka iz matematike za osnovnu školu. Za rešavanje svakog zadatka potrebno je između 2 i 8 koraka, a rešenja se prvenstveno svode na izvođenje niza elementarnih proračuna pomoću osnovnih aritmetičkih operacija (+ − × ÷) kako bi se došlo do konačnog odgovora. Savremeni jezički modeli fino podešeni za ovaj zadatak postižu slabe rezultate na ovom skupu podataka, pre svega zbog velike raznovrsnosti problema. Istovremeno, rešenja u GSM8K zavise samo od elementarnih pojmova, pa je postizanje visokih rezultata na testu ostvariv cilj.

Rešenja u GSM8K napisana su prirodnim jezikom, a ne kao čisti matematički izrazi. Zadržavanjem prirodnog jezika, rešenja koja generiše model ljudima su lakša za tumačenje, a naše metode ostaju relativno nezavisne od domene.

Obučavanje verifikatora: modeli koji uče iz svojih grešaka

Jedan značajan izazov u matematičkom rezonovanju jeste velika osetljivost na pojedinačne greške. Autoregresivni modeli, koji generišu svako rešenje token po token, nemaju mehanizam da ispravljaju sopstvene greške. Rešenja koja skrenu s pravog puta brzo postaju nepopravljiva, što se može videti u priloženim primerima.

Ovaj problem rešavamo tako što obučavamo verifikatore da procenjuju ispravnost rešenja koja generiše model. Verifikatorima se daje mnogo mogućih rešenja, koja je sva napisao sam model, i obučavaju se da odluče koja su, ako ijedno, tačna.

Da bismo rešili novi problem tokom testiranja, generišemo 100 kandidatskih rešenja, a zatim biramo ono koje verifikator rangira najviše. Verifikatori imaju koristi od ove urođene izbornosti, kao i od činjenice da je verifikacija često jednostavniji zadatak od generisanja.

Учитавање...

Otkrivamo da verifikacija snažno poboljšava rezultate, pod uslovom da je skup podataka dovoljno velik. Kod premalih skupova podataka verujemo da se verifikatori previše prilagode tako što pamte konačne odgovore iz skupa za obuku, umesto da uče korisnija svojstva matematičkog rezonovanja.

Na celom skupu za obuku, verifikacija sa 6B parametara neznatno nadmašuje fino podešeni model sa 175B parametara, što donosi poboljšanje performansi približno ekvivalentno povećanju veličine modela za 30 puta. Štaviše, čini se da se verifikacija efikasnije skalira sa dodatnim podacima, ako ekstrapoliramo na osnovu trenutnih rezultata.

Zaključak

Formulisanje ispravnih argumenata i prepoznavanje neispravnih ključni su izazovi u razvoju opštije veštačke inteligencije. Matematika za osnovnu školu idealno je okruženje za testiranje ovih sposobnosti. Problemi u GSM8K su konceptualno jednostavni, ali jedna suptilna greška dovoljna je da poremeti čitavo rešenje. Prepoznavanje i izbegavanje takvih grešaka ključna je veština koju naši modeli treba da razviju. Obučavanjem verifikatora učimo naše modele da razlikuju dobra rešenja od onih koja nisu sasvim uspela. Očekujemo da će ove veštine postajati sve relevantnije kako budemo pokušavali da primenimo naše modele na logički složenije oblasti.

Autori

Karl Cobbe, Vineet Kosaraju и John Schulman

Zahvalnice

Hvala timu kompanije Surge AI na prikupljanju podataka za GSM8K.

Hvala koautorima našeg rada: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano i Christopher Hesse.

Hvala svima koji su dali povratne informacije o ovom izdanju: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong i Steve Dowling.

Hvala učenicima koji su se dobrovoljno prijavili da rade naš test!