Léim go dtí an príomhábhar
OpenAI

Chuireamar oiliúint ar chóras a réitíonn fadhbanna mata bunscoile le cruinneas beagnach dhá oiread cruinneas samhail GPT‑3 mionchoigeartaithe. Réitíonn sé thart ar 90% chomh mór fadhbanna le páistí fíora: fuair sampla beag de dhaoine 9-12 bliana d’aois 60% i dtástáil ónár tacar sonraí, agus fuair ár gcóras 55% ar na fadhbanna céanna sin.

Cén fáth a bhfuil sé tábhachtach

Tá sé seo tábhachtach mar tá IS an lae inniu sách lag fós ar réasúnaíocht ilchéime den ghnáthchiall, rud atá éasca fiú do pháistí bunscoile. Bhaineamar na torthaí seo amach trí oiliúint a chur ar ár samhail a cuid botún a aithint, ionas gur féidir léi triail a bhaint arís agus arís eile go dtí go bhfaigheann sí réiteach a oibríonn.

Réamhrá

Tá go leor scileanna suntasacha ag samhlacha móra teanga cosúil le GPT‑3, lena n-áirítear an cumas atá acu go leor stíleanna scríbhneoireachta a aithris, agus a gcuid eolais fhairsing fhíriciúil. Mar sin féin, bíonn sé deacair orthu tascanna a dhéanamh a éilíonn réasúnaíocht chruinn ilchéime, amhail fadhbanna focal mata bunscoile a réiteach. Cé gur féidir leis an tsamhail rithim na réiteach ceart a aithris, cruthaíonn sí earráidí criticiúla loighce go rialta.

Chun feidhmíocht an duine a mheaitseáil i réimsí casta loighciúla, ní mór dár samhlacha foghlaim conas a mbotúin a aithint agus a gcéimeanna a roghnú go cúramach. Chuige sin, cuirimid oiliúint ar fhíoraitheoirí chun measúnú a dhéanamh ar cibé acu atá réiteach molta ceart nó nach bhfuil. Chun fadhb nua a réiteach, úsáidimid fíoraitheoirí chun an ceann is fearr a roghnú as go leor réiteach molta. Bhailíomar an tacar sonraí nua GSM8K chun ár modhanna a mheas, agus táimid ag scaoileadh an tacair sonraí seo chun taighde a éascú.

Sna deich sampla thíos, taispeánaimid réitigh a ghin ár modh nua, fíorú, agus ár modh bonnlíne, mionchoigeartú.

Ag lódáil...

Tacar sonraí GSM8K

Tá 8.5K fadhb focal mata bunscoile ar ardchaighdeán in GSM8K. Tógann gach fadhb idir 2 agus 8 gcéim le réiteach, agus baineann na réitigh go príomha le sraith ríomhanna bunúsacha a dhéanamh ag úsáid oibríochtaí bunúsacha uimhríochta (+ − × ÷) chun an freagra deiridh a bhaint amach. Ní éiríonn go maith le samhlacha teanga den chéad scoth atá mionchoigeartaithe ar an tacar sonraí seo, go príomha mar gheall ar éagsúlacht ard na bhfadhbanna. Ag an am céanna, ní bhraitheann réitigh GSM8K ach ar choincheapa bunúsacha, mar sin is sprioc indéanta é ardfheidhmíocht tástála a bhaint amach.

Scríobhtar réitigh in GSM8K mar theanga nádúrtha seachas mar nathanna matamaitice íona. Trí chloí leis an teanga nádúrtha, is fusa do dhaoine réitigh a ghintear ag samhlacha a léirmhíniú, agus fanann ár modhanna sách neamhshonrach ó thaobh fearainn de.

Fíoraitheoirí a oiliúint: samhlacha a fhoghlaimíonn óna gcuid botún

Dúshlán suntasach amháin sa réasúnaíocht mhatamaiticiúil is ea an íogaireacht ard do bhotúin aonair. Níl aon mheicníocht ag samhlacha uathaischéimnitheacha, a ghineann gach réiteach téacschomhartha ar théacschomhartha, chun a gcuid earráidí féin a cheartú. Éiríonn réitigh a théann den chúrsa do-aisghafa go tapa, mar atá le feiceáil sna samplaí a cuireadh ar fáil.

Tugaimid aghaidh ar an bhfadhb seo trí fhíoraitheoirí a oiliúint chun cruinneas réiteach a ghintear ag samhlacha a mheas. Tugtar go leor réiteach féideartha d'fhíoraitheoirí, iad uile scríofa ag an tsamhail féin, agus cuirtear oiliúint orthu cinneadh a dhéanamh cé acu díobh, más ann dóibh, atá ceart.

Chun fadhb nua a réiteach ag am tástála, gineann muid 100 réiteach iarrthóra agus ansin roghnaímid an réiteach atá rangaithe is airde ag an bhfíoraitheoir. Baineann fíoraitheoirí tairbhe as an roghnaíocht dhúchasach seo, chomh maith leis an bhfíric gur tasc níos simplí ná giniúint é fíorú go minic.

Ag lódáil...

Feicimid go bhfaighimid borradh láidir feidhmíochta ón bhfíorú, fad is atá an tacar sonraí mór go leor. Le tacair sonraí atá róbheag, creidimid go ndéanann na fíoraitheoirí ró-oiriúnú trí na freagraí deiridh sa tacar oiliúna a chur de ghlanmheabhair, seachas aon airíonna níos úsáidí de réasúnaíocht mhatamaiticiúil a fhoghlaim.

Ar an tacar oiliúna iomlán, sáraíonn fíorú 6B paraiméadar samhail 175B paraiméadar mionchoigeartaithe beagán, rud a thugann borradh feidhmíochta atá thart ar chomhionann le méadú 30x ar mhéid na samhla. Ina theannta sin, dealraíonn sé go scálaíonn fíorú níos éifeachtaí le sonraí breise, má eachtarshuímid bunaithe ar thorthaí reatha.

Conclúid

Is príomhdhúshláin iad argóintí cearta a tháirgeadh agus cinn mhíchearta a aithint i bhforbairt IS níos ginearálta. Is timpeallacht tástála iontach í matamaitic na bunscoile do na cumais seo. Tá na fadhbanna in GSM8K simplí ó thaobh coincheapa de, ach is leor botún caolchúiseach amháin chun réiteach iomlán a chur den treo. Is scil ríthábhachtach dár samhlacha í botúin den sórt sin a aithint agus a sheachaint. Trí fhíoraitheoirí a oiliúint, múinimid dár samhlacha na réitigh mhaithe a scaradh ó na cinn nár éirigh leo i gceart. Táimid ag súil go mbeidh na scileanna seo ag éirí níos ábhartha de réir mar a dhéanaimid iarracht ár samhlacha a chur i bhfeidhm ar fhearainn atá níos casta ó thaobh loighce de.

Údair

Karl Cobbe, Vineet Kosaraju, John Schulman

Buíochais

Buíochas leis an bhfoireann ag Surge AI as bailiú sonraí GSM8K a dhéanamh.

Buíochas lenár gcomhúdair ar an bpáipéar: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, agus Christopher Hesse.

Buíochas leo siúd a thug aiseolas ar an eisiúint seo: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong, agus Steve Dowling.

Buíochas leis na mic léinn a rinne obair dheonach chun ár dtástáil a dhéanamh!