Tá OpenAI o1 sa 89ú peircintíl ar cheisteanna ríomhchlárúcháin iomaíoch (Codeforces), tá sé i measc na 500 mac léinn is fearr sna Stáit Aontaithe i gcáilitheoir d’Oilimpiad Matamaitice SAM (AIME), agus sáraíonn sé cruinneas daonna ag leibhéal PhD ar thagarmharc fadhbanna san fhisic, sa bhitheolaíocht agus sa cheimic (GPQA). Cé go bhfuil an obair atá de dhíth chun an tsamhail nua seo a dhéanamh chomh héasca le húsáid leis na samhlacha reatha fós ar bun, táimid ag scaoileadh leagan luath den tsamhail seo, OpenAI o1‑preview, le húsáid láithreach i ChatGPT agus ag úsáideoirí API iontaofa(osclaíonn i bhfuinneog nua).
Múineann ár n-algartam foghlama atreisiúcháin ar mhórscála don tsamhail conas smaoineamh go táirgiúil ag baint úsáide as a slabhra smaointeoireachta i bpróiseas oiliúna atá an-éifeachtúil ó thaobh sonraí de. Fuaireamar amach go bhfeabhsaíonn feidhmíocht o1 go comhsheasmhach le níos mó foghlama atreisiúcháin (ríomha ag am oiliúna) agus le níos mó ama caite ag smaoineamh (ríomha ag am tástála). Tá na srianta ar an gcur chuige seo a scálú an-difriúil ó na srianta ar réamhoiliúint LLM, agus táimid fós á n-imscrúdú.

o1 performance smoothly improves with both train-time and test-time compute
Chun an feabhas ar an réasúnaíocht i gcomparáid le GPT‑4o a aibhsiú, rinneamar ár samhlacha a thástáil ar shraith éagsúil scrúduithe daonna agus tagarmharcanna ML. Léirímid go sáraíonn o1 GPT‑4o go suntasach i bhformhór mór na dtascanna seo atá trom ar an réasúnaíocht. Mura sonraítear a mhalairt, rinneamar measúnú ar o1 leis an socrú uasta ríomha ag am tástála.







I go leor tagarmharcanna atá trom ar an réasúnaíocht, tá feidhmíocht o1 ar chomhchéim le feidhmíocht shaineolaithe daonna. Déanann samhlacha teorainn le déanaí1 chomh maith sin ar MATH2 agus GSM8K nach bhfuil na tagarmharcanna seo éifeachtach a thuilleadh chun idirdhealú a dhéanamh idir samhlacha. Rinneamar measúnú ar fheidhmíocht matamaitice ar AIME, scrúdú atá deartha chun na scoláirí meánscoile is gile i Meiriceá sa mhatamaitic a thabhairt faoi dhúshlán. I scrúduithe AIME 2024, níor réitigh GPT‑4o ach 12% (1.8/15) de na fadhbanna ar an meán. Bhain o1 74% (11.1/15) amach ar an meán le sampla amháin in aghaidh na faidhbe, 83% (12.5/15) le comhdhearcadh i measc 64 sampla, agus 93% (13.9/15) nuair a rinneadh 1000 sampla a athrangú le feidhm scórála fhoghlamtha. Cuireann scór 13.9 é i measc na 500 mac léinn is fearr go náisiúnta agus os cionn an scoithphointe d’Oilimpiad Mhatamaiticiúil SAM.
Rinneamar measúnú freisin ar o1 ar GPQA diamond, tagarmharc faisnéise deacair a dhéanann tástáil ar shaineolas sa cheimic, san fhisic agus sa bhitheolaíocht. Chun samhlacha a chur i gcomparáid le daoine, d’earcaíomar saineolaithe le PhDanna chun ceisteanna GPQA-diamond a fhreagairt. Fuaireamar amach gur sháraigh o1 feidhmíocht na saineolaithe daonna sin, agus gurbh í an chéad tsamhail í chun é sin a dhéanamh ar an tagarmharc seo. Ní thugann na torthaí seo le fios go bhfuil o1 níos cumasaí ná duine le PhD i ngach slí — ní léiríonn siad ach go bhfuil an tsamhail níos oilte ar fhadhbanna áirithe a réiteach a mbeifí ag súil le duine le PhD iad a réiteach. Ar roinnt tagarmharcanna ML eile, chuir o1 feabhas ar an gcaighdeán is airde. Agus a cumais aireachtála físe cumasaithe, bhain o1 78.2% amach ar MMMU, rud a fhágann gurb í an chéad tsamhail í atá in ann dul in iomaíocht le saineolaithe daonna. Sháraigh sí GPT‑4o freisin i 54 as 57 bhfochatagóir MMLU.
Ar an gcaoi chéanna agus a d’fhéadfadh duine smaoineamh ar feadh i bhfad sula bhfreagraíonn sé ceist dheacair, úsáideann o1 slabhra smaointeoireachta nuair a bhíonn sé ag iarraidh fadhb a réiteach. Trí fhoghlaim atreisiúcháin, foghlaimíonn o1 a shlabhra smaointeoireachta a ghéarú agus na straitéisí a úsáideann sé a bheachtú. Foghlaimíonn sé a chuid botún a aithint agus a cheartú. Foghlaimíonn sé céimeanna casta a bhriseadh síos ina gceimeanna níos simplí. Foghlaimíonn sé cur chuige eile a thriail nuair nach bhfuil an ceann reatha ag obair. Cuireann an próiseas seo go mór le cumas na samhla réasúnú a dhéanamh. Chun an léim chun cinn seo a léiriú, taispeánaimid thíos an slabhra smaointeoireachta ó o1‑preview ar roinnt fadhbanna deacra.
GPT-4o
OpenAI o1-preview
Rinneamar samhail a oiliúint a ghnóthaigh 213 pointe agus a bhí sa 49ú peircintíl in Oilimpiad Idirnáisiúnta na hEolais (IOI) 2024, trí thús a chur ó o1 agus oiliúint a chur uirthi chun scileanna ríomhchlárúcháin a fheabhsú a thuilleadh. Chuaigh an tsamhail seo san iomaíocht in IOI 2024 faoi na coinníollacha céanna leis na hiomaitheoirí daonna. Bhí deich n-uaire an chloig aici chun sé fhadhb algartamacha dúshlánacha a réiteach agus ceadaíodh 50 aighneacht in aghaidh na faidhbe di.
I gcás gach faidhbe, shamplaigh ár gcóras go leor aighneachtaí iarrthóra agus chuir sé 50 díobh isteach bunaithe ar straitéis roghnúcháin ag am tástála. Roghnaíodh aighneachtaí bunaithe ar fheidhmíocht ar chásanna tástála poiblí an IOI, ar chásanna tástála a ghin an tsamhail, agus ar fheidhm scórála fhoghlamtha. Dá gcuirfimis isteach go randamach ina ionad sin, ní ghnóthóimis ach 156 pointe ar an meán, rud a thugann le fios gur bhfiú beagnach 60 pointe an straitéis seo faoi shrianta an chomórtais.
Le srian níos scaoilte ar aighneachtaí, fuaireamar amach gur fheabhsaigh feidhmíocht na samhla go suntasach. Nuair a ceadaíodh 10,000 aighneacht in aghaidh na faidhbe, bhain an tsamhail scór 362.14 amach – os cionn thairseach an bhoinn óir – fiú gan aon straitéis roghnúcháin ag am tástála.
Ar deireadh, rinneamar ionsamhlú ar chomórtais ríomhchlárúcháin iomaíocha a bhí á n-óstáil ag Codeforces chun scil chódaithe na samhla seo a léiriú. Bhí ár measúnuithe an-chóngarach do rialacha an chomórtais agus ceadaíodh 10 n-aighneacht. Bhain GPT‑4o rátáil Elo3 de 808 amach, atá sa 11ú peircintíl d’iomaitheoirí daonna. Sháraigh an tsamhail seo GPT‑4o agus o1 araon go mór—bhain sí rátáil Elo de 1807 amach, agus d’fheidhmigh sí níos fearr ná 93% d’iomaitheoirí.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
Chomh maith le scrúduithe agus tagarmharcanna acadúla, rinneamar measúnú freisin ar rogha dhaonna idir o1‑preview agus GPT‑4o ar leideanna dúshlánacha oscailte thar speictream leathan réimsí. Sa mheasúnú seo, taispeánadh freagraí anaithnidithe ar leid ó o1‑preview agus GPT‑4o d’oiliúnóirí daonna, agus vótáil siad ar son an fhreagra ab fhearr leo. Is fearr le daoine o1‑preview ná gpt-4o le corrlach mór i gcatagóirí atá trom ar an réasúnaíocht amhail anailís sonraí, códú agus matamaitic. Mar sin féin, ní fearr leo o1‑preview ar roinnt tascanna teanga nádúrtha, rud a thugann le fios nach bhfuil sé oiriúnach go maith do gach cás úsáide.

Cruthaíonn réasúnaíocht slabhra smaointeoireachta deiseanna nua d’ailíniú agus do shábháilteacht. Fuaireamar amach gur bealach éifeachtach é ár mbeartais maidir le hiompar samhla a chomhtháthú i slabhra smaointeoireachta samhail réasúnaíochta chun luachanna agus prionsabail dhaonna a mhúineadh go láidir. Trí ár rialacha sábháilteachta a mhúineadh don tsamhail agus conas réasúnú fúthu sa chomhthéacs, fuaireamar fianaise go mbaineann cumas réasúnaíochta tairbhe dhíreach do láidreacht na samhla: bhain o1‑preview feidhmíocht i bhfad níos fearr amach ar phríomhmheastóireachtaí jailbreak agus ar na tagarmharcanna inmheánacha is deacra atá againn chun teorainneacha diúltaithe sábháilteachta ár samhla a mheas. Creidimid go dtugann úsáid slabhra smaointeoireachta dul chun cinn suntasach do shábháilteacht agus d’ailíniú mar (1) cuireann sé ar ár gcumas smaointeoireacht na samhla a bhreathnú ar bhealach inléite, agus (2) tá réasúnaíocht na samhla faoi rialacha sábháilteachta níos láidre i leith cásanna lasmuigh den dáileadh.
Chun ár bhfeabhsuithe a chur faoi bhrú, rinneamar sraith tástálacha sábháilteachta agus red-teaming roimh imscaradh, de réir ár Creata Ullmhachta(osclaíonn i bhfuinneog nua). Fuaireamar amach gur chuidigh réasúnaíocht slabhra smaointeoireachta le feabhsuithe cumais ar fud ár measúnuithe. Go háirithe, thugamar faoi deara cásanna suimiúla de reward hacking(osclaíonn i bhfuinneog nua). Tá torthaí mionsonraithe ó na measúnuithe seo le fáil sa chárta córais a ghabhann leis.
| Méadrach | GPT-4o | o1-preview |
|---|---|---|
| % Críochnuithe sábháilte ar leideanna díobhálacha Caighdeánach | 0.990 | 0.995 |
| % Comhlánuithe sábháilte ar leideanna díobhálacha Dúshlánach: sáraithe srianta agus cásanna imeallacha | 0.714 | 0.934 |
| ↳ Ciapadh (tromchúiseach) | 0.845 | 0.900 |
| ↳ Ábhar gnéasach dúshaothraithe | 0.483 | 0.949 |
| ↳ Ábhar gnéasach a bhaineann le mionaoisigh | 0.707 | 0.931 |
| ↳ Comhairle faoi éagóir neamhfhoréigneach | 0.688 | 0.961 |
| ↳ Comhairle faoi éagóir fhoréigneach | 0.778 | 0.963 |
| % Críochnuithe sábháilte don 200 is fearr leis na scóir is airde ón Moderation API in aghaidh na catagóire i WildChat Zhao, et al. 2024 | 0.945 | 0.971 |
| Goodness@0.1 StrongREJECT meastóireacht sárú srianta Souly et al. 2024 | 0.220 | 0.840 |
| Measúnú briseadh amach ó dhaoine | 0.770 | 0.960 |
| % Comhlíonadh ar chásanna imeallacha neamhurchóideacha inmheánacha “gan ró-dhiúltú” | 0.910 | 0.930 |
| % Comhlíonadh ar chásanna imeallacha neamhurchóideacha in XSTest “gan ró-dhiúltú” Röttger, et al. 2023 | 0.924 | 0.976 |
Creidimid go gcuireann slabhra smaointeoireachta ceilte deis ar leith ar fáil chun monatóireacht a dhéanamh ar shamhlacha. Ag glacadh leis go bhfuil sé dílis agus inléite, ceadaíonn an slabhra smaointeoireachta ceilte dúinn “intinn” na samhla a “léamh” agus a próiseas smaointeoireachta a thuiscint. Mar shampla, sa todhchaí b’fhéidir gur mhian linn monatóireacht a dhéanamh ar an slabhra smaointeoireachta le haghaidh comharthaí go bhfuil an t-úsáideoir á ionramháil. Mar sin féin, chun go n-oibreodh sé seo ní mór saoirse a bheith ag an tsamhail a smaointe a chur in iúl i bhfoirm neamhathraithe, mar sin ní féidir linn aon chomhlíonadh beartais ná roghanna úsáideora a oiliúint ar an slabhra smaointeoireachta. Ní mian linn ach an oiread slabhra smaointeoireachta neamhailínithe a dhéanamh infheicthe go díreach d’úsáideoirí.
Dá bhrí sin, tar éis dúinn tosca iomadúla a mheá, lena n-áirítear eispéireas an úsáideora, buntáiste iomaíoch, agus an rogha monatóireacht ar an slabhra smaointeoireachta a shaothrú, tá cinneadh déanta againn gan na slabhraí smaointeoireachta amha a thaispeáint d’úsáideoirí. Aithnímid go bhfuil míbhuntáistí ag baint leis an gcinneadh seo. Déanaimid ár ndícheall iad a chúiteamh go páirteach trína mhúineadh don tsamhail aon smaointe úsáideacha ón slabhra smaointeoireachta a atáirgeadh sa fhreagra. Don tsraith samhlacha o1 taispeánaimid achoimre den slabhra smaointeoireachta a ghin an tsamhail.
Cuireann o1 an caighdeán is airde in réasúnaíocht IS chun cinn go suntasach. Tá sé beartaithe againn leaganacha feabhsaithe den tsamhail seo a scaoileadh agus muid ag leanúint d’atriall. Táimid ag súil go bhfeabhsóidh na cumais réasúnaíochta nua seo ár gcumas samhlacha a ailíniú le luachanna agus prionsabail dhaonna. Creidimid go n-osclóidh o1 – agus a chomharbaí – go leor cásanna úsáide nua d’IS san eolaíocht, sa chódú, sa mhatamaitic agus i réimsí gaolmhara. Táimid ar bís d’úsáideoirí agus d’fhorbróirí API a fháil amach conas is féidir leis a gcuid oibre laethúla a fheabhsú.
| Tacair sonraí | Méadrach | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Matamaitic iomaíochta AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| Cód Iomaíochta CodeForces | Elo | 808 | 1,258 | 1,673 |
| Peircintíl | 11.0 | 62.0 | 89.0 | |
| GPQA Diamant | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| Bitheolaíocht | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| Ceimic | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| Fisic | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| Matamaitic | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | pass@1 | 69.1 | n/b | 78.2 |
| MathVista (testmini) | pass@1 | 63.8 | n/b | 73.9 |
Údair
Tagairtí
- 1
- 2
D’úsáid ár measúnuithe an scoilt tástála chéanna de 500 fadhb atá le fáil in https://arxiv.org/abs/2305.20050(osclaíonn i bhfuinneog nua)
- 3






