OpenAI o1 wuxuu galay boqolleyda 89aad ee su’aalaha barnaamij-sameynta tartanka (Codeforces), wuxuu ka galay 500-da arday ee ugu sarreysa Maraykanka isreebreebka USA Math Olympiad (AIME), wuxuuna ka sarre maray saxnaanta heerka PhD ee bani’aadamka halbeegga dhibaatooyinka fiisigiska, bayoolajiga, iyo kimistariga (GPQA). Iyadoo shaqada loo baahan yahay si noocan cusub looga dhigo mid u fudud isticmaalka sida noocyada hadda jira ay weli socoto, haddana waxaan sii daynaynaa nooc hore oo ka mid ah noocan, OpenAI o1‑preview, si si degdeg ah loogu isticmaalo ChatGPT iyo isticmaaleyaasha API ee la aaminay(ku furmaa daaqad cusub).
Algoriitimkeenna waxbarashadda xoojinta ah ee baaxadda weyn leh wuxuu nooca baraa sida si wax-ku-ool ah loo fikiro iyadoo la adeegsanayo silsiladdiisa fikirka, hab tababar oo xog-isticmaalkiisu aad u hufan yahay. Waxaan ogaanay in waxqabadka o1 si joogto ah ugu fiicnaado waxbarashadda xoojinta ah oo badan (xisaabinta waqtiga tababarka) iyo waqti badan oo lagu bixiyo fikirka (xisaabinta waqtiga imtixaanka). Xaddidaadaha ku saabsan ballaarinta habkan aad bay uga duwan yihiin kuwa hore-u-tababarka LLM, waxaanan sii wadnaa baaritaankooda.

o1 performance smoothly improves with both train-time and test-time compute
Si loo muujiyo horumarka caqliyeynta marka loo eego GPT‑4o, waxaan ku tijaabinay noocyadeenna imtixaano bani’aadam oo kala duwan iyo halbeegyo ML ah. Waxaan muujinaynaa in o1 si weyn uga fiicnaado GPT‑4o inta badan hawlahan culus ee caqliyeynta. Haddii aan si kale loo sheegin mooyee, waxaan ku qiimeynay o1 dejinta xisaabinta ugu badan ee waqtiga imtixaanka.







Halbeegyo badan oo culus oo caqliyeynta ah, o1 wuxuu la tartamaa waxqabadka khubarada bani’aadamka. Noocyada ugu casrisan ee dhawaanahan1 waxay si aad u wanaagsan uga qabtaan MATH2 iyo GSM8K taas oo ka dhigtay halbeegyadan kuwo aan mar dambe waxtar u lahayn kala saarista noocyada. Waxaan ku qiimeynay waxqabadka xisaabta AIME, oo ah imtixaan loogu talagalay inuu caqabad ku noqdo ardayda dugsiga sare ee xisaabta ugu hibada badan Ameerika. Imtixaannada AIME 2024, GPT‑4o celcelis ahaan wuxuu xalliyay kaliya 12% (1.8/15) dhibaatooyinka. o1 wuxuu celcelis ahaan gaaray 74% (11.1/15) iyadoo la adeegsanayo hal muunad dhibaato kasta, 83% (12.5/15) iyadoo la adeegsanayo is-afgarad ka dhexeeya 64 muunadood, iyo 93% (13.9/15) marka dib loo kala sarreysiiyo 1000 muunadood iyadoo la adeegsanayo hawl dhibcayn la bartay. Dhibco 13.9 ah waxay gelinayaan 500-da arday ee ugu sarreeya dalka oo dhan, kana sarreeya xadka gelitaanka USA Mathematical Olympiad.
Waxaan sidoo kale ku qiimeynay o1 GPQA diamond, oo ah halbeeg sirdoon oo adag oo tijaabiya khibradda kimistariga, fiisigiska iyo bayoolajiga. Si aan noocyada ula barbar dhigno bani’aadamka, waxaan qoranay khubaro haysta PhD si ay uga jawaabaan su’aalaha GPQA-diamond. Waxaan ogaanay in o1 uu ka sarre maray waxqabadka khubaradaas bani’aadamka, isagoo noqday noockii ugu horreeyay ee sidaas ku sameeya halbeeggan. Natiijooyinkani micnaheedu ma aha in o1 uu ka awood badan yahay qof PhD haysta dhammaan dhinacyada — kaliya waxay ka dhigan tahay in noocku uu ka xirfad badan yahay xallinta qaar ka mid ah dhibaatooyinka laga filan karo in qof PhD haysta xalliyo. Halbeegyo kale oo ML ah oo dhowr ah, o1 wuxuu ka fiicnaaday heerkii ugu sarreeyay. Marka awoodaha aragga loo hawlgeliyo, o1 wuxuu ka helay 78.2% MMMU, taasoo ka dhigaysa noockii ugu horreeyay ee la tartami kara khubarada bani’aadamka. Waxa kale oo uu GPT‑4o kaga fiicnaaday 54 ka mid ah 57 qaybood-hoosaadyada MMLU.
Si la mid ah sida bani’aadamku muddo dheer u fikiri karo ka hor inta uusan uga jawaabin su’aal adag, o1 wuxuu adeegsadaa silsilad fikir marka uu isku dayayo inuu xalliyo dhibaato. Iyada oo loo marayo waxbarashadda xoojinta ah, o1 wuxuu bartaa inuu afaysto silsiladdiisa fikirka oo uu hagaajiyo istaraatijiyadaha uu adeegsado. Wuxuu bartaa inuu aqoonsado oo saxo khaladaadkiisa. Wuxuu bartaa inuu tallaabooyinka adag u kala jabiyo kuwo ka fudud. Wuxuu bartaa inuu isku dayo hab kale marka kan hadda jira uusan shaqaynayn. Habkani si weyn ayuu u hagaajiyaa awoodda noocka ee caqliyeynta. Si aan u muujinno boodhkan weyn ee horey loogu tallaabay, waxaan hoos ku soo bandhigaynaa silsiladda fikirka ee o1‑preview ee dhibaatooyin adag oo dhowr ah.
GPT-4o
OpenAI o1-preview
Waxaan tababarnay nooc helay 213 dhibcood kuna galay boqolleyda 49aad ee Tartankii Caalamiga ahaa ee Olympiad-ka Informatics-ka (IOI) 2024, annagoo ka bilaawnay o1 kadibna u tababarnay si aan u sii wanaajino xirfadaha barnaamijyada. Noocan wuxuu ku tartamay IOI 2024 isla shuruudihii tartamayaasha bani’aadamka. Wuxuu haystay toban saacadood si uu u xalliyo lix dhibaato oo adag oo algoriitim ah, waxaana loo oggolaaday 50 gudbin dhibaato kasta.
Dhibaato kasta, nidaamkeennu wuxuu muunad ka qaaday gudbino badan oo musharrax ah, wuxuuna gudbiyay 50 ka mid ah iyadoo lagu salaynayo istaraatijiyad xulasho waqtiga imtixaanka ah. Gudbinnada waxaa lagu xulay iyadoo lagu salaynayo waxqabadka kiisaska tijaabada dadweynaha ee IOI, kiisaska tijaabada uu noocku soo saaray, iyo hawl dhibcayn la bartay. Haddii taa beddelkeeda aan si aan kala sooc lahayn u gudbin lahayn, celcelis ahaan waxaan heli lahayn keliya 156 dhibcood, taasoo muujinaysa in istaraatijiyaddan ay ku kacday ku dhowaad 60 dhibcood marka la eego xaddidaadaha tartanka.
Iyada oo xaddidaadda gudbinta la dabciyay, waxaan ogaanay in waxqabadka noocku si weyn u fiicnaaday. Marka loo oggolaaday 10,000 gudbin dhibaato kasta, noocku wuxuu gaaray dhibco 362.14 – taas oo ka sarreysa xadka billadda dahabka – xitaa iyada oo aan jirin wax istaraatijiyad xulasho waqtiga imtixaanka ah.
Ugu dambayn, waxaan matalnay tartanno barnaamij-sameyn tartan ah oo ay martigeliso Codeforces si aan u muujinno xirfadda koodh qorista ee noocan. Qiimeynahayagu si dhow ayay ula jaanqaadeen xeerarka tartanka waxayna oggolaayeen 10 gudbin. GPT‑4o wuxuu gaaray qiimeyn Elo3 oo ah 808, taas oo ku jirta boqolleyda 11aad ee tartamayaasha bani’aadamka. Noocani si aad ah ayuu uga sarre maray GPT‑4o iyo o1 labadaba—wuxuu gaaray qiimeyn Elo oo ah 1807, isagoo ka waxqabad fiican 93% tartamayaasha.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
Marka lagu daro imtixaannada iyo halbeegyada tacliinta, waxaan sidoo kale qiimeynay doorbidka bani’aadamka ee o1‑preview marka loo eego GPT‑4o iyadoo la adeegsanayo weydiimo adag oo furan oo ka kala yimid qaybo badan oo kala duwan. Qiimeyntan, tababarayaal bani’aadam ah ayaa loo tusay jawaabo aan magac lahayn oo ka yimid o1‑preview iyo GPT‑4o oo ku wajahan hal weydiin, waxayna u codeeyeen jawaabta ay doorbidayaan. o1‑preview si weyn ayaa looga doorbiday gpt-4o qaybaha culus ee caqliyeynta sida falanqaynta xogta, koodh qorista, iyo xisaabta. Hase yeeshee, o1‑preview looma doorbido qaar ka mid ah hawlaha luuqadda dabiiciga ah, taasoo muujinaysa inuusan ku habboonayn dhammaan adeegsiyada.

Caqliyeynta silsiladda fikirku waxay bixisaa fursado cusub oo iswaafajin iyo badbaado ah. Waxaan ogaanay in ku darista siyaasadaha hab-dhaqanka nooca gudaha silsiladda fikirka ee nooca caqliyeynta ay tahay hab wax ku ool ah oo si adkaysi leh loogu baro qiyamka iyo mabaadi’da bani’aadamka. Markii aan nooca baray xeerarkeena badbaadada iyo sida looga caqliyeeyo iyaga marka la joogo macnaha ku habboon, waxaan helnay caddeyn muujinaysa in awoodda caqliyeyntu si toos ah uga faa’iidaysanayso adkaysiga nooca: o1‑preview wuxuu gaaray waxqabad si weyn u fiicnaaday qiimeynnada muhiimka ah ee jailbreak-ka iyo halbeegyadeenna gudaha ee ugu adag ee lagu qiimeeyo xuduudaha diidmada badbaadada ee noocayaga. Waxaan aaminsanahay in adeegsiga silsilad fikir ay keento horumarro waaweyn oo dhinaca badbaadada iyo iswaafajinta ah sababtoo ah (1) waxay noo oggolaanaysaa inaan si akhris-fudud leh u aragno sida noocku u fikirayo, iyo (2) caqliyeynta noocka ee ku saabsan xeerarka badbaadadu waxay uga adkaysi badan tahay xaaladaha ka baxsan qaybinta caadiga ah.
Si aan u culays saarno tijaabinta horumarradeenna, waxaan sameynay xirmo tijaabooyin badbaado iyo red-teaming ah ka hor hawlgelinta, si waafaqsan Qaab-dhismeedka Diyaar-garowga(ku furmaa daaqad cusub). Waxaan ogaanay in caqliyeynta silsiladda fikirku ka qayb qaadatay hagaajinta awoodaha guud ahaan qiimeynahayaga. Gaar ahaan, waxaan aragnay tusaalooyin xiiso leh oo reward hacking ah(ku furmaa daaqad cusub). Natiijooyin faahfaahsan oo ka yimid qiimeynahan waxaa laga heli karaa kaarka siistamka ee la socda.
| Cabbirka | GPT-4o | horay u eegidda -o1 |
|---|---|---|
| % Dhammaystirka badbaadada leh ee ku saabsan tilmaamaha waxyeelada leh Caadiga ah | 0.990 | 0.995 |
| % Dhammaystirro ammaan ah oo ku saabsan weydiimada waxyeellada leh Caqabadaha: jailbreak-yada & kiisaska geesaha | 0.714 | 0.934 |
| ↳ Dhibaatayn (daran) | 0.845 | 0.900 |
| ↳ Nuxur galmo oo ka faa’iidaysi ah | 0.483 | 0.949 |
| ↳ Nuxur galmo oo ku lug leh carruur | 0.707 | 0.931 |
| ↳ Talo ku saabsan khalad aan xadgudub lahayn | 0.688 | 0.961 |
| ↳ Talo ku saabsan dembi rabshado leh | 0.778 | 0.963 |
| % Dhammeystirro ammaan ah oo loogu talagalay 200 ugu sarreeya ee leh dhibcaha Moderation API ee ugu sarreeya qayb kasta ee WildChat Zhao, et al. 2024 | 0.945 | 0.971 |
| Wanaag@0.1 StrongREJECT qiimaynta jabinta xayiraada Souly et al. 2024 | 0.220 | 0.840 |
| Qiimayn ku saabsan jabinta xannibaada qiimaynta laga helay aadanaha | 0.770 | 0.960 |
| % U hoggaansanaanta xaaladaha geeska ee aan waxyeellada lahayn ee gudaha “diidmo badan ma lahan” | 0.910 | 0.930 |
| % U hoggaansanaanta xaaladaha geeska ee aan waxyeellada lahayn ee XSTest “aan si xad-dhaaf ah loo diidin” Röttger, et al. 2023 | 0.924 | 0.976 |
Waxaan aaminsanahay in silsilad fikir oo qarsoon ay soo bandhigayso fursad gaar ah oo lagu kormeero noocyada. Haddii loo qaato inay daacad tahay oo la fahmi karo, silsiladda fikirka ee qarsoon waxay noo oggolaanaysaa inaan “akhriyo maskaxda” noocka oo aan fahanno hab-fikirkiisa. Tusaale ahaan, mustaqbalka waxaa laga yaabaa inaan rabno inaan kormeerno silsiladda fikirka si aan u helno calaamado muujinaya inuu isticmaalaha manipuleynayo. Si kastaba ha ahaatee, si tani u shaqeyso noocku waa inuu xor u ahaadaa inuu fikirradiisa ku muujiyo qaab aan la beddelin, sidaas darteed ma tababari karno u hoggaansanaanta siyaasad ama doorbidyada isticmaalaha gudaha silsiladda fikirka. Sidoo kale ma doonayno inaan si toos ah isticmaaleyaasha ugu tusno silsilad fikir oo aan iswaafaqsanayn.
Sidaas darteed, ka dib markii aan miisaannay arrimo badan oo ay ku jiraan waayo-aragnimada isticmaalaha, faa’iidada tartanka, iyo ikhtiyaarka ah in la sii wato kormeerka silsiladda fikirka, waxaan go’aansannay inaanan isticmaaleyaasha tusin silsiladaha fikirka ee cayriin. Waxaan qirsannahay in go’aankani leeyahay faa’iido-darrooyin. Waxaan ku dadaalnaa inaan qayb ahaan ka magdhowno taas annagoo nooca barayna inuu ku soo celiyo jawaabta fikrad kasta oo waxtar leh oo ka timaadda silsiladda fikirka. Taxanaha noocyada o1 waxaan ku muujinnaa soo koobid uu noocku sameeyay oo ku saabsan silsiladda fikirka.
o1 si weyn ayuu u hormariyaa heerka ugu sarreeya ee AI caqliyeynta. Waxaan qorshaynaynaa inaan sii deyno noocyo la hagaajiyay oo ka mid ah noocan annagoo sii wadna hagaajinta joogtada ah. Waxaan filaynaa in awoodahan cusub ee caqliyeyntu ay hagaajin doonaan awooddeena aan noocyada ugu waafajinno qiyamka iyo mabaadi’da bani’aadamka. Waxaan aaminsanahay in o1 – iyo kuwii ka dambeeya – ay furi doonaan adeegsiyo badan oo cusub oo AI ah xagga sayniska, koodh qorista, xisaabta, iyo meelaha la xiriira. Aad ayaan ugu faraxsanahay in isticmaaleyaasha iyo horumariyeyaasha API ay ogaadaan sida uu u hagaajin karo shaqadooda maalinlaha ah.
| Dejinta xogta | Mitir | gpt-4o | o1-horudhac | o1 |
|---|---|---|---|---|
| Xisaabta tartanka AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| Koodhka Tartanka CodeForces | Elo | 808 | 1,258 | 1,673 |
| Boqolleyda | 11.0 | 62.0 | 89.0 | |
| GPQA Diamond | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| Bayoolaji | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| Kimistiri | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| Fiisigis | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| XISAAB | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU (qiimayn) | pass@1 | 69.1 | aan khusayn | 78.2 |
| MathVista (testmini) | pass@1 | 63.8 | aan khusayn | 73.9 |
Qorayaal
Tixraacyo
- 1
- 2
Qiimeynahayagu waxay adeegsadeen isla qaybinta tijaabada ee 500 dhibaato ee laga helay https://arxiv.org/abs/2305.20050(ku furmaa daaqad cusub)
- 3






