OpenAI o1 se svrstava u 89. percentil na pitanjima iz kompetitivnog programiranja (Codeforces), nalazi se među 500 najboljih učenika u SAD na kvalifikacijama za Američku matematičku olimpijadu (AIME) i nadmašuje tačnost na nivou ljudskog doktora nauka na referentnom testu zadataka iz fizike, biologije i hemije (GPQA). Iako je rad potreban da bi ovaj novi model bio jednako jednostavan za upotrebu kao aktuelni modeli i dalje u toku, objavljujemo ranu verziju ovog modela, OpenAI o1‑preview, za neposrednu upotrebu u ChatGPT‑u i za pouzdane API korisnike(отвара се у новом прозору).
Naš algoritam podstičajnog učenja velikih razmera uči model kako da produktivno razmišlja koristeći svoj lanac misli u procesu obuke koji je veoma efikasan u pogledu podataka. Otkrili smo da se performanse o1 dosledno poboljšavaju sa više podsticajnog učenja (računanje tokom obuke) i sa više vremena provedenog u razmišljanju (računanje u vreme testiranja). Ograničenja za skaliranje ovog pristupa znatno se razlikuju od onih kod pretreniranja LLM-ova i nastavljamo da ih istražujemo.

o1 performance smoothly improves with both train-time and test-time compute
Da bismo istakli poboljšanje u rezonovanju u odnosu na GPT‑4o, testirali smo naše modele na raznovrsnom skupu ispita za ljude i ML referentnih testova. Pokazujemo da o1 znatno nadmašuje GPT‑4o na великој већини ових задатака који се у великој мери ослањају на резоновање. Osim ako nije drugačije navedeno, procenjivali smo o1 u podešavanju sa maksimalnim računarskim resursima u vreme testiranja.







Na mnogim referentnim testovima koji se u velikoj meri oslanjaju na rezonovanje, o1 parira performansama ljudskih stručnjaka. Nedavni granični modeli1 postižu tako dobre rezultate na MATH2 i GSM8K da ovi referentni testovi više nisu efikasni za razlikovanje modela. Matematičke performanse procenjivali smo na AIME-u, ispitu osmišljenom da izazove najtalentovanije srednjoškolce iz matematike u Americi. Na AIME ispitima 2024, GPT‑4o je u proseku rešio samo 12% (1,8/15) zadataka. o1 je imao prosek od 74% (11,1/15) sa jednim uzorkom po zadatku, 83% (12,5/15) uz konsenzus među 64 uzorka i 93% (13,9/15) pri ponovnom rangiranju 1000 uzoraka pomoću naučene funkcije ocenjivanja. Rezultat od 13,9 svrstava ga među 500 najboljih učenika u zemlji i iznad praga za USA Mathematical Olympiad.
Takođe smo procenjivali o1 na GPQA diamond, teškom referentnom testu inteligencije koji proverava stručnost iz hemije, fizike i biologije. Da bismo uporedili modele sa ljudima, angažovali smo stručnjake sa doktoratom da odgovaraju na GPQA-diamond pitanja. Utvrdili smo da je o1 nadmašio performanse tih ljudskih stručnjaka, postavši prvi model kome je to pošlo za rukom na ovom referentnom testu. Ovi rezultati ne znače da je o1 sposobniji od doktora nauka u svakom pogledu — već samo da je model veštiji u rešavanju nekih problema koje bi se očekivalo da doktor nauka ume da reši. Na nekoliko drugih ML referentnih testova, o1 je unapredio stanje tehnike. Sa omogućenim sposobnostima vizuelne percepcije, o1 je postigao 78,2% na MMMU, čime je postao prvi model konkurentan ljudskim stručnjacima. Takođe je nadmašio GPT‑4o u 54 od 57 MMLU potkategorija.
Slično tome kako čovek može dugo da razmišlja pre nego što odgovori na teško pitanje, o1 koristi lanac misli kada pokušava da reši problem. Kroz podsticajno učenje, o1 uči da izoštri svoj lanac misli i usavrši strategije koje koristi. Uči da prepozna i ispravi svoje greške. Uči da raščlani nezgodne korake na jednostavnije. Uči da pokuša drugačiji pristup kada trenutni ne funkcioniše. Ovaj proces dramatično poboljšava sposobnost modela za rezonovanje. Da bismo ilustrovali ovaj veliki iskorak, u nastavku prikazujemo lanac misli iz o1‑preview na nekoliko teških problema.
GPT-4o
OpenAI o1-preview
Obučili smo model koji je osvojio 213 poena i rangirao se u 49. percentilu na Međunarodnoj olimpijadi iz informatike (IOI) 2024, tako što smo krenuli od o1 i dalje ga obučavali da dodatno unapredi veštine programiranja. Ovaj model se takmičio na IOI 2024 pod istim uslovima kao i ljudski takmičari. Imao je deset sati da reši šest izazovnih algoritamskih problema i bilo mu je dozvoljeno 50 predaja po problemu.
Za svaki problem, naš sistem je uzorkovao mnogo kandidatskih predaja i poslao 50 njih na osnovu strategije odabira u vreme testiranja. Predaje su birane na osnovu uspeha na javnim IOI test primerima, test primerima koje je generisao model i naučenoj funkciji ocenjivanja. Da smo umesto toga predavali nasumično, u proseku bismo osvojili samo 156 poena, što ukazuje da je ova strategija vredela gotovo 60 poena u uslovima takmičenja.
Uz ublaženo ograničenje broja predaja, utvrdili smo da su se performanse modela značajno poboljšale. Kada mu je bilo dozvoljeno 10.000 predaja po problemu, model je ostvario rezultat od 362,14 — iznad praga za zlatnu medalju — čak i bez ikakve strategije odabira u vreme testiranja.
Na kraju smo simulirali takmičenja u kompetitivnom programiranju koja organizuje Codeforces da bismo prikazali veštinu kodiranja ovog modela. Naše evaluacije su blisko pratile pravila takmičenja i dozvoljavale su 10 predaja. GPT‑4o je postigao Elo rejting3 od 808, što ga svrstava u 11. percentil ljudskih takmičara. Ovaj model je daleko nadmašio i GPT‑4o i o1 — postigao je Elo rejting od 1807 i bio bolji od 93% takmičara.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
Pored ispita i akademskih referentnih testova, procenjivali smo i ljudske preference za o1‑preview u odnosu na GPT‑4o na izazovnim, otvorenim instrukcijama u širokom spektru domena. U ovoj evaluaciji, ljudskim trenerima su prikazivani anonimizovani odgovori na instrukciju od o1‑preview i GPT‑4o, i glasali su za odgovor koji preferiraju. o1‑preview se s velikom razlikom preferira u odnosu na gpt-4o u kategorijama koje se u velikoj meri oslanjaju na rezonovanje, kao što su analiza podataka, kodiranje i matematika. Međutim, o1‑preview nije preferiran na nekim zadacima sa prirodnim jezikom, što ukazuje na to da nije prikladan za sve slučajeve upotrebe.

Rezonovanje putem lanca misli pruža nove mogućnosti za usklađivanje i bezbednost. Otkrili smo da je integrisanje naših politika za ponašanje modela u lanac misli modela rezonovanja efikasan način da se ljudske vrednosti i principi pouzdano poduče. Učeći model našim bezbednosnim pravilima i kako da rezonuje o njima u kontekstu, pronašli smo dokaze da sposobnost rezonovanja direktno doprinosi robusnosti modela: o1‑preview je ostvario znatno bolje rezultate na ključnim evaluacijama jailbreak-a i na našim najtežim internim referentnim testovima za procenu granica bezbednosnog odbijanja našeg modela. Verujemo da upotreba lanca misli donosi značajan napredak za bezbednost i usklađivanje jer (1) nam omogućava da posmatramo razmišljanje modela na čitljiv način i (2) rezonovanje modela o bezbednosnim pravilima je robusnije u scenarijima van distribucije.
Da bismo opteretili naša poboljšanja, sproveli smo skup bezbednosnih testova i red-teaming pre objavljivanja, u skladu sa našim Okvirom spremnosti(отвара се у новом прозору). Utvrdili smo da je rezonovanje putem lanca misli doprinelo poboljšanju sposobnosti u svim našim evaluacijama. Posebno je važno to što smo uočili zanimljive primere iskorišćavanja nagrade(отвара се у новом прозору). Detaljni rezultati ovih evaluacija mogu se naći u pratećoj sistemskoj kartici.
| Метрички | GPT-4o | o1-preview |
|---|---|---|
| Проценат безбедних извршавања за штетне инструкције Стандард | 0,990 | 0,995 |
| %Безбедна извршавања за штетне инструкције Изазовно: jailbreak-ови и гранични случајеви | 0,714 | 0,934 |
| ↳ Узнемиравање (озбиљно) | 0,845 | 0,900 |
| ↳ Експлоатациони сексуални садржај | 0,483 | 0,949 |
| ↳ Сексуални садржај који укључује малолетнике | 0,707 | 0,931 |
| ↳ Савети о ненасилним неисправним поступцима | 0,688 | 0,961 |
| ↳ Савети о ненасилним неисправним поступцима | 0,778 | 0,963 |
| % Safe completions for top 200 with highest Moderation API scores per category in WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 | 0,220 | 0,840 |
| Евал. jailbreak-а из људских извора | 0,770 | 0,960 |
| %Усклађеност у интерним безопасним граничним случајевима „није претерано одбијање” | 0,910 | 0,930 |
| % Усклађеност у бенигним граничним случајевима у XSTest „непретерано одбијање” Röttger, et al. 2023 | 0,924 | 0,976 |
Verujemo da skriveni lanac misli predstavlja jedinstvenu priliku za nadzor modela. Pod pretpostavkom da je veran i čitljiv, skriveni lanac misli nam omogućava da „čitamo misli“ modela i razumemo njegov misaoni proces. Na primer, u budućnosti bismo možda želeli da pratimo lanac misli radi znakova manipulisanja korisnikom. Međutim, da bi ovo funkcionisalo, model mora imati slobodu da izrazi svoje misli u neizmenjenom obliku, tako da ne možemo obučavati bilo kakvu usklađenost sa politikama ili korisničke preference na lanac misli. Takođe ne želimo da neusklađen lanac misli učinimo direktno vidljivim korisnicima.
Zato smo, nakon razmatranja više faktora uključujući korisničko iskustvo, konkurentsku prednost i mogućnost praćenja lanca misli, odlučili da korisnicima ne prikazujemo sirove lance misli. Svesni smo da ova odluka ima nedostatke. Trudimo se da to delimično nadoknadimo tako što učimo model da u odgovoru reprodukuje sve korisne ideje iz lanca misli. Za seriju modela o1 prikazujemo sažetak lanca misli koji generiše model.
o1 značajno unapređuje stanje tehnike u AI rezonovanju. Planiramo da objavimo poboljšane verzije ovog modela dok nastavljamo da ga usavršavamo. Očekujemo da će ove nove sposobnosti rezonovanja poboljšati našu sposobnost da uskladimo modele sa ljudskim vrednostima i principima. Verujemo da će o1 — i njegovi naslednici — otvoriti mnoge nove slučajeve upotrebe za AI u nauci, kodiranju, matematici i srodnim oblastima. Radujemo se što će korisnici i API programeri otkriti kako može da unapredi njihov svakodnevni rad.
| Скуп података | Метрички | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Такмичарска математика AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Код такмичења CodeForces | Elo | 808 | 1.258 | 1.673 |
| Перцентил | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Биологија | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Хемија | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Физика | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| МАТЕМАТИКА | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (вред.) | pass@1 | 69,1 | није применљиво | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | није применљиво | 73,9 |
Autori
Citati
- 1
- 2
Naše evaluacije su koristile istu test podelu od 500 zadataka koja se nalazi u https://arxiv.org/abs/2305.20050(отвара се у новом прозору)
- 3






