Lær å resonnere med LLM-er
Vi introduserer OpenAI o1, en ny stor språkmodell med forsterkende læring for å utføre kompleks resonnement. o1 tenker før den svarer – den kan produsere en lang intern tankerekke før den svarer brukeren.
OpenAI o1 er i den 89. persentilen når det gjelder konkurranseprogrammering (Codeforces), plasserer seg blant de 500 beste studentene i USA i en kvalifisering for USA Math Olympiad (AIME), og overgår nøyaktigheten til et menneskelig doktorgradsnivå på en referansetest av fysikk, biologi og kjemi-problemer (GPQA). Selv om arbeidet med å gjøre denne nye modellen like brukervennlig som nåværende modeller fortsatt pågår, lanserer vi en tidlig versjon av denne modellen, OpenAI o1‑preview, for umiddelbar bruk i ChatGPT og til betrodde API-brukere(åpnes i et nytt vindu).
Algoritmen vår for forsterkende læring i stor skala lærer modellen å tenke produktivt med tankerekken i en veldig dataeffektiv opplæringsprosess. Vi har funnet at ytelsen til o1 forbedres konsekvent med mer forsterkende læring (datakraft for opplæringstid) og med mer tid brukt på tenking (datakraft for testtid). Begrensningene for skalering av denne tilnærmelsen avviker betydelig fra LLM-forhåndsopplæring, og vi fortsetter å undersøke dem.

o1‑ytelse forbedres jevnt med både datakraft til opplæringstid og testtid.
For å fremheve forbedringen av resonnement sammenlignet med GPT‑4o, testet vi modellene våre på et allsidig sett av menneskelige tester og ML-referansemålinger. Vi viser at o1 i betydelig grad utkonkurrerer GPT‑4o på et stort flertall av disse oppgavene med mye resonnement. Med mindre annet er spesifisert, evaluerer vi o1 på innstillingen med maksimal datakraft for testtid.







I mange referansemålinger med mye resonnement er o1 på høyde med menneskelige eksperter. Nylige grensemodeller1 presterer så bra på MATH2 og GSM8K at disse referansemålingene ikke lenger er effektive til å skille modeller. Vi evaluerte matteytelse på AIME, en eksamen som er laget for å utfordre de skarpeste matteelevene på videregående skoler i USA. På 2024 AIME-eksamenene løste GPT‑4o bare i gjennomsnitt 12 % (1,8/15) av problemene. o1 klarte i gjennomsnitt 74 % (11,1/15) med en enkelt prøve per problem, 83 % (12,5/15) med overensstemmelse blant 64 prøver, og 93 % (13,9/15) ved omrangering av 1000 prøver med en lært poenggivningsfuksjon. En poengsum på 13,9 plasserer den blant de øverste 500 elevene nasjonalt og over grenseverdien for USA Mathematical Olympiad.
Vi evaluerte også o1 på GPQA diamond, en vanskelig intelligensreferansemåling som tester ekspertise innen kjemi, fysikk og biologi. For å sammenligne modeller med mennesker, rekrutterte vi eksperter med doktorgrad for å svare på spørsmål i GPQA-diamond. Vi oppdaget at o1 overgikk ytelsen til disse menneskelige ekspertene, og ble den første modellen som gjorde det på denne referansemålingen. Disse resultatene antyder ikke at o1 er dyktigere enn en person med doktorgrad på alle måter, bare at modellen er dyktigere til å løse noen problemer som det forventes at en person med doktorgrad skal kunne løse. På flere andre ML-referansemålinger var o1 en forbedring på det mest oppdaterte. Med funksjonaliteten innen synspersepsjon aktivert fikk o1 78,2 % på MMMU, noe som gjorde det til den første modellen som kunne konkurrere med menneskelige eksperter. Den utkonkurrerte også GPT‑4o på 54 av 57 MMLU-underkategorier.
På samme måte som et menneske kan tenke lenge før vedkommende svarer på et vanskelig spørsmål, bruker o1 en tankerekke når den forsøker å løse et problem. Ved hjelp av forsterkende læring lærer o1 å forbedre tankerekken og finjustere strategiene den bruker. Den lærer å gjenkjenne og rette opp feilene sine. Den lærer å dele opp vanskelige trinn i enklere trinn. Den lærer å prøve en annen tilnærmelse når den nåværende ikke fungerer. Denne prosessen forbedrer modellens resonnementsevne drastisk. For å illustrere dette spranget fremover viser vi tankerekken fra o1‑preview for flere vanskelige problemer nedenfor.
GPT-4o
OpenAI o1-preview
Vi lærte opp en modell som fikk 213 poeng og rangerte i 49. persentil i 2024 International Olympiad in Informatics (IOI), ved å starte fra o1 og lære den videre opp for å forbedre programmeringsferdighetene. Denne modellen konkurrerte i 2024 IOI under de samme betingelsene som de menneskelige konkurrentene. Den hadde ti timer til å løse seks utfordrende algoritmeproblemer og fikk 50 innsendelser per problem.
For hvert problem valgte systemet ut mange kandidatinnsendelser og sendte inn 50 av dem basert på en utvalgsstrategi med testtid. Innsendelser ble valgt basert på ytelse på offentlige testsaker i IOI og en lært poenggivningsfunksjon. Hvis vi i stedet hadde sendt inn tilfeldig, hadde vi bare fått 156 poeng i gjennomsnitt, noe som antyder at denne strategien var verdt nesten 60 poeng under konkurransebegrensningene.
Med en løs begrensning for innsending oppdaget vi at modellytelsen ble betydelig forbedret. Da vi fikk 10 000 innsendelser per problem, oppnådde modellen en poengsum på 362,14 – over terskelen for gullmedalje – selv uten en utvalgsstrategi med testtid.
Til slutt simulerte vi programmeringskonkurranser der Codeforces var vertskap, for å demonstrere kodeferdighet. Evalueringene våre matcher konkurransereglene tett og tillot 10 innsendelser. GPT‑4o oppnådde en Elo-vurdering3 på 808, som er i den 11. persentilen av menneskelige konkurrenter. Denne modellen overgikk i stor grad både GPT‑4o og o1 – den oppnådde en Elo-vurdering på 1807, og presterte bedre enn 93 % av konkurrentene.

Videre finjustering for programmeringskonkurranser forbedrer o1. Den forbedrede modellen rangerte i 49. persentil i 2024 International Olympiad in Informatics under konkurransereglene.
I tillegg til undersøkelser og akademiske referansemålinger evaluerte vi også menneskelig preferanse for o1‑preview mot GPT‑4o på utfordrende, åpne meldinger i et bredt spekter av domener. I denne evalueringen ble menneskelig instruktører vist anonymiserte svar på en melding fra o1‑preview og GPT‑4o, og stemte på svaret de foretrakk. o1‑preview foretrekkes foran gpt-4o med en stor margin i kategorier med mye resonnement som dataanalyse, koding og matte. Men o1‑preview foretrekkes ikke for noen oppgaver for naturlig språk, noe som antyder at den ikke er godt egnet for alle bruksområder.

Resonnement i tankerekke gir nye muligheter for tilpasning og sikkerhet. Vi oppdaget at integrering av retningslinjene våre for modellatferd inn i tankerekken til en resonneringsmodell er en effektiv måte å lære menneskelige verdier og prinsipper på. Ved å lære modellen sikkerhetsreglene våre og hvordan den kan resonnere om dem i kontekst, fant vi bevis på resonneringfunksjonalitet som hadde direkte positiv påvirkning på modellrobustheten: o1‑preview oppnådde betydelig forbedret ytelse for viktige evalueringer av jailbreak og de vanskeligste interne referansemålingene våre for evaluering av modellens sikkerhetsgrenser for nektelse. Vi mener at bruk av en tankerekke gir betydelige fordeler for sikkerhet og tilpasning, fordi (1) det lar oss observere modellens tenking på en leselig måte, og (2) modellens resonnement om sikkerhetsregler er mer robust for scenarioer som ikke fanges opp.
For å stressteste forbedringene våre gjennomførte vi en rekke sikkerhetstester og red team-øvelser før implementering, i samsvar med beredskapsrammeverket(åpnes i et nytt vindu) vårt. Vi fant at tankerekken bidro til forbedring av funksjonalitet i alle evalueringene. Det var spesielt bemerkelsesverdig at vi observerte interessante forekomster av belønningshacking(åpnes i et nytt vindu). De detaljerte resultatene fra disse evalueringene finnes i det tilhørende systemkortet.
| Måleverdi | GPT-4o | o1-preview |
|---|---|---|
| % trygge svar etter skadelige spørsmål Standard | 0,990 | 0,995 |
| % trygge svar etter skadelige spørsmål Utfordringstester: jailbreaker og grensetilfeller | 0,714 | 0,934 |
| ↳ Trakassering (alvorlig) | 0,845 | 0,900 |
| ↳ Utnyttende seksuelt innhold | 0,483 | 0,949 |
| ↳ Seksuelt innhold som involverer mindreårige | 0,707 | 0,931 |
| ↳ Råd om ikke-voldelig forseelse | 0,688 | 0,961 |
| ↳ Råd om voldelig forseelse | 0,778 | 0,963 |
| % trygge svar for topp 200 med høyeste Moderation API-poengsummer per kategori i WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Evaluering av Goodness@0.1 StrongREJECT jailbreak Souly et al. 2024 | 0,220 | 0,840 |
| Evaluering av menneskeskapte jailbreaker | 0,770 | 0,960 |
| % overholdelse av interne, godartede grensetilfeller «ikke overnektelse» | 0,910 | 0,930 |
| % overholdelse av godartede grensetilfeller i XSTest «ikke overnektelse» Röttger, et al. 2023 | 0,924 | 0,976 |
Vi mener at en skjult tankerekke utgjør en unik mulighet til å overvåke modeller. Forutsatt at den er pålitelig og leselig, lar den skjulte tankerekken oss “lese tankene” til modellen og forstå tankeprosessen. I fremtiden kan vi for eksempel ønske å overvåke tankerekken for tegn på manipulering av brukeren. Men for at dette skal fungere, må modellen ha frihet til å uttrykke tankene sine i uendret form, så vi kan ikke lære opp overholdelse av retningslinjer eller brukerpreferanser i tankerekken. Vi vil også ikke gjøre en utilpasset tankerekke direkte synlig for brukere.
Derfor, etter å ha vurdert flere faktorer, inkludert brukeropplevelse, konkurransefortrinn og muligheten til å fortsette overvåkingen av tankerekken, har vi bestemt oss for å ikke vise de rå tankerekkene til brukere. Vi anerkjenner at denne avgjørelsen har ulemper. Vi forsøker å delvis gjøre opp for det ved å lære modellen til å reprodusere alle nyttige ideer fra tankerekken i svaret. For o1‑modellserien viste vi et modellgenerert sammendrag av tankerekken.
o1 forbedrer toppmoderne AI-resonnement betydelig. Vi planlegger å lansere forbedrede versjoner av denne modellen når vi fortsetter itereringen. Vi forventer at disse nye resonneringsfunksjonalitetene kommer til å forbedre evnen vår til å tilpasse modeller etter menneskelige verdier og prinsipper. Vi mener at o1 – og etterfølgerne – kommer til å låse opp nye bruksområder for AI i vitenskap, koding, matte og relaterte områder. Vi er begeistret for at brukere og API-utviklere kommer til å oppdage hvordan den kan forbedre det daglige arbeidet deres.
| Datasett | Måleverdi | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Konkurransematematikk AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Konkurransekode CodeForces | Elo | 808 | 1 258 | 1 673 |
| Prosentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologi | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Kjemi | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Fysikk | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | Ikke aktuelt | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | Ikke aktuelt | 73,9 |
Forfattere
Sitater
- 1
- 2
Evalueringene brukte de samme 500 problemtestene som finnes i https://arxiv.org/abs/2305.20050(åpnes i et nytt vindu)
- 3






