At lære at ræsonnere med sprogmodeller (LLM)
Vi præsenterer OpenAI o1, en ny stor sprogmodel, der er trænet med forstærkende læring til at udføre kompleks avanceret tænkning. o1 tænker, før den svarer – den kan generere en lang indre tankerække, inden den giver brugeren sit svar.
OpenAI o1 placerer sig i den 89. percentil på konkurrencemæssige programmeringsopgaver (Codeforces), den hører til blandt de 500 bedste studerende i USA i en kvalifikationsrunde til USA Math Olympiad (AIME) og overgår menneskelig præcision på ph.d.-niveau på et benchmark inden for fysik, biologi og kemi (GPQA). Mens arbejdet fortsat er i gang med at gøre den nye model lige så nem at bruge som nuværende modeller, frigiver vi en tidlig version, en forhåndsvisning af OpenAI o1, til øjeblikkelig brug i ChatGPT og for betroede API-brugere(åbner i et nyt vindue).
Vores omfattende forstærkningslærings-algoritme lærer modellen at tænke produktivt ved hjælp af dens tankekæde i en meget dataeffektiv træningsproces. Vi har kunne se, at o1's præstation konsekvent forbedres med mere forstærkningslæring (beregning i træningstid) og mere tid brugt på at tænke (beregning i testtid). Begrænsningerne for at skalere denne tilgang adskiller sig væsentligt fra LLM-prætræning, og vi undersøger dem fortsat.

o1‑ydelsen forbedres jævnt med både train-time- og test-time-beregning
For at fremhæve forbedringen af ræsonneringsevnen i forhold til GPT‑4o testede vi vores modeller på en række forskellige menneskelige eksamener og ML-benchmarks. Vi viser, at o1 klarer sig betydeligt bedre end GPT‑4o på langt de fleste af de ræsonneringsstunge opgaver. Medmindre andet er angivet, evaluerede vi o1 på den maksimale indstilling for testtidsberegning.







I mange ræsonneringsstunge benchmarks konkurrerer o1 med menneskelige eksperters præstationer. Nyere frontier-modeller1 klarer sig så godt på MATH2 og GSM8K, at disse benchmarks ikke længere er effektive til at skelne mellem modeller. Vi evaluerede matematikpræstationer på AIME, en eksamen, der er designet til at udfordre de dygtigste matematikstuderende i USA. Ved AIME-eksamenerne i 2024 løste GPT‑4o i gennemsnit kun 12 % (1,8/15) af problemerne. o1 opnåede et gennemsnit på 74 % (11,1/15) med et enkelt sample pr. problem, 83 % (12,5/15) med konsensus blandt 64 samples og 93 % (13,9/15) ved omrangering af 1000 samples med en indlært scoringsfunktion. En score på 13,9 placerer den blandt de 500 bedste studerende på landsplan og over grænsen for den amerikanske matematikolympiade.
Vi evaluerede også o1 på GPQA diamond, et vanskeligt intelligens-benchmark, som tester ekspertise inden for kemi, fysik og biologi. For at kunne sammenligne modellerne med mennesker rekrutterede vi eksperter med ph.d.-grad til at besvare GPQA-diamantspørgsmålene. Vi kunne her konstatere, at o1 overgik de menneskelige eksperters præstationer og blev den første model, der formåede det på dette benchmark. Resultaterne betyder ikke, at o1 er dygtigere end en ph.d. i alle henseender – kun at modellen er dygtigere til at løse nogle problemer, som en ph.d. forventes at kunne løse. På flere andre ML-benchmarks forbedrede o1 sig i forhold til den nyeste teknologi. Med aktiveret synsperception scorede o1 78,2 % på MMMU, hvilket gjorde den til den første model, der var konkurrencedygtig med menneskelige eksperter. Den klarede sig også bedre end GPT‑4o i 54 ud af 57 MMLU-underkategorier.
Ligesom et menneske kan tænke sig om i længere tid, før det svarer på et svært spørgsmål, bruger o1 en såkaldt tankekæde, en tankeproces i flere led, når den forsøger at løse et problem. Gennem forstærkningslæring lærer o1 at finjustere sin tankeproces og forfine de strategier, den bruger. Den lærer at genkende og rette sine fejl. Den lærer at opdele komplekse trin i enklere dele. Den lærer at skifte tilgangsmetode, når den nuværende ikke virker. Denne proces medfører en markant forbedring af modellens evne til at ræsonnere. For at illustrere det store fremskridt viser vi tankegangen fra o1‑forhåndsvisning inden for flere vanskelige problemer nedenfor.
GPT-4o
OpenAI o1-forhåndsvisning
Vi trænede en model, der scorede 213 point og placerede sig i 49. percentil i den internationale olympiade i informatik (IOI) i 2024, ved at starte fra o1 og træne for yderligere at forbedre programmeringsfærdighederne. Denne model deltog i IOI 2024 under de samme forhold som de menneskelige deltagere. Den havde ti timer til at løse seks udfordrende algoritmiske problemer og måtte lave 50 indsendelser pr. problem.
For hvert problem udtog vores system samples fra mange kandidatforslag og indsendte 50 af dem baseret på en testtids-udvælgelsesstrategi. Indsendelserne blev udvalgt på baggrund af deres præstationer i IOI's offentlige testcases, modelgenererede testcases og en indlært scoringsfunktion. Hvis vi i stedet havde indsendt tilfældigt, ville vi kun have scoret 156 point i gennemsnit, hvilket tyder på, at denne strategi var næsten 60 point værd under konkurrencebegrænsninger.
Med en løsere indsendelsesbegrænsning kunne vi se, at modellens ydeevne blev markant forbedret. Når der blev tilladt 10.000 indsendelser pr. problem, opnåede modellen en score på 362,14 – over guldmedaljetærsklen – selv uden nogen testtids-udvælgelsesstrategi.
Endelig simulerede vi programmeringskonkurrencer arrangeret af Codeforces for at demonstrere modellens kodningsfærdigheder. Vores evalueringer svarede nøje til konkurrencereglerne og tillod 10 indsendelser. GPT‑4o opnåede en Elo-rating3 på 808, hvilket er i den 11. percentil af menneskelige konkurrenter. Denne model overgik både GPT‑4o og o1 betydeligt – den opnåede en Elo-rating på 1807 og klarede sig dermed bedre end 93 % af konkurrenterne.

Yderligere finjustering af programmeringskonkurrencer forbedrer o1. Den forbedrede model placerede sig i 49. percentil i den internationale informatikolympiade i 2024 i henhold til konkurrencereglerne.
Ud over eksamener og akademiske benchmarks har vi også undersøgt, hvordan mennesker vurderer o1‑forhåndsvisning i forhold til GPT‑4o på krævende, åbne opgaver inden for en bred vifte af områder. I denne evaluering blev menneskelige trænere præsenteret for anonyme svar på samme forespørgsel fra o1‑forhåndsvisning og fra GPT‑4o – og skulle stemme på det svar, de foretrak. o1‑forhåndsvisning blev foretrukket over gpt-4o med en stor margin i opgaver, der kræver tung avanceret tænkning, som f.eks. dataanalyse, kodning og matematik. Til gengæld blev o1‑forhåndsvisning ikke foretrukket, når det kom til opgaver inden for naturligt sprog, hvilket tyder på, at den ikke er lige velegnet til alle use cases.

Tankekæde-ræsonnering giver nye muligheder for tilpasning og sikkerhed. Vi har erfaret, at det er en effektiv metode at integrere vores retningslinjer for modellens adfærd direkte i ræsonneringsmodellens tankekæde, når der skal indlæres menneskelige værdier og principper på en robust måde. Ved at lære modellen vores sikkerhedsregler og hvordan den skal ræsonnere over dem i kontekst, fandt vi tegn på, at dens ræsonneringsevne direkte styrker modellens robusthed. o1‑forhåndsvisning opnåede markant bedre resultater i centrale jailbreak-tests og på vores mest krævende interne benchmarks for modellens grænser for sikkerhedsbaserede nægtelser. Vi tror på, at brugen af tankekæder rummer væsentlige fremskridt for sikkerhed og tilpasning til værdier, fordi (1) det gør det muligt for os at følge modellens tankeproces på en læsbar og gennemsigtig måde, og (2) modellens evne til at ræsonnere over sikkerhedsregler er mere robust for out-of-distribution-scenarier.
For at stressteste vores forbedringer udførte vi en række sikkerheds- og red teaming-tests forud for implementeringen i overensstemmelse med vores beredskabsramme(åbner i et nyt vindue). Vi erfarede her, at tankekæden bidrog til kapacitetsforbedringer på tværs af vores evalueringer. Særligt bemærkelsesværdigt er det, at vi observerede interessante tilfælde af belønningshacking(åbner i et nyt vindue). De detaljerede resultater fra evalueringerne kan findes i det medfølgende systemkort.
| Metrisk | GPT-4o | o1-forhåndsvisning |
|---|---|---|
| % sikre færdiggørelser ved skadelige forespørgsler Standard | 0,990 | 0,995 |
| % sikre færdiggørelser ved skadelige forespørgsler Udfordrende: jailbreaks og edge cases | 0,714 | 0,934 |
| ↳ Krænkelse (alvorlig) | 0,845 | 0,900 |
| ↳ Seksuelt udnyttende indhold | 0,483 | 0,949 |
| ↳ Seksuelt indhold, der omfatter mindreårige | 0,707 | 0,931 |
| ↳ Råd om ikke-voldelige, forkerte handlinger | 0,688 | 0,961 |
| ↳ Råd om voldelige, forkerte handlinger | 0,778 | 0,963 |
| % sikre færdiggørelser for top-200 med højeste moderation API-scorer pr. kategori i WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 | 0,220 | 0,840 |
| Evaluering af jailbreaks fra menneskelig kilde | 0,770 | 0,960 |
| % overholdelse ved harmløse interne edge cases "ikke overnægtelse" | 0,910 | 0,930 |
| % overholdelse ved harmløse edge cases i XSTest "ikke overnægtelse" Röttger, et al. 2023 | 0,924 | 0,976 |
Vi mener, at en skjult tankekæde giver en unik mulighed for at overvåge modellerne. Forudsat at den er troværdig og læsbar, giver den skjulte tankekæde os mulighed for at "læse modellens tanker" og forstå dens tankeproces. For eksempel kan vi i fremtiden måske få brug for at overvåge tankekæden for tegn på manipulation af brugeren. For at det kan lade sig gøre, skal modellen dog have frihed til at udtrykke sine tanker i uændret form, så vi kan ikke træne overholdelse af retningslinjer eller brugerpræferencer ind i tankekæden. Vi ønsker heller ikke at gøre en ikke-tilpasset tankekæde direkte synlig for brugerne.
Derfor har vi – efter at have afvejet flere faktorer, herunder brugeroplevelse, konkurrencemæssige fordele og muligheden for at fortsætte overvågningen af tankekæder – besluttet ikke at vise de rå tankekæder til brugerne. Vi er klar over, at denne beslutning har sine ulemper. Vi forsøger delvist at kompensere for det ved at lære modellen at gengive alle nyttige idéer fra tankekæden i svaret. For o1‑modelserien viser vi et modelgenereret resumé af tankekæden.
o1 medfører markante fremskridt og placerer sig i fronten af AI inden for avanceret tænkning. Vi planlægger at udgive flere versioner af modellen, efterhånden som vi fortsætter med de gradvise forbedringer. Vi forventer, at de nye ræsonneringsmuligheder vil forbedre vores evne til at tilpasse modellerne til menneskelige værdier og principper. Vi er overbeviste om, at o1 – og dens efterfølgere – vil åbne op for mange nye AI-use cases inden for videnskab, kodning, matematik og beslægtede felter. Vi glæder os til, at brugere og API-udviklere får mulighed for at opdage, hvordan den kan forbedre deres daglige arbejde.
| Datasæt | Metrisk | gpt-4o | o1-forhåndsvisning | o1 |
|---|---|---|---|---|
| Konkurrence-matematik AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Konkurrencekode KodeKræfter | Elo | 808 | 1.258 | 1.673 |
| Procent | 11,0 | 62,0 | 89,0 | |
| GPQA Diamant | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologi | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Kemi | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Fysik | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n/a | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n/a | 73,9 |
Skabt af
Referencer
- 1
- 2
Vores evalueringer brugte den samme testopdeling med 500 problemer, som findes i https://arxiv.org/abs/2305.20050(åbner i et nyt vindue)
- 3






