Lära sig resonera med LLM:er
Nu lanserar vi OpenAI o1 – en ny stor språkmodell som med hjälp av förstärkningsinlärning har tränats för att utföra komplexa resonemang. o1 tänker innan den svarar och kan producera en lång intern tankekedja innan den ger sitt svar.
OpenAI o1 hamnar i den 89:e percentilen inom tävlingsinriktade programmeringsfrågor (Codeforces), rankas bland de 500 bästa studenterna i USA i en uttagning till USA:s matematikolympiad (AIME) och överträffar en människa på doktorandnivå vad gäller riktighet på ett test inom fysik, biologi och kemi (GPQA). Medan vi arbetar med att göra den här modellen lika enkel att använda som de nuvarande modellerna släpper vi en tidig version av modellen, OpenAI o1‑förhandsgranskning, som kan användas i ChatGPT och av betrodda API-användare.(öppnas i ett nytt fönster).
Vår storskaliga algoritm för förstärkningsinlärning lär modellen hur den ska tänka produktivt med hjälp av sin tankekedja i en mycket dataeffektiv inlärningsprocess. Vi har sett att o1 blir bättre ju mer förstärkningsinlärning (träningsberäkningar) den får under träningen – och ju mer tid den får att tänka (användningsberäkningar) innan den svarar. Begränsningarna för att skala upp denna metod skiljer sig avsevärt från dem vid förträning av stora språkmodeller (LLM), och vi fortsätter att undersöka dem.

o1 blir gradvis bättre ju mer den tränas och testas.
För att visa hur mycket bättre resonemangsförmåga våra modeller har jämfört med GPT‑4o, satte vi dem på prov med olika typer av mänskliga tester och ML-benchmarktester. Resultaten visar tydligt att o1 överträffar GPT‑4o i nästan alla uppgifter som kräver mycket resonerande. Om inget annat anges testades o1 vid utvärderingen med den högsta tillåtna beräkningskapaciteten.







I många tester som kräver avancerat resonemang ligger o1 i nivå med mänskliga experter. De senaste avancerade modellerna1 presterar så bra på MATH2 och GSM8K att dessa benchmarktester inte längre är effektiva för att särskilja modeller. Vi använde AIME för att mäta matematisk förmåga – ett avancerat prov som är utformat för att utmana de mest begåvade matematikstudenterna på gymnasienivå i USA. På AIME-proven 2024 löste GPT‑4o i genomsnitt endast 12 % (1,8 av 15) av uppgifterna. o1 löste i genomsnitt 74 % (11,1 av 15) med ett enda svar per uppgift, 83 % (12,5 av 15) vid konsensus bland 64 svar, och 93 % (13,9 av 15) när 1 000 svar rangordnades med en inlärd poängfunktion. En poäng på 13,9 placerar den bland de 500 bästa studenterna nationellt och över gränsen för att kvalificera sig till USA:s matematikolympiad.
Vi utvärderade också o1 på GPQA Diamond, ett svårt intelligenstest som testar expertkunskaper i kemi, fysik och biologi. För att jämföra modeller med mänsklig expertis lät vi experter med doktorsexamen besvara GPQA Diamond-frågor. Vi fann att o1 presterade bättre än de mänskliga experterna, och blev därmed den första modellen som klarat detta test på den nivån. Resultaten innebär inte att o1 är mer kapabel än en person med doktorsexamen i alla avseenden – bara att den är bättre på att lösa vissa typer av problem som en sådan expert förväntas lösa. o1 slog tidigare toppresultat på flera andra maskininlärningstester. Med sin visuella perceptionsförmåga aktiverad uppnådde o1 78,2 % på MMMU, vilket gör den till den första modellen som kan mäta sig med mänskliga experter. Den överträffade också GPT‑4o på 54 av 57 underkategorier i MMLU.
Precis som en människa kan fundera en stund på en klurig fråga, använder o1 en tankekedja när den försöker lösa ett problem. Genom förstärkningsinlärning lär sig o1 att finslipa sin tankekedja och förfina de strategier den använder. Den lär sig att känna igen och rätta till sina misstag. Den lär sig att bryta ner knepiga steg i enklare delar. När något inte fungerar lär den sig att byta spår och testa en ny strategi. Denna process förbättrar dramatiskt modellens förmåga att resonera. För att illustrera detta framsteg visar vi nedan tankekedjan från o1‑förhandsgranskning på flera svåra problem.
GPT-4o
OpenAI o1-förhandsgranskning
Vi tränade en modell som fick 213 poäng och placerade sig i den 49:e percentilen i den internationella programmeringsolympiaden (IOI) 2024, genom att utgå från o1 och träna för att ytterligare förbättra programmeringskunskaperna. Denna modell tävlade i IOI 2024 under samma förutsättningar som de mänskliga deltagarna. Den fick tio timmar på sig att lösa sex utmanande algoritmiska problem, med upp till 50 inlämningar per uppgift.
För varje problem tog vårt system fram många förslag på lösningar och skickade in 50 av dem baserat på en urvalsstrategi vid testtillfället. Inlämningarna valdes ut baserat på resultat på IOI:s offentliga testfall, modellgenererade testfall och en inlärd poängfunktion. Om vi istället hade valt lösningar helt slumpmässigt hade snittresultatet bara blivit 156 poäng – vilket visar att strategin var värd nästa 60 poäng under tävlingsförhållandena.
Med ett mer avslappnat inlämningskrav fann vi att modellens prestanda förbättrades avsevärt. När modellen tilläts göra 10 000 inlämningar per problem uppnådde den en poäng på 362,14 – över gränsen för guldmedalj – även utan någon urvalsstrategi vid testtillfället.
Som ett sista test simulerade vi programmeringstävlingar som anordnades av Codeforces för att visa modellens kodningsförmåga. Våra utvärderingar följde tävlingsreglerna noggrant och tillät 10 inlämningar. GPT‑4o uppnådde en Elo-rating3 på 808, vilket placerar den i den elfte percentilen bland mänskliga deltagare. Denna modell överträffade med råge både GPT‑4o och o1 – den uppnådde en Elo-rating på 1807 och presterade bättre än 93 % av alla tävlande.

Genom ytterligare finjusteringar via programmeringstävlingar blir o1 ännu bättre. Den förbättrade modellen placerade sig enligt gällande tävlingsregler i den 49:e percentilen i 2024 års internationella programmeringsolympiad.
Utöver prov och akademiska benchmarktester utvärderade vi även mänskliga preferenser mellan o1‑förhandsgranskning och GPT‑4o på utmanande, öppna frågor inom ett brett spektrum av områden. I denna utvärdering visades mänskliga tränare anonymiserade svar på en prompt från o1‑förhandsgranskning och GPT‑4o, och röstade på det svar de föredrog. o1‑förhandsgranskning föredrogs klart framför GPT‑4o i resonemangsintensiva kategorier som dataanalys, kodning och matematik. Däremot är o1‑förhandsgranskning inte att föredra på vissa uppgifter med naturligt språk, vilket tyder på att den inte är lämplig för alla användningsområden.

Att låta modellen resonera i en tankekedja öppnar upp nya möjligheter till anpassning och säkerhet. Vi fann att ett effektivt sätt att lära modellen mänskliga värderingar och principer är att integrera våra policyer för modellbeteende direkt i tankekedjan för en resonemangsmodell. Genom att lära modellen våra säkerhetsregler och hur den ska resonera kring dem i rätt kontext, fann vi bevis på att resonemangsförmåga direkt bidrar till modellens tillförlitlighet: o1‑förhandsgranskning uppnådde avsevärt bättre resultat på viktiga jailbreak-utvärderingar och våra svåraste interna tester för att bedöma modellens gränser för vägran vid säkerhetsrisker. Vi anser att användningen av en tankekedja innebär betydande framsteg för säkerhet och anpassning eftersom (1) det gör det möjligt för oss att observera modellens tänkande på ett tydligt sätt, och (2) modellens resonemang kring säkerhetsregler är mer robust när den ställs inför situationer den inte har tränats för.
För att stresstesta våra förbättringar genomförde vi en uppsättning säkerhetstester och så kallad red-teaming innan lansering, i enlighet med vårt Preparedness Framework(öppnas i ett nytt fönster). Vi fann att tankekedjeresonerande bidrog till kapacitetsförbättringar i samtliga av våra utvärderingar. Vi lade särskilt märke till några intressanta fall av belöningsmanipulation(öppnas i ett nytt fönster). Detaljerade resultat från dessa utvärderingar finns i det medföljande systemkortet.
| Metrik | GPT-4o | o1-förhandsgranskning |
|---|---|---|
| % säkra slutföranden på skadliga prompter Standard | 0,990 | 0,995 |
| % säkra slutföranden på skadliga prompter Utmanande: jailbreaks och kantfall | 0,714 | 0,934 |
| ↳ Trakasseri (grovt) | 0,845 | 0,900 |
| ↳ Exploaterande sexuellt innehåll | 0,483 | 0,949 |
| ↳ Sexuellt innehåll med minderåriga | 0,707 | 0,931 |
| ↳ Råd om icke-våldsamma förseelser | 0,688 | 0,961 |
| ↳ Råd om våldsamma förseelser | 0,778 | 0,963 |
| % säkra slutföranden på topp-200 med högsta poäng för modererings-API per kategori i WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak-utvärdering Souly et al. 2024 | 0,220 | 0,840 |
| Jailbreak-utvärdering från mänsklig källa | 0,770 | 0,960 |
| % efterlevnad vid godartade kantfall “inte överdrivet avvisande” | 0,910 | 0,930 |
| % efterlevnad vid godartade kantfall i XSTest “inte överdrivet avvisande” Röttger, et al. 2023 | 0,924 | 0,976 |
Vi anser att en dold tankekedja utgör en unik möjlighet för att övervaka modeller. Förutsatt att den är korrekt och läsbar gör den dolda tankekedjan det möjligt för oss att "läsa modellens tankar" och förstå dess tankeprocess. I framtiden kanske vi till exempel vill övervaka tankekedjan för tecken på att modellen försöker manipulera användaren. För att detta ska fungera måste modellen dock ha frihet att uttrycka sina tankar i oförändrad form, så vi kan inte träna in någon policyefterlevnad eller användarpreferenser i tankekedjan. Vi vill inte heller göra en ojusterad tankekedja direkt synlig för användarna.
Efter att ha vägt samman flera faktorer, inklusive användarupplevelse, konkurrensfördelar och möjligheten att fortsätta övervakningen av tankekedjor, har vi därför beslutat att inte visa de råa tankekedjorna för användarna. Vi är medvetna om att det här beslutet också har sina baksidor. Vi strävar efter att delvis kompensera för detta genom att lära modellen att återge alla användbara idéer från tankekedjan i svaret. För o1‑modellserien visar vi en modellgenererad sammanfattning av tankekedjan.
o1 innebär en betydande förbättring av den senaste tekniken inom AI-resonemang. Vi planerar att släppa förbättrade versioner av denna modell i takt med att vi fortsätter att iterera. Vi förväntar oss att dessa nya resonemangsfunktioner kommer att förbättra vår förmåga att anpassa modeller till mänskliga värderingar och principer. Vi tror att o1 – och dess efterföljare – kommer att möjliggöra många nya användningsområden för AI inom vetenskap, programmering, matematik och relaterade områden. Vi ser fram emot att användare och API-utvecklare upptäcker hur det kan förbättra deras dagliga arbete.
| Datamängd | Metrik | gpt-4o | o1-förhandsgranskning | o1 |
|---|---|---|---|---|
| Tävlingsmatematik AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Tävlingskodning CodeForces | Elo | 808 | 1 258 | 1 673 |
| Percentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologi | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Kemi | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Fysik | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | ej tillämpligt | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | ej tillämpligt | 73,9 |
Författare
Källhänvisningar
- 1
- 2
I våra utvärderingar användes samma testuppdelning med 500 problem som finns i https://arxiv.org/abs/2305.20050(öppnas i ett nytt fönster)
- 3






