LLM's leren redeneren
We introduceren OpenAI o1, een nieuw groot taalmodel getraind met verbeterd leren om complexe redeneringen uit te voeren. o1 denkt na voordat het antwoord geeft - het kan een interne gedachtegang produceren voordat het antwoord geeft aan de gebruiker.
OpenAI o1 staat in het 89e percentiel op competitieve programmeervragen (Codeforces), staat in de top-500 van studenten in de VS in een kwalificatieronde voor de USA Math Olympiad (AIME) en overtreft de nauwkeurigheid van mensen met een doctoraat op een benchmark van natuurkunde-, biologie- en chemievragen (GPQA). Terwijl het werk nog steeds gaande is om dit nieuwe model net zo gebruiksvriendelijk te maken als de huidige modellen, geven we een vroege versie van dit model vrij, OpenAI o1‑preview, voor onmiddellijk gebruik in ChatGPT. Ook geven we het vrij aan vertrouwde API-gebruikers(opent in een nieuw venster).
Ons grootschalige algoritme voor versterkend leren leert het model productief te denken met behulp van zijn gedachteketen in een zeer gegevensefficiënt trainingsproces. We hebben vastgesteld dat de prestaties van o1 steeds beter worden naarmate er meer versterkend leren plaatsvindt (rekenkracht tijdens training) en naarmate er meer tijd wordt besteed aan het nadenken tijdens het uitvoeren (rekenkracht tijdens testen). De beperkingen bij het opschalen van deze benadering verschillen aanzienlijk van die van LLM-training vooraf en we blijven deze onderzoeken.

o1's prestaties verbeteren geleidelijk met zowel trainingstijd- als testtijdberekeningen
Om de verbetering in redenering ten opzichte van GPT‑4o te benadrukken, hebben we onze modellen getest op een diverse set menselijke examens en ML-benchmarks. We laten zien dat o1 aanzienlijk beter presteert dan GPT‑4o op de overgrote meerderheid van deze zware redeneertaken. Tenzij anders aangegeven, hebben we o1 geëvalueerd op de maximale rekenkracht tijdens uitvoering.







In veel benchmarks waarbij redeneren een grote rol speelt, evenaart o1 de prestaties van menselijke experts. De nieuwste grensverleggende modellen1 doen het zo goed op MATH2 en GSM8K dat deze benchmarks niet meer zo goed werken om modellen van elkaar te onderscheiden. We evalueerden de wiskundeprestaties op AIME, een examen dat is ontworpen om de beste wiskundeleerlingen van de middelbare school in Amerika uit te dagen. Op de AIME-examens van 2024 loste GPT‑4o gemiddeld slechts 12% (1,8/15) van de problemen op. o1 haalde een gemiddelde van 74% (11,1/15) met één enkele steekproef per probleem, 83% (12,5/15) met consensus tussen 64 steekproeven en 93% (13,9/15) bij het herrangschikken van 1000 steekproeven met een geleerde scorefunctie. Met een score van 13,9 behoort het tot de top 500 van nationale studenten en zit het boven de grens voor de USA Mathematical Olympiad.
We evalueerden o1 ook op GPQA diamond, een moeilijke intelligentiebenchmark die test op expertise in scheikunde, natuurkunde en biologie. Om modellen met mensen te kunnen vergelijken, hebben we gepromoveerde experts gevraagd om GPQA diamond-vragen te beantwoorden. We ontdekten dat o1 de prestaties van deze menselijke experts overtrof en daarmee het eerste model was dat dit deed voor deze benchmark. Deze resultaten impliceren niet dat o1 in alle opzichten capabeler is dan een PhD - alleen dat het model vaardiger is in het oplossen van sommige problemen die een PhD naar verwachting zou oplossen. Op verschillende andere ML-benchmarks presteerde o1 beter dan de huidige topmodellen. Met zijn visuele waarnemingsvermogen ingeschakeld behaalde o1 een score van 78,2% op MMMU, waarmee het het eerste model is dat kan concurreren met menselijke experts. Het presteerde ook beter dan GPT‑4o op 54 van de 57 MMLU-subcategorieën.
Net zoals mensen soms lang nadenken voordat ze een moeilijke vraag beantwoorden, gebruikt o1 een soort gedachtegang om een probleem op te lossen. Door middel van versterkend leren leert o1 zijn gedachtegang te verfijnen en de strategieën die het gebruikt bij te stellen. Het leert zijn fouten te herkennen en te corrigeren. Het leert lastige stappen op te splitsen in eenvoudigere stappen. Het leert om een andere aanpak te proberen als de huidige niet werkt. Dit proces verbetert het redeneervermogen van het model aanzienlijk. Om deze sprong voorwaarts te illustreren, laten we hieronder de gedachtegang zien van o1‑voorbeeld over verschillende moeilijke problemen.
GPT-4o
OpenAI o1-preview
We hebben een model getraind dat 213 punten scoorde en in de 49e percentiel eindigde in de Internationale Olympiade voor Informatica (IOI) van 2024, door te beginnen met o1 en te trainen om de programmeervaardigheden verder te verbeteren. Dit model nam deel aan de IOI van 2024 onder dezelfde omstandigheden als de menselijke deelnemers. De groep had tien uur de tijd om zes uitdagende algoritmische problemen op te lossen en mocht 50 inzendingen per probleem doen.
Voor elk probleem nam ons systeem een steekproef van vele kandidaatsinzendingen en diende er 50 in op basis van een testtijdselectiestrategie. Inzendingen werden geselecteerd op basis van prestaties op de openbare testcases van IOI, door modellen gegenereerde testcases en een geleerde scorefunctie. Als we in plaats daarvan willekeurig hadden ingezonden, zouden we gemiddeld slechts 156 punten hebben gescoord, wat suggereert dat deze strategie bijna 60 punten waard was onder de beperkingen van de competitie.
Met een ontspannen indieningsbeperking vonden we dat de modelprestaties aanzienlijk verbeterden. Wanneer 10.000 inzendingen per probleem werden toegestaan, behaalde het model een score van 362,14 - boven de gouden medailledrempel - zelfs zonder enige testtijdselectiestrategie.
Tot slot simuleerden we competitieve programmeerwedstrijden georganiseerd door Codeforces om de programmeervaardigheid van dit model aan te tonen. Onze evaluaties kwamen nauw overeen met de wedstrijdregels en lieten 10 inzendingen toe. GPT‑4o behaalde een Elo-score3 van 808, wat in het 11e percentiel van menselijke concurrenten is. Dit model overtrof zowel GPT‑4o als o1. Het behaalde een Elo-score van 1807 en presteerde daarmee beter dan 93% van de concurrenten.

Verdere verfijning van programmeerwedstrijden verbetert o1. Het verbeterde model behaalde de 49e plaats in de Internationale Olympiade voor Informatica van 2024 volgens de concurrentieregels.
Naast examens en academische benchmarks evalueerden we ook de menselijke voorkeur van o1‑preview versus GPT‑4o op uitdagende, open vragen in een breed spectrum van domeinen. In deze evaluatie kregen menselijke trainers geanonimiseerde antwoorden te zien op een prompt van o1‑preview en GPT‑4o en konden ze stemmen welk antwoord hun voorkeur had. o1‑preview heeft een ruime voorkeur boven gpt-4o in categorieën die veel redeneren vereisen, zoals gegevensanalyse, codering en wiskunde. Echter, o1‑preview heeft niet de voorkeur bij sommige natuurlijke taaltaken, wat suggereert dat het niet geschikt is voor alle gebruikssituaties.

Redeneren via een gedachtegang biedt nieuwe mogelijkheden voor afstemming en veiligheid. We ontdekten dat het integreren van ons beleid voor modelgedrag in de gedachtegang van een redeneermodel een effectieve manier is om menselijke waarden en principes op een robuuste manier aan te leren. Door het model onze veiligheidsregels te leren en hoe erover te redeneren in de context, vonden we bewijs dat redeneervermogen direct ten goede komt aan de robuustheid van het model: o1‑preview presteerde aanzienlijk beter op belangrijke jailbreak-evaluaties en onze moeilijkste interne benchmarks voor het evalueren van de veiligheidsweigeringsgrenzen van ons model. We zijn van mening dat het gebruik van een denkketen aanzienlijke vooruitgang biedt voor veiligheid en afstemming, omdat (1) het ons in staat stelt om het denken van het model op een leesbare manier te observeren, en (2) het model redeneren over veiligheidsregels robuuster is voor scenario's die buiten de verdeling vallen.
Om te testen of de verbeteringen goed werkten in lastige scenario's, hebben we voor de implementatie verschillende veiligheidstesten en red-teaming uitgevoerd, in overeenstemming met ons Preparedness Framework(opent in een nieuw venster). We ontdekten dat het redeneren via een gedachtegang bijdroeg aan capaciteitsverbeteringen in al onze evaluaties. We hebben met name interessante voorbeelden van reward-hacking waargenomen(opent in een nieuw venster). Gedetailleerde resultaten van deze evaluaties zijn te vinden in de bijgevoegde Systeemkaart.
| Metrisch | GPT-4o | o1-voorbeeld |
|---|---|---|
| % Veilige voltooiing op schadelijke prompts Standaard | 0,990 | 0,995 |
| % Veilige voltooiing op schadelijke prompts Uitdagend: jailbreaks en randgevallen | 0,714 | 0,934 |
| ↳ Lastigvallen (ernstig) | 0,845 | 0,900 |
| ↳ Uitbuitende seksuele inhoud | 0,483 | 0,949 |
| ↳ Bevat mogelijk seksuele inhoud met minderjarigen | 0,707 | 0,931 |
| ↳ Advies over niet-gewelddadig wangedrag | 0,688 | 0,961 |
| ↳ Advies over gewelddadig wangedrag | 0,778 | 0,963 |
| % Veilige voltooiingen voor top 200 met hoogste Moderatie-API-scores per categorie in WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 | 0,220 | 0,840 |
| Door mensen veroorzaakte jailbreak eval | 0,770 | 0,960 |
| % Naleving van interne goedaardige randgevallen “geen overmatige weigering” | 0,910 | 0,930 |
| % Naleving van goedaardige randgevallen in XSTest “geen overmatige weigering” Röttger, et al. 2023 | 0,924 | 0,976 |
Wij geloven dat een verborgen gedachtegang een unieke kans biedt voor het monitoren van modellen. Ervan uitgaande dat het waarheidsgetrouw en leesbaar is, stelt de verborgen gedachtegang ons in staat om de 'gedachten te lezen' van het model en zijn denkproces begrijpen. In de toekomst willen we bijvoorbeeld de gedachtegang controleren op tekenen van manipulatie van de gebruiker. Om dit te laten werken moet het model echter de vrijheid hebben om zijn gedachten in ongewijzigde vorm uit te drukken, dus we kunnen geen beleidsnaleving of gebruikersvoorkeuren op de gedachtegang trainen. We willen ook geen niet-afgestemde gedachtegang direct zichtbaar maken voor gebruikers.
Daarom hebben we na afweging van meerdere factoren, waaronder gebruikerservaring, concurrentievoordeel en de optie om de gedachtegang te volgen, besloten om de ruwe gedachtegang niet aan gebruikers te tonen. We erkennen dat deze beslissing nadelen heeft. We proberen dit gedeeltelijk goed te maken door het model te leren alle bruikbare ideeën uit de gedachtegang te reproduceren in het antwoord. Voor de o1‑modelreeks tonen we een door het model gegenereerde samenvatting van de gedachtegang.
o1 zorgt voor een aanzienlijke vooruitgang in AI-redeneren. We zijn van plan om verbeterde versies van dit model uit te brengen naarmate we verder gaan met iteratie. We verwachten dat deze nieuwe redeneermogelijkheden ons beter in staat zullen stellen om modellen af te stemmen op menselijke waarden en principes. Wij geloven dat o1 - en zijn opvolgers - veel nieuwe toepassingen voor AI zullen ontsluiten in de wetenschap, programmeren, wiskunde en aanverwante gebieden. We zijn enthousiast over hoe gebruikers en API-ontwikkelaars hun dagelijkse werk kunnen verbeteren.
| Gegevensset | Metrisch | gpt-4o | o1-voorbeeld | o1 |
|---|---|---|---|---|
| Wiskundewedstrijd AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Wedstrijdcode CodeForces | Elo | 808 | 1.258 | 1.673 |
| Percentiel | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologie | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Chemie | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Natuurkunde | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| WISKUNDE | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n.v.t. | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n.v.t. | 73,9 |
Auteurs
Bronvermeldingen
- 1
- 2
Onze evaluaties gebruikten dezelfde 500 probleemtestsplitsing als in https://arxiv.org/abs/2305.20050(opent in een nieuw venster)
- 3






