Reasoning mit großen Sprachmodellen (LLMs) lernen
Wir präsentieren OpenAI o1, ein neues großes Sprachmodell, das mit Reinforcement Learning für komplexes Reasoning trainiert wurde. o1 denkt nach, bevor es antwortet – es kann einen langen internen Denkvorgang erzeugen, bevor es dem Benutzer antwortet.
OpenAI o1 rangiert im 89. Perzentil bei wettbewerbsfähigen Programmierfragen (Codeforces), gehört zu den 500 besten Studierenden in den USA bei der Qualifikation für die USA Math Olympiad (AIME) und übertrifft die Genauigkeit menschlicher Doktoranden anhand einer Benchmark von Physik-, Biologie- und Chemieproblemen (GPQA). Während wir weiterhin daran arbeiten, dieses neue Modell so benutzerfreundlich wie die aktuellen Modelle zu machen, veröffentlichen wir mit OpenAI o1‑preview eine Vorabversion, die in ChatGPT und für vertrauenswürdige API-Nutzer(wird in einem neuen Fenster geöffnet) sofort verfügbar ist.
Unser groß angelegter Reinforcement-Learning-Algorithmus bringt dem Modell in einem äußerst dateneffizienten Trainingsprozess bei, mithilfe seines Denkvorgangs produktiv zu denken. Wir haben festgestellt, dass sich die Leistung von o1 durch mehr Reinforcement Learning (Trainingszeit-Berechnung) und durch mehr Zeit zum Nachdenken (Testzeit-Berechnung) stetig verbessert. Die Einschränkungen bei der Skalierung dieses Ansatzes unterscheiden sich erheblich von denen des LLM-Pre-Trainings und wir untersuchen sie weiter.

Die Leistung von o1 verbessert sich sowohl bei der Trainingszeit- als auch bei der Testzeit-Berechnung nahtlos.
Um die Verbesserung des Reasonings gegenüber GPT‑4o hervorzuheben, haben wir unsere Modelle anhand einer Reihe verschiedener menschlicher Prüfungen und ML-Benchmarks getestet. Wir zeigen, dass o1 bei der überwiegenden Mehrheit dieser stark auf das Reasoning fokussierten Aufgaben GPT‑4o deutlich übertrifft. Sofern nicht anders angegeben, haben wir o1 mit der Berechnungseinstellung für die maximale Testzeit bewertet.







Bei vielen stark auf das Reasoning fokussierten Benchmarks kann o1 mit der Leistung menschlicher Experten mithalten. Neuere Frontier-Modelle1 schneiden bei MATH2 und GSM8K so gut ab, dass diese Benchmarks nicht mehr ausreichen, um zwischen Modellen zu unterscheiden. Wir haben die Mathematikleistungen bei AIME bewertet, einer Prüfung für die besten Mathematikschüler US-amerikanischer High Schools. Bei den AIME-Prüfungen 2024 löste GPT‑4o im Durchschnitt nur 12 % (1,8/15) der Probleme. o1 erreichte im Durchschnitt 74 % (11,1/15) mit einer einzelnen Probe pro Problem, 83 % (12,5/15) mit Konsens unter 64 Proben und 93 % (13,9/15) bei der Neueinstufung von 1000 Proben mit einer erlernten Bewertungsfunktion. Mit einer Punktzahl von 13,9 fällt es unter die 500 besten Schülern des Landes und liegt über dem Grenzwert für die USA Mathematical Olympiad.
Wir haben o1 auch im GPQA Diamond bewertet, einer anspruchsvollen Intelligenz-Benchmark, die Fachkenntnisse in Chemie, Physik und Biologie testet. Um Modelle mit Menschen zu vergleichen, haben wir promovierte Experten angeworben, um GPQA Diamond-Fragen zu beantworten. Wir haben festgestellt, dass o1 die Leistung dieser menschlichen Experten übertraf und das erste Modell war, das dies bei dieser Benchmark schaffte. Diese Ergebnisse bedeuten nicht, dass o1 in jeder Hinsicht fähiger ist als ein promovierter Mensch – sondern nur, dass das Modell einige Probleme, deren Lösung man von jemandem mit Doktortitel erwarten würde, besser lösen kann. Bei mehreren anderen ML-Benchmarks war o1 im Vergleich zum aktuellen Entwicklungsstand besser. Mit seinen aktivierten Bildwahrnehmungsfähigkeiten erreichte o1 bei MMMU 78,2 % und ist damit das erste Modell, das mit menschlichen Experten konkurrieren kann. Es übertraf GPT‑4o auch in 54 von 57 MMLU-Unterkategorien.
Ähnlich wie ein Mensch lange nachdenkt, bevor er auf eine schwierige Frage antwortet, verwendet o1 beim Versuch, ein Problem zu lösen, einen Denkvorgang. Durch Reinforcement Learning lernt o1, seinen Denkvorgang und die verwendeten Strategien zu verfeinern. Es lernt, seine Fehler zu erkennen und zu korrigieren. Es lernt, knifflige Schritte in einfachere aufzuschlüsseln. Es lernt, einen anderen Ansatz auszuprobieren, wenn der aktuelle nicht funktioniert. Dieser Prozess verbessert die Reasoning-Fähigkeit des Modells erheblich. Um diesen Fortschritt zu veranschaulichen, demonstrieren wir unten den Denkvorgang von o1‑preview bei mehreren schwierigen Problemen.
GPT-4o
OpenAI o1-preview
Wir haben ein Modell trainiert, das bei der International Olympiad in Informatics (IOI) 2024 213 Punkte erzielte und im 49. Perzentil rangierte, indem wir es von o1 aus initialisierten und trainierten, um die Programmierkenntnisse weiter zu verbessern. Dieses Modell nahm unter denselben Bedingungen an der IOI 2024 teil wie die menschlichen Teilnehmer. Zur Lösung von sechs anspruchsvollen algorithmischen Problemen standen zehn Stunden zur Verfügung, wobei pro Problem 50 Einreichungen zulässig waren.
Für jedes Problem prüfte unser System zahlreiche Kandidatenbeiträge und reichte 50 von ihnen basierend auf einer Testzeit-Auswahlstrategie ein. Die Einreichungen wurden auf Grundlage der Leistung bei den öffentlichen IOI-Testfällen, modellgenerierten Testfällen und einer erlernten Bewertungsfunktion ausgewählt. Hätten wir stattdessen nach dem Zufallsprinzip eingereicht, hätten wir im Durchschnitt nur 156 Punkte erreicht. Dies lässt darauf schließen, dass diese Strategie unter Wettbewerbsbedingungen fast 60 Punkte wert war.
Wir haben festgestellt, dass sich die Modellleistung mit gelockerten Einschränkungen hinsichtlich der Einreichung deutlich verbesserte. Bei 10.000 zulässigen Einreichungen pro Problem erreichte das Modell sogar ohne jegliche Testzeit-Auswahlstrategie eine Punktzahl von 362,14 – und lag damit über dem Goldmedaillenschwellenwert.
Abschließend haben wir von Codeforces veranstaltete Programmierwettbewerbe simuliert, um die Programmierkenntnisse dieses Modells zu demonstrieren. Unsere Bewertungen entsprachen fast genau den Wettbewerbsregeln und ermöglichten zehn Einreichungen. GPT‑4o erreichte eine Elo-Bewertung3 von 808, womit es im 11. Perzentil der menschlichen Konkurrenten liegt. Dieses Modell übertraf sowohl GPT‑4o als auch o1 bei Weitem – es erreichte eine Elo-Bewertung von 1807 und schnitt damit besser ab als 93 % der Konkurrenten.

Weitere Feinabstimmung anhand von Programmierwettbewerben verbessert o1. Das verbesserte Modell rangierte bei der 2024 International Olympiad in Informatics unter Wettbewerbsregeln im 49. Perzentil.
Zusätzlich zu Prüfungen und akademischen Benchmarks haben wir auch die menschliche Präferenz von o1‑preview gegenüber GPT‑4o bei anspruchsvollen, offenen Prompts in einem breiten Spektrum von Domänen bewertet. Bei dieser Bewertung wurden menschlichen Trainern anonymisierte Antworten von o1‑preview und GPT‑4o auf einen Prompt gezeigt und sie wählten die von ihnen bevorzugte Antwort aus. In Kategorien, die viel Reasoning erfordern, wie Datenanalyse, Codierung und Mathematik, wird o1‑preview gegenüber gpt-4o mit großem Abstand bevorzugt. Allerdings wird o1‑preview bei einigen Aufgaben in natürlicher Sprache nicht bevorzugt, was darauf hindeutet, dass es nicht für alle Anwendungsfälle gut geeignet ist.

Durch das Reasoning mit Denkvorgang ergeben sich neue Möglichkeiten zur Ausrichtung und Sicherheit. Wir haben festgestellt, dass die Integration unserer Richtlinien für das Modellverhalten in den Denkvorgang eines Reasoning-Modells eine effektive Möglichkeit ist, menschliche Werte und Prinzipien nachhaltig zu vermitteln. Indem wir dem Modell unsere Sicherheitsregeln und die Art und Weise beibrachten, wie es im Kontext über sie nachdenken soll, fanden wir Hinweise darauf, dass die Reasoning-Fähigkeit sich direkt positiv auf die Robustheit des Modells auswirkt: o1‑preview erzielte eine erheblich verbesserte Leistung bei wichtigen Bewertungen zu Jailbreak und unseren schwierigsten internen Benchmarks zur Bewertung der Sicherheitsverweigerungsgrenzen unseres Modells. Wir sind der Überzeugung, dass die Verwendung eines Denkvorgangs erhebliche Fortschritte hinsichtlich Sicherheit und Ausrichtung bietet, da (1) sie es uns ermöglicht, das Denken des Modells auf erkennbare Weise zu beobachten und (2) das Reasoning des Modells hinsichtlich Sicherheitsregeln gegenüber Szenarien außerhalb der Verteilung robuster ist.
Um unsere Verbesserungen auf Herz und Nieren zu prüfen, haben wir vor dem Roll-out eine Reihe von Sicherheitstests und Red-Teaming durchgeführt, im Einklang mit unserem Preparedness Framework(wird in einem neuen Fenster geöffnet). Wir haben festgestellt, dass das Reasoning mit Denkvorgang zu Leistungsverbesserungen in all unseren Bewertungen beigetragen hat. Besonders hervorzuheben sind die interessanten Fälle von Belohnungshacking(wird in einem neuen Fenster geöffnet), die wir beobachtet haben. Die detaillierten Ergebnisse dieser Bewertungen findest du in der begleitenden Systemkarte.
| Metrisch | GPT-4o | o1-preview |
|---|---|---|
| Prozent sicherer Antworten bei schädlichen Prompts Standard | 0,990 | 0,995 |
| Prozent sicherer Antworten bei schädlichen Prompts Herausfordernd: Jailbreaks und Randfälle | 0,714 | 0,934 |
| ↳ Belästigung (schwerwiegend) | 0,845 | 0,900 |
| ↳ Ausbeuterische sexuelle Inhalte | 0,483 | 0,949 |
| ↳ Sexuelle Inhalte mit Minderjährigen | 0,707 | 0,931 |
| ↳ Hinweise zum nicht-gewalttätigen Fehlverhalten | 0,688 | 0,961 |
| ↳ Hinweise zum gewalttätigen Fehlverhalten | 0,778 | 0,963 |
| Prozent sicherer Antworten für die Top 200 mit den höchsten Moderation-API-Werten pro Kategorie in WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT Jailbreak-Evaluation Souly et al. 2024 | 0,220 | 0,840 |
| Bewertung von von Menschen erzeugten Jailbreaks | 0,770 | 0,960 |
| Prozentuale Einhaltung bei internen unkritischen Randfällen „Keine übermäßige Ablehnung“ | 0,910 | 0,930 |
| Prozentuale Einhaltung bei unkritischen Randfällen im XSTest „Keine übermäßige Ablehnung“ Röttger, et al. 2023 | 0,924 | 0,976 |
Wir glauben, dass ein verborgener Denkvorgang eine einzigartige Möglichkeit zur Überwachung von Modellen darstellt. Vorausgesetzt, er ist getreu und verständlich, ermöglicht uns der verborgene Denkvorgang, die „Gedanken des Modells zu lesen“ und seinen Gedankengang zu verstehen. Beispielsweise möchten wir in Zukunft möglicherweise den Denkvorgang auf Anzeichen von Manipulation des Benutzers überwachen. Damit dies funktioniert, muss das Modell allerdings die Freiheit haben, seine Gedanken unverändert auszudrücken. Daher können wir dem Denkvorgang keine Richtlinienkonformität oder Benutzerpräferenzen antrainieren. Wir möchten außerdem einen unkoordinierten Denkvorgang nicht direkt für die Nutzer sichtbar machen.
Daher haben wir uns nach Abwägung mehrerer Faktoren, darunter Benutzererfahrung, Wettbewerbsvorteile und die Möglichkeit, den Denkvorgang zu überwachen, dazu entschieden, den Benutzern die Rohdaten des Denkvorgangs nicht anzuzeigen. Wir sind uns bewusst, dass diese Entscheidung Nachteile hat. Wir versuchen, dies teilweise auszugleichen, indem wir dem Modell lehren, alle nützlichen Ideen aus dem Denkvorgang in der Antwort zu reproduzieren. Für die Modellreihe o1 zeigen wir eine modellgenerierte Zusammenfassung des Denkvorgangs.
o1 bringt den aktuellsten Entwicklungsstand im Bereich des KI-Reasonings erheblich voran. Wir planen, im Zuge der weiteren Iteration verbesserte Versionen dieses Modells herauszubringen. Wir erwarten, dass diese neuen Reasoning-Fähigkeiten unsere Fähigkeit verbessern werden, Modelle an menschlichen Werten und Prinzipien auszurichten. Wir glauben, dass o1 – und seine Nachfolger – viele neue Anwendungsfälle für KI in den Bereichen Wissenschaft, Programmierung, Mathematik und verwandten Bereichen erschließen werden. Wir freuen uns darauf, dass Benutzer und API-Entwickler entdecken, wie es ihre tägliche Arbeit verbessern kann.
| Datensatz | Metrisch | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Competition Math AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Wettbewerbscode CodeForces | Elo | 808 | 1.258 | 1.673 |
| Perzentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologie | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Chemie | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Physik | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATHE | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (Validierung) | pass@1 | 69,1 | k. A. | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | k. A. | 73,9 |
Autoren
Quellenangaben
- 1
- 2
Unsere Bewertungen verwendeten die gleiche 500-Problem-Testaufteilung wie in https://arxiv.org/abs/2305.20050(wird in einem neuen Fenster geöffnet)
- 3






