Zum Hauptinhalt springen
OpenAI

Fortschritte in Wissenschaft und Mathematik mit GPT‑5.2

GPT‑5.2 ist unser bisher stärkstes Modell in den Bereichen Mathematik und Naturwissenschaften.

Laden …

Wir hoffen u.a., dass starke KI die wissenschaftliche Forschung zum Wohle aller beschleunigen wird, indem Forschende mehr Ideen erkunden, sie schneller testen und ihre Entdeckungen in konkrete Anwendungen umsetzen können. 

Im vergangenen Jahr haben wir eng mit Wissenschaftler:innen aus den Bereichen Mathematik, Physik, Biologie und Informatik zusammengearbeitet. Wir wollten verstehen, wo KI nützlich ist – und wo Verbesserungspotenzial besteht. Letzten Monat haben wir einen Artikel veröffentlicht, in dem frühe Fallstudien aus Mathematik, Physik, Biologie, Informatik, Astronomie und Materialwissenschaften zusammengestellt wurden, in denen GPT‑5 Forschende unterstützt hat. Daraus geht klar hervor, dass GPT‑5 bereits zur realen wissenschaftlichen Arbeit beiträgt. Mit GPT‑5.2 sehen wir, dass diese Fortschritte konsistenter und zuverlässiger werden.

Stärkere Leistung, wo Präzision gefragt ist

GPT‑5.2 Pro und GPT‑5.2 Thinking sind unsere bisher stärksten Modelle in den Bereichen Mathematik und Naturwissenschaften.

Starkes mathematisches Denken ist eine Grundlage für die Zuverlässigkeit bei wissenschaftlicher und technischer Arbeit. Mit starkem Reasoning können Modelle, mehrstufige Logik nachvollziehen, Mengen konsistent halten und subtile Fehler vermeiden, die sich in realen Analysen summieren können – von Simulationen und Statistiken bis hin zu Prognosen und Modellierungen. Verbesserungen bei Benchmarks wie FrontierMath spiegeln nicht eine eng gefasste Fähigkeit wider, sondern ein stärkeres allgemeines Denk- und Abstraktionsvermögen, also Fähigkeiten, die direkt in wissenschaftliche Arbeitsabläufe wie Programmierung, Datenanalyse und experimentelles Design einfließen.

Diese Fähigkeiten sind ebenfalls eng mit dem Fortschritt allgemeiner künstlicher Intelligenz (AGI) verknüpft. Ein System, das zuverlässig durch Abstraktion schlussfolgern kann, Konsistenz über lange Gedankengänge hinweg bewahrt und über verschiedene Domains hinweg generalisiert, zeigt Merkmale, die grundlegend für AGI sind – also nicht aufgabenspezifische Tricks, sondern breitgefächerte, übertragbare Reasoning-Fähigkeiten, die in Wissenschaft, Ingenieurwesen und realen Entscheidungsprozessen von Bedeutung sind.

Wir glauben, dass GPT‑5.2 Pro und GPT‑5.2 Thinking die weltweit besten Modelle zur Unterstützung und Beschleunigung der Arbeit von Wissenschaftler:innen sind. Bei GPQA Diamond, einem Google-sicheren Q&A-Benchmark auf Graduiertenniveau, erreicht GPT‑5.2 Pro 93,2 %, dicht gefolgt von GPT‑5.2 Thinking mit 92,4 %.

In GPQA Diamond(wird in einem neuen Fenster geöffnet) beantworten Modelle Multiple-Choice-Fragen zu Physik, Chemie und Biologie. Es wurden keine Tools aktiviert und der Reasoning-Aufwand wurde auf das Maximum gesetzt.

Bei FrontierMath (Stufe 1–3), einer Evaluierung von Mathematik auf Expertenniveau, hat GPT‑5.2 Thinking mit der Lösung von 40,3 % der Aufgaben einen neuen Maßstab gesetzt.

In FrontierMath(wird in einem neuen Fenster geöffnet) lösen Modelle Mathematikprobleme auf Expertenniveau. Ein Python-Tool wurde aktiviert und der Reasoning-Aufwand wurde auf das Maximum gesetzt.

Fallstudie

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(wird in einem neuen Fenster geöffnet).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Blick in die Zukunft

Dieses Ergebnis deutet auf eine nützliche Richtung hin, wie KI-Systeme die wissenschaftliche Forschung besser unterstützen können, insbesondere in Domains mit grundsätzlich theoretischen Grundlagen wie Mathematik und theoretischer Informatik. In solchen Umgebungen können Frontier-Modelle helfen, Beweise zu erkunden, Hypothesen zu testen und Verbindungen zu identifizieren, deren Ermittlung sonst erheblichen menschlichen Aufwand erfordern würde.

Doch diese Systeme sind keineswegs eigenständige Forscher. Fachkundige Beurteilung, Verifizierung und Domainverständnis bleiben unerlässlich. Selbst sehr starke Modelle können Fehler machen oder sich auf nicht angegebene Annahmen verlassen. Sie können hingegen auch detaillierte, strukturierte Argumente vorbringen, die eine sorgfältige menschliche Prüfung und Verfeinerung verdienen. Zuverlässiger Fortschritt mit KI hängt daher von Arbeitsabläufen ab, die Validierung, Transparenz und Zusammenarbeit fest in den Prozess einbinden.

Als Fallstudie betrachtet, veranschaulicht dieses Ergebnis eine aufkommende Forschungspraktik. Modelle wie GPT‑5.2 können als Werkzeuge zur Unterstützung mathematischer Argumentation und zur Beschleunigung der frühen Erkundungsphase dienen, während die Verantwortung für Korrektheit, Interpretation und Kontext bei den menschlichen Forscher:innen liegt. Bei sorgfältiger Anwendung können solche Systeme helfen, wesentliche Aspekte der theoretischen Arbeit zu optimieren, ohne die zentrale Rolle des menschlichen Urteilsvermögens in der wissenschaftlichen Forschung zu verdrängen.