Fortschritte in Wissenschaft und Mathematik mit GPT‑5.2
GPT‑5.2 ist unser bisher stärkstes Modell in den Bereichen Mathematik und Naturwissenschaften.
Wir hoffen u.a., dass starke KI die wissenschaftliche Forschung zum Wohle aller beschleunigen wird, indem Forschende mehr Ideen erkunden, sie schneller testen und ihre Entdeckungen in konkrete Anwendungen umsetzen können.
Im vergangenen Jahr haben wir eng mit Wissenschaftler:innen aus den Bereichen Mathematik, Physik, Biologie und Informatik zusammengearbeitet. Wir wollten verstehen, wo KI nützlich ist – und wo Verbesserungspotenzial besteht. Letzten Monat haben wir einen Artikel veröffentlicht, in dem frühe Fallstudien aus Mathematik, Physik, Biologie, Informatik, Astronomie und Materialwissenschaften zusammengestellt wurden, in denen GPT‑5 Forschende unterstützt hat. Daraus geht klar hervor, dass GPT‑5 bereits zur realen wissenschaftlichen Arbeit beiträgt. Mit GPT‑5.2 sehen wir, dass diese Fortschritte konsistenter und zuverlässiger werden.
GPT‑5.2 Pro und GPT‑5.2 Thinking sind unsere bisher stärksten Modelle in den Bereichen Mathematik und Naturwissenschaften.
Starkes mathematisches Denken ist eine Grundlage für die Zuverlässigkeit bei wissenschaftlicher und technischer Arbeit. Mit starkem Reasoning können Modelle, mehrstufige Logik nachvollziehen, Mengen konsistent halten und subtile Fehler vermeiden, die sich in realen Analysen summieren können – von Simulationen und Statistiken bis hin zu Prognosen und Modellierungen. Verbesserungen bei Benchmarks wie FrontierMath spiegeln nicht eine eng gefasste Fähigkeit wider, sondern ein stärkeres allgemeines Denk- und Abstraktionsvermögen, also Fähigkeiten, die direkt in wissenschaftliche Arbeitsabläufe wie Programmierung, Datenanalyse und experimentelles Design einfließen.
Diese Fähigkeiten sind ebenfalls eng mit dem Fortschritt allgemeiner künstlicher Intelligenz (AGI) verknüpft. Ein System, das zuverlässig durch Abstraktion schlussfolgern kann, Konsistenz über lange Gedankengänge hinweg bewahrt und über verschiedene Domains hinweg generalisiert, zeigt Merkmale, die grundlegend für AGI sind – also nicht aufgabenspezifische Tricks, sondern breitgefächerte, übertragbare Reasoning-Fähigkeiten, die in Wissenschaft, Ingenieurwesen und realen Entscheidungsprozessen von Bedeutung sind.
Wir glauben, dass GPT‑5.2 Pro und GPT‑5.2 Thinking die weltweit besten Modelle zur Unterstützung und Beschleunigung der Arbeit von Wissenschaftler:innen sind. Bei GPQA Diamond, einem Google-sicheren Q&A-Benchmark auf Graduiertenniveau, erreicht GPT‑5.2 Pro 93,2 %, dicht gefolgt von GPT‑5.2 Thinking mit 92,4 %.
In GPQA Diamond(wird in einem neuen Fenster geöffnet) beantworten Modelle Multiple-Choice-Fragen zu Physik, Chemie und Biologie. Es wurden keine Tools aktiviert und der Reasoning-Aufwand wurde auf das Maximum gesetzt.
Bei FrontierMath (Stufe 1–3), einer Evaluierung von Mathematik auf Expertenniveau, hat GPT‑5.2 Thinking mit der Lösung von 40,3 % der Aufgaben einen neuen Maßstab gesetzt.
In FrontierMath(wird in einem neuen Fenster geöffnet) lösen Modelle Mathematikprobleme auf Expertenniveau. Ein Python-Tool wurde aktiviert und der Reasoning-Aufwand wurde auf das Maximum gesetzt.
Fallstudie
Dieses Ergebnis deutet auf eine nützliche Richtung hin, wie KI-Systeme die wissenschaftliche Forschung besser unterstützen können, insbesondere in Domains mit grundsätzlich theoretischen Grundlagen wie Mathematik und theoretischer Informatik. In solchen Umgebungen können Frontier-Modelle helfen, Beweise zu erkunden, Hypothesen zu testen und Verbindungen zu identifizieren, deren Ermittlung sonst erheblichen menschlichen Aufwand erfordern würde.
Doch diese Systeme sind keineswegs eigenständige Forscher. Fachkundige Beurteilung, Verifizierung und Domainverständnis bleiben unerlässlich. Selbst sehr starke Modelle können Fehler machen oder sich auf nicht angegebene Annahmen verlassen. Sie können hingegen auch detaillierte, strukturierte Argumente vorbringen, die eine sorgfältige menschliche Prüfung und Verfeinerung verdienen. Zuverlässiger Fortschritt mit KI hängt daher von Arbeitsabläufen ab, die Validierung, Transparenz und Zusammenarbeit fest in den Prozess einbinden.
Als Fallstudie betrachtet, veranschaulicht dieses Ergebnis eine aufkommende Forschungspraktik. Modelle wie GPT‑5.2 können als Werkzeuge zur Unterstützung mathematischer Argumentation und zur Beschleunigung der frühen Erkundungsphase dienen, während die Verantwortung für Korrektheit, Interpretation und Kontext bei den menschlichen Forscher:innen liegt. Bei sorgfältiger Anwendung können solche Systeme helfen, wesentliche Aspekte der theoretischen Arbeit zu optimieren, ohne die zentrale Rolle des menschlichen Urteilsvermögens in der wissenschaftlichen Forschung zu verdrängen.


