Bewertung der Fähigkeit von KI, wissenschaftliche Forschungsaufgaben zu erledigen
Wir präsentieren FrontierScience, einen neuen Benchmark, der die KI-Fähigkeiten für wissenschaftliches Reasoning auf Expertenniveau in den Bereichen Physik, Chemie und Biologie bewertet.

Das Schlussfolgern (Reasoning) steht im Mittelpunkt der wissenschaftlichen Arbeit. Über das bloße Erinnern von Fakten hinaus generieren Wissenschaftler:innen Hypothesen, testen und verfeinern sie und verknüpfen Ideen über verschiedene Fachgebiete hinweg. Da unsere Modelle immer leistungsfähiger werden, stellt sich die zentrale Frage, wie sie tiefes Reasoning durchführen können, um zur wissenschaftlichen Forschung beizutragen.
Im letzten Jahr haben unsere Modelle bedeutende Meilensteine erreicht, darunter eine Goldmedaille bei der Internationalen Mathematik-Olympiade und der Internationalen Informatik-Olympiade. Parallel dazu sehen wir, dass unsere leistungsfähigsten Modelle, wie GPT‑5, reale wissenschaftliche Arbeitsabläufe spürbar beschleunigen. Forschende verwenden diese Systeme für Aufgaben wie die Literaturrecherche über verschiedene Disziplinen und Sprachen hinweg sowie das Erstellen komplexer mathematischer Beweise. In vielen Fällen verkürzt das Modell Arbeiten, die sonst Tage oder Wochen gedauert hätten, auf bloße Stunden. Dieser Fortschritt wird in unserem Paper Frühe Experimente zur Beschleunigung wissenschaftlicher Forschung mit GPT‑5 dokumentiert, das im November 2025 veröffentlicht wurde und erste Beweise dafür liefert, dass GPT‑5 wissenschaftliche Arbeitsabläufe messbar beschleunigen kann.
Da die Beschleunigung des wissenschaftlichen Fortschritts eine der vielversprechendsten Möglichkeiten für KI ist, der Menschheit zu nutzen, verbessern wir unsere Modelle für schwierige mathematische und naturwissenschaftliche Aufgaben und arbeiten an Tools, die Wissenschaftler:innen helfen, das Beste aus ihnen herauszuholen.
Als GPQA(wird in einem neuen Fenster geöffnet), ein „Google-Proof“-Wissenschafts-Benchmark mit Fragen, die von PhD-Expert:innen verfasst wurden, im November 2023 veröffentlicht wurde, erzielte GPT‑4 einen Score von 39 %, was unter der Experten-Baseline von 70 % liegt. Zwei Jahre später erzielte GPT‑5.2 92 %. Da die Reasoning- und Wissensfähigkeiten der Modelle weiter zunehmen, werden anspruchsvollere Benchmarks wichtig sein, um die Fähigkeit der Modelle zu messen und vorherzusagen, die wissenschaftliche Forschung zu beschleunigen. Frühere wissenschaftliche Benchmarks konzentrieren sich hauptsächlich auf Multiple-Choice-Fragen, sind gesättigt oder nicht zentral auf die Wissenschaft fokussiert.
Um diese Lücke zu schließen, führen wir FrontierScience ein: ein neuer Benchmark, der entwickelt wurde, um wissenschaftliche Fähigkeiten auf Expertenniveau zu messen. FrontierScience wird von Expert:innen aus Physik, Chemie und Biologie verfasst und verifiziert und umfasst Hunderte von Fragen, die schwierig, originell und relevant gestaltet sind. FrontierScience umfasst zwei Kategorien von Fragen: Olympiad, die Olympiade-ähnliche wissenschaftliche Denkfähigkeiten messen, und Research, die reale wissenschaftliche Forschungsfähigkeiten bewerten. Mehr Einblick in die wissenschaftlichen Fähigkeiten von Modellen zu geben, hilft uns, den Fortschritt zu verfolgen und die KI-beschleunigte Wissenschaft voranzutreiben.
In unseren ersten Evaluierungen ist GPT‑5.2 unser leistungsstärkstes Modell bei FrontierScience-Olympiad (mit 77 %) und Research (mit 25 %) und liegt damit vor anderen Frontier-Modellen. Wir haben erhebliche Fortschritte bei der Lösung von Fragen auf Expertenniveau gemacht, während wir Raum für weitere Fortschritte lassen, insbesondere bei offenen Aufgaben im Forschungsstil. Für Wissenschaftler:innen bedeutet dies, dass aktuelle Modelle bereits Teile der Forschung unterstützen können, die strukturiertes Reasoning erfordern, während gleichzeitig deutlich wird, dass noch viel Arbeit erforderlich ist, um ihre Fähigkeit zum offenen Denken zu verbessern. Diese Ergebnisse stimmen mit der aktuellen Nutzung der Modelle durch Wissenschaftler:innen überein: Sie beschleunigen Forschungsabläufe, während sie sich auf menschliches Urteilsvermögen für die Problemstellung und Validierung verlassen und zunehmend Ideen und Zusammenhänge erkunden, deren Entdeckung sonst viel länger dauern würde – einschließlich, in einigen Fällen, der Einbringung neuer Erkenntnisse, die dann von Expert:innen bewertet und getestet werden.
Letztendlich sind die neuartigen Entdeckungen, zu denen sie beiträgt, der wichtigste Maßstab für die wissenschaftlichen Fähigkeiten der KI; sie sind es, die für Wissenschaft und Gesellschaft letztlich von Bedeutung sind. FrontierScience ist dem vorgelagert. Er bietet uns einen Leitstern für wissenschaftliches Reasoning auf Expertenniveau, indem wir Modelle anhand eines standardisierten Fragenkatalogs testen, um zu sehen, wo sie erfolgreich sind oder scheitern, und um zu erkennen, wo Verbesserungsbedarf besteht. FrontierScience ist eng gefasst und hat in wesentlichen Punkten Einschränkungen (zum Beispiel durch die Fokussierung auf begrenzte, von Expert:innen verfasste Probleme) und erfasst nicht alles, was Wissenschaftler:innen in ihrer täglichen Arbeit tun. Aber das Feld benötigt schwierigere, originellere und relevantere wissenschaftliche Benchmarks, und FrontierScience stellt einen Schritt nach vorn in diese Richtung dar.
Die vollständige FrontierScience-Evaluierung umfasst über 700 Textfragen (davon 160 im Gold-Set), die Teilgebiete der Physik, Chemie und Biologie abdecken. Der Benchmark besteht aus einem „Olympiad“- und einem „Research“-Teil. FrontierScience-Olympiad umfasst 100 Fragen, die von Medaillengewinnern internationaler Olympiaden erstellt wurden, um das wissenschaftliche Reasoning in einem begrenzten Kurzantwortformat zu bewerten. Das Olympiad-Set wurde so entworfen, dass es theoretische Fragen enthält, die mindestens so anspruchsvoll sind wie die Aufgaben bei internationalen Olympiade-Wettbewerben. FrontierScience-Research besteht aus 60 originellen Forschungsteilaufgaben, die von PhD-Wissenschaftler:innen (Doktorand:innen, Professor:innen oder Postdoktorand:innen) entworfen wurden und nach einem 10-Punkte-Schema bewertet werden. Das Research-Set wurde so gestaltet, dass es eigenständige, mehrstufige Teilaufgaben auf einem Schwierigkeitsgrad enthält, dem ein:e promovierte:r Wissenschaftler:in im Laufe der Forschungsarbeit begegnen könnte.
Jede Aufgabe in FrontierScience wurde von Fachexpert:innen aus den Bereichen Physik, Chemie oder Biologie verfasst und verifiziert. Für das Olympiad-Set wurden alle Expert:innen bei mindestens einem (und oft mehreren) internationalen Olympiaden-Wettbewerb mit einer Medaille ausgezeichnet. Für das Research-Set besitzen alle Expert:innen einen relevanten Doktortitel.
Die Olympiad-Fragen wurden in Zusammenarbeit mit 42 ehemaligen internationalen Medaillengewinner:innen oder Nationalteamtrainer:innen in den relevanten Bereichen erstellt, die insgesamt auf 109 Olympiade-Medaillen kommen. Die Research-Fragen wurden in Zusammenarbeit mit 45 qualifizierten Wissenschaftler:innen und Fachexpert:innen erstellt. Alle Wissenschaftler:innen waren entweder Doktorand:innen, Postdoktorand:innen oder Professor:innen. Ihre Fachgebiete umfassten eine Vielzahl spezialisierter und bedeutender wissenschaftlicher Disziplinen, von der Quantenelektrodynamik über die synthetische organische Chemie bis zur Evolutionsbiologie.
Der Prozess zur Aufgabenerstellung für beide Sets beinhaltete eine gewisse Selektion gegen interne OpenAI-Modelle (z. B. das Verwerfen von Aufgaben, die Modelle erfolgreich gelöst hatten), sodass wir erwarten, dass die Evaluierung gegenüber diesen Modellen im Vergleich zu anderen etwas verzerrt ist. Wir veröffentlichen das Olympiad-Gold-Set mit 100 Fragen und das Research-Gold-Set mit 60 Fragen als Open-Source und halten die anderen Fragen zurück, um Kontamination zu überwachen.

Aufgaben durchlaufen vier Phasen: Erstellung, Überprüfung, Lösung, Überarbeitung. Unabhängige Expert:innen überprüfen gegenseitig ihre Aufgaben, um zu verifizieren, dass sie den Kriterien entsprechen.
Das Olympiad-Set kann mit einer Kurzantwort bewertet werden: entweder mit einer Zahl, einem Ausdruck oder einer unscharfen Zeichenfolgenübereinstimmung, was beim Verifizieren der Richtigkeit hilft. Allerdings geht diese Verifizierung oft auf Kosten der Ausdruckskraft und Offenheit des Problems. Für das Research-Set führen wir eine rubrikbasierte Architektur zur Bewertung von offeneren Aufgaben ein. Jede Frage enthält ein Bewertungsschema mit mehreren unabhängigen und objektiv bewertbaren Elementen, die insgesamt 10 Punkte ergeben. Das Bewertungsschema beurteilt nicht nur die Genauigkeit der endgültigen Antwort, sondern auch die Korrektheit der Zwischenschritte der Argumentation, was eine differenzierte Analyse der Modellleistung und der Fehler ermöglicht. Eine Lösung wird als „korrekt“ angesehen, wenn sie mindestens 7 von 10 Punkten im Bewertungsschema erhält.
Antworten werden von einem modellbasierten Bewerter/Grader (GPT‑5) anhand der Kriterien für Kurzantworten oder des Bewertungsschemas bewertet. Obwohl wir idealerweise eine:n menschliche:n Expert:in verwenden würden, um jede Antwort zu bewerten, ist dieser Ansatz nicht skalierbar. Daher haben wir das Bewertungsschema so gestaltet, dass es mit einem Modellbewerter überprüfbar ist. Wir haben eine Verifizierungspipeline entwickelt, um sicherzustellen, dass Schemakriterien und Fragen gut auf Schwierigkeitsgrad und Korrektheit abgestimmt sind.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Nicht bestanden 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Bestanden 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Bestanden 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Bestanden 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Nicht bestanden 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Jede Aufgabe im Research-Set wird mit einem Bewertungsschema bewertet, das insgesamt 10 Punkte umfasst und sowohl von einem/einer Expert:in als auch von einem Modellbewerter (Grader) verwendet werden kann. Um unsere Fähigkeit zur Evaluierung von Modellen zu skalieren, nutzen wir ein weiteres Modell, um Antworten zu bewerten.
Wir haben mehrere Frontier-Modelle mit FrontierScience-Olympiad und FrontierScience-Research evaluiert: GPT‑5.2, Claude Opus 4.5, und Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, und OpenAI o3. Alle schlussfolgernden Modelle wurden mit dem Reasoning-Aufwand „high“ bewertet, mit Ausnahme von GPT‑5.2 mit „xhigh“. In unseren ersten Evaluierungen ist GPT‑5.2 unser leistungsstärkstes Modell bei FrontierScience-Olympiad (mit 77 %) und Research (mit 25 %) und liegt damit vor anderen Frontier-Modellen. Gemini 3 Pro ist vergleichbar mit GPT‑5.2 beim Olympiad-Set (mit einem Score von 76 %).
Wir haben erhebliche Fortschritte bei der Lösung von Fragen auf Expertenniveau gemacht, insbesondere bei offenen Aufgaben im Forschungsstil. Es gibt noch Wachstumspotenzial: Bei der Analyse der Transkripte auf Fehler hin stellte sich heraus, dass die Frontier-Modelle gelegentlich Fehler bei Reasoning, Logik und Berechnung machten, nischenwissenschaftliche Konzepte nicht verstanden und sachliche Ungenauigkeiten aufwiesen.
Wir vergleichen die Genauigkeiten mehrerer Frontier-Modelle. GPT‑5.2 ist unser leistungsstärkstes Modell bei den Sets FrontierScience-Research und -Olympiad.
Wir vergleichen die Genauigkeiten bei sämtlichen Reasoning-Aufwandsstufen für GPT‑5.2 und o3. Eine längere Nachdenkzeit führt zu verbesserter Genauigkeit.
Obwohl FrontierScience einen Fortschritt in der Komplexität wissenschaftlicher Benchmarks darstellt, bestehen weiterhin viele Einschränkungen. FrontierScience besteht aus Fragen mit einer eingeschränkten Problemstellung, die sich darauf konzentrieren, die endgültige Antwort zu bewerten (Olympiad) oder das Reasoning für die Durchführung einer Forschungsaufgabe zu bewerten (Research). Außerdem ist die Verwendung von Bewertungsschemata mit mehreren Komponenten bei längeren Aufgaben weniger objektiv als die Überprüfung der endgültigen Antwort.
FrontierScience bietet einen detaillierteren Einblick in das Reasoning der Modelle bei schwierigen, von Expert:innen verfassten Fragen, jedoch kein vollständiges Bild davon, wie wissenschaftliche Arbeit in der Praxis funktioniert. Insbesondere wird ein wesentlicher Teil der wissenschaftlichen Forschung nicht bewertet: wie Modelle wirklich neuartige Hypothesen generieren oder mit mehreren Modalitäten interagieren, einschließlich Videodaten und realer experimenteller Systeme in der physischen Welt.
Mit Blick auf die Zukunft erwarten wir, dass Fortschritte im wissenschaftlichen Reasoning sowohl von besseren Allzweck-Reasoning-Systemen als auch von gezielten Bemühungen zur Verbesserung der wissenschaftlichen Fähigkeiten kommen werden. FrontierScience ist eines von vielen Tools, und während sich die Modelle verbessern, planen wir, diesen Benchmark weiterzuentwickeln, ihn auf neue Fachgebiete auszuweiten und ihn mit mehr realen Evaluierungen zu kombinieren, die untersuchen, was diese Systeme Wissenschaftler:innen tatsächlich ermöglichen. Benchmarks wie FrontierScience helfen uns, die Schwächen der heutigen KI-Systeme zu verstehen, damit wir unsere Arbeit darauf konzentrieren können, Modelle zu zuverlässigen Partnern bei wissenschaftlichen Entdeckungen zu machen.


