Unsere First-Proof-Einreichungen
Wir teilen unsere Beweisversuche für First Proof, eine Mathematik-Challenge, die prüft, ob KI überprüfbare Beweise für fachspezifische Probleme erstellen kann.
Wir wendeten ein internes Modell auf alle zehn First-Proof(wird in einem neuen Fenster geöffnet)-Probleme an, eine Forschungsherausforderung im Bereich Mathematik, die darauf abzielt, zu testen, ob KI-Systeme korrekte, überprüfbare Beweisversuche erstellen können. Im Gegensatz zur Kurzantwort- oder Wettbewerbsmathematik erfordern diese Probleme den Aufbau von durchgehenden Argumentationen in spezialisierten Bereichen, und die Korrektheit lässt sich ohne Expertenprüfung nur schwer feststellen. Die Autor:innen der First-Proof-Probleme sind führende Expert:innen in ihren jeweiligen Fachgebieten, und mindestens einige der Probleme blieben jahrelang ungelöst, bevor die Autor:innen Lösungen fanden. Eine akademische Abteilung, die sich erheblich mit den Themenbereichen überschneidet, könnte möglicherweise viele der Probleme in einer Woche lösen.
Wir teilten(wird in einem neuen Fenster geöffnet) unsere Beweisversuche am Samstag, den 14. Februar 2026 um 00:00 Uhr PT. Basierend auf dem Feedback von Expert:innen sind wir der Meinung, dass mindestens fünf der Beweisversuche des Modells (Probleme 4, 5, 6, 9 und 10) mit hoher Wahrscheinlichkeit korrekt sind, während mehrere andere noch überprüft werden. Zunächst dachten wir, dass unser Ansatz für Problem 2 wahrscheinlich richtig war. Basierend auf dem offiziellen Kommentar zum First Proof und weiteren Analysen der Community sind wir nun der Ansicht, dass er falsch ist. Wir sind dankbar für das Engagement und freuen uns auf die weitere Überprüfung. Unser vollständiges Set an Beweisversuchen findest du hier(wird in einem neuen Fenster geöffnet). Der Preprint umfasst alle zehn Beweisversuche sowie einen neu hinzugefügten Anhang mit Prompt-Mustern und Beispielen, die darauf abzielen, unsere manuellen Interaktionen mit den Modellen während des Prozesses zu simulieren.
Wir glauben, dass neuartige Frontier-Forschung möglicherweise der wichtigste Weg ist, um die Fähigkeiten von KI-Modellen der nächsten Generation zu evaluieren. Benchmarks sind nützlich, aber sie können einige der schwierigsten Aspekte der Forschung übersehen: das Aufrechterhalten langer Reasoning-Ketten, die Wahl der richtigen Abstraktionen, der Umgang mit Mehrdeutigkeit in Problemstellungen und das Erstellen von Argumenten, die einer fachkundigen Prüfung standhalten. Frontier-Herausforderungen wie First Proof helfen uns, diese Fähigkeiten in Umgebungen einem Stresstest zu unterziehen, in denen die Korrektheit nicht einfach zu überprüfen ist und die Fehlermodi aufschlussreich sind.
„Wir trainieren derzeit ein neues Modell, dessen Hauptziel es ist, das Maß an Strenge in seinem Denken zu erhöhen, damit es viele Stunden kontinuierlich denken und dabei äußerst zuversichtlich in seinen Schlussfolgerungen bleiben kann. Als die First-Proof-Probleme angekündigt wurden, schien es das perfekte Testfeld zu sein, also probierte ich es am Wochenende aus. Es konnte bereits zwei der Probleme (Nr. 9 und Nr. 10) lösen. Während des Trainings wurde es immer fähiger und löste schließlich – unserer Einschätzung nach – mindestens drei weitere Aufgaben. Wir waren besonders erfreut, als es Nr. 6 löste und dann, zwei Tage später, Nr. 4, da diese Probleme aus Bereichen stammten, die vielen von uns vertraut sind. Es ist wirklich erstaunlich zu beobachten, wie ein Modell von Tag zu Tag merklich intelligenter wird.“
– James R. Lee (OpenAI-Forscher, Reasoning)
Wir betrieben das Modell mit begrenzter menschlicher Überwachung. Beim Anstoßen von Modellversionen während des Trainings schlugen wir manchmal Wiederholungsstrategien vor, die sich in früheren Versuchen als vielversprechend erwiesen hatten. Bei einigen Versuchen baten wir das Modell, nach Erhalt von Expertenfeedback Teile eines Beweises zu erweitern oder zu präzisieren, um das Reasoning leichter überprüfbar zu machen. Wir ermöglichten zudem einen Austausch zwischen diesem Modell und ChatGPT zur Überprüfung, Formatierung und Stilabstimmung. Bei einigen Problemen präsentieren wir das Beste aus mehreren Versuchen, ausgewählt durch menschliches Urteilsvermögen. Dies war ein schneller Sprint, und unser Prozess war nicht so sauber, wie wir es uns bei einer ordnungsgemäß kontrollierten Bewertung wünschen würden. Wir freuen uns auf Gespräche mit den Organisator:innen von First Proof über ein strengeres Experiment- und Bewertungsrahmenwerk für zukünftige Iterationen.
Diese Arbeit baut auf früheren Ergebnissen von Frontier-Reasoning-Modellen in Mathematik und Naturwissenschaften auf. Im Juli 2025 erreichten wir bei der Internationalen Mathematik-Olympiade mit einem allgemeinen Reasoning-Modell eine Leistung auf Goldmedaillen-Niveau(wird in einem neuen Fenster geöffnet) (35/42 Punkte). Im November 2025 veröffentlichten wir „Early experiments in accelerating science with GPT‑5“, eine Reihe von Fallstudien, in denen GPT‑5 Forschern half, in Mathematik, Physik, Biologie und anderen Bereichen konkrete Fortschritte zu erzielen, sowie die von uns beobachteten Einschränkungen. Und zuletzt berichteten wir über eine Zusammenarbeit in der Physik, bei der GPT‑5.2 einen Kandidatenausdruck für eine Gluon-Amplitudenformel vorschlug, der dann formal von einem internen Modell bewiesen und von den Autoren verifiziert wurde.
Wir freuen uns auf eine intensivere Zusammenarbeit mit der Community, um zu evaluieren, wie man Reasoning auf Forschungsniveau bewertet, einschließlich Expertenfeedback zu diesen Versuchen. Wir sind gespannt darauf, diese neuen Funktionen in zukünftigen öffentlichen Modellen bereitzustellen.


