Overslaan naar hoofdinhoud
OpenAI

20 februari 2026

OnderzoekConclusie

Onze inzendingen voor First Proof

We delen hier onze bewijspogingen voor First Proof, een wiskundige uitdaging die toetst of AI controleerbare bewijzen kan produceren voor domeinspecifieke problemen.

Bezig met laden...

We hebben een intern model ingezet op alle tien First Proof(opent in een nieuw venster)-problemen. Dit is een wiskundige uitdaging op onderzoeksniveau, ontworpen om te testen of AI-systemen correcte, controleerbare bewijzen kunnen produceren. In tegenstelling tot wiskundewedstrijden met korte antwoorden vereisen deze problemen volledige argumentaties in gespecialiseerde domeinen. Correctheid is hierbij moeilijk vast te stellen zonder beoordeling door experts. De auteurs van de problemen zijn vooraanstaande experts in hun respectievelijke vakgebieden, en ten minste enkele problemen bleven jarenlang onopgelost voordat de auteurs een oplossing vonden. Een academische vakgroep met aanzienlijke expertise op deze terreinen zou de meeste problemen in principe in één week kunnen oplossen.

We deelden(opent in een nieuw venster) onze pogingen op zaterdag 14 februari 2026 om 00:00 uur Pacific Time. Op basis van feedback van experts denken we dat ten minste vijf van de pogingen (problemen 4, 5, 6, 9 en 10) met grote waarschijnlijkheid correct zijn; diverse andere worden nog beoordeeld. Aanvankelijk dachten we dat onze poging voor probleem 2 waarschijnlijk correct was. Op basis van het officiële commentaar van First Proof en verdere analyse vanuit de gemeenschap geloven we nu echter dat deze onjuist is. We waarderen de betrokkenheid en kijken uit naar verdere beoordelingen. Onze volledige verzameling bewijspogingen is hier(opent in een nieuw venster) te vinden. De preprint bevat alle tien pogingen, plus een nieuw toegevoegde appendix met promptpatronen en voorbeelden die bedoeld zijn om onze handmatige interacties met de modellen tijdens het proces te simuleren.

Wij geloven dat nieuw, grensverleggend onderzoek misschien wel de belangrijkste manier is om de capaciteiten van de nieuwste generatie AI-modellen te evalueren. Benchmarks zijn nuttig, maar kunnen de moeilijkste aspecten van wetenschappelijk onderzoek missen: het volhouden van lange redeneerketens, het kiezen van de juiste abstracties, het omgaan met ambigue probleemstellingen en het opstellen van argumenten die standhouden bij toetsing door experts. Uitdagingen zoals First Proof helpen ons deze capaciteiten aan een stresstest te onderwerpen in situaties waar correctheid niet eenvoudig te verifiëren is en waar juist de faalpatronen leerzaam zijn.

"We trainen momenteel een nieuw model waarbij we ons vooral richten op meer strengheid in het redeneren. Het doel is dat het model urenlang onafgebroken kan nadenken en daarbij een hoge mate van zekerheid behoudt over zijn conclusies. Toen de First Proof-problemen werden aangekondigd, leek dit de perfecte proeftuin, dus heb ik het dit weekend direct geprobeerd Het model kon toen al twee problemen oplossen (#9 en #10). Naarmate het model verder trainde, werd het steeds vaardiger en loste het (naar onze inschatting) nog minstens drie andere problemen op. We waren vooral blij met de oplossing voor #6 en, twee dagen later, voor #4, omdat die problemen uit vakgebieden kwamen die velen van ons goed kennen. Het is ongelooflijk om te zien hoe een model dag na dag merkbaar slimmer wordt."

– James R. Lee (onderzoeker in redenering bij OpenAI)

We lieten het model werken met beperkt menselijk toezicht. Bij het prompten van opeenvolgende versies van het model tijdens de training stelden we soms voor om strategieën opnieuw te proberen die in eerdere pogingen veelbelovend leken. Voor sommige pogingen vroegen we het model (na feedback van experts) om bepaalde delen van een bewijs uit te breiden of te verduidelijken, zodat de redenering gemakkelijker te verifiëren was. Ook maakten we een wisselwerking mogelijk tussen dit model en ChatGPT voor verificatie, opmaak en stijl. Bij sommige problemen presenteren we de beste uit een aantal pogingen, geselecteerd op basis van menselijk oordeel. Dit was een snelle sprint en ons proces was niet zo strak opgezet als we zouden willen voor een deugdelijk gecontroleerde evaluatie. We kijken uit naar gesprekken met de First Proof-organisatie over een rigoureuzer experimenteer- en evaluatiekader voor toekomstige iteraties.

Dit werk bouwt voort op eerdere resultaten van grensverleggende redeneermodellen in wiskunde en wetenschap. In juli 2025 presteerden we op gouden-medailleniveau(opent in een nieuw venster) op de Internationale Wiskunde Olympiade (IMO) met 35 van de 42 punten, met behulp van een breed inzetbaar redeneermodel. In november 2025 publiceerden we "Early experiments in accelerating science with GPT‑5", met casestudy's waarin GPT‑5 onderzoekers hielp concrete vooruitgang te boeken in de wiskunde, natuurkunde, biologie en andere vakgebieden, samen met de beperkingen die we daarbij constateerden. En recentelijk kondigen we een samenwerking in de natuurkunde aan waarbij GPT‑5.2 een kandidaat-expressie voorstelde voor een gluon-amplitudeformule. Deze werd vervolgens formeel bewezen door een intern model en geverifieerd door de auteurs.

We kijken uit naar een nauwere samenwerking met de gemeenschap over hoe we redeneervermogen op onderzoeksniveau het beste kunnen evalueren, inclusief expertfeedback op deze pogingen. We zijn enthousiast om deze nieuwe capaciteiten beschikbaar te maken in toekomstige publieke modellen.

Auteur

OpenAI