Våre First Proof-innsendinger
Vi deler våre bevisforsøk for First Proof, en matematikkutfordring som tester om AI kan produsere kontrollerbare bevis på domenespesifikke problemer.
Vi kjørte en intern modell på alle de 10 First Proof(åpnes i et nytt vindu) -problemene, en matematikkutfordring på forskningsnivå som er utviklet for å teste om AI-systemer kan produsere korrekte, kontrollerbare bevisforsøk. I motsetning til matematikk med korte svar eller konkurransematematikk, krever disse problemene å bygge helhetlige argumenter innen spesialiserte domener, og det er vanskelig å fastslå om noe er korrekt uten en gjennomgang av eksperter. Forfatterne av First Proof-problemene er ledende eksperter innen sine respektive fagfelt, og minst et par av problemene hadde stått uløst i årevis før forfatterne fant løsningene. En akademisk avdeling som har betydelig overlapping med fagområdene, kunne sannsynligvis løse mange av problemene i løpet av én uke.
Vi delte(åpnes i et nytt vindu) våre bevisforsøk lørdag 14. februar 2026 kl. 00:00 PT. Basert på tilbakemeldinger fra eksperter, tror vi at minst fem av modellens bevisforsøk (problem 4, 5, 6, 9 og 10) har stor sannsynlighet for å være korrekte, og flere andre er fortsatt under vurdering. Vi trodde i utgangspunktet at forsøket vårt på problem 2 sannsynligvis var korrekt. Basert på den offisielle First Proof-kommentaren og videre analyse fra fellesskapet, tror vi nå at det er feil. Vi er takknemlige for engasjementet, og ser frem til en fortsatt gjennomgang. Hele samlingen vår med bevisforsøk finnes her(åpnes i et nytt vindu). Forhåndstrykket inkluderer alle ti bevisforsøkene, samt et nylig tillagt vedlegg med promptmønstre og eksempler som har som mål å simulere våre manuelle interaksjoner med modellene under prosessen.
Vi tror at ny banebrytende forskning kanskje er den viktigste måten å vurdere evnene til neste generasjons AI-modeller. Referansemålinger er nyttige, men de kan gå glipp av noen av de vanskeligste delene av forskning: å opprettholde lange resonneringskjeder, velge de riktige abstraksjonene, håndtere tvetydighet i problemstillinger og produsere argumenter som tåler ekspertenes gransking. Banebrytende utfordringer der First Proof hjelper oss med å stressteste disse evnene i situasjoner der det er vanskelig å bevise at noe fungerer helt korrekt, og der feilmodusene gir nyttig informasjon.
«Vi trener for tiden en ny modell der hovedfokuset er å heve standarden for læring og tenkning innen undervisning, og har som mål at modellen kan tenke kontinuerlig i mange timer og forbli svært trygg på konklusjonene sine. Da problemene med First Proof ble annonsert, virket det som den perfekte testarenaen, derfor prøvde jeg det ut i løpet av helgen. Den hadde allerede klart å løse to av problemene (problem 9 og 10). Etter hvert som den ble trent, ble den stadig mer kapabel, og til slutt løste den–etter vår vurdering–minst tre problemer til. Vi var spesielt fornøyde da den løste problem 6 og deretter, to dager senere, problem 4, da disse problemene var fra områder som er velkjente for mange av oss. Det er ganske utrolig å se en modell bli merkbart smartere dag for dag.»
– James R. Lee (OpenAI Researcher, Reasoning)
Vi kjørte modellen med begrenset menneskelig tilsyn. Når vi ga instruksjoner til ulike versjoner av modellen under trening, foreslo vi noen ganger strategier for å prøve på nytt det som virket lovende i tidligere forsøk. For noen forsøk ba vi modellen om å utvide eller klargjøre deler av et bevis etter å ha mottatt tilbakemeldinger fra eksperter, for å gjøre resonneringen lettere å verifisere. Vi la også til rette for en dialog mellom denne modellen og ChatGPT for verifisering, formatering og stil. For noen problemer presenterer vi det beste av noen få forsøk, valgt ut ved hjelp av menneskelig vurdering. Dette var en intensiv og kortvarig arbeidsperiode, og prosessen var ikke så systematisk og kontrollert som vi ville foretrukket i en grundig evaluering Vi ser frem til diskusjoner med First Proof-arrangørene om et mer nøyaktig eksperiment og evalueringsrammeverk for fremtidige iterasjoner.
Dette arbeidet bygger på tidligere resultater fra banebrytende resonneringsmodeller innen matematikk og vitenskap. I juli 2025 oppnådde vi prestasjoner på gullmedaljenivå(åpnes i et nytt vindu) i den internasjonale matematikkolympiaden med en generell resonneringsmodell (35/42 poeng). I november 2025 delte vi «Tidlige eksperimenter i å akselerere vitenskap med GPT‑5», en samling med tilfellestudier der GPT‑5 hjalp forskere med å gjøre konkrete fremskritt innen matematikk, fysikk, biologi og andre felt, sammen med begrensningene vi observerte. Og nylig rapporterte vi om et fysikksamarbeid der GPT‑5.2 foreslo et kandidatuttrykk for en formel for en gluonamplitude som deretter ble formelt bevist av en intern modell og bekreftet av forfatterne.
Vi ser frem til et dypere engasjement med fellesskapet om hvordan man evaluerer resonnering på forskningsnivå, inkludert ekspertvurderinger av disse forsøkene, og vi er begeistret for å gjøre disse nye funksjonene tilgjengelige i fremtidige offentlige modeller.


