Gå direkt till huvudinnehåll
OpenAI

20 februari 2026

ForskningSlutsats

Våra First Proof-bidrag

Vi delar våra bevisförsök för First Proof, en matematisk utmaning som testar om AI kan ta fram verifierbara bevis för domänspecifika problem.

Laddar …

Vi körde en intern modell på samtliga tio First Proof(öppnas i ett nytt fönster)-problem, en matematisk utmaning på forskningsnivå som är utformad för att testa om AI-system kan ta fram korrekta och verifierbara bevisförsök. Till skillnad från matematik med kortsvar eller tävlingsformat kräver dessa problem att man bygger sammanhängande argument från början till slut inom specialiserade områden, och korrektheten är svår att fastställa utan expertgranskning. Författarna till First Proof-problemen är ledande experter inom sina respektive områden, och åtminstone ett par av problemen var öppna i flera år innan författarna själva hittade lösningar. En akademisk institution med betydande överlappning i ämnesområdena skulle sannolikt kunna lösa många av problemen inom en vecka.

Vi delade(öppnas i ett nytt fönster) våra bevisförsök lördagen den 14 februari 2026 kl. 00.00 (PT). Baserat på återkoppling från experter bedömer vi att minst fem av modellens bevisförsök (problem 4, 5, 6, 9 och 10) har hög sannolikhet att vara korrekta, och flera andra är fortfarande under granskning. Vi trodde inledningsvis att vårt försök på problem 2 sannolikt var korrekt. Med utgångspunkt i den officiella kommentaren från First Proof samt ytterligare analyser från communityn bedömer vi nu att det är felaktigt. Vi är tacksamma för engagemanget och ser fram emot fortsatt granskning. Hela vår uppsättning bevisförsök finns tillgänglig här(öppnas i ett nytt fönster). Förtrycket innehåller samtliga tio bevisförsök samt en nytillagd bilaga med promptmönster och exempel som syftar till att efterlikna våra manuella interaktioner med modellerna under processen.

Vi anser att banbrytande forskning i framkant sannolikt är det viktigaste sättet att utvärdera kapaciteten hos nästa generations AI-modeller. Riktmärken är användbara, men riskerar att missa några av de mest krävande aspekterna av forskning: att upprätthålla långa resonemangskedjor, välja rätt abstraktionsnivåer, hantera tvetydigheter i problemformuleringar och producera argument som håller för expertgranskning. First Proof och andra banbrytande utmaningar hjälper oss att stresstesta dessa förmågor i sammanhang där korrekthet inte är trivial att verifiera och där felutfall ger värdefull insikt.

”Vi tränar för närvarande en ny modell där en av de främsta fokuspunkterna är att öka graden av stringens i dess resonemang, med målet att modellen ska kunna tänka kontinuerligt under många timmar och samtidigt behålla hög tillförlitlighet i sina slutsatser. När First Proof-problemen offentliggjordes framstod det som den perfekta testmiljön, så under helgen prövade jag modellen på dem. Redan då kunde den lösa två av problemen (nr 9 och 10). Allt eftersom träningen fortskred blev modellen allt mer kapabel och lyckades till slut – enligt vår bedömning – lösa minst tre till problem. Vi blev särskilt glada när den löste nr 6 och sedan, två dagar senare även nr 4, eftersom dessa problem rörde områden som många av oss är väl förtrogna med. Det är väldigt häftigt att se en modell bli påtagligt smartare för varje dag.”

– James R. Lee (resonemangsforskare på OpenAI)

Vi körde modellen med begränsad mänsklig tillsyn. När vi promptade olika versioner av modellen under träningen föreslog vi ibland att den skulle pröva strategier på nytt som hade verkat lovande i tidigare försök. För vissa försök bad vi modellen att utveckla eller förtydliga delar av ett bevis efter att ha fått expertåterkoppling, för att göra resonemanget lättare att verifiera. Vi möjliggjorde även en dialog fram och tillbaka mellan denna modell och ChatGPT för verifiering, formatering och stil. För vissa problem presenterar vi det bästa av ett antal försök, utvalda genom mänsklig bedömning. Detta var en tidsmässigt komprimerad insats, och processen var inte så stringent som vi skulle önska i en strikt kontrollerad utvärdering. Vi ser fram emot diskussioner med First Proof-arrangörerna om ett mer rigoröst experiment- och utvärderingsramverk för framtida iterationer.

Detta arbete bygger vidare på tidigare resultat från banbrytande resonemangsmodeller i matematik och naturvetenskap. I juli 2025 nådde vi guldmedaljnivå(öppnas i ett nytt fönster) på Internationella matematikolympiaden med en generell resonemangsmodell (35/42 poäng). I november 2025 publicerade vi ”Tidiga experiment för att accelerera vetenskapen med GPT‑5”, en samling fallstudier där GPT‑5 hjälpte forskare att göra konkreta framsteg inom matematik, fysik, biologi och andra områden, tillsammans med de begränsningar vi observerade. Senast rapporterade vi om ett fysiksamarbete där GPT‑5.2 föreslog ett matematiskt uttryck som kandidat till en formel för gluonamplitud, vilket därefter formellt bevisades av en intern modell och verifierades av författarna.

Vi ser fram emot ett djupare engagemang med samhället kring hur man utvärderar forskningsklassade resonemang, inklusive expertfeedback på dessa försök, och vi är glada över att göra dessa nya möjligheter tillgängliga i framtida offentliga modeller.

Författare

OpenAI