Els nostres enviaments a First Proof
Compartim els nostres intents de demostració per a First Proof, un repte matemàtic que prova si la IA pot produir demostracions verificables en problemes específics de domini.
Vam executar un model intern en els 10 problemes de First Proof(s'obre en una finestra nova), un repte matemàtic de nivell de recerca dissenyat per provar si els sistemes d’IA poden produir intents de demostració correctes i verificables. A diferència de les matemàtiques de resposta curta o d’estil competició, aquests problemes exigeixen construir arguments complets en dominis especialitzats, i és difícil establir-ne la correcció sense una revisió experta. Els autors dels problemes de First Proof són experts destacats en els seus respectius camps, i almenys un parell dels problemes van romandre oberts durant anys abans que els autors trobessin solucions. Un departament acadèmic amb un solapament substancial amb aquestes àrees temàtiques podria concebre’s resolent molts dels problemes en una setmana.
Vam compartir(s'obre en una finestra nova) els nostres intents de demostració el dissabte 14 de febrer de 2026 a les 12:00 a. m. PT. Basant-nos en els comentaris d’experts, creiem que almenys cinc dels intents de demostració del model (els problemes 4, 5, 6, 9 i 10) tenen moltes probabilitats de ser correctes, i diversos altres continuen en revisió. Inicialment, pensàvem que el nostre intent per al problema 2 probablement era correcte. A partir del comentari oficial de First Proof i d’una anàlisi addicional de la comunitat, ara creiem que és incorrecte. Agraïm la implicació i esperem amb interès que la revisió continuï. El nostre conjunt complet d’intents de demostració es pot trobar aquí(s'obre en una finestra nova). La preimpressió inclou els deu intents de demostració, a més d’un apèndix afegit recentment amb patrons d’indicació i exemples que pretenen simular les nostres interaccions manuals amb els models durant el procés.
Creiem que la recerca nova d’avantguarda és potser la manera més important d’avaluar les capacitats dels models d’IA de nova generació. Els benchmarks són útils, però poden passar per alt algunes de les parts més difícils de la recerca: mantenir llargues cadenes de raonament, triar les abstraccions adequades, gestionar l’ambigüitat dels enunciats dels problemes i produir arguments que resisteixin l’escrutini d’experts. Reptes d’avantguarda com First Proof ens ajuden a posar a prova aquestes capacitats en contextos on la correcció no és trivial de verificar i on les modalitats de fallada són informatives.
«Actualment estem entrenant un nou model en què un objectiu principal és augmentar el nivell de rigor del seu pensament, amb l’objectiu que el model pugui pensar de manera continuada durant moltes hores i mantenir una confiança molt alta en les seves conclusions. Quan es van anunciar els problemes de First Proof, va semblar el banc de proves perfecte, així que durant el cap de setmana ho vaig provar. Ja era capaç de resoldre dos dels problemes (#9 i #10). A mesura que s’entrenava, es va anar tornant cada cop més capaç, fins al punt de resoldre —segons la nostra estimació— almenys tres més. Ens va agradar especialment quan va resoldre el #6 i després, dos dies més tard, el #4, ja que aquells problemes eren de camps familiars per a molts de nosaltres. És força increïble veure com un model es torna perceptiblement més intel·ligent dia rere dia.»
– James R. Lee (investigador d’OpenAI, raonament)
Vam executar el model amb una supervisió humana limitada. Quan donàvem indicacions a versions del model al llarg de l’entrenament, de vegades suggeríem tornar a provar estratègies que semblaven fructíferes en intents anteriors. En alguns intents, vam demanar al model que ampliés o aclarís parts d’una demostració després de rebre comentaris d’experts, per facilitar-ne la verificació del raonament. També vam facilitar un intercanvi entre aquest model i ChatGPT per a la verificació, el format i l’estil. Per a alguns problemes, presentem el millor d’uns quants intents, seleccionat segons judici humà. Va ser un esprint ràpid, i el nostre procés no va ser tan net com voldríem en una avaluació correctament controlada. Esperem amb interès converses amb els organitzadors de First Proof sobre un marc experimental i d’avaluació més rigorós per a futures iteracions.
Aquest treball es basa en resultats anteriors de models de raonament d’avantguarda en matemàtiques i ciència. El juliol de 2025, vam assolir un rendiment de nivell de medalla d’or(s'obre en una finestra nova) a l’Olimpíada Internacional de Matemàtiques amb un model de raonament de propòsit general (35/42 punts). El novembre de 2025, vam compartir «Primers experiments en l’acceleració de la ciència amb GPT‑5», un conjunt d’estudis de cas en què GPT‑5 va ajudar investigadors a fer progressos concrets en matemàtiques, física, biologia i altres camps, juntament amb les limitacions que vam observar. I, més recentment, vam informar d’una col·laboració en física en què GPT‑5.2 va proposar una expressió candidata per a una fórmula d’amplitud de gluons que després va ser demostrada formalment per un model intern i verificada pels autors.
Esperem amb interès una implicació més profunda amb la comunitat sobre com avaluar el raonament de nivell investigador, incloent-hi comentaris d’experts sobre aquests intents, i ens fa il·lusió posar aquestes noves capacitats a disposició en futurs models públics.


