Nos soumissions First Proof
Nous partageons nos tentatives de preuve pour First Proof, un défi mathématique visant à tester si l’IA peut produire des preuves vérifiables sur des problèmes spécifiques à un domaine.
Nous avons exécuté un modèle interne sur les 10 problèmes First Proof(s'ouvre dans une nouvelle fenêtre), un défi mathématique de niveau recherche conçu pour tester si les systèmes d’IA peuvent produire des démonstrations correctes et vérifiables. Contrairement aux mathématiques à réponse courte ou de type concours, ces problèmes nécessitent de construire des arguments complets dans des domaines spécialisés, et il est difficile de garantir l'exactitude sans l'examen d'un expert. Les auteurs des problèmes de First Proof sont des experts de premier plan dans leurs domaines respectifs, et au moins deux des problèmes sont restés ouverts pendant des années avant que les auteurs ne trouvent des solutions. Un département académique ayant un chevauchement significatif avec les domaines concernés pourrait vraisemblablement résoudre de nombreux problèmes en une semaine.
Nous avons partagé(s'ouvre dans une nouvelle fenêtre) nos tentatives de preuve le samedi 14 février 2026 à 0 h 00 HP. D’après les commentaires d’experts, nous croyons qu’au moins cinq des tentatives de preuve du modèle (problèmes 4, 5, 6, 9 et 10) ont de fortes chances d’être correctes, et plusieurs autres sont toujours en cours d’examen. Nous avons initialement cru que notre tentative pour le problème 2 était probablement correcte. D'après les commentaires officiels de First Proof et une analyse plus approfondie de la communauté, nous pensons maintenant que c'est incorrect. Nous sommes reconnaissants de l'engagement et impatients de poursuivre l'examen. Vous pouvez consulter l’ensemble de nos tentatives de preuve ici(s'ouvre dans une nouvelle fenêtre). La prépublication inclut les dix tentatives de preuve, ainsi qu'une annexe récemment ajoutée contenant des modèles d'invites et des exemples destinés à simuler nos interactions manuelles avec les modèles au cours du processus.
Nous pensons que la recherche de pointe inédite est peut-être le moyen le plus crucial pour évaluer les capacités des modèles d'IA de nouvelle génération. Les références sont utiles, mais elles peuvent passer à côté de certains des aspects les plus difficiles de la recherche : maintenir de longues chaînes de raisonnement, choisir les bonnes abstractions, gérer l'ambiguïté dans les énoncés de problèmes et produire des arguments qui résistent à l'examen minutieux des experts. Des défis de pointe tels que First Proof nous aident à tester ces capacités dans des contextes où il n'est pas simple de vérifier l'exactitude et où les modes de défaillance sont instructifs.
« Nous entraînons actuellement un nouveau modèle dont l’un des principaux objectifs est d’accroître le niveau de rigueur de son raisonnement, afin que le modèle puisse réfléchir en continu pendant de nombreuses heures et rester très confiant dans ses conclusions. Lorsque les problèmes de First Proof ont été annoncés, cela semblait être le terrain d’essai parfait; ainsi, durant la fin de semaine, je l’ai essayé. Il a déjà pu résoudre deux des problèmes (nº 9 et nº 10). À mesure qu'il s'entraînait, il devenait de plus en plus performant, finissant par en résoudre, selon notre estimation, au moins trois de plus. Nous avons été particulièrement heureux lorsqu’il a résolu le nº 6 puis, deux jours plus tard, le nº 4, car ces problèmes provenaient de domaines familiers pour bon nombre d’entre nous. C’est assez incroyable de voir un modèle devenir concrètement plus intelligent jour après jour. »
– James R. Lee (Chercheur chez OpenAI, Raisonnement)
Nous avons exécuté le modèle avec une supervision humaine limitée. Lors de l'utilisation de versions du modèle pendant l'entraînement, nous avons parfois suggéré des stratégies de réessai qui semblaient fructueuses lors de tentatives antérieures. Pour certaines tentatives, nous avons demandé au modèle d’élargir ou de clarifier des parties d’une preuve après avoir reçu des commentaires d’experts, afin de rendre le raisonnement plus facile à vérifier. Nous avons également facilité un va-et-vient entre ce modèle et ChatGPT pour la vérification, la mise en forme et le style. Pour certains problèmes, nous présentons le meilleur de quelques tentatives, sélectionné par jugement humain. Ce sprint a été rapide et notre processus n’a pas été aussi rigoureux que nous l’aurions souhaité dans une évaluation bien contrôlée. Nous avons hâte de discuter avec les organisateurs de First Proof au sujet d’un cadre d’expérimentation et d’évaluation plus rigoureux pour les prochaines itérations.
Ce travail s’appuie sur des résultats antérieurs issus de modèles de raisonnement de pointe en mathématiques et en sciences. En juillet 2025, nous avons atteint un niveau de performance équivalent à une médaille d'or(s'ouvre dans une nouvelle fenêtre) aux Olympiades internationales de mathématiques avec un modèle de raisonnement polyvalent (35/42 points). En novembre 2025, nous avons partagé « Expériences préliminaires d'accélération scientifique avec GPT‑5 », un ensemble d’études de cas où GPT‑5 a aidé des chercheurs à réaliser des progrès concrets en mathématiques, en physique, en biologie et dans d’autres domaines, ainsi que les limites que nous avons observées. Et plus récemment, nous avons rapporté une collaboration en physique où GPT‑5.2 a proposé une expression candidate pour une formule d’amplitude de gluon, qui a ensuite été formellement prouvée par un modèle interne et vérifiée par les auteurs.
Nous sommes impatients de renforcer notre engagement avec la communauté sur l'évaluation du raisonnement de niveau recherche, y compris en recevant des commentaires d'experts sur ces tentatives, et nous sommes enthousiastes à l'idée de rendre ces nouvelles capacités disponibles dans de futurs modèles publics.


