Nuestros envíos de First Proof
Estamos compartiendo nuestros intentos de prueba para First Proof, un desafío matemático que pone a prueba si la IA puede generar pruebas verificables en problemas específicos de un dominio.
Hemos ejecutado un modelo interno en los 10 problemas de First Proof(se abre en una ventana nueva), un desafío matemático a nivel de investigación diseñado para comprobar si los sistemas de IA pueden producir intentos de demostración correctos y verificables. A diferencia de las matemáticas de respuesta corta o de estilo competición, estos problemas requieren construir argumentos completos en dominios especializados, y es difícil establecer la corrección sin una revisión de expertos. Los autores de los problemas de First Proof son expertos líderes en sus respectivos campos, y al menos un par de los problemas estuvieron sin resolver durante años antes de que los autores encontraran soluciones. Un departamento académico que tenga un solapamiento sustancial con las áreas temáticas podría, en teoría, resolver muchos de los problemas en una semana.
Nosotros compartimos(se abre en una ventana nueva) nuestros intentos de prueba el sábado, 14 de febrero de 2026 a las 12:00 a. m. PT. Basándonos en la opinión de expertos, creemos que al menos cinco de los intentos de demostración del modelo (problemas 4, 5, 6, 9 y 10) tienen una alta probabilidad de ser correctos, y varios otros están en revisión. Al principio, creíamos que nuestro intento para el problema 2 era probablemente correcto. Basándonos en el comentario oficial de First Proof y en un análisis adicional de la comunidad, ahora creemos que es incorrecto. Estamos agradecidos por el compromiso y esperamos seguir revisándolo. Puedes encontrar el conjunto completo de nuestros intentos de demostración aquí(se abre en una ventana nueva). La preimpresión incluye los diez intentos de demostración, además de un apéndice recientemente añadido con patrones de prompt y ejemplos que buscan simular nuestras interacciones manuales con los modelos durante el proceso.
Creemos que la investigación de vanguardia es quizás la manera más importante de evaluar las capacidades de los modelos de IA de próxima generación. Los benchmarks son útiles, pero pueden pasar por alto algunas de las partes más difíciles de la investigación: sostener largas cadenas de razonamiento, elegir las abstracciones correctas, manejar la ambigüedad en los enunciados de los problemas y producir argumentos que soporten el escrutinio de expertos. Los desafíos de vanguardia como First Proof nos ayudan a poner a prueba esas capacidades en entornos donde la corrección no es fácil de verificar y los modos de fallo son informativos.
Actualmente estamos entrenando un nuevo modelo cuyo enfoque principal es incrementar el rigor en su razonamiento, con el objetivo de que el modelo pueda pensar de manera continua durante muchas horas y mantener una alta confianza en sus conclusiones. Cuando se anunciaron los problemas de First Proof, parecía el banco de pruebas perfecto, así que lo probé durante el fin de semana. Ya ha podido resolver dos de los problemas (#9 y #10). A medida que se entrenaba, se volvía cada vez más capaz y, eventualmente, resolvía —según nuestra estimación— al menos tres más. Nos alegró mucho cuando resolvió el problema #6 y, dos días después, el problema #4, ya que esos problemas eran de áreas conocidas para muchos de nosotros. «Es bastante increíble ver cómo un modelo se vuelve cada día más inteligente de manera tangible.»
– James R. Lee (Investigador de OpenAI, Razonamiento)
Ejecutamos el modelo con supervisión humana limitada. Al sugerir versiones del modelo durante el entrenamiento, a veces proponíamos volver a intentar estrategias que habían resultado fructíferas en intentos anteriores. En algunos intentos, pedimos al modelo que ampliara o aclarara partes de una demostración después de recibir comentarios de expertos, para que el razonamiento fuera más fácil de verificar. También facilitamos un intercambio entre este modelo y ChatGPT para verificar, formatear y estilizar. Para algunos problemas, presentamos el mejor de unos pocos intentos, elegido por criterio humano. Este fue un sprint rápido y nuestro proceso no fue tan limpio como nos gustaría en una evaluación bien controlada. Estamos deseando conversar con los organizadores de First Proof sobre un marco de experimentación y evaluación más riguroso para futuras iteraciones.
Este trabajo se basa en resultados previos de modelos de razonamiento de vanguardia en matemáticas y ciencias. En julio de 2025, logramos un rendimiento a nivel de medalla de oro(se abre en una ventana nueva) en la Olimpiada Internacional de Matemáticas con un modelo de razonamiento de propósito general (35/42 puntos). En noviembre de 2025, compartimos «Primeros experimentos en acelerar la ciencia con GPT‑5», un conjunto de estudios de caso donde GPT‑5 ayudó a investigadores a hacer progresos concretos en matemáticas, física, biología y otros campos, junto con las limitaciones que observamos. Y más recientemente, informamos de una colaboración en física en la que GPT‑5.2 propuso una expresión candidata para una fórmula de amplitud de gluones que luego fue demostrada formalmente por un modelo interno y verificada por los autores.
Estamos deseando colaborar más profundamente con la comunidad sobre cómo evaluar el razonamiento a nivel de investigación, incluyendo la retroalimentación de expertos sobre estos intentos, y estamos emocionados de poner estas nuevas capacidades a disposición en futuros modelos públicos.


