Nuestras presentaciones de la Primera Prueba
Estamos compartiendo nuestros intentos de prueba de la Primera Prueba, un desafío matemático que evalúa si la IA puede generar pruebas verificables sobre problemas específicos de un dominio.
Ejecutamos un modelo interno en los 10 problemas de la Primera Prueba(se abre en una nueva ventana), un desafío matemático a nivel de investigación diseñado para probar si los sistemas de IA pueden generar intentos de demostración correctos y verificables. A diferencia de las matemáticas de respuesta corta o de estilo competitivo, estos problemas requieren construir argumentos completos en dominios especializados, y es difícil establecer la corrección sin una revisión de expertos. Los autores de los problemas de la Primera Prueba son expertos destacados en sus respectivos campos, y al menos un par de problemas permanecieron sin resolver durante años antes de que los autores encontraran soluciones. Un departamento académico que tenga una superposición significativa con las áreas temáticas podría resolver muchos de los problemas en una semana.
Nosotros compartimos(se abre en una nueva ventana) nuestros intentos de prueba el sábado, 14 de febrero de 2026 a las 12:00 a. m., hora del Pacífico. Según la opinión de expertos, creemos que al menos cinco de los intentos de prueba del modelo (problemas 4, 5, 6, 9 y 10) tienen una alta probabilidad de ser correctos, y varios otros están en revisión. Al principio, creíamos que nuestro intento para el problema 2 era probablemente correcto. Basándonos en el comentario oficial de la Primera Prueba y en un análisis adicional de la comunidad, ahora creemos que es incorrecto. Agradecemos el compromiso y esperamos seguir revisando. Puedes encontrar nuestro conjunto completo de intentos de prueba aquí(se abre en una nueva ventana). La preimpresión incluye los diez intentos de demostración, además de un apéndice recién añadido con patrones de prompt y ejemplos que buscan simular nuestras interacciones manuales con los modelos durante el proceso.
Creemos que la investigación de vanguardia es quizás la forma más importante de evaluar las capacidades de los modelos de IA de próxima generación. Los benchmarks son útiles, pero pueden pasar por alto algunas de las partes más difíciles de la investigación: mantener largas cadenas de razonamiento, elegir las abstracciones correctas, manejar la ambigüedad en los enunciados de los problemas y producir argumentos que soporten el escrutinio de expertos. Los desafíos de vanguardia como la Primera Prueba nos ayudan a probar esas capacidades en entornos donde la corrección no es fácil de verificar y los modos de fallo son informativos.
“Actualmente estamos entrenando un nuevo modelo cuyo enfoque principal es aumentar el nivel de rigor en su razonamiento, con el objetivo de que el modelo pueda pensar de forma continua durante muchas horas y mantener una alta confianza en sus conclusiones Cuando se anunciaron los problemas de la Primera Prueba, parecía el banco de pruebas perfecto, así que durante el fin de semana lo intenté. Ya pudo resolver dos de los problemas (el número 9 y el número 10). A medida que se entrenaba, se volvía cada vez más capaz y, eventualmente, resolvió–según nuestra estimación–al menos tres más. Nos alegró especialmente cuando resolvió el número 6 y luego, dos días después, el número 4, ya que esos problemas provenían de campos familiares para muchos de nosotros. Es bastante increíble ver cómo un modelo se vuelve más inteligente de manera tangible día a día.
– James R. Lee (Investigador de OpenAI, Razonamiento)
Ejecutamos el modelo con supervisión humana limitada. Al sugerir prompts para versiones del modelo durante el entrenamiento, a veces recomendábamos estrategias de reintento que resultaron prometedoras en intentos anteriores. Para algunos intentos, pedimos al modelo que ampliara o aclarara partes de una prueba tras recibir comentarios de expertos, para facilitar la verificación del razonamiento. También facilitamos un intercambio continuo entre este modelo y ChatGPT para verificación, formato y estilo. Para algunos problemas, presentamos lo mejor de algunos intentos, seleccionados por criterio humano. Este fue un sprint rápido y nuestro proceso no fue tan limpio como nos gustaría en una evaluación bien controlada. Esperamos tener conversaciones con los organizadores de la Primera Prueba sobre un experimento más riguroso y un marco de evaluación para futuras iteraciones.
Este trabajo se basa en resultados previos de modelos de razonamiento de vanguardia en matemáticas y ciencias. En julio de 2025, alcanzamos un rendimiento de nivel medalla de oro(se abre en una nueva ventana) en la Olimpiada Internacional de Matemáticas con un modelo de razonamiento de propósito general (35/42 puntos). En noviembre de 2025, compartimos “Primeros experimentos en acelerar la ciencia con GPT‑5”, un conjunto de estudios de caso donde GPT‑5 ayudó a investigadores a hacer progresos concretos en matemáticas, física, biología y otros campos, junto con las limitaciones que observamos. Y más recientemente, informamos sobre una colaboración en física en la que GPT‑5.2 propuso una expresión candidata para una fórmula de amplitud de gluones que fue posteriormente demostrada formalmente por un modelo interno y verificada por los autores.
Esperamos una participación más profunda con la comunidad sobre cómo evaluar el razonamiento a nivel de investigación, incluyendo la retroalimentación de expertos sobre estos intentos, y nos entusiasma ofrecer estas nuevas capacidades en futuros modelos públicos.


