Aprender a razonar con los LLM
Presentamos OpenAI o1, un gran modelo de lenguaje entrenado con aprendizaje por refuerzo con el fin de llevar a cabo razonamientos complejos. El modelo o1 es capaz de generar una larga cadena interna de pensamientos antes de dar una respuesta.
OpenAI o1 se sitúa en el percentil 89 en preguntas de programación competitiva (Codeforces), así como entre los 500 mejores estudiantes estadounidenses en una prueba clasificatoria para la Olimpiada Matemática de Estados Unidos (examen AIME). Asimismo, supera la precisión de un humano con un doctorado en una prueba comparativa relacionada con problemas de física, biología y química (GPQA). Aunque seguimos trabajando porque este nuevo modelo sea tan intuitivo como los actuales, hemos publicado una primera versión, OpenAI o1‑preview, ya activa en ChatGPT y a disposición de nuestros usuarios de API de confianza(se abre en una ventana nueva).
Nuestro algoritmo de aprendizaje por refuerzo a gran escala enseña al modelo a pensar de forma más productiva recurriendo a su cadena de pensamiento. En este sentido, el proceso de entrenamiento resulta más eficiente, ya que requiere de una menor ingesta de datos. Hemos observado que el rendimiento de o1 mejora de forma constante cuando se somete a más aprendizaje por refuerzo (recursos informáticos en la fase de entrenamiento) y se le procura más tiempo para procesar (recursos informáticos en la fase de inferencia). Escalar este abordaje presenta unos retos y unas limitaciones notablemente distintos a los que plantea el preentrenamiento de los LLM, por lo que seguimos investigando en este sentido.

Los resultados de o1 mejoran de forma constante a medida que aumentan los recursos computacionales en la fase de entrenamiento y en la de inferencia
Para demostrar que las capacidades de razonamiento de o1 con respecto a GPT‑4o son mejores, hemos evaluado nuestros modelos a partir de una serie de exámenes humanos y evaluaciones comparativas por aprendizaje automático. Observamos que o1 supera en rendimiento a GPT‑4o en la inmensa mayoría de estas actividades que requieren altas capacidades de razonamiento. El modelo o1 se ha evaluado empleando los máximos recursos informáticos disponibles durante la fase de inferencia, salvo que se indique lo contrario.







En muchas pruebas de razonamiento complejo, los resultados de o1 se equiparan a los de expertos humanos. Los modelos recientes más avanzados1 obtienen tan buenos resultados en MATEMÁTICAS2 y GSM8K que estas pruebas comparativas ya no resultan eficaces para diferenciar modelos. Evaluamos los resultados en matemáticas con el examen AIME, en el que participan los estudiantes de matemáticas de instituto más brillantes de Estados Unidos. En los exámenes AIME de 2024, GPT‑4o solo resolvió, de media, el 12 % de los problemas (1,8/15). La media de o1 fue del 74 % (11,1/15) a partir de una única muestra por problema, del 83 % (12,5/15) con consenso entre 64 muestras y del 93 % (13,9/15) al reclasificar 1000 muestras con una función de puntuación aprendida. La puntuación de 13,9 lo sitúa entre los 500 mejores estudiantes estadounidenses y por encima de la nota de corte para la Olimpiada Matemática de Estados Unidos.
También evaluamos el rendimiento de o1 en GPQA Diamond, una compleja prueba de inteligencia que evalúa los dominios en química, física y biología. A fin de comparar los modelos con los humanos, seleccionamos a expertos con doctorado para responder a las preguntas de GPQA Diamond. Averiguamos que el modelo o1 mejora los resultados de dichos expertos, convirtiéndose así en el primer modelo en alcanzar este hito en esta prueba comparativa. Los resultados no implican que o1 sea más capaz que un humano con doctorado en cualquier aspecto; solo que es más eficaz resolviendo algunos problemas que esperaríamos que un experto con un doctorado pudiera resolver. En muchas otras evaluaciones comparativas por aprendizaje automático, el modelo o1 superó a la tecnología más puntera. Tras activar sus capacidades de procesamiento de información visual, o1 obtuvo una puntuación de 78,2 % en MMMU, hecho que lo convierte en el primer modelo con posibilidades de competir con expertos humanos. Por otra parte, superó a GPT‑4o en 54 de las 57 subcategorías MMLU.
Los humanos solemos tardar bastante en responder a una pregunta compleja. En el modelo o1 sucede algo similar. A la hora de resolver un problema, pone en marcha su cadena de pensamiento. Mediante el aprendizaje por refuerzo, el modelo o1 aprende a perfeccionar su cadena de pensamiento y refina las estrategias a las que recurre. Aprende a reconocer y a corregir sus errores. Aprende a desglosar un problema complejo en pasos más sencillos. Aprende a plantear un abordaje distinto si el actual no funciona. Este proceso mejora drásticamente la capacidad de razonamiento del modelo. Este ejemplo ilustra el gran avance en la cadena de pensamiento de o1‑preview en relación con distintos problemas complejos.
GPT-4o
OpenAI o1-preview
Entrenamos un modelo que obtuvo una puntuación de 213 y se situó en el percentil 49 en las Olimpiada Internacional de Informática (IOI) de 2024, partiendo del modelo o1 y entrenándolo para mejorar sus competencia en programación. Este modelo compitió en la IOI 2024 con las mismas condiciones que los participantes humanos. Dispuso de diez horas para resolver seis problemas algorítmicos complejos y se le permitieron 50 propuestas por problema.
Para cada problema, nuestro sistema generó varias propuestas candidatas y presentó 50 de ellas basándose en la estrategia que eligió en el momento de la prueba. Para elegir las propuestas, el modelo se basó en los resultados obtenidos en los casos de prueba públicos de la IOI, en los casos de prueba generados por el modelo y en la función de puntuación aprendida. Si, por el contrario, hubiéramos enviado propuestas de forma aleatoria, habríamos obtenido un promedio de 156 puntos, lo que sugiere que esta estrategia le otorgó casi 60 puntos en las condiciones de la competición.
En condiciones más relajadas, descubrimos que el rendimiento del modelo mejoraba significativamente. Cuando se le permitió dar 10 000 propuestas por problema, el modelo alcanzó una puntuación de 362,14 —superando el umbral de la medalla de oro—, incluso sin aplicar ninguna una estrategia de selección en el momento de la prueba.
Finalmente, simulamos concursos de programación competitiva organizados por Codeforces para demostrar las capacidades de programación del modelo. Nuestras evaluaciones se acercaron mucho a las reglas de la competición y arrojaron 10 propuestas. GPT‑4o consiguió una puntuación Elo3 de 808, que se sitúa en el percentil 11 de los competidores humanos. El modelo superó por mucho tanto a GPT‑4o como a o1, y alcanzó una puntuación Elo de 1807, es decir, un rendimiento superior al del 93 % de los participantes.

Perfeccionar el modelo a partir de los datos de las competiciones de programación mejoran el rendimiento de o1. El modelo mejorado se situó en el percentil 49 en la Olimpiada Internacional de Informática de 2024 bajo las reglas de la competencia.
Además de los exámenes y las evaluaciones comparativas académicas, también evaluamos la preferencia humana de o1‑preview frente a GPT‑4o en las respuestas a preguntas complejas y abiertas en distintos dominios. La prueba consistía en mostrar a los evaluadores humanos las respuestas anonimizadas de o1‑preview y GPT‑4o a una pregunta y votar la que preferían. Los resultados mostraron una clara preferencia por o1‑preview en categorías de razonamiento avanzado, como análisis de datos, programación y matemáticas. Sin embargo, o1‑preview no fue la opción de preferencia en ciertas tareas de lenguaje natural, lo que sugiere que no es adecuado para todos los casos de uso.

El razonamiento mediante cadena de pensamiento abre nuevas oportunidades para la adecuación al contexto y la seguridad. Hemos descubierto que integrar nuestras políticas aplicables al comportamiento del modelo en la cadena de pensamiento de un modelo de razonamiento es una forma eficaz de enseñar los valores y principios humanos. Mientras enseñábamos al modelo nuestras normas de seguridad y cómo razonar teniéndolas en cuenta en contexto, encontramos evidencia de que la capacidad de razonamiento beneficia directamente a la potencia del modelo: o1‑preview obtuvo resultados notablemente mejores en las principales evaluaciones de jailbreak y en nuestras evaluaciones de referencia más ambiciosas para evaluar los límites de rechazo del modelo por motivos de seguridad. Consideramos que usar una cadena de pensamiento ofrece avances significativos para la seguridad y la adecuación del modelo, ya que (1) nos permite observar el pensamiento del modelo de forma comprensible, y (2) el razonamiento del modelo en lo que respecta a las normas de seguridad es más robusto ante escenarios anómalos (OOD).
Para poner a prueba nuestras mejoras, llevamos a cabo una serie de pruebas de seguridad y de equipo rojo antes de la implementación, siguiendo las directrices de nuestro marco de preparación(se abre en una ventana nueva). Descubrimos que el razonamiento mediante cadena de pensamiento contribuía a mejorar las capacidades del modelo en todas nuestras evaluaciones. En especial, detectamos casos interesantes de manipulación de recompensas(se abre en una ventana nueva). Puedes consultar los resultados detallados de estas evaluaciones en la tarjeta del sistema.
| Métrica | GPT-4o | o1-preview |
|---|---|---|
| % de finalizaciones seguras en prompts malignos Estándar | 0,990 | 0,995 |
| % de finalizaciones seguras en prompts malignos Dificultad: jailbreaks y casos límite | 0,714 | 0,934 |
| ↳ Acoso (grave) | 0,845 | 0,900 |
| ↳ Contenido de explotación sexual | 0,483 | 0,949 |
| ↳ Contenido de carácter sexual con menores | 0,707 | 0,931 |
| ↳ Consejos sobre actos indebidos no violentos | 0,688 | 0,961 |
| ↳ Consejos sobre actos indebidos violentos | 0,778 | 0,963 |
| % de finalizaciones seguras para el top 200 con las puntuaciones más altas en la API de moderación por categoría en WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Calidad@0.1 evaluación de jailbreak StrongREJECT Souly et al. 2024 | 0,220 | 0,840 |
| Evaluación de jailbreak humano | 0,770 | 0,960 |
| % de cumplimiento en casos límite benignos internos «sin rechazo excesivo» | 0,910 | 0,930 |
| % de cumplimiento en casos límite benignos en XSTest «sin rechazo excesivo» Röttger, et al. 2023 | 0,924 | 0,976 |
Creemos que ocultar la cadena de razonamiento plantea una oportunidad única en lo que se refiere a supervisar los modelos. Asumiendo que es fiel y descifrable, la cadena de pensamiento oculta nos permite «leerle la mente» al modelo y comprender el proceso de razonamiento subyacente. Por ejemplo, puede que en el futuro tengamos que supervisar la cadena de pensamiento en busca de indicios de manipulación del usuario. Sin embargo, para que esto funcione, el modelo debe tener la libertad para expresar sus pensamientos de forma libre e inalterada, de manera que no podemos entrenarlo sobre el cumplimiento de políticas o las preferencia de los usuarios. Por otra parte, no queremos tampoco que los usuarios tengan acceso a las cadenas de pensamientos que se desvíen de los objetivos.
Por consiguiente, tras sopesar multitud de factores, como la experiencia del usuario, la ventaja competitiva y la posibilidad de supervisar la cadena de pensamiento, hemos decidido no hacer visible la cadena de pensamiento de nuestro modelo para los usuarios. Somos consciente de que esta decisión comporta una serie de desventajas. Estamos haciendo todo lo posible para compensar esta restricción entrenando el modelo para plasmar en la respuesta cualquier idea que pueda resultar útil de la cadena de pensamiento. En la serie del modelo o1, presentamos un resumen de la cadena de razonamiento que genera el modelo.
El modelo o1 supone un avance significativo en el razonamiento de la IA más puntero. Tenemos previsto lanzar versiones mejoradas de este modelo a medida conforme a las iteraciones que llevemos a cabo. Esperamos que estas nuevas funciones de razonamiento mejorarán nuestra capacidad de adaptar los modelos a los valores y principios del ser humano. Creemos que el modelo o1 —y los que vendrán— abrirán las puertas a nuevas aplicaciones de la inteligencia artificial en los campos de la ciencia, la programación, las matemáticas y ámbitos relacionados. Estamos deseando que los usuarios y desarrolladores de API descubran cómo puede mejorar su día a día.
| Conjunto de datos | Métrica | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Concurso matemático AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Concurso de programación CodeForces | Elo | 808 | 1258 | 1673 |
| Percentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biología | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Química | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Física | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n/a | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n/a | 73,9 |
Autores
Fuentes
- 1
- 2
En nuestras evaluaciones hemos usado la serie de 500 problemas que se encuentra en https://arxiv.org/abs/2305.20050(se abre en una ventana nueva)
- 3






