Aprendizaje de razonamiento con LLM
Presentamos OpenAI o1, un nuevo modelo de lenguaje de gran tamaño entrenado con aprendizaje por refuerzo para llevar a cabo razonamientos complejos. o1 puede producir una larga cadena de razonamiento interna antes de responder.
OpenAI o1 se clasifica en el percentil 89 en preguntas de programación competitivas (Codeforces), se sitúa entre los 500 mejores estudiantes en EE. UU. en una clasificación para la Olimpíada de Matemáticas de EE. UU. (AIME) y supera la precisión humana a nivel de doctorado en una evaluación de problemas de física, biología y química (GPQA). Aunque el trabajo necesario para hacer de este nuevo modelo tan fácil de usar como los modelos actuales sigue en curso, estamos lanzando una versión preliminar de este modelo, OpenAI o1‑preview, para uso inmediato en ChatGPT y para usuarios de confianza de la API(se abre en una nueva ventana).
Nuestro algoritmo de aprendizaje por refuerzo a gran escala enseña al modelo cómo pensar productivamente utilizando su cadena de razonamiento en un proceso de entrenamiento altamente eficiente en datos. Hemos encontrado que el rendimiento de o1 mejora consistentemente con más aprendizaje por refuerzo (cómputo durante el entrenamiento) y con más tiempo dedicado al razonamiento (cómputo durante la prueba). Las restricciones para escalar este método difieren significativamente de aquellas del preentrenamiento de los LLM y continúan en investigación.

El rendimiento de o1 mejora de manera constante tanto con el cómputo durante el entrenamiento como durante la prueba
Para destacar la mejora en razonamiento sobre GPT‑4o, probamos nuestros modelos en un conjunto diverso de exámenes para humanos y referencias de ML. Demostramos que o1 supera significativamente a GPT‑4o en la gran mayoría de estas tareas con alto nivel de razonamiento. A menos que se especifique de otra manera, evaluamos o1 en la configuración máxima de cómputo en tiempo de prueba.







En muchos indicadores intensivos en razonamiento, o1 compite con el rendimiento de expertos humanos. Los modelos de frontera recientes1 tienen un rendimiento tan destacado en MATEMÁTICAS2 y GSM8K que estas evaluaciones ya no son eficaces para diferenciar modelos. Evaluamos el rendimiento en matemáticas en AIME, un examen diseñado para desafiar a los estudiantes de matemáticas de preparatoria más brillantes en Estados Unidos. En los exámenes AIME 2024, GPT‑4o resolvió en promedio solo el 12 % (1,8/15) de los problemas. o1 alcanzó un promedio del 74 % (11,1/15) con una sola muestra por problema, del 83 % (12,5/15) con consenso entre 64 muestras y del 93 % (13,9/15) al reordenar 1000 muestras con una función de puntuación aprendida. Una calificación de 13,9 lo coloca entre los primeros 500 estudiantes a nivel nacional y sobre el umbral para la Olimpíada de Matemáticas de EE. UU.
También evaluamos o1 en GPQA Diamond, un exigente estándar de inteligencia que evalúa los conocimientos en química, física y biología. A fin de comparar los modelos con humanos, reclutamos expertos con doctorado para responder las preguntas de GPQA Diamond. Encontramos que o1 superó el rendimiento de los humanos expertos, lo que lo convierte en el primer modelo en lograrlo en este comparativo. Estos resultados no suponen que o1 sea más capaz que una persona con doctorado en todos los aspectos, únicamente que el modelo es más competente en resolver algunos problemas que se esperaría que una persona con doctorado resuelva. En varias otras referencias de ML, o1 superó a las más avanzadas. Con sus capacidades de percepción de imágenes habilitadas, o1 alcanzó el 78,2 % en MMMU, lo que lo convierte en el primer modelo en ser competitivo contra humanos expertos. También superó el rendimiento de GPT‑4o en 54 de 57 subcategorías de MMLU.
De forma similar en la que podría pensar un humano durante un largo tiempo antes de responder una pregunta difícil, o1 utiliza una cadena de razonamiento al intentar resolver un problema. A través del aprendizaje por refuerzo, o1 aprende a perfeccionar su cadena de pensamiento y refinar las estrategias que utiliza. Aprende a reconocer y corregir sus errores. Aprende a desglosar pasos complicados en pasos más simples. Aprende a probar un método diferente cuando el actual no funciona. Este proceso mejora drásticamente la capacidad del modelo para razonar. Para ilustrar este salto adelante, a continuación presentamos la cadena de pensamiento de o1‑preview en varios problemas difíciles.
GPT-4o
OpenAI o1-preview
Entrenamos un modelo que obtuvo una calificación de 213 puntos y se colocó en el percentil 49 en la Olimpíada Internacional de Informática (IOI) 2024, iniciando desde un o1 y entrenando para mejorar aún más las habilidades de programación. Este modelo compitió en la IOI 2024 bajo las mismas condiciones que los participantes humanos. Tenía diez horas para resolver seis problemas algorítmicos desafiantes y se le permitieron 50 propuestas por problema.
Para cada problema, nuestro sistema tomó muestras de varias propuestas de los participantes y presentó 50 de ellas con base en una estrategia de selección en el momento de la prueba. Las propuestas se seleccionaron según el rendimiento en los casos de prueba públicos de la IOI, los casos de prueba generados por el modelo y una función de puntuación aprendida. Si en cambio hubiéramos enviado propuestas de manera aleatoria, hubiéramos obtenido un promedio de 156 puntos, lo que sugiere que esta estrategia valió casi 60 puntos bajo las restricciones de la competencia.
Con una restricción de propuesta relajada, descubrimos que el rendimiento del modelo mejoraba significativamente. Cuando se permitieron 10 000 propuestas por problema, el modelo alcanzó una calificación de 362,14, por arriba del umbral de la medalla de oro, incluso sin una estrategia de selección en el momento de la prueba.
Finalmente, simulamos concursos de programación competitiva organizados por Codeforces para demostrar las capacidades de programación del modelo. Nuestras evaluaciones coincidieron estrechamente con las reglas de la competencia y permitieron 10 propuestas. GPT‑4o alcanzó una calificación Elo3 de 808, que se encuentra en el percentil 11 de los participantes humanos. Este modelo superó por mucho a GPT‑4o y a o1, y alcanzó una calificación Elo de 1807, con un mejor rendimiento que el 93 % de los participantes.

La afinación adicional en competencias de programación mejora o1. El modelo mejorado se colocó en el percentil 49 en la Olimpíada Internacional de Informática de 2024 bajo las reglas de la competencia.
Además de los exámenes y estándares académicos, también evaluamos la preferencia humana de o1‑preview en comparación con GPT‑4o en instrucciones abiertas y desafiantes en un amplio espectro de ámbitos. En esta evaluación, los entrenadores humanos recibieron respuestas anónimas de o1‑preview y GPT‑4o a una instrucción y votaron por cuál respuesta preferían. o1‑preview es preferido sobre GPT‑4o por un amplio margen en categorías con un alto nivel de razonamiento como análisis de datos, programación y matemáticas. Sin embargo, o1‑preview no es preferido en algunas tareas de lenguaje natural, lo que sugiere que no es adecuado para todos los casos de uso.

La cadena de razonamiento del pensamiento brinda nuevas oportunidades para la alineación y seguridad. Encontramos que integrar nuestras políticas para el comportamiento del modelo en la cadena de pensamiento de un modelo de razonamiento es una manera eficaz para enseñar valores y principios humanos. Al enseñar al modelo nuestras reglas de seguridad y cómo razonar sobre ellas en contexto, encontramos evidencia de que la capacidad de razonamiento beneficia directamente la robustez del modelo: o1‑preview alcanzó un rendimiento significativamente mejor en evaluaciones jailbreak clave y nuestros estándares internos más exigentes para evaluar los límites de rechazo de seguridad de nuestro modelo. Creemos que el uso de una cadena de pensamiento ofrece avances significativos para la seguridad y alineación porque (1) nos permite observar el pensamiento del modelo de manera legible y (2) el razonamiento del modelo sobre las reglas de seguridad es más robusto frente a escenarios fuera de distribución.
Para poner a prueba nuestras mejoras, llevamos a cabo un conjunto de pruebas de seguridad y procesos de equipo rojo antes de su implementación, de acuerdo con nuestro Marco de preparación(se abre en una nueva ventana). Encontramos que la cadena de razonamiento de pensamiento contribuía a las mejoras de capacidades en todas nuestras evaluaciones. En especial, cabe señalar que observamos casos interesantes de manipulación de recompensas(se abre en una nueva ventana). Los resultados detallados de estas evaluaciones se pueden encontrar en la tarjeta de sistema adjunta.
| Métrica | GPT-4o | o1-preview |
|---|---|---|
| Porcentaje de completions seguras en solicitudes dañinas Estándar | 0.990 | 0.995 |
| Porcentaje de completions seguras en prompts dañinas Desafiante: jailbreaks y casos límite | 0.714 | 0.934 |
| ↳ Acoso (grave) | 0.845 | 0.900 |
| ↳ Contenido sexual de explotación | 0.483 | 0.949 |
| ↳ Contenido sexual que involucra menores | 0.707 | 0.931 |
| ↳ Consejos sobre actos no violentos | 0.688 | 0.961 |
| ↳ Consejos sobre actos violentos | 0.778 | 0.963 |
| Porcentaje de completions seguras para los 200 principales con las puntuaciones más altas de Moderation API por categoría en WildChat Zhao y col. 2024 | 0.945 | 0.971 |
| Calidad@0.1 evaluación de jailbreak StrongREJECT Souly y col. 2024 | 0.220 | 0.840 |
| Evaluación de jailbreak de origen humano | 0.770 | 0.960 |
| Porcentaje de cumplimiento en casos límite benignos “sin exceso de rechazo” | 0.910 | 0.930 |
| Porcentaje de cumplimiento en casos límite benignos en XSTest “sin exceso de rechazo” Röttger y col. 2023 | 0.924 | 0.976 |
Creemos que una cadena de pensamiento oculta presenta una oportunidad única para monitorear modelos. Suponiendo que sea fiel y legible, la cadena de pensamiento oculta nos permite “leer la mente” del modelo y comprender su proceso de pensamiento. Por ejemplo, en el futuro, podríamos querer monitorear la cadena de pensamiento para signos de manipulación del usuario. Sin embargo, para que esto funcione, el modelo debe tener la libertad para expresar sus pensamientos de forma inalterada, así que no podemos entrenar ningún cumplimiento de política o preferencia de usuario dentro de la cadena de pensamiento. Tampoco queremos que una cadena de pensamiento desalineada sea directamente visible para los usuarios.
Por lo tanto, tras valorar múltiples factores, incluida la experiencia del usuario, la ventaja competitiva y la opción de perseguir el monitoreo de la cadena de pensamiento, hemos decidido no mostrar las cadenas de pensamiento en bruto. Reconocemos que esta decisión tiene desventajas. Nos esforzamos para compensarlas parcialmente al entrenar al modelo a reproducir todas las ideas útiles de la cadena de pensamiento en la respuesta. Para la serie del modelo o1 presentamos un resumen de la cadena de pensamiento generado por el modelo.
o1 avanza significativamente a la vanguardia en el razonamiento de la IA. Planeamos lanzar versiones mejoradas de este modelo conforme seguimos iterando. Esperamos que estas nuevas capacidades de razonamiento mejoren nuestra capacidad para alinear los modelos a los valores y principios humanos. Creemos que o1, y sus sucesores, desbloquearán muchos casos de uso nuevos para la IA en ciencias, programación, matemáticas y campos relacionados. Deseamos que los usuarios y desarrolladores de API descubran cómo puede mejorar su trabajo cotidiano.
| Conjunto de datos | Métrica | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Competencia de matemáticas AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| Competencia de programación CodeForces | Elo | 808 | 1,258 | 1,673 |
| Percentil | 11.0 | 62.0 | 89.0 | |
| GPQA Diamond | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| Biología | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| Química | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| Física | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| MATH | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | pass@1 | 69.1 | n/a | 78.2 |
| MathVista (testmini) | pass@1 | 63.8 | n/a | 73.9 |
Autores
Citas
- 1
- 2
Nuestras evaluaciones utilizaron el mismo conjunto de 500 problemas que se encuentra en https://arxiv.org/abs/2305.20050(se abre en una nueva ventana)
- 3






