31 de enero de 2025

OpenAI o3‑mini

Ampliando las fronteras del razonamiento rentable.

Cargando...

Bienvenidos al lanzamiento de OpenAI o3‑mini, nuestro modelo de razonamiento más reciente y rentable, ya disponible tanto en ChatGPT como en la API. Desde su vista previa en diciembre de 2024⁠, este modelo poderoso y veloz amplía las fronteras de lo que logran los modelos pequeños, produciendo funcionalidades en las áreas de ciencia, tecnología, ingeniería y matemática (STEM), con énfasis particular en las áreas de ciencia, matemática y programación, a la vez que mantiene los costos bajos y la latencia reducida de OpenAI o1‑mini.

OpenAI o3‑mini es nuestro primer modelo de razonamiento pequeño que soporta funciones muy requeridas por los desarrolladores, entre las que se incluyen la llamada de funciones⁠(se abre en una nueva ventana), las salidas estructuradas⁠(se abre en una nueva ventana) y los mensajes para desarrolladores⁠(se abre en una nueva ventana), por lo que está listo para la etapa de producción desde el mismo momento de su lanzamiento. Al igual que OpenAI o1‑mini y OpenAI o1‑preview, o3‑mini será compatible con la transmisión de respuestas en tiempo real⁠(se abre en una nueva ventana). Además, los desarrolladores pueden elegir entre tres niveles de esfuerzo de razonamiento⁠(se abre en una nueva ventana) —bajo, medio y alto— para optimizar según sus casos de uso específicos. Esta flexibilidad le permite a o3‑mini «pensar a fondo» a la hora de encarar problemas complejos o priorizar la velocidad cuando la latencia es un factor que debe tenerse en cuenta. El modelo o3‑mini no es compatible con las funcionalidades de visión, por lo que los desarrolladores deberán seguir utilizando OpenAI o1 para tareas que requieran razonamiento visual. o3‑mini está siendo implementado en Chat Completions API, Assistants API y en Batch API a partir de hoy para desarrolladores selectos en los niveles de uso de la API 3 a 5⁠(se abre en una nueva ventana).

Los usuarios de ChatGPT Plus, Team y Pro tienen acceso a OpenAI o3‑mini a partir de hoy y podrán acceder a Enterprise en febrero. El modelo o3‑mini reemplazará al OpenAI o1‑mini en el selector de modelos, lo que ofrecerá límites de uso más altos y una menor latencia. Esto lo convertirá en una opción imprescindible para tareas de codificación, STEM y resolución de problemas lógicos. Como parte de esta mejora del plan, triplicamos la cantidad de solicitudes permitidas por minuto para los usuarios de Plus y Team, pasando de los 50 mensajes por día que permite el o1‑mini a los 150 mensajes por día que ofrece el modelo o3‑mini. Además, o3‑mini ahora trabaja con búsquedas para encontrar respuestas actualizadas con enlaces a las fuentes pertinentes. Este es un prototipo inicial que estamos lanzando mientras trabajamos para integrar la búsqueda en todos nuestros modelos de razonamiento.

A partir de hoy, los usuarios de los planes gratuitos también pueden probar el modelo OpenAI o3‑mini, seleccionando «Analizar» en el editor de mensajes o regenerando una respuesta. Esto es un hito, pues marca la primera vez que se pone un modelo de razonamiento a disposición de los usuarios de ChatGPT que tienen planes gratuitos.

Mientras que OpenAI o1 sigue siendo nuestro modelo de razonamiento más amplio y de conocimiento general, OpenAI o3‑mini brinda una opción especializada para las áreas técnicas que requieren precisión y rapidez. En ChatGPT, el modelo o3‑mini utiliza un esfuerzo medio de razonamiento para lograr un equilibrio entre velocidad y precisión. Todos los usuarios con planes pagos también tendrán la opción de seleccionar o3‑mini‑high en el selector de modelos, y así acceder a una versión más inteligente que demora un poco más en generar respuestas. Los usuarios de Pro tendrán acceso ilimitado tanto a la versión o3‑mini como a la o3‑mini‑high.

Veloz, poderoso y optimizado para el razonamiento STEM.

De modo similar a su predecesor OpenAI o1, el modelo OpenAI o3‑mini ha sido optimizado para el razonamiento en las áreas de STEM. El modelo o3‑mini, con un nivel medio de esfuerzo de razonamiento, iguala el rendimiento del modelo o1 en matemáticas, codificación y ciencias, con una producción de respuestas más rápida. Las evaluaciones realizadas por evaluadores expertos demostraron que, en comparación con OpenAI o1‑mini, o3‑mini genera respuestas más precisas y claras, con mayores capacidades de razonamiento. Los evaluadores manifestaron una preferencia del 56 % por las respuestas de o3‑mini frente a las de o1‑mini, y observaron una reducción del 39 % de errores graves en respuestas a preguntas difíciles de la vida real. Con un esfuerzo de razonamiento medio, o3‑mini iguala el rendimiento de o1 en algunas de las evaluaciones más exigentes de razonamiento e inteligencia, incluido el AIME (Examen Americano de Matemáticas) y la GPQA (Evaluación de Física y Análisis Cuantitativo de Nivel de Posgrado).

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Conocimiento general

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Evaluación de preferencia humana

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Velocidad y rendimiento del modelo

Con una inteligencia comparable a la de OpenAI o1, OpenAI o3‑mini ofrece un rendimiento más rápido y eficiente. Más allá de las evaluaciones STEM destacadas anteriormente, o3‑mini muestra resultados superiores en evaluaciones adicionales de matemáticas y veracidad con un nivel medio de esfuerzo de razonamiento. En pruebas A/B, o3‑mini generó respuestas un 24 % más rápidas que o1‑mini, con un tiempo de respuesta promedio de 7,7 segundos frente a 10,16 segundos.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Seguridad

Una de las técnicas clave que utilizamos para enseñarle a OpenAI o3‑mini a responder de forma segura fue el alineamiento deliberativo, mediante el cual entrenamos al modelo para razonar sobre especificaciones de seguridad redactadas por humanos antes de responder a las consultas. De modo similar a OpenAI o1, o3‑mini supera significativamente a GPT‑4o en evaluaciones exigentes de seguridad y de intentos de eludir sus protecciones (jailbreak). Antes del lanzamiento, evaluamos cuidadosamente los riesgos para la seguridad de o3‑mini usando el mismo enfoque en cuanto a la preparación, el trabajo en equipos rojos externos y las pruebas de seguridad que para o1. Agradecemos a los evaluadores de seguridad que se ofrecieron para probar el modelo o3‑mini durante su fase inicial. Los datos de las evaluaciones que figuran abajo, junto con una explicación completa de los riesgos posibles y de la efectividad de nuestras medidas de mitigación, están disponibles en la tarjeta de sistema del o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

¿Qué podemos esperar?

El lanzamiento de OpenAI o3‑mini representa un nuevo avance en la misión de OpenAI de ampliar los límites de la inteligencia rentable. Al optimizar el razonamiento en las áreas STEM y mantener los costos bajos, estamos haciendo que la IA de alta calidad sea aún más accesible. Este modelo continúa nuestra trayectoria de reducción de los costos de la inteligencia: hemos reducido el precio por token en un 95 % desde el lanzamiento de GPT‑4, al tiempo que mantenemos capacidades de razonamiento de primer nivel. A medida que crece la adopción de la IA, seguimos comprometidos con liderar la vanguardia, desarrollando modelos que equilibran inteligencia, eficiencia y seguridad a gran escala.

Autores

OpenAI

Entrenamiento

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Eval

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Evaluaciones y preparación ante amenazas exteriores

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Ingeniería

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Búsqueda

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Productos

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Seguridad

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Equipo rojo externo

Lama Ahmad, Michael Lampe, Troy Peterson

Gerentes del programa de investigación

Carpus Chang, Kristen Ying

Liderazgo

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

Más todos los colaboradores de o1⁠.