31 de enero de 2025

OpenAI o3‑mini

Ampliamos los límites del razonamiento eficiente.

Cargando…

Vamos a lanzar OpenAI o3‑mini, el modelo más reciente y rentable de nuestra serie de razonamiento, ya disponible en ChatGPT y en la API. Presentado en diciembre de 2024⁠, este modelo rápido y potente lleva más allá los límites de lo que pueden hacer los modelos pequeños. Ofrece un rendimiento excepcional en disciplinas STEM, con especial dominio en ciencia, matemáticas y programación, y mantiene el bajo coste y la baja latencia de OpenAI o1‑mini.

OpenAI o3‑mini es nuestro primer modelo razonador pequeño que incorpora funciones muy solicitadas por desarrolladores, como llamadas a funciones⁠(se abre en una ventana nueva), resultados estructurados⁠(se abre en una ventana nueva) y mensajes para desarrolladores⁠(se abre en una ventana nueva), lo que lo hace apto para producción desde el primer momento. Al igual que OpenAI o1‑mini y OpenAI o1‑preview, o3‑mini ofrecerá compatibilidad con streaming⁠(se abre en una ventana nueva). Los desarrolladores tienen ahora la posibilidad de elegir entre tres niveles de razonamiento⁠(se abre en una ventana nueva): bajo, medio o alto, para optimizarlo según sus necesidades. Gracias a su flexibilidad, o3‑mini puede «pensar mejor» al abordar retos complejos o centrarse en la velocidad cuando lo que importa es reducir la latencia. Este modelo no cuenta con capacidades de visión, así que para tareas que requieran razonamiento visual, los desarrolladores deben seguir utilizando OpenAI o1. A partir de hoy, o3‑mini se empieza a activar en las API de finalizaciones de chat, asistentes y procesamiento por lotes para desarrolladores seleccionados en los niveles de uso 3 a 5⁠(se abre en una ventana nueva).

Los usuarios de ChatGPT Plus, Team y Pro pueden acceder a OpenAI o3‑mini desde hoy, y el acceso para clientes Enterprise llegará en febrero. o3‑mini sustituirá a OpenAI o1‑mini en el selector de modelos, ofreciendo límites de uso más amplios y menor latencia, lo que lo convierte en una opción muy atractiva para tareas de programación, disciplinas STEM y resolución lógica de problemas. Como parte de esta mejora, triplicamos el límite de uso para los usuarios de Plus y Team: pasan de 50 mensajes al día con o1‑mini a 150 mensajes diarios con o3‑mini. Además, o3‑mini ahora incorpora búsqueda para encontrar información actualizada y enlazarla con fuentes fiables en Internet. Se trata de una versión preliminar, ya que seguimos trabajando para incorporar la búsqueda en todos nuestros modelos razonadores.

Desde hoy, los usuarios del plan gratuito también pueden probar OpenAI o3‑mini seleccionando «Razonar» en el redactor de mensajes o al regenerar una respuesta. Por primera vez, los usuarios del plan gratuito pueden acceder a un modelo razonador en ChatGPT.

OpenAI o1 sigue siendo nuestro modelo razonador más completo, pero OpenAI o3‑mini está pensado para quienes necesitan precisión y velocidad en contextos técnicos. En ChatGPT, o3‑mini utiliza un nivel medio de razonamiento para ofrecer un equilibrio óptimo entre velocidad y precisión. Los usuarios con suscripción tendrán acceso a o3‑mini‑high, una versión más inteligente del modelo, disponible en el selector, que ofrece respuestas más elaboradas aunque algo más lentas. Los usuarios del plan Pro tendrán acceso ilimitado tanto a o3‑mini como a o3‑mini‑high.

Velocidad, potencia y precisión para el razonamiento STEM

Al igual que el predecesor, OpenAI o1, el modelo o3‑mini está optimizado para el razonamiento STEM. Con un nivel medio de razonamiento, o3‑mini iguala el rendimiento de o1 en matemáticas, programación y ciencia, pero con respuestas más rápidas. Según pruebas realizadas por expertos, o3‑mini supera a OpenAI o1‑mini con respuestas más claras, precisas y un razonamiento más sólido. El 56 % de los evaluadores eligieron las respuestas de o3‑mini por encima de o1‑mini y se redujeron los errores graves en un 39 % al enfrentarse a preguntas complejas del mundo real. Con un nivel medio de razonamiento, o3‑mini iguala el rendimiento de o1 en algunas de las evaluaciones más exigentes de inteligencia y razonamiento, como AIME y GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Conocimientos generales

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Evaluación de la preferencia humana

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Velocidad y rendimiento del modelo

Con una inteligencia comparable a la de OpenAI o1, OpenAI o3‑mini ofrece un rendimiento más rápido y una eficiencia mejorada. Además de destacar en las evaluaciones STEM, o3‑mini logra un rendimiento superior en pruebas adicionales de matemáticas y veracidad, incluso con un razonamiento medio. En pruebas A/B, o3‑mini ofreció respuestas un 24 % más rápidas que o1‑mini, con un tiempo medio de respuesta de 7,7 segundos frente a los 10,16 segundos de o1‑mini.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Seguridad

Entre las principales técnicas aplicadas para mejorar la seguridad de las respuestas de o3‑mini se encuentra la alineación deliberativa, mediante la cual el modelo aprende a razonar sobre directrices de seguridad escritas por humanos antes de generar una respuesta. De forma similar a OpenAI o1, o3‑mini ofrece un rendimiento significativamente superior al de GPT‑4o en pruebas complejas de seguridad y protección contra evaluaciones de jailbreak. Antes de su lanzamiento, analizamos en detalle los riesgos de seguridad de o3‑mini aplicando el mismo protocolo de preparación, pruebas externas de seguridad y evaluaciones que se empleó con o1. Queremos agradecer a los examinadores de seguridad que participaron en la fase de acceso anticipado de o3‑mini. Los detalles de las evaluaciones que se presentan a continuación, junto con una explicación completa de los posibles riesgos y la eficacia de nuestras medidas de mitigación, están disponibles en la tarjeta del sistema de o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

¿Y ahora qué?

El lanzamiento de OpenAI o3‑mini representa un nuevo avance en la misión de OpenAI por ampliar los límites de la inteligencia accesible y rentable. La mejora del razonamiento en dominios STEM, combinada con un bajo coste, nos permite ofrecer inteligencia artificial de alta calidad de forma más accesible. Con este modelo seguimos avanzando en la reducción del coste de la inteligencia: con una caída del 95 % en el precio por token desde que lanzamos GPT‑4, sin comprometer la calidad del razonamiento. Con la expansión del uso de la inteligencia artificial, reafirmamos nuestro compromiso de liderar la vanguardia, desarrollando modelos que combinen inteligencia, eficiencia y seguridad a gran escala.

Autores

OpenAI

Entrenamiento

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao y Ted Sanders

Evaluación

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois y Yu Bai

Evaluaciones y preparación del futuro

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino y Tejal Patwardhan

Ingeniería

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan y Trevor Creech

Búsqueda

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth y Zewei Chu

Producto

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa y Olivier Godement

Seguridad

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li y Yunyun Wang

Equipos rojos externos

Lama Ahmad, Michael Lampe y Troy Peterson

Gestores del programa de investigación

Carpus Chang y Kristen Ying

Liderazgo

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman y Wojciech Zaremba

+ el resto de colaboradores detrás del modelo o1⁠.