Presentación de gpt-oss
“gpt-oss-120b” y “gpt-oss-20b” amplían los límites de los modelos de razonamiento de “open-weight” (pesos abiertos)
Estamos lanzando gpt-oss-120b y gpt-oss-20b: dos modelos de lenguaje de pesos abiertos de vanguardia que brindan un excelente desempeño en la vida real a bajo costo. Disponibles con la licencia flexible Apache 2.0, estos modelos superan a otros modelos abiertos de tamaño similar en tareas de razonamiento, muestran buenas capacidades de uso de herramientas y están optimizados para la implementación eficiente de hardware de consumo. Fueron entrenados con una combinación de aprendizaje por refuerzo y técnicas inspiradas en los modelos internos más avanzados de OpenAI, incluido o3 y otros sistemas de vanguardia.
El modelo gpt-oss-120b alcanza una paridad casi total con OpenAI o4-mini en las principales evaluaciones comparativas de razonamiento, manteniendo un rendimiento eficiente con una sola GPU de 80 GB. Por su parte, el modelo gpt-oss-20b ofrece resultados similares a OpenAI o3‑mini en comparativas comunes y puede ejecutarse en dispositivos periféricos con solo 16 GB de memoria, lo que lo convierte en una solución ideal para casos de uso en el dispositivo, ejecución local de inferencias o ciclos de iteración rápida sin infraestructura costosa. Ambos modelos también presentan un rendimiento sobresaliente en el uso de herramientas, llamadas a funciones con pocos ejemplos (few-shot function calling), cadenas de pensamiento (CoT) (como se evidencia en los resultados del conjunto de evaluaciones Tau-Bench) y en HealthBench, superando incluso a modelos propietarios como OpenAI o1 y GPT‑4o.
Estos modelos son compatibles con nuestra API de Respuestas(se abre en una nueva ventana) y están diseñados para usarse en flujos de trabajo de agentes con una capacidad excepcional para seguir instrucciones, usar herramientas como la búsqueda web y la ejecución de código Python, y razonar de forma eficiente, incluida la posibilidad de ajustar el esfuerzo de razonamiento en tareas que no requieren complejidad y/o que priorizan una latencia mínima en las respuestas. Son totalmente personalizables, proporcionan una cadena de pensamiento completa y admiten salidas estructuradas(se abre en una nueva ventana).
La seguridad es un pilar fundamental en nuestro enfoque para el lanzamiento de todos nuestros modelos, y adquiere una relevancia aún mayor en el caso de los modelos abiertos. Además de someter estos modelos a rigurosas evaluaciones y entrenamientos de seguridad, incorporamos una capa adicional de revisión probando una versión de gpt-oss-120b ajustada finamente con parámetros antagónicos de acuerdo con nuestro Marco de preparación(se abre en una nueva ventana). Los modelos gpt-oss ofrecen un rendimiento comparable al de nuestros modelos de vanguardia en pruebas de referencia internas de seguridad, brindando a los desarrolladores los mismos estándares de seguridad que nuestros modelos propietarios más recientes. Compartimos los resultados de ese trabajo y más detalles en un artículo de investigación y en la tarjeta del modelo. Expertos externos revisaron nuestra metodología, lo que supone un paso adelante en el establecimiento de nuevas normas de seguridad para los modelos de “open-weight”.
Hemos colaborado con socios iniciales como Al Sweden(se abre en una nueva ventana), Orange(se abre en una nueva ventana) y Snowflake(se abre en una nueva ventana) para conocer las aplicaciones reales de nuestros modelos abiertos, desde el alojamiento de estos modelos en las instalaciones para garantizar la seguridad de los datos hasta su ajuste fino en conjuntos de datos especializados. Nos entusiasma ofrecer los mejores modelos abiertos de su clase para que todos, desde desarrolladores individuales hasta grandes empresas y gobiernos, puedan ejecutar y personalizar la IA en su propia infraestructura. Junto con los modelos disponibles en nuestra API, los desarrolladores pueden elegir el rendimiento, los costos y la latencia que necesitan para impulsar los flujos de trabajo de IA.
Los modelos gpt-oss se entrenaron con nuestras técnicas más avanzadas de entrenamiento previo y posterior, y se prestó especial atención al razonamiento, la eficiencia y al uso en el mundo real en una amplia gama de entornos de implementación. Si bien otros modelos, incluidos Whisper y CLIP, están a libre disposición, los modelos gpt-oss son nuestros primeros modelos de lenguaje de pesos abiertos desde la creación de GPT‑2[1].
Cada modelo es un transformador que aprovecha la mezcla de expertos (MoE[2]) para reducir la cantidad de parámetros activos necesarios para procesar la entrada. “gpt-oss-120b” activa 5100 millones de parámetros por token, mientras que “gpt-oss-20b” activa 3600 millones. Los modelos tienen 117 000 millones y 21 000 millones de parámetros totales, respectivamente. Los modelos usan patrones de atención alternativos densos y dispersos en bandas locales, similares a GPT‑3[3]. Para la inferencia y la eficiencia de la memoria, los modelos también usan atención de varias consultas agrupadas, con un tamaño de grupo de 8. Usamos Rotary Positional Embedding (RoPE[4]) para la codificación posicional lo que es compatibles de forma nativa con longitudes de contexto de hasta 128 000.
Modelo | Capas | Total de parámetros | Parámetros activos por token | Total de expertos | Expertos activos por token | Largo del contexto |
gpt-oss-120b | 36 | 117 000 millones | 5100 millones | 128 | 4 | 128 000 |
gpt-oss-20b | 24 | 21 000 millones | 3600 millones | 32 | 4 | 128 000 |
Entrenamos a los modelos con un conjunto de datos de alta calidad, principalmente en inglés y solo con texto, y nos centramos en las áreas STEM, de programación y conocimientos generales. Convertimos en tokens los datos con un superconjunto de nuestro tokenizador que usamos para OpenAI o4-mini y GPT‑4o: “o200k_harmony”, que también está disponible como código abierto a partir de hoy.
Para obtener más información sobre la arquitectura y el entrenamiento de nuestros modelos, lee la tarjeta del modelo.
Los modelos se entrenaron posteriormente con un proceso similar al utilizado para o4-mini, que incluye una etapa de ajuste fino supervisado y una etapa de RL de alto procesamiento. Nuestro objetivo es alinear el modelo con Especificaciones del modelo OpenAI(se abre en una nueva ventana) y enseñarle a aplicar el razonamiento de las CoT y el uso de herramientas antes de generar su respuesta. Al emplear las mismas técnicas que nuestros modelos propietarios más avanzados en razonamiento (los llamados «modelos SoTA»), estos modelos demuestran capacidades excepcionales tras el post-entrenamiento.
Al igual que los modelos de razonamiento de la serie o de OpenAI en la API, los dos modelos de pesos abiertos admiten tres niveles de esfuerzo de razonamiento (bajo, medio y alto) que compensan la latencia con el rendimiento. Los desarrolladores pueden configurar fácilmente el parámetro “reasoning_effort” con una sola frase en el mensaje del sistema.
Evaluamos gpt-oss-120b y gpt-oss-20b con evaluaciones comparativas académicas estándar para medir su rendimiento en codificación, matemáticas competitivas, salud y uso de herramientas tipo agénticas, comparándolos con otros modelos de razonamiento de OpenAI como o3, o3‑mini y o4-mini.
gpt-oss-120b supera a OpenAI o3‑mini y alcanza o incluso supera a OpenAI o4-mini en programación competitiva (Codeforces), resolución general de problemas (MMLU y HLE) y uso de herramientas (TauBench). Además, ofrece un rendimiento superior al de o4-mini en consultas relacionadas con salud (HealthBench) y matemáticas competitivas (AIME 2024 y 2025). A pesar de su menor tamaño, gpt-oss-20b iguala o supera a OpenAI o3‑mini en esas mismas evaluaciones, destacándose especialmente en matemáticas competitivas y salud.
gpt-oss models do not replace a medical professional and are not intended for the diagnosis or treatment of disease
Example rollouts
gpt-oss-120b puede agregar información actualizada con rapidez mediante herramientas de navegación, incluida la ejecución encadenada de decenas de llamadas consecutivas.
Nuestra investigación reciente ha demostrado que supervisar la cadena de pensamiento de un modelo de razonamiento puede ser útil para detectar comportamientos indebidos, siempre y cuando el modelo no se haya entrenado con supervisión directa para alinear dicha cadena. Esta perspectiva también la comparten(se abre en una nueva ventana) otros expertos del sector. En línea con nuestros principios desde el lanzamiento de OpenAI o1‑preview, no aplicamos supervisión directa sobre la cadena de pensamiento en ninguno de los modelos gpt-oss. Creemos que esto es fundamental para poder supervisar conductas indebidas, engaños y posibles usos maliciosos del modelo. Esperamos que, al liberar un modelo abierto sin cadenas de pensamiento supervisadas, los desarrolladores e investigadores tengan la oportunidad de investigar e implementar sus propios sistemas de supervisión de la cadena de pensamiento.
Los desarrolladores no deberían mostrar directamente las cadenas de pensamiento a los usuarios en sus aplicaciones. Pueden contener contenido alucinado o perjudicial, incluido lenguaje que no refleje las políticas de seguridad estándar de OpenAI, y pueden incluir información que se le ha pedido explícitamente al modelo que no incluya en el resultado final.
gpt-oss-120b sigue con rigurosidad las instrucciones de sistema en su salida, pero con frecuencia desobedecerá de manera explícita las instrucciones de su cadena de pensamiento.
Los modelos gpt-oss aprovechan nuestros enfoques de vanguardia para el entrenamiento en materia de seguridad. Durante el entrenamiento previo, filtramos ciertos datos perjudiciales relacionados con sustancias químicas, biológicas, radiológicas y nucleares (CBRN). Durante el entrenamiento posterior, utilizamos la alineación deliberada y la jerarquía de instrucciones(se abre en una nueva ventana) para enseñar al modelo a rechazar indicaciones poco seguras y defenderse contra las inyecciones de mensajes.
Una vez que se publica un modelo de pesos abiertos, los adversarios pueden hacer un ajuste fino del modelo con fines maliciosos. Evaluamos directamente estos riesgos mediante el ajuste fino del modelo con datos especializados de biología y ciberseguridad, y creamos una versiones que no rechazan solicitudes en cada dominio específico, tal y como lo haría un atacante. Estas pruebas indicaron que, incluso con un ajuste fino extremadamente sólido que aprovechaba la pila de entrenamiento líder en el sector de OpenAI, estos modelos optimizados con fines maliciosos no pudieron alcanzar altos niveles de capacidad según nuestro Marco de preparación. Tres grupos de expertos independientes revisaron esta metodología de ajuste fino malicioso y formularon recomendaciones para mejorar el proceso de entrenamiento y las evaluaciones, muchas de las cuales adoptamos. Estas recomendaciones se detallan en la tarjeta del modelo. Estos procesos suponen un avance importante para la seguridad de los modelos abiertos. Estos hallazgos reafirmaron nuestra decisión de lanzar los modelos gpt-oss. Esperamos que estos modelos ayuden a acelerar el entrenamiento en materia de seguridad y la investigación sobre la alineación en todo el sector.
Para contribuir a un ecosistema de código abierto más seguro, organizamos un Desafío de equipos rojos(se abre en una nueva ventana) con el fin de motivar a investigadores, desarrolladores y aficionados de todo el mundo a ayudar a identificar nuevos problemas relacionados con la seguridad. El desafío cuenta con un premio de $500 000 que se otorgará en función de la evaluación de un panel de jueces expertos de OpenAI y de otros laboratorios líderes. Al final del desafío, publicaremos un informe y el código abierto de un conjunto de datos de evaluación basados en los hallazgos validados, para que la comunidad en general pueda beneficiarse de inmediato. Obtén más información y participa aquí(se abre en una nueva ventana).
Los “weights” (pesos), tanto para “gpt-oss-120b” como para “gpt-oss-20b”, se pueden descargar de forma gratuita en Hugging Face y se cuantifican de forma nativa en MXFP4. Esto permite que el modelo “gpt-oss-120b” se ejecute con una memoria de 80 GB, mientras que “gpt-oss-20b” solo requiere 16 GB.
Los modelos se entrenaron posteriormente en nuestro formato de “prompt” Harmony(se abre en una nueva ventana), y estamos publicando en código abierto un representador Harmony(se abre en una nueva ventana) tanto en Python como en Rust para facilitar la adopción. También lanzaremos implementaciones de referencia para ejecutar la inferencia con PyTorch y en la plataforma Metal de Apple, junto con una colección de herramientas de ejemplo para el modelo.
Diseñamos estos modelos para que sean flexibles y fáciles de ejecutar en cualquier lugar: ya sea de forma local, en dispositivos o a través de proveedores de inferencia de terceros. Para ello, nos asociamos antes del lanzamiento con plataformas de implementación líderes como Hugging Face, Azure, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare y OpenRouter para que los desarrolladores puedan acceder a los modelos con facilidad. En cuanto al hardware, trabajamos con líderes del sector, como NVIDIA, AMO, Cerebras y Groq, para garantizar un rendimiento optimizado en una amplia gama de sistemas.
Como parte del lanzamiento de hoy, Microsoft también está incorporando versiones optimizadas para GPU del modelo gpt-oss-20b en dispositivos con Windows. Impulsados por ONNX Runtime, estos modelos permiten realizar inferencia local y están disponibles a través de Foundry Local y el AI Toolkit para VS Code, facilitando así el desarrollo con modelos abiertos en el ecosistema Windows.
Para los desarrolladores que desean modelos totalmente personalizables que puedan hacer un ajuste fino e implementar en sus propios entornos, gpt-oss es una opción ideal. Para aquellos que buscan soporte multimodal, herramientas integradas y una integración perfecta con nuestra plataforma, los modelos disponibles a través de nuestra plataforma API siguen siendo la mejor opción. Seguimos escuchando atentamente los comentarios de los desarrolladores, y es posible que consideremos la posibilidad de ofrecer soporte API para gpt-oss en el futuro.
Si quieres probar los modelos, dirígete a nuestra herramienta de pruebas de modelos abiertos(se abre en una nueva ventana). Para obtener más información sobre cómo utilizar los modelos con diferentes proveedores de ecosistemas o cómo hacerles un ajuste fino, consulta nuestras guías(se abre en una nueva ventana).
El lanzamiento de “gpt-oss-120b” y “gpt-oss-20b” supone un importante avance para los modelos de pesos abiertos. Dado su tamaño, estos modelos ofrecen avances significativos tanto en capacidad de razonamiento como en seguridad. Al agregar estos modelos abiertos a nuestra oferta de API existente, nuestro objetivo es acelerar la investigación de vanguardia, fomentar la innovación y permitir un desarrollo de la IA más seguro y transparente en una amplia gama de casos de uso.
Estos modelos abiertos también reducen los obstáculos para los mercados emergentes, los sectores con recursos limitados y las organizaciones más pequeñas que pueden carecer del presupuesto o la flexibilidad necesarios para adoptar modelos patentados. Al disponer de herramientas potentes y accesibles, personas de todo el mundo pueden construir, innovar y crear nuevas oportunidades para sí mismas y para los demás. El acceso amplio a modelos potentes con pesos abiertos creados en EE. UU. contribuye a ampliar las bases democráticas de la IA.
Contar con un ecosistema saludable de modelos abiertos es una de las dimensiones clave para garantizar que la inteligencia artificial sea accesible y beneficiosa para todos. Estamos lanzando nuestros propios modelos abiertos para explorar cómo podemos contribuir a este ecosistema, y si las fortalezas y las ventajas de estos modelos justifican que OpenAI invierta en modelos abiertos en el futuro. Si estás construyendo con nuestros modelos abiertos, tus comentarios sobre sus fortalezas y aplicaciones reales jugarán un papel clave para guiar nuestras decisiones.
Invitamos a desarrolladores e investigadores a usar estos modelos para experimentar, colaborar y ampliar los límites de lo posible. Estamos deseando ver qué construyes.
Autor
Citas
Contributors
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark y Adam Goucher


