Présentation de gpt-oss
gpt-oss-120b et gpt-oss-20b repoussent les limites des modèles de raisonnement à poids ouvert
Nous lançons gpt-oss-120b et gpt-oss-20b — deux modèles de langage à poids ouvert à la fine pointe qui offrent de fortes performances réelles à faible coût. Disponibles sous la licence flexible Apache 2.0, ces modèles surpassent les open models de taille comparable sur les tâches de raisonnement, démontrent de solides capacités d’utilisation d’outils et sont optimisés pour un déploiement efficace sur le matériel grand public. Ils ont été formés sur la base d’un apprentissage par renforcement et de techniques liées aux modèles internes les plus avancés d’OpenAI, notamment o3 et d’autres systèmes de pointe.
Le modèle gpt-oss-120b se rapproche des performances d’OpenAI o4-mini sur les principales évaluations portant sur le raisonnement, tout en fonctionnant efficacement sur un unique GPU de 80 Go. Le modèle gpt-oss-20b offre des résultats similaires à ceux d'OpenAI o3‑mini sur les références courantes et peut fonctionner sur des appareils périphériques avec seulement 16 Go de mémoire, ce qui le rend idéal pour les cas d'utilisation sur appareil, l'inférence locale ou l'itération rapide sans infrastructure coûteuse. Les deux modèles obtiennent également d’excellents résultats en matière d’utilisation d’outils, d’appels de fonctions à partir de quelques exemples, de raisonnement avec chaîne de pensée (comme l’illustre la suite d’évaluation agentique Tau-Bench) et sur HealthBench (où ils surpassent même des modèles propriétaires tels que OpenAI o1 et GPT‑4o).
Ces modèles sont compatibles avec notre Réponses API(s'ouvre dans une nouvelle fenêtre) et sont conçus pour être utilisés dans des flux de travail agentiques avec un suivi d'instructions exceptionnel, l'utilisation d'outils comme la recherche Web ou l'exécution de code Python, ainsi que des capacités de raisonnement — y compris la capacité d'ajuster l'effort de raisonnement pour des tâches qui ne nécessitent pas de raisonnement complexe et/ou ciblent des sorties finales à très faible latence. Ils sont entièrement personnalisables, fournissent une chaîne de pensée complète (CoT) et offrent un soutien aux sorties structurées(s'ouvre dans une nouvelle fenêtre).
Nous accordons une grande importance à la sécurité des modèles que nous publions et avons particulièrement travaillé cet aspect pour nos open models. En plus de soumettre les modèles à une formation et à des évaluations complètes en matière de sécurité, nous avons également introduit une couche supplémentaire d'évaluation en testant une version de gpt-oss-120b optimisée de manière adversariale dans le cadre de notre Cadre de préparation(s'ouvre dans une nouvelle fenêtre). les modèles gpt-oss offrent des performances comparables à nos modèles de pointe sur les critères de sécurité internes, garantissant aux développeurs les mêmes normes de sécurité que nos modèles propriétaires récents. Nous partageons les résultats de ce travail et plus de détails dans un document de recherche(s'ouvre dans une nouvelle fenêtre) et dans la fiche système(s'ouvre dans une nouvelle fenêtre). Notre méthodologie a été vérifiée par des experts externes et marque une avancée dans l’établissement de nouvelles normes de sécurité pour les modèles à poids ouvert.
Nous avons également collaboré avec des partenaires initiaux tels que AI Sweden(s'ouvre dans une nouvelle fenêtre), Orange(s'ouvre dans une nouvelle fenêtre) et Snowflake(s'ouvre dans une nouvelle fenêtre) pour en apprendre davantage sur les applications concrètes de nos open models, de l’hébergement de ces modèles sur site pour la sécurité des données à leur ajustement sur des ensembles de données spécialisés. Nous sommes ravis de mettre à disposition ces open models de pointe afin de permettre à tous — des développeurs individuels aux grandes entreprises en passant par les gouvernements — d’exécuter et de personnaliser l’IA sur leur propre infrastructure. Cette nouvelle option vient compléter les modèles proposés via notre API et donne la possibilité aux développeurs d’opter pour un niveau de performance, de coût et de latence adapté aux besoins de leurs flux de travail basés sur l’IA.
Les modèles gpt-oss ont été formés en utilisant nos techniques de pré-formation et post-formation les plus avancées, avec une attention particulière portée au raisonnement, à l’efficience et à l’utilisabilité dans des conditions réelles, et ce, à travers une large gamme d’environnements de déploiement. Bien que nous ayons rendu d'autres modèles disponibles, notamment Whisper et CLIP, les modèles gpt-oss sont nos premiers modèles de language à poids ouvert depuis GPT‑2[1].
Chaque modèle est un transformateur qui exploite le mélange d'experts (MoE[2]) pour réduire le nombre de paramètres actifs nécessaires au traitement des entrées. gpt-oss-120b active 5,1 milliards de paramètres par token, tandis que gpt-oss-20b en active 3,6 milliards. Les modèles ont respectivement 117 milliards et 21 milliards de paramètres au total. Les modèles utilisent des motifs d’attention alternant entre densité et rareté localement bandée, similaires à GPT‑3[3]. Pour l'inférence et l'efficacité mémoire, les modèles utilisent également une attention multi-requêtes groupée, avec une taille de groupe de 8. Nous utilisons le Rotary Positional Embedding (RoPE[4]) pour l'encodage positionnel et prenons en charge nativement des longueurs de contexte allant jusqu'à 128 000.
Modèle | Niveaux | Nombre total de paramètres | Paramètres actifs par token | Nombre total d’experts | Experts actifs par token | Longueur du contexte |
gpt-oss-120b | 36 | 117 G | 5,1 G | 128 | 4 | 128 000 |
gpt-oss-20b | 24 | 21 G | 3,6 G | 32 | 4 | 128 000 |
Nous avons formé les modèles sur un ensemble de données principalement en anglais et uniquement textuel, en mettant l'accent sur les STEM, le codage et les connaissances générales. Nous avons tokenisé les données en utilisant un sur-ensemble de notre tokeniseur utilisé pour OpenAI o4-mini et GPT‑4o : o200k_harmony, que nous rendons également open source aujourd’hui.
Pour en savoir plus sur l'architecture et la formation de nos modèles, lisez la fiche système(s'ouvre dans une nouvelle fenêtre).
Les modèles ont été post-formés en utilisant un processus similaire à celui employé pour o4-mini, incluant une phase d'affinage supervisé et une phase d’apprentissage par renforcement très intensif en calcul. Notre objectif était d'aligner les modèles avec les spécifications des modèles OpenAI(s'ouvre dans une nouvelle fenêtre) et de leur apprendre à appliquer le raisonnement CoT et l'utilisation d'outils avant de produire leur réponse. En utilisant les mêmes techniques que nos modèles de raisonnement propriétaires de pointe, ces modèles démontrent des capacités exceptionnelles à l’issue de la phase post-formation.
Semblables aux modèles de raisonnement OpenAI o-series dans l'API, les deux modèles à poids ouverts prennent en charge trois niveaux de raisonnement (faible, moyen et élevé) qui offrent un compromis entre latence et performances. Les développeurs peuvent facilement définir le niveau de raisonnement en une simple phrase dans le message système.
Nous avons évalué gpt-oss-120b et gpt-oss-20b à l’aide d’évaluations académiques standard afin de mesurer leurs capacités en codage, mathématiques de compétition, santé et utilisation agentique d’outils, en les comparant à d’autres modèles de raisonnement d’OpenAI, notamment o3, o3‑mini et o4-mini.
gpt-oss-120b surpasse OpenAI o3‑mini et égalise ou dépasse OpenAI o4-mini en codage de compétition (Codeforces), en résolution de problèmes généraliste (MMLU et HLE) et en appel d’outils (TauBench). Il fait en outre encore mieux que o4-mini sur les requêtes liées à la santé (HealthBench) et les mathématiques de compétition (AIME 2024 et 2025). gpt-oss-20b égale ou dépasse OpenAI o3‑mini dans ces mêmes évaluations, malgré sa petite taille, et le surpasse même en mathématiques de compétition et en santé.
Les modèles GPT‑OSS ne remplacent pas un professionnel de la santé et ne sont pas destinés au diagnostic ou au traitement de maladies
Exemples de déploiements
gpt-oss-120b est capable de réunir rapidement des informations à jour à l’aide d’un outil de navigation, notamment en enchaînant des dizaines d’appels successifs.
Nos recherches récentes ont montré que surveiller la chaîne de pensée (CoT) d'un modèle de raisonnement peut être utile pour détecter les comportements anormaux, à condition que le modèle n'ait pas été entraîné avec une supervision directe pour aligner la chaîne de pensée. Ce point de vue est également partagé(s'ouvre dans une nouvelle fenêtre) par d'autres professionnels du secteur. Conformément à nos principes depuis le lancement OpenAI o1‑preview, nous n'avons appliqué aucune supervision directe sur le CoT pour aucun des deux modèles GPT‑oss. Nous pensons qu’il s’agit d’un point essentiel pour suivre les mauvais comportements, tromperies et détournements du modèle. Nous espérons que la publication d’un open model avec une chaîne de pensée non supervisée permettra aux développeurs et chercheurs de mettre au point et déployer leurs propres systèmes de surveillance CoT.
Les développeurs ne doivent pas afficher directement les CoT aux utilisateurs dans leurs applications. Ceux-ci peuvent contenir des contenus hallucinatoires ou préjudiciables, y compris des propos qui ne reflètent pas les politiques de sécurité standard d'OpenAI, et peuvent inclure des informations que le modèle est explicitement prié de ne pas inclure dans le résultat final.
gpt-oss-120b suit rigoureusement les instructions du système dans sa sortie, mais désobéit souvent explicitement aux instructions dans son CoT.
Les modèles gpt-oss bénéficient de nos approches de pointe en matière de formation de sécurité. Pendant la phase de pré-formation, nous avons éliminé certaines données nuisibles liées aux domaines chimique, biologique, radiologique et nucléaire (CBRN). Pendant la post-formation, nous avons utilisé l’alignement délibératif et la hiérarchie des instructions(s'ouvre dans une nouvelle fenêtre) pour apprendre au modèle à refuser les invites non sécurisées et à se défendre contre les injections de invites.
Une fois qu’un modèle à poids ouvert est publié, les adversaires peuvent être en mesure d’ajuster le modèle à des fins malveillantes. Nous avons évalué directement ces risques en affinant le modèle sur des données spécialisées en biologie et cybersécurité, créant ainsi une version non soumise à des règles de refus spécifique à chaque domaine, comme pourrait le faire un attaquant. Nous avons ensuite évalué le niveau de capacité de ces modèles à travers des tests internes et externes. Ces essais, tels que détaillés dans notre document de sécurité accompagnant, ont indiqué que, même avec un affinage fin robuste utilisant la pile de formation de pointe d'OpenAI, ces modèles malicieusement réglés n'étaient pas en mesure d'atteindre des niveaux de capacité élevés selon notre cadre de préparation. Cette méthodologie d'affinage malveillant a été vérifiée par trois groupes d’experts indépendants qui ont formulé des recommandations pour améliorer le processus de formation et les évaluations, dont plusieurs ont été adoptées. Nous détaillons ces recommandations dans la fiche système. Ces processus marquent un progrès notable pour la sécurité des open models. Ces résultats ont guidé notre décision de publier les modèles gpt-oss. Nous espérons que ces modèles contribueront à l’accélération de la formation à la sécurité et de la recherche sur l’alignement dans tout le secteur.
Afin de contribuer à un écosystème de source ouverte plus sécurisé, nous organisons un défi d'équipe rouge(s'ouvre dans une nouvelle fenêtre) pour encourager les chercheurs, les développeurs et les passionnés du monde entier à aider à identifier de nouveaux problèmes de sécurité. Cette initiative bénéficie d’une dotation de 500 000 $ qui sera distribuée conformément aux recommandations d’un panel d’experts provenant d’OpenAI et d’autres laboratoires de pointe. À la fin du défi, nous publierons un rapport et mettrons à disposition, sous licence open source, un jeu de données d’évaluation basé sur des résultats validés, afin que la communauté élargie puisse en bénéficier immédiatement. Pour en savoir plus et participer, cliquez ici(s'ouvre dans une nouvelle fenêtre).
Les poids de gpt-oss-120b et gpt-oss-20b peuvent être téléchargés librement sur Hugging Face et sont nativement quantifiés au format MXFP4. Le modèle gpt-oss-120B peut ainsi s’exécuter avec seulement 80 Go de mémoire et gpt-oss-20b avec seulement 16 Go.
Les modèles ont été post-formés sur notre format d'invite Harmony(s'ouvre dans une nouvelle fenêtre), et nous mettons en source ouverte un moteur de rendu Harmony(s'ouvre dans une nouvelle fenêtre) en Python et Rust pour faciliter l’adoption. Nous publions également des implémentations de référence pour l’exécution d’inférences avec PyTorch et sur la plateforme Metal d’Apple, ainsi qu’une collection d’outils exemples pour le modèle.
Nous avons conçu ces modèles dans une optique de flexibilité : ils doivent pouvoir être exécutés partout très facilement, que ce soit en local, sur un appareil ou via des fournisseurs d’inférence tiers. Pour ce soutien, nous avons établi des partenariats avant le lancement avec des plateformes de déploiement de premier plan telles que Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare et OpenRouter pour rendre les modèles largement accessibles aux développeurs. Sur le plan du matériel, nous avons travaillé avec de très grands acteurs comme NVIDIA, AMD, Cerebras et Groq pour que les performances soient optimisées sur un grand nombre de systèmes.
Dans le cadre de la publication d’aujourd’hui, Microsoft propose également des versions optimisées pour GPU du modèle gpt-oss-20b aux appareils Windows. Optimisés par ONNX Runtime, ces modèles prennent en charge l'inférence locale et sont disponibles via Foundry Local et AI Toolkit pour VS Code, ce qui facilite la création de modèles ouverts pour les développeurs Windows.
Pour les développeurs qui souhaitent disposer de modèles entièrement personnalisables qu'ils peuvent affiner et déployer dans leurs propres environnements, gpt-oss est la solution idéale. Pour ceux qui privilégient une prise en charge multimodale, des outils intégrés et une intégration parfaite à notre plateforme, les modèles accessibles via notre plateforme API restent la meilleure option. Nous restons à l’écoute des commentaires des développeurs et pourrons envisager la prise en charge de gpt-oss par l’API à l’avenir.
Si vous souhaitez essayer les modèles, rendez-vous sur notre playground open model(s'ouvre dans une nouvelle fenêtre). Pour en savoir plus sur l'utilisation des modèles avec différents fournisseurs d'écosystèmes ou sur la façon d'affiner les modèles, consultez nos guides(s'ouvre dans une nouvelle fenêtre).
La sortie de gpt-oss-120b et gpt-oss-20b marque une avancée importante pour les modèles à poids ouvert. Pour leur taille, ces modèles constituent une avancée notable à la fois sur le plan des capacités de raisonnement et de la sécurité. Les open models complètent nos modèles hébergés, offrant aux développeurs une gamme d'outils plus étendue pour accélérer la recherche de pointe, favoriser l'innovation et activer un développement de l'IA plus sécuritaire et plus transparent dans un large éventail de cas d'utilisation.
Ces open models réduisent aussi les obstacles pour les marchés émergents, les secteurs disposant de peu de ressources et les petites organisations qui peuvent manquer de budget ou de flexibilité pour adopter des modèles propriétaires. Avec des outils puissants et accessibles entre leurs mains, les gens du monde entier peuvent construire, innover et créer de nouvelles opportunités pour eux-mêmes et pour les autres. L’accès large à ces modèles de poids ouverts capables créés aux États-Unis aide à élargir les réseaux démocratiques de l’IA.
Un écosystème florissant d’open models est l’une des clés pour rendre l’IA accessible largement et bénéfique pour tous. Nous invitons les développeurs et les chercheurs à utiliser ces modèles pour expérimenter, collaborer et repousser les limites de ce qui est possible. Nous avons hâte de découvrir ce que vous allez faire.
Auteur
Citations
Contributeurs
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


