Passer au contenu principal
OpenAI

Présentation de GPT‑5.3‑Codex‑Spark

Un modèle ultrarapide pour la programmation en temps réel dans Codex.

Chargement…

Aujourd’hui, nous lançons une préversion de GPT‑5.3‑Codex‑Spark, une version allégée de GPT‑5.3‑Codex, et notre premier modèle conçu pour la programmation en temps réel. Codex-Spark marque la première étape de notre partenariat avec Cerebras, annoncé en janvier. Codex-Spark est optimisé pour offrir une réactivité quasi instantanée lorsqu’il est utilisé sur du matériel à très faible latence, délivrant plus de 1 000 tokens par seconde tout en restant très performant pour des tâches de programmation en conditions réelles.

Nous partageons Codex-Spark sur Cerebras en préversion avec les utilisateurs de ChatGPT Pro, afin que les développeurs puissent commencer à expérimenter tôt. En parallèle, nous collaborons avec Cerebras pour augmenter la capacité des centres de données, renforcer la robustesse de l’expérience utilisateur globale et déployer nos modèles de pointe plus avancés.

Nos derniers modèles de pointe ont démontré une forte capacité à exécuter des tâches longues et à fonctionner de façon autonome pendant plusieurs heures, plusieurs jours, voire plusieurs semaines sans intervention. Codex-Spark est notre premier modèle conçu spécifiquement pour travailler avec Codex en temps réel, apporter des modifications ciblées, ajuster la logique ou affiner les interfaces, et voir les résultats immédiatement. Avec Codex-Spark, Codex prend désormais en charge à la fois les tâches longues et ambitieuses, et le travail en direct. Nous espérons apprendre de la manière dont les développeurs l’utilisent et intégrer leurs commentaires à mesure que nous continuons à élargir l’accès.

Au lancement, Codex-Spark dispose de 128k de contexte et est uniquement basé sur du texte. Pendant la période de préversion, Codex-Spark aura ses propres limites de débit, et l’utilisation ne sera pas comptabilisée dans les limites standard. Cependant, lorsque la demande est élevée, vous pouvez constater un accès limité ou une mise en file d’attente temporaire, afin que nous puissions maintenir une fiabilité équitable entre les utilisateurs.

Vitesse et intelligence

Codex-Spark est optimisé pour le travail interactif où la latence est aussi importante que l’intelligence. Vous pouvez collaborer avec le modèle en temps réel, l’interrompre ou le réorienter pendant qu’il travaille, et itérer rapidement avec des réponses quasi instantanées. Parce qu’il est optimisé pour la vitesse, Codex-Spark conserve par défaut un style de travail léger : il effectue des modifications minimales et ciblées, et n’exécute pas automatiquement les tests, sauf si vous le demandez.

Codage

Codex-Spark est un petit modèle très performant, optimisé pour une inférence rapide. Sur SWE-Bench Pro et Terminal-Bench 2.0, deux tests de performance évaluant les capacités agentives en ingénierie logicielle, GPT‑5.3‑Codex‑Spark est moins performant que GPT‑5.3‑Codex, mais peut accomplir la tâche en une fraction du temps.

La durée correspond à la somme de (1) la durée de génération de la sortie (tokens de sortie ÷ vitesse d’échantillonnage), (2) la durée de préremplissage (tokens de préremplissage ÷ vitesse de préremplissage), (3) la durée totale d’exécution des outils et (4) la surcharge réseau totale.

Améliorations de la latence pour tous les modèles

Pendant l’entraînement de Codex-Spark, il est apparu que la vitesse du modèle n’était qu’une partie de l’équation pour une collaboration en temps réel, nous devions aussi réduire la latence sur l’ensemble du pipeline requête-réponse. Nous avons apporté des améliorations de bout en bout sur l’ensemble du pipeline requête-réponse qui bénéficieront à tous les modèles. Sous le capot, nous avons simplifié la manière dont les réponses sont transmises du client au serveur puis en retour, réécrit des éléments clés de notre pile d’inférence et revu l’initialisation des sessions pour que le premier token visible apparaisse plus vite et que Codex reste réactif au fil des itérations. Grâce à l’introduction d’une connexion WebSocket persistante et à des optimisations ciblées au sein de l’API Responses, nous avons réduit la surcharge par aller-retour client/serveur de 80 %, la surcharge par token de 30 % et le délai avant le premier token de 50 %. Le chemin WebSocket est activé par défaut pour Codex-Spark et deviendra bientôt le paramètre par défaut pour tous les modèles.

Propulsé par Cerebras

Codex-Spark s’exécute sur le Wafer Scale Engine 3(s'ouvre dans une nouvelle fenêtre) de Cerebras, un accélérateur d’IA conçu spécialement pour l’inférence à grande vitesse, offrant à Codex une couche de service optimisée pour la latence. Nous nous sommes associés à Cerebras pour ajouter ce chemin à faible latence à la même infrastructure de service en production que le reste de notre flotte, afin qu’il fonctionne de façon fluide dans tout Codex et nous prépare à prendre en charge les futurs modèles.

« Ce qui nous enthousiasme le plus avec GPT-5.3-Codex-Spark, c’est de collaborer avec OpenAI et la communauté des développeurs pour découvrir ce que permet une inférence rapide : de nouveaux schémas d’interaction, de nouveaux cas d’usage et une expérience du modèle fondamentalement différente. Cette préversion n’est que le début. »
— Sean Lie, directeur de la technologie et cofondateur de Cerebras

Les GPU demeurent essentiels dans nos pipelines d’entraînement et d’inférence, offrant le meilleur rapport coût-performance pour les tokens à grande échelle. Cerebras complète cette base en excellant sur les flux de travail qui exigent une latence extrêmement faible, ce qui rend Codex plus réactif lors des itérations. Les GPU et Cerebras peuvent être utilisés ensemble pour certaines charges de travail, afin d’obtenir de meilleures performances.

Disponibilité et détails

Codex-Spark sort aujourd’hui en préversion pour les utilisateurs de ChatGPT Pro, dans les dernières versions de l’application Codex, du CLI et de l’extension VS Code. Comme il s’exécute sur du matériel spécialisé à faible latence, l’usage est régi par une limite d’utilisation distincte, susceptible d’évoluer en fonction de la demande pendant la phase de préversion. De plus, nous mettons Codex-Spark à disposition dans l’API pour un petit nombre de partenaires pilotes afin de comprendre comment les développeurs souhaitent intégrer Codex-Spark à leurs produits. Nous élargirons l'accès au cours des prochaines semaines, tout en continuant à ajuster notre intégration sous des charges de travail réelles.

Codex-Spark est actuellement uniquement textuel, avec 128k de contexte, et constitue le premier d’une famille de modèles ultrarapides. À mesure que nous en apprendrons davantage avec la communauté des développeurs sur les cas où les modèles rapides excellent pour la programmation, nous introduirons encore plus de fonctionnalités, notamment des modèles plus grands, des longueurs de contexte plus étendues et des entrées multimodales.

Codex-Spark bénéficie du même entraînement à la sécurité que nos modèles de référence, y compris un entraînement spécifique à la cybersécurité. Nous avons évalué Codex-Spark dans le cadre de notre processus de déploiement standard, qui inclut des évaluations de référence pour les capacités en cybersécurité et autres, et nous avons déterminé qu’il n’a pas de probabilité réaliste d’atteindre le seuil de notre cadre de préparation pour un haut niveau de capacité en cybersécurité ou en biologie.

Évolutions prévues

Codex-Spark est la première étape vers un Codex doté de deux modes complémentaires : le raisonnement et l’exécution sur un horizon plus long, et la collaboration en temps réel pour une itération rapide. Au fil du temps, ces modes se combineront : Codex restera réactif dans l’échange, tout en confiant en arrière-plan des travaux de plus longue durée à des sous-agents, ou en distribuant les tâches en parallèle sur plusieurs modèles quand vous avez besoin de vitesse et de couverture, afin de ne pas avoir à choisir un mode unique dès le départ.

À mesure que les modèles gagnent en capacités, la vitesse d’interaction devient un goulot d’étranglement. Une inférence ultrarapide accélère l’interaction, rendant Codex plus naturel à utiliser et élargissant le champ des possibles pour toute personne transformant une idée en un logiciel fonctionnel.

Auteur

OpenAI