Passer au contenu principal
OpenAI

17 mars 2026

EntrepriseProduit

Présentation de GPT‑5.4 mini et nano

Des modèles rapides et efficaces optimisés pour la programmation et les sous-agents

Chargement...

Aujourd'hui, nous lançons GPT‑5.4 mini et nano, nos petits modèles les plus performants à ce jour. Ils apportent de nombreux atouts de GPT‑5.4 à des modèles plus rapides et plus efficaces, conçus pour des charges de travail à gros volume.

GPT‑5.4 mini est une version nettement améliorée de GPT‑5 mini en matière de code, de raisonnement, de compréhension multimodale et d’utilisation d’outils, tout en étant plus de deux fois plus rapide. Il se rapproche également des performances du modèle plus grand GPT‑5.4 sur plusieurs évaluations, notamment SWE-Bench Pro et OSWorld-Verified.

GPT‑5.4 nano est la version la plus petite et la moins chère de GPT‑5.4 elle est dédiée aux tâches pour lesquelles la vitesse et le coût comptent le plus. Il s’agit également d’une amélioration significative de la version GPT‑5 nano. Nous le recommandons pour la classification, l’extraction de données, le classement et les sous-agents de programmation qui gèrent des tâches de support plus simples.

Ces modèles sont conçus pour les charges de travail où la latence influence directement l’expérience produit  : assistants de codage réactifs, sous-agents exécutant rapidement des tâches de support, systèmes capables de capturer et d’interpréter des captures d’écran, et applications multimodales qui raisonnent sur des images en temps réel. Dans ces contextes, le meilleur modèle n’est souvent pas le plus grand  : c’est celui qui peut répondre rapidement, utiliser les outils de manière fiable et rester performant sur des tâches professionnelles complexes.

GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
SWE-Bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%
Toolathlon54.6%42.9%35.5%26.9%
GPQA Diamond93.0%88.0%82.8%81.6%
OSWorld-Verified75.0%72.1%39.0%42.0%

1 Le niveau reasoning_effort le plus élevé disponible pour GPT‑5 mini est 'élevé'.

Voici ce que nos clients pensent après avoir testé GPT‑5.4 mini et nano dans leurs flux de travail :

« GPT-5.4 mini offre de solides performances de bout en bout pour un modèle de cette catégorie. Lors de nos évaluations, il a égalé ou dépassé des modèles concurrents sur plusieurs tâches de génération et de rappel des citations, à un coût nettement inférieur. Il a également atteint des taux de réussite de bout en bout plus élevés et une attribution des sources plus fiable que le plus grand modèle GPT-5.4. »
— Aabhas Sharma, CTO chez Hebbia

Programmation

GPT‑5.4 mini et nano sont particulièrement efficaces dans les flux de travail de programmation qui bénéficient d’itérations rapides. Les modèles gèrent les modifications ciblées, la navigation dans le codebase, la génération front-end et les boucles de débogage avec une faible latence, ce qui en fait un bon choix pour des tâches de code devant être exécutées plus rapidement et à moindre coût.

Dans les benchmarks, GPT‑5.4 mini surpasse systématiquement GPT‑5 mini à latence comparable et se rapproche des taux de réussite de GPT‑5.4 tout en étant beaucoup plus rapide, offrant l’un des meilleurs compromis performance-latence pour les flux de travail de développement.

Nous estimons la latence en observant le comportement de nos modèles en production et en simulant cette latence hors ligne. L’estimation de la latence tient compte de la durée des appels d’outils (temps d’exécution du code), des tokens générés et des tokens en entrée. La latence en conditions réelles peut varier considérablement et dépend de nombreux facteurs qui ne sont pas pris en compte dans notre simulation. De même, les coûts sont estimés sur la base de la tarification de l’API de ces modèles au moment de la rédaction. Les coûts peuvent changer à l’avenir. Les niveaux de raisonnement ont été évalués de faible à très élevé.

Sous-agents

GPT‑5.4 mini convient également très bien aux systèmes qui combinent des modèles de tailles différentes. Dans Codex, par exemple, un modèle plus grand comme GPT‑5.4 peut gérer la planification, la coordination et la décision finale, tout en déléguant à des sous-agents GPT‑5.4 mini qui prennent en charge des sous-tâches plus ciblées en parallèle—comme rechercher dans une base de code, examiner un fichier volumineux ou traiter des documents complémentaires. Découvrez comment les sous-agents fonctionnent dans Codex dans la documentation(ouverture dans une nouvelle fenêtre).

Ce schéma devient plus utile alors que les modèles plus petits deviennent plus rapides et plus performants. Au lieu d’utiliser un seul modèle pour tout, les développeurs peuvent concevoir des systèmes où les modèles plus grands décident quoi faire et où les modèles plus petits exécutent rapidement les tâches à grande échelle. GPT‑5.4 mini est notre mini modèle le plus puissant à ce jour pour ce type de flux de travail.

Utilisation d’un ordinateur

GPT‑5.4 mini est également performant sur les tâches multimodales, en particulier celles liées à l’utilisation de l’ordinateur. Le modèle peut interpréter rapidement des captures d’écran d’interfaces utilisateur complexes afin d’exécuter des tâches d’utilisation de l’ordinateur avec rapidité. Sur OSWorld-Verified, GPT‑5.4 mini se rapproche de GPT‑5.4 tout en surpassant nettement GPT‑5 mini.

Disponibilité et tarification

GPT‑5.4 mini est disponible dès aujourd'hui dans API, Codex et ChatGPT.

Dans API, GPT‑5.4 mini prend en charge les entrées de texte et d'image, l'utilisation d'outils, l'appel de fonction, la recherche web, la recherche de fichiers, l'utilisation d'un ordinateur et les compétences. Il dispose d'une fenêtre de contexte de 400k et coûte $0.75 par 1M de tokens en entrée et $4.50 par 1M de tokens en sortie.

Dans Codex, GPT‑5.4 mini est disponible dans l’application Codex, le CLI, l’extension IDE et sur le web. Il n’utilise que 30 % du quota GPT‑5.4, ce qui permet aux développeurs de traiter rapidement des tâches de code plus simples dans Codex pour environ un tiers du coût. Codex peut également déléguer à des sous-agents GPT‑5.4 mini afin que les tâches nécessitant moins de raisonnement soient exécutées sur un modèle moins coûteux.

Dans ChatGPT, GPT‑5.4 mini est disponible pour les utilisateurs Free et Go via la fonctionnalité « Thinking » du menu +. Pour tous les autres utilisateurs, GPT‑5.4 mini est disponible comme solution de repli en cas de limitation de débit pour GPT‑5.4 Thinking.

GPT‑5.4 nano est uniquement disponible via l’API et coûte 0,20 $ par million de tokens en entrée et 1,25 $ par million de tokens en sortie.

Pour plus d’informations sur les mesures de protection des modèles, veuillez consulter l’addendum à la fiche système sur notre Centre de sécurité du déploiement(ouverture dans une nouvelle fenêtre).

Coding
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
SWE-bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%
Tool-calling
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
MCP Atlas67.2%57.7%56.1%47.6%
Toolathlon54.6%42.9%35.5%26.9%
τ2-bench (telecom)98.9%93.4%92.5%74.1%
Intelligence
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
GPQA Diamond93.0%88.0%82.8%81.6%
HLE w/ tool52.1%41.5%37.7%31.6%
HLE w/o tools39.8%28.2%24.3%18.3%
MM / Vision / CUA
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OSWorld-Verified75.0%72.1%39.0%42.0%
MMMUPro w/ Python81.5%78.0%69.5%74.1%
MMMUPro81.2%76.6%66.1%67.5%
OmniDocBench 1.5 (no tools)² — lower is better0.1090.12630.24190.1791
Long context
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K86.0%47.7%44.2%35.1%
OpenAI MRCR v2 8-needle 128K–256K79.3%33.6%33.1%19.4%
Graphwalks BFS 0K–128K93.1%76.3%73.4%73.4%
Graphwalks parents 0–128K (accuracy)89.8%71.5%50.8%64.3%

1 Le niveau reasoning_effort le plus élevé disponible pour GPT‑5 mini est 'élevé'.

2 Distance d’édition globale. OmniDocBench a été exécuté avec `reasoning_effort` défini sur ’none’, afin de refléter des performances à faible coût et à faible latence.

Auteur

OpenAI