18 juillet 2024

GPT‑4o mini : un modèle plus intelligent et plus économique

Notre petit modèle le plus économique

Chargement...

OpenAI met tout en œuvre pour rendre l’intelligence artificielle aussi accessible que possible. C’est dans cette optique que s’inscrit GPT‑4o mini, notre petit modèle le plus économique. Il devrait contribuer à une multiplication des applications basées sur l’IA en rendant cette technologie bien plus abordable. GPT‑4o mini atteint un score de 82 % à l’évaluation MMLU et est actuellement mieux classé que GPT‑4¹ au classement LMSYS⁠(ouverture dans une nouvelle fenêtre) des chatbots préférés des utilisateurs. Sa tarification se monte à 15 centimes par million de jetons d’entrée et à 60 centimes par million de jetons de sortie, soit bien moins que nos précédents modèles phares. Il est également plus de 60 % plus économique que GPT‑3.5 Turbo.

GPT‑4o mini est capable de réaliser de nombreuses tâches pour un coût modique et avec une latence réduite. Il convient notamment parfaitement aux applications qui exécutent une série d’appels parallèles ou séquentiels au modèle (p. ex. appels à plusieurs API), transmettent un contexte important au modèle (p. ex. base de code complète ou historique de conversation) ou interagissent avec les clients par le biais de réponse textuelles en temps réel (p. ex. chatbots de support).

GPT‑4o prend actuellement en charge le texte et la vision via l’API. Les entrées et sorties de texte, d’image, de vidéo et d’audio seront prises en charge par la suite. Le modèle dispose d’une fenêtre de contexte de 128 000 jetons, prend en charge jusqu’à 16 000 jetons de sortie par requête et dispose de connaissances actualisées en octobre 2023. Grâce au transformateur en jetons qu’il partage avec GPT‑4o, la gestion des textes dans les langues autres que l’anglais est désormais plus économique.

Un petit modèle à l’intelligence textuelle supérieure et capable de raisonnements multimodaux

GPT‑4o mini est plus performant que GPT‑3.5 Turbo et d’autres petites modèles sur des évaluations académiques portant sur l’intelligence textuelle et le raisonnement multimodal. Par ailleurs, il prend en charge les mêmes langues que GPT‑4o. Il se montre également très performant en matière d’appels de fonction, ce qui permet aux développeurs de créer des applications qui récupèrent des données ou exécutent des actions à l’aide de systèmes externes, et est plus rapide que GPT‑3.5 Turbo avec les contextes longs.

GPT‑4o mini a été mis à l’essai sur plusieurs évaluations clés².

Tâches de raisonnement : GPT‑4o mini est meilleur que les autres petits modèles sur les tâches impliquant à la fois du texte et la vision, avec un score de 82 % sur l’évaluation MMLU, une évaluation qui porte sur l’intelligence textuelle et le raisonnement, contre 77,9 % pour Gemini Flash et 73,8 % pour Claude Haiku.

Mathématiques et codage : GPT‑4o mini excelle sur les raisonnement mathématiques et les tâches de codage, et se montre plus performant que les autres petits modèles du marché. Sur MGSM, une évaluation du raisonnement mathématique, GPT‑4o mini a atteint un score de 87 %, contre 75,5 % pour Gemini Flash et 71,7 % pour Claude Haiku. GPT‑4o mini a atteint 87,2 % sur HumanEval, qui mesure les performances de codage, contre 71,5 % pour Gemini Flash et 75,9% pour Claude Haiku.

Raisonnement multimodal : GPT‑4o mini s’est également avéré solide sur MMMU, une évaluation du raisonnement multimodal, avec un score de 59,4 %, contre 56,1 % pour Gemini Flash et 50,2 % pour Claude Haiku.

Scores d’évaluation des modèles

Dans le cadre de notre processus de développement, nous avons travaillé avec quelques partenaires de confiance pour mieux comprendre les utilisations possibles et limites de GPT‑4o mini. Nous avons ainsi collaboré avec Ramp⁠(ouverture dans une nouvelle fenêtre) et Superhuman⁠(ouverture dans une nouvelle fenêtre) qui ont estimé que GPT‑4o mini était nettement plus performant que GPT‑3.5 Turbo sur des tâches comme l’extraction de données structurées provenant de factures ou la génération de réponses par e-mail de qualité à partir d’historiques de conversation.

Mesures de sécurité intégrées

Nos modèles sont pensés pour être sûrs dès leur conception, et nous renforçons cette sécurité à chaque étape de notre processus de développement. Avant l’entraînement, nous éliminons⁠(ouverture dans une nouvelle fenêtre) les informations que nous ne souhaitons pas que nos modèles apprennent ou génèrent, comme les discours haineux, les contenus pour adultes, les sites qui servent principalement à agréger des informations personnelles et le spam. Après l’entraînement, nous alignons le comportement du modèle sur nos politiques à l’aide de techniques comme l’apprentissage par renforcement à partir de rétroaction humaine (RLHF)⁠ pour améliorer la précision et la fiabilité de ses réponses.

GPT‑4o mini intègre les même mesures de sécurité que GPT‑4o⁠, que nous avons soumis à des évaluations automatiques et humaines rigoureuses, conformément à notre cadre de préparation⁠ et à nos engagements⁠. Plus de 70 experts externes dans des disciplines telles que la psychologie et la désinformation ont ainsi mis GPT‑4o à l’épreuve pour identifier les risques du modèle, risques que nous avons ensuite résolus. Nous reviendrons sur ce point plus en détail dans la fiche système de GPT‑4o. Les évaluations de ces experts nous ont permis de renforcer la sécurité de GPT‑4 et GPT‑4o mini.

Elles nous ont également permis de mettre en place de nouvelles techniques de sécurisation nées de nos recherches. GPT‑4o mini dans l’API est ainsi le premier modèle à bénéficier de notre méthode de hiérarchisation des instructions⁠(ouverture dans une nouvelle fenêtre), qui renforce sa résistance aux jailbreaks, aux injections de prompts et aux extractions de prompts système. Les réponses du modèle seront ainsi plus fiables et son utilisation dans de nombreuses applications plus sûres.

Nous continuerons à suivre l’utilisation qui est faite de GPT‑4o mini et à améliorer sa sécurité lorsque nous détecterons de nouveaux risques.

Disponibilité et tarification

GPT‑4o mini est d’ores et déjà disponible pour le texte et la vision dans les API Assistants, Chat Completions et Batch API. Il est facturé aux développeurs 15 centimes par million de jetons d'entrée et 60 centimes par million de jetons de sortie (soit l’équivalent de 2 500 pages d’un livre classique). Nous prévoyons de déployer un réglage fin de GPT‑4o min dans les jours à venir.

Les utilisateurs de ChatGPT disposant d’un forfait Free, Plus ou Team pourront accéder à GPT‑4o mini dès aujourd’hui, en remplacement de GPT‑3.5. Ceux du forfait Enterprise pourront y accéder dès la semaine prochaine, conformément à notre volonté de faire profiter toute l’humanité des avantages de l’IA.

Évolutions prévues

Au cours des dernières années, nous avons pu constater une progression remarquable de l’intelligence artificielle et une forte réduction de son coût. Le prix par jeton de GPT‑4o mini est par exemple 99 % moins élevé que celui de text-davinci-003, un modèle moins évolué sorti en 2022. Nous allons continuer à travailler sur cet axe double, à savoir la réduction des coûts et l’amélioration des capacités de nos modèles.

Nous visons un monde dans lequel nos modèles s’intègrent parfaitement à chaque application et chaque site Web. GPT‑4o mini montre le chemin aux développeurs qui souhaitent créer et déployer largement des application puissantes basées sur l’IA de manière plus efficace et économique. L’IA de demain sera plus accessible, fiable et intégrée dans nos expériences numériques quotidiennes, et nous sommes fiers d’être les pionniers de ce mouvement.

Auteur

OpenAI

Remerciements

Responsables : Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Responsable projet : Mianna Chen

Contributions répertoriées sur https://openai.com/gpt-4o-contributions/⁠

Notes de bas de page

1
En date du 18 juillet 2024, une version plus ancienne de GPT-4o mini surpasse GPT-4T 01-25.
2
Les résultats d’évaluation de GPT-4o mini proviennent de notre dépôt simple-evals⁠(ouverture dans une nouvelle fenêtre) avec le prompt du message système de l’assistant API. Concernant les modèles concurrents, nous retenons la valeur la plus élevée parmi leurs chiffres publiés (si disponibles), le classement HELM⁠(ouverture dans une nouvelle fenêtre) et notre reproduction avec simple-evals.