L’apprentissage du raisonnement avec les LLM
Voici OpenAI o1, un nouveau LLM entraîné par apprentissage par renforcement et capable de suivre des raisonnements complexes. o1 prend le temps de la réflexion : il peut produire une longue chaîne de pensée interne avant de formuler sa réponse.
OpenAI o1 atteint le 89ᵉ percentile aux questions de programmation compétitive (Codeforces), figure parmi les 500 meilleurs étudiants aux États-Unis lors des qualifications pour l’Olympiade de mathématiques américaine (AIME) et dépasse la précision humaine de niveau doctorat sur un référentiel de problèmes en physique, biologie et chimie (GPQA). Si le travail nécessaire pour rendre ce nouveau modèle aussi simple d’utilisation que les modèles actuels est toujours en cours, nous en publions une première version, OpenAI o1‑preview, disponible immédiatement dans ChatGPT et pour les utilisateurs API de confiance(ouverture dans une nouvelle fenêtre).
Notre algorithme d’apprentissage par renforcement à grande échelle apprend au modèle à réfléchir de manière productive en utilisant sa chaîne de pensée au sein d’un processus d’entraînement très économe en données. Nous avons constaté que les performances d’o1 s’améliorent à mesure que l’apprentissage par renforcement (ressources de calcul consacrées à l’entraînement) et que le temps qu’il consacre à sa réflexion (ressources de calcul consacrées à l’inférence) augmentent. Les contraintes de montée en puissance de cette approche sont très différentes de celles qui touchent le pré-entraînement des LLM, et nous sommes encore en train de les étudier.

La performance d’o1 augmente avec les ressources de calcul consacrées à l’entraînement et à l’inférence.
Pour mettre en évidence les améliorations de ces modèles en matière de raisonnement par rapport à GPT‑4o, nous les avons testés sur diverses évaluations humaines et de machine learning. o1 se montre bien plus performant que GPT‑4o sur la vaste majorité de ces tâches, qui demandent une forte capacité de raisonnement. Sauf mention contraire, nous avons évalué o1 avec le paramètre de ressources de calcul d’inférence maximal.







Sur de nombreuses évaluations impliquant de fortes capacités de raisonnement, o1 approche des performances d’experts humains. Les modèles de pointe récents1 se montrent si performants sur les évaluations MATH2 et GSM8K que celles-ci ne permettent plus de les différencier. Nous avons évalué les performances en mathématiques des modèles à l’aide d’AIME, un examen destiné aux élèves de mathématiques les plus brillants des États-Unis. Sur la version 2024 de cet examen, GPT‑4o n’a pu résoudre que 12 % des problèmes en moyenne (1,8/15), contre 74 % (11,1/15) pour o1 avec une seule réponse par problème et 83 % (12,5/15) avec choix de la réponse majoritaire parmi 64 réponses générées et 93 % (13,9/15) après classement de 1 000 réponses avec une fonction entraînée pour la notation. Avec 13,9, il se place parmi les 500 meilleurs élèves du pays et au-delà du seuil d’admission à l’Olympiade de mathématiques des États-Unis.
Nous avons également évalué o1 sur GPQA diamond, une évaluation complexe de l’intelligence portant sur la chimie, la physique et la biologie. Pour comparer nos modèles à des êtres humains, nous avons recruté des détenteurs d’un doctorat dans la discipline évaluée pour répondre aux questions de GPQA-diamond. Nous avons constaté qu’o1 se montrait plus performant que ces experts, une première pour un modèle sur cette évaluation. Ces résultats ne signifient pas qu’o1 est plus compétent qu’un doctorant sur tous les aspects, mais seulement que notre modèle est plus doué pour résoudre certains problèmes à la portée d’un doctorant. Sur plusieurs autres évaluations de machine learning, o1 a atteint des scores supérieurs aux références actuelles. Lorsque ses capacités de vision sont activées, il atteint par exemple 78,2 % sur MMMU, ce qui en fait le premier modèle à s’approcher des experts humains. Il s’est également montré plus performant que GPT‑4o sur 54 des 57 sous-catégories de MMLU.
Comme un humain peut réfléchir un long moment avant de répondre à une question complexe, o1 s’appuie sur une chaîne de pensée pour résoudre un problème. Grâce à l’apprentissage par renforcement, il apprend à affiner sa chaîne de pensée et les stratégies qu’il utilise. Il apprend à reconnaître et corriger ses erreurs. Il apprend à décomposer les étapes complexes en étapes plus simples. Il apprend à essayer une nouvelle approche lorsque celle qu’il utilise n’aboutit pas. Ce processus amplifie considérablement ses capacités de raisonnement. Pour illustrer cette nouvelle stratégie, nous vous présentons ci-dessous la chaîne de pensée de o1‑preview sur plusieurs problèmes complexes.
GPT-4o
OpenAI o1-preview
Nous avons entraîné un modèle qui a obtenu 213 points et s’est hissé au 49e percentile lors de l’édition 2024 des Olympiades internationales d’informatique (IOI). Nous sommes partis d’une version de base d’o1 et l’avons entraînée pour améliorer encore ses compétences de programmation. Ce modèle a participé à l’IOI 2024 dans les mêmes conditions que les participants humains. Il avait 10 heures pour résoudre six problèmes algorithmiques complexes et pouvait proposer 50 solutions par problème.
Pour chaque problème, notre système a généré de nombreuses réponses possibles et en a soumis 50 selon une stratégie de sélection au moment de l’inférence. Les solutions ont été sélectionnées sur la base de leurs performances sur les cas de test publics de l’IOI, de cas de test générés par le modèle et d’une fonction entraînée pour la notation. Si nous avions soumis des solutions de manière aléatoire, nous n’aurions obtenu en moyenne que 156 points, ce qui suggère que cette stratégie a permis de gagner 60 points supplémentaires dans le contexte des contraintes du concours.
En levant ces contraintes, nous avons constaté que le modèle se montrait bien plus performant. Avec 10 000 solutions par problème, le modèle a atteint un score de 362,14, soit plus que nécessaire pour décrocher la médaille d’or, même sans stratégie de sélection au moment de l’inférence.
Enfin, nous avons simulé des concours de programmation hébergés sur Codeforces pour prouver les compétences en codage du modèle. Nos évaluations respectaient au plus près les règles des concours et permettaient 10 propositions. GPT‑4o a obtenu une note Elo3 de 808, ce qui correspond au 11e percentile chez les participants humains. Le modèle entraîné pour l’IOI s’est montré bien plus performant que GPT‑4o et o1 : il a atteint un score Elo de 1807, soit plus que 93 % des participants.

De nouveaux ajustements axés sur les concours de programmation améliorent encore les performances d’o1. Le modèle amélioré se classe dans le 49e percentile des Olympiades internationales d’informatique 2024 en respectant les règles du concours.
En plus des examens et évaluations académiques, nous avons évalué les résultats que préfèrent les humains, entre ceux produits par o1‑preview et ceux de GPT‑4o, sur des prompts complexes et ouverts portant sur des domaines divers. Dans cette évaluation, des entraîneurs humains ont dû choisir entre deux réponses anonymisées, l’une provenant d’o1‑preview et l’autre de GPT‑4o. Ils ont dans la grande majorité des cas choisis o1‑preview sur les questions demandant un raisonnement approfondi, comme l’analyse des données, le codage et les problèmes mathématiques. En revanche, o1‑preview les a moins convaincus sur certaines tâches de langage naturel, ce qui suggère que ce modèle n’est pas adapté à tous les cas d’utilisation.

Le raisonnement par chaîne de pensée offre de nouvelles possibilités en matière d’alignement et de sécurité. Nous avons constaté que l’intégration de nos politiques comportementales dans la chaîne de pensée d’un modèle de raisonnement permet de lui apprendre efficacement et de manière robuste les valeurs et principes humains. En apprenant au modèle nos règles de sécurité et à raisonner à leur sujet en contexte, nous avons constaté que sa capacité de raisonnement contribue directement à sa robustesse. o1‑preview a atteint des performances bien supérieures sur des évaluations clés des jailbreaks et nos évaluations internes les plus exigeantes portant sur les limites des refus de sécurité. Nous pensons que le recours à une chaîne de pensée offre des avantages significatifs en matière de sécurité et d’alignement pour les raisons suivantes : (1) cela nous permet d’observer le raisonnement du modèle de manière lisible et (2) le raisonnement du modèle sur les règles de sécurité est moins sensible aux scénarios imprévus.
Pour tester la pertinence de nos améliorations, nous avons réalisé une série de tests de sécurité et d’interventions d’équipes rouges avant le déploiement, conformément à notre Cadre de préparation(ouverture dans une nouvelle fenêtre). Nous avons constaté que le raisonnement par chaîne de pensée permettait d’améliorer les capacités du modèle sur l’ensemble de nos évaluations. Il est intéressant de noter que nous avons observé des cas de détournement de récompense(ouverture dans une nouvelle fenêtre). Les résultats détaillés de ces évaluations sont publiés dans la fiche système qui accompagne le modèle.
| Indicateur | GPT-4o | o1-preview |
|---|---|---|
| % de sorties sûres générées par des prompts dangereux Standard | 0,990 | 0,995 |
| % de sorties sûres générées par des prompts dangereux Défi :jailbreaks et cas limites | 0,714 | 0,934 |
| ↳ Harcèlement (grave) | 0,845 | 0,900 |
| ↳ Contenu ayant trait à l’exploitation sexuelle | 0,483 | 0,949 |
| ↳ Contenu à caractère sexuel impliquant des mineurs | 0,707 | 0,931 |
| ↳ Conseils sur des actions négatives non violentes | 0,688 | 0,961 |
| ↳ Conseils sur des actions négatives violentes | 0,778 | 0,963 |
| % de sorties sûres parmi les 200 ayant le score le plus risqué selon l’API Moderation dans l’évaluation WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 | 0,220 | 0,840 |
| Évaluation de jailbreaks provenant d’humains | 0,770 | 0,960 |
| % de conformité sur des cas limites sans impact « n’est pas un refus injustifié » | 0,910 | 0,930 |
| % de conformité sur des cas limites sans impact dans XSTest « n’est pas un refus injustifié » Röttger, et al. 2023 | 0,924 | 0,976 |
Nous pensons qu’une chaîne de pensée masquée offre une vraie opportunité de surveillance des modèles. Dans la mesure où elle reste fidèle et lisible, cette chaîne permet de « lire dans l’esprit du modèle » et de comprendre son processus de pensée. Par exemple, nous pourrions à l’avenir vouloir surveiller la chaîne de pensée pour détecter d’éventuels signes de manipulation de l’utilisateur. Mais pour que cette stratégie fonctionne, le modèle doit pouvoir exprimer ses pensées librement, sans altération d’aucune sorte. Nous ne pouvons donc pas inclure dans l’entraînement de la chaîne de pensée des stratégies de respect de politiques ou préférences utilisateur. Nous devons également éviter qu’une chaîne de pensée non alignée soit visible directement par les utilisateurs.
Après avoir évalué différents facteurs, dont l’expérience utilisateur, l’avantage concurrentiel de cette stratégie et l’opportunité offerte par la surveillance des chaînes de pensée, nous avons choisi de ne pas présenter les chaînes de pensée brutes aux utilisateurs. Nous sommes conscients des inconvénients de ce choix. Nous essayons de les compenser en partie en apprenant au modèle à inclure les idées utiles de sa chaîne de pensée dans sa réponse. Pour les modèles de la série o1, nous présentons un résumé de la chaîne de pensée, généré par le modèle.
o1 fait considérablement progresser l’état de l’art en matière de raisonnement par l’IA. Nous prévoyons de publier des versions améliorées de ce modèle. Ces nouvelles capacités de raisonnement devraient nous permettre d’améliorer l’alignement de nos modèles sur les valeurs et les principes humains. Nous pensons qu’o1 et ses successeurs ouvriront la voie à de nombreux cas d’utilisation inédits dans les secteurs de la science, du codage, des mathématiques et autres domaines liés. Nous avons hâte que nos utilisateurs et les développeurs exploitant notre API découvrent comment optimiser leur quotidien professionnel avec ces modèles.
| Jeu de données | Indicateur | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Competition Math AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Competition Code CodeForces | Elo | 808 | 1 258 | 1 673 |
| Percentile | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologie | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Chimie | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Physique | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | s/o | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | s/o | 73,9 |
Auteur
Citations
- 1
- 2
Nos évaluations ont repris les 500 problèmes du jeu de test disponible sur https://arxiv.org/abs/2305.20050(ouverture dans une nouvelle fenêtre)
- 3






