Nouveaux outils pour comprendre l’IA et les résultats d’apprentissage
Faire progresser la façon de mesurer l’impact de l’IA dans les environnements d’apprentissage
L'éducation est l'un des domaines de pointe les plus prometteurs de l'IA. Avec des outils comme ChatGPT, un accompagnement d'apprentissage personnalisé peut être accessible à tout étudiant, où qu'il soit, à tout moment.
Mais le secteur de l'éducation n'en est encore qu'au début de sa compréhension de l'impact de l'IA sur les résultats d'apprentissage. L'année dernière, notre équipe a entrepris d'étudier l'utilisation d'outils comme mode étude et a constaté des gains prometteurs en matière de performance des élèves. Mais nos recherches ont également soulevé une question importante : comment pouvons-nous évaluer l'influence de l'IA sur les progrès d'un apprenant au fil du temps, et pas seulement lors d'un examen final?
Il s'agit d'un défi plus vaste pour l'écosystème. Jusqu’à présent, la plupart des méthodes de recherche se concentrent sur des indicateurs de performance restreints —comme les résultats aux examens—et ne permettent pas d’évaluer comment les élèves apprennent réellement avec l’IA dans des contextes réels, ni comment cet usage influence les résultats sur le long terme.
Pour combler cette lacune, nous avons créé la suite de mesure des résultats d’apprentissage, en collaboration avec l’Université de Tartu (Estonie) et l’initiative SCALE du Stanford Accelerator for Learning, pour suivre les résultats d’apprentissage sur le long terme dans différents contextes éducatifs.
Une validation approfondie est en cours via un essai randomisé contrôlé, et de nouvelles recherches sont prévues avec les organisations fondatrices du Learning Lab, l’écosystème de recherche sur l’apprentissage d’OpenAI, incluant des chercheurs de l’Arizona State University, du UCL Knowledge Lab et du MIT Media Lab (s’appuyant sur des études collaboratives antérieures).
Aujourd'hui, nous partageons une vue d'ensemble du fonctionnement de la suite d'apprentissage et expliquons pourquoi c'est important. Au fil du temps, nous souhaitons publier davantage de recherches et mettre la suite de mesure à disposition, en tant que ressource publique, pour les écoles, les universités et les systèmes éducatifs du monde entier.
« Cette recherche nous permet d’apprendre rapidement tout en préparant une meilleure compréhension de la façon dont l’IA peut être intégrée de manière pertinente dans les écoles. Nous voulons comprendre comment ces outils peuvent soutenir un apprentissage académique rigoureux tout en cultivant la pensée de haut niveau, la créativité, la curiosité et la confiance que les élèves ont en eux-mêmes en tant qu'apprenants. »
- Les méthodes de recherche actuelles sur l’impact de l’IA relatif à l’apprentissage fournissent des indicateurs encourageants sur la performance, mais ne rendent pas compte de l’ensemble de l’effet de l’IA sur les résultats d’apprentissage dans la durée.
- La suite de mesure des résultats d’apprentissage offrira, pour la première fois, un cadre standard pour des études longitudinales permettant aux enseignants, chercheurs et établissements de comprendre comment l’IA influence l’apprentissage et les résultats dans différents contextes.
- Le Learning Lab d'OpenAI est un nouvel écosystème de recherche dédié à l'avancement de ce travail. OpenAI publiera les résultats en collaboration avec plusieurs partenaires, à mesure que le domaine évoluera.
Lorsque les étudiants utilisent des outils d’IA pour étudier et apprendre, cela peut prendre plusieurs formes : cela peut aller d’une réponse rapide à un accompagnement pas à pas, tel que le ferait un tuteur. Pour inciter les utilisateurs à interagir avec ChatGPT de manière à favoriser une compréhension plus approfondie et le développement de compétences, OpenAI a lancé le mode étude l’année dernière. En coulisses, le mode étude repose sur des instructions système personnalisées que nous avons élaborées en collaboration avec des enseignants, des scientifiques et des spécialistes en pédagogie afin d’encourager des comportements qui favorisent un véritable apprentissage, et non simplement l’obtention de réponses : étayage, vérifications de compréhension et exercices guidés.
Pour vérifier si ce style d’interaction avec l’IA, aligné sur des objectifs pédagogiques, mène à de meilleurs résultats d’apprentissage, nous avons mené une étude randomisée auprès de plus de 300 étudiants se préparant à des examens de neurosciences et de microéconomie. Bien que l'analyse soit toujours en cours, des résultats préliminaires nous conforte dans l'idée qu'un style d'interaction avec l'IA aligné sur la pédagogie, encouragé par des fonctionnalités comme le mode étude, peut améliorer les résultats d'apprentissage. Mais cette recherche a également mis en évidence une réalité importante : ce qui compte vraiment, c'est de savoir si les acquis et les comportements productifs associés restent durables au fil du temps.
Conception de l’étude
Les participants ont été répartis en trois groupes : un groupe témoin étudiait avec des ressources en ligne traditionnelles comme Google Search et YouTube, les fonctionnalités d’aperçu générées par l’IA étant désactivées, tandis que les deux autres groupes avaient accès à l’une des deux variantes du mode étude, conçues pour guider les étudiants dans leur apprentissage de façons légèrement différentes. Des questionnaires de référence et des sondages d’intégration ont été recueillis à l’avance afin de tenir compte des différences d’exposition à des cours antérieurs, des habitudes d’étude, de la confiance scolaire et de la familiarité avec les outils d’IA. Les étudiants ont effectué des séances en mode étude chronométrées avant chaque examen, les deux variantes du mode étude étant contrebalancées entre les sujets.
Cette configuration a été pensée pour refléter des conditions d’étude réelles, plutôt qu’un environnement de laboratoire strictement contrôlé. La participation n’était pas liée aux résultats des examens, et tous les étudiants n’ont pas utilisé le mode étude de la même manière pendant les sessions nominales de 40 minutes. Cela nous a permis de mesurer et de rapporter les effets en intention de traiter (ITT), c’est-à-dire l’impact d’avoir eu accès à l’outil dans des conditions de déploiement réalistes—autrement dit, l’effet causal de l’accès au mode étude, en tenant compte du niveau réel d’engagement des participants.
Constatation
Nous avons mesuré les performances pour chaque examen séparément. Lors de notre étude randomisée, les améliorations n’ont pas été les mêmes selon les matières, et le niveau d’engagement avec le mode étude a varié d’un participant à l’autre.
- Neurosciences (ITT principal) : nous avons observé des différences globalement positives pour le mode étude par rapport au groupe témoin, mais les résultats ne se distinguaient pas de ceux des étudiants utilisant des ressources en ligne traditionnelles. Certains problèmes d'intégration et techniques ont eu un impact sur le temps passé à étudier chez les étudiants utilisant le mode étude.
- Microéconomie (ITT principal) : nous avons observé des améliorations notables des résultats aux examens chez les étudiants ayant eu accès au mode étude par rapport au groupe témoin sans IA—environ 15 % de points en plus en moyenne.
L'effet reste cohérent lorsque nous comparons séparément chaque variante du mode étude au groupe témoin.
Bien que cela reflète la variation observée dans le monde réel, cela a mis en évidence une limite importante des méthodes habituelles de mesure des résultats d’apprentissage.
La plupart des méthodes d’évaluation existantes reposent sur des interventions fixes, évaluées sur de courtes périodes, en utilisant comme principaux indicateurs les résultats aux examens ou les travaux finaux. Ces méthodes ne sont pas conçues pour saisir le mécanisme principal par lequel l’IA influence réellement l’apprentissage : des interactions continues et personnalisées qui évoluent en fonction des stratégies, préférences et habitudes d’étude de chaque apprenant. Elles ne montrent pas non plus si une amélioration dans une compétence, comme la mémoire à court terme, peut se faire au détriment d’autres aspects, comme la persévérance, la motivation autonome ou la capacité à résoudre des problèmes de manière créative. En conséquence, elles ne prennent pas en compte les effets cognitifs sur le long terme, qui déterminent finalement si l’IA améliore réellement l’apprentissage.
Comme les environnements d’apprentissage diffèrent beaucoup d’un pays à l’autre, selon les programmes et les objectifs des établissements, les résultats d’une étude ponctuelle ne peuvent généralement pas s’appliquer à d’autres contextes. Les méthodes de mesure doivent donc être suffisamment flexibles pour que chaque système éducatif puisse définir ce que le succès signifie dans son contexte, évaluer l’IA selon ses propres critères et ajuster les approches en conséquence.
Améliorer le système de mesure
En nous appuyant sur les enseignements de la recherche sur le mode étude d’OpenAI, nous avons développé un système de mesure structuré pour évaluer l’impact de l’IA sur les apprenants à grande échelle et créer un mécanisme permettant d’améliorer les modèles à partir de ces résultats. Elle repose sur trois indicateurs : le comportement du modèle, la réaction des apprenants et les résultats cognitifs mesurables obtenus au fil du temps. Cela inclut :
- Instructions système pour ajuster le comportement du modèle : utilisation du langage naturel pour modifier le comportement par défaut du modèle afin de mieux l’adapter à des approches pédagogiques spécifiques.
- Classificateurs d’interactions d’apprentissage : ils détectent automatiquement les « moments d’apprentissage » dans les interactions réelles anonymisées entre l’apprenant et le modèle, et identifient des caractéristiques importantes comme l’engagement et la correction d’erreurs.
- Évaluateurs de qualité d’apprentissage : ils analysent et notent chaque moment d’apprentissage en fonction de l’atteinte des objectifs par l’apprenant et du respect des principes pédagogiques solides, en identifiant notamment les sources d’échec.
- Évaluateurs d’apprentissage longitudinal : ils suivent l’évolution des interactions d’un même apprenant avec le modèle au fil du temps—incluant l’engagement, la persévérance et les stratégies métacognitives—aux niveaux individuel et en groupe.
- Mesures cognitives et métacognitives standardisées : il s’agit d’instruments tiers validés, administrés au moyen de ChatGPT avant, pendant et après l’accès, afin d’établir des mesures de référence et d’évaluer les changements dans des capacités fondamentales comme la pensée critique, la créativité et la mémoire.
Lorsqu’ils sont combinés, nous appelons ce système de mesure la suite de mesure des résultats d’apprentissage .
Elle génère des informations précieuses pour l’écosystème éducatif : des vues structurées des moments d’apprentissage, des tableaux de bord montrant l’évolution des résultats dans le temps et selon les groupes, des indicateurs de performance du modèle par rapport aux grilles d’enseignement et de tutorat, ainsi que des mesures de résultats alignées sur des évaluations standardisées et de courts questionnaires pour les apprenants. Lorsqu’elles sont disponibles, elle peut intégrer des données de référence fournies par des partenaires, comme les notes aux examens, les observations en classe ou l’assiduité.
Toutes les données anonymisées
Cela permet également à nos partenaires de comprendre les impacts cognitifs plus poussés de l'utilisation de l'IA pour l'apprentissage au fil du temps, puisque ce système nous permet aussi de suivre l'impact sur des capacités telles que :
- Motivation autonome : mesure dans quelle mesure les apprenants organisent eux-mêmes leur apprentissage plutôt que d’être guidés par le modèle.
- Engagement productif : la fréquence, la variété et la qualité des interactions pédagogiques
- Persévérance dans les tâches : le degré auquel un apprenant reste engagé et persévère face à des défis cognitifs
- Métacognition : la fréquence et la qualité des efforts de l'apprenant pour planifier, réfléchir et surveiller ses approches d'étude
- Mémoire : précision avec laquelle un apprenant peut se rappeler le contenu des interactions précédentes.
Cela reflète nos efforts pour ne pas nous concentrer uniquement sur des résultats d’apprentissage limités (comme l’augmentation des notes), mais aussi sur les compétences globales qui soutiennent l’apprentissage. Cela reflète également notre conviction qu’il n’existe pas de solution miracle pour déterminer ce qu’il faut optimiser : les systèmes et les enseignants devront être en mesure de gérer les compromis en accord avec les bonnes pratiques pédagogiques.
Conclusion et objectifs
Nous testons la suite de mesure des résultats d’apprentissage à grande échelle avant de la rendre disponible pour tous. Ce travail se fait avec l’Université de Tartu et l’initiative SCALE de Stanford, auprès de partenaires nationaux comme l’Estonie, où la suite de mesure est testée sur près de 20 000 élèves de 16 à 18 ans pendant plusieurs mois. L’utilisation par les élèves se fera en étroite collaboration avec les acteurs locaux, afin de garantir la sécurité et l’alignement avec les programmes scolaires locaux.
« L’Estonie a toujours abordé l’éducation non pas comme un système figé, mais comme un système à améliorer en permanence. Avec l’IA s’intégrant à ce contexte, la grande question est de savoir comment mesurer son impact à long terme sur l’apprentissage. C'est ce que nous cherchons à déterminer en collaboration avec OpenAI. Les étudiants sont désireux de participer au processus de développement, et beaucoup veulent apprendre comment soutenir l'apprentissage avec l'IA. Cela ressemble à un véritable tournant, et nous avons hâte de contribuer à des méthodes que d'autres systèmes éducatifs pourront réutiliser et développer. »
Ce travail s'appuie sur un ensemble plus vaste de recherches collaboratives en cours. En plus des recherches sur les résultats menées avec les partenaires fondateurs du Learning Lab, OpenAI soutient des études sur le lien entre apprentissage et travail, pour comprendre comment l’IA influence le parcours scolaire des étudiants, leurs choix de carrière, et la manière dont les établissements peuvent accompagner une adoption responsable. Ces recherches sont menées à l’Université Bocconi, dans les écoles Innova, à la Tuck School of Business de Dartmouth, à la San Diego State University, à la Stony Brook University, et dans d’autres établissements.
Pendant que nous menons des études sur le long terme pour savoir comment les élèves apprennent le mieux avec l’IA, nous partagerons les résultats et travaillerons avec tout le secteur de l’éducation pour que l’IA profite à tous les apprenants.
Les personnes souhaitant recevoir des informations sur ce projet peuvent s’inscrire ici.


