4 maart 2026

Nieuwe tools om AI en leerresultaten te begrijpen

Het verbeteren van hoe de impact van AI wordt gemeten in leeromgevingen

Onderwijs is een van de meest veelbelovende toepassingsgebieden voor AI. Met tools zoals ChatGPT kan gepersonaliseerde leerondersteuning beschikbaar zijn voor elke student, overal en altijd.

Maar de onderwijssector bevindt zich nog in een vroeg stadium wat betreft het begrip van de impact van AI op leerresultaten. Vorig jaar ging ons team aan de slag om het gebruik van tools zoals Leermodus⁠ te bestuderen en we zagen veelbelovende verbeteringen in de prestaties van studenten. Maar ons onderzoek riep ook een belangrijke vraag op: hoe kunnen we beoordelen hoe AI de vooruitgang van een leerling in de loop van de tijd beïnvloedt, en niet alleen bij een eindexamen?

Dit is een uitdaging voor een breder ecosysteem. Tot op heden richten de meeste onderzoeksmethoden zich op beperkte prestatiesignalen, zoals toetsscores, en ontbreekt het aan de mogelijkheid om te beoordelen hoe studenten daadwerkelijk met AI leren in praktijksituaties, en hoe dat gebruik de uitkomsten in de loop van de tijd beïnvloedt.

Om deze kloof te dichten, hebben we de Learning Outcomes Measurement Suite ontwikkeld, een raamwerk dat samen met de Universiteit van Tartu in Estland en het SCALE Initiative van het Stanford Accelerator for Learning is gecreëerd om longitudinale meting van leerresultaten in verschillende onderwijscontexten te ondersteunen.

Momenteel loopt uitgebreide validatie via een gerandomiseerde gecontroleerde studie. Daarnaast is vervolgonderzoek gepland met oprichtende partners in het Learning Lab, het leeronderzoeksecosysteem van OpenAI, waaronder onderzoekers van Arizona State University, UCL Knowledge Lab en MIT Media Lab (voortbouwend op eerder gezamenlijk onderzoek⁠).

Vandaag delen we een overzicht van hoe de meetsuite werkt en waarom dit belangrijk is. In de loop van de tijd zijn we van plan om meer onderzoek te publiceren en de meetsuite vrij te geven als een openbare bron voor scholen, universiteiten en onderwijssystemen wereldwijd.

"Dit onderzoek stelt ons in staat om snel te leren en tegelijkertijd de basis te leggen voor een dieper begrip van hoe AI op doordachte wijze in scholen kan worden geïntegreerd op manieren die er echt toe doen. We willen begrijpen hoe deze tools diepgaand academisch leren kunnen ondersteunen en tegelijk kritisch denken, creativiteit, nieuwsgierigheid en het zelfvertrouwen van studenten kunnen versterken."

–Susanna Loeb, hoogleraar Onderwijskunde en faculteitsdirecteur, SCALE Initiative aan Stanford University

Samenvatting van de belangrijkste inzichten

De huidige onderzoeksmethoden naar de impact van AI op het leerproces laten veelbelovende signalen zien over prestaties, maar geven geen volledig beeld van hoe AI leerresultaten in de loop van de tijd beïnvloedt.
De Learning Outcomes Measurement Suite zal voor het eerst een standaardkader bieden voor longitudinale studies die docenten, onderzoekers en instellingen helpen te begrijpen hoe AI het leren en de leerresultaten in verschillende contexten vormgeeft.
OpenAI’s Learning Lab is een nieuw onderzoeksecosysteem dat zich richt op het bevorderen van dit werk. OpenAI zal bevindingen publiceren samen met een reeks partners terwijl het vakgebied zich blijft ontwikkelen.

Oorsprong en vroeg onderzoek

Wanneer studenten AI-tools gebruiken om te studeren of te leren, kan dat veel verschillende vormen aannemen: van AI gebruiken voor snelle antwoorden tot stap voor stap door problemen heen werken met begeleiding zoals van een tutor. Om gebruikers aan te moedigen om op manieren met ChatGPT in gesprek te gaan die een dieper begrip en het opbouwen van vaardigheden ondersteunen, introduceerde OpenAI vorig jaar de Leermodus⁠. Achter de schermen wordt de Leermodus aangestuurd door aangepaste systeeminstructies die we in samenwerking met docenten, wetenschappers en pedagogische experts hebben geschreven, om een kernset gedragingen te weerspiegelen die echt leren ondersteunen, en niet alleen antwoorden geeft, met behulp van scaffolding, checks op begrip en begeleide oefeningen.

Om te testen of dit soort pedagogisch afgestemde AI-interactiestijl zich vertaalt in betere leerresultaten, hebben we een gerandomiseerde studie uitgevoerd met meer dan 300 studenten die zich voorbereidden op tentamens in neurowetenschappen en micro-economie. Hoewel de analyse nog gaande is, geven vroege resultaten ons het vertrouwen dat een pedagogisch afgestemde AI-interactiestijl, aangemoedigd via functies zoals de Leermodus, de leerresultaten kan verbeteren. Maar dit onderzoek bracht ook een belangrijke realiteit aan het licht: wat er echt toe doet, is of de winst en de bijbehorende productieve gedragingen in de loop van de tijd duurzaam blijven.

Studieontwerp

Deelnemers werden toegewezen aan een van drie groepen: een controlegroep studeerde met behulp van traditionele online bronnen zoals Google Search en YouTube, met door AI gegenereerde overzichtsfuncties uitgeschakeld. Twee aanvullende groepen kregen toegang tot een van twee leermodus-varianten die waren ontworpen om studenten op iets verschillende manieren door het leerproces te begeleiden. Toetsresultaten en onboarding-enquêtes werden vooraf verzameld om te corrigeren voor verschillen in eerdere blootstelling aan cursussen, studiegewoonten, academisch zelfvertrouwen en bekendheid met AI-tools. Studenten voltooiden vóór elk examen sessies in de getimede leermodus, waarbij de twee leermodus-varianten over de proefpersonen werden gebalanceerd.

Deze opzet is ontworpen om omstandigheden in de praktijk te weerspiegelen in plaats van een strak gecontroleerde laboratoriumomgeving. Deelname was niet gekoppeld aan examenprestaties, en niet alle studenten gebruikten de Leermodus in dezelfde mate tijdens de nominale sessies van 40 minuten. Dit stelde ons in staat intention-to-treat (ITT)-effecten te meten en te rapporteren: de impact van toegang tot de tool onder realistische uitrolomstandigheden. Met andere woorden, de causale impact van het aanbieden van de Leermodus, waarbij we erkennen dat de mate van gebruik in de praktijk kan variëren.

Bevindingen

We hebben de prestaties voor elk examen afzonderlijk gemeten. In onze gerandomiseerde studie waren de verbeteringen niet uniform over de proefpersonen, en de mate van betrokkenheid bij de Leermodus varieerde per deelnemer.

Neurowetenschap (primaire ITT): We hebben richtinggevend positieve verschillen waargenomen voor de Leermodus ten opzichte van de controlegroep, maar de resultaten waren niet te onderscheiden van studenten die studeerden met traditionele online bronnen. Sommige onboarding- en technische problemen hadden invloed op de tijd die studenten in de Leermodus aan studeren besteedden.
Micro-economie (primaire ITT): We zagen betekenisvolle verbeteringen in examenprestaties bij studenten die toegang kregen tot de Leermodus versus de controlegroep zonder AI; relatief gezien ongeveer een 15% hogere score.

Leermodus (varianten A & B) vs Control (groep zonder AI): Aangepaste gemiddelde examenscores

Het effect blijft consistent wanneer we elke variant van de leermodus afzonderlijk vergelijken met de controlegroep.

Hoewel dit variatie in de praktijk weerspiegelt, bracht het een diepere beperking aan het licht in hoe leerresultaten doorgaans worden gemeten.

De meeste bestaande evaluatiebenaderingen zijn gebaseerd op vaste interventies die over korte tijdvensters worden beoordeeld, waarbij uitkomsten zoals toetsscores of eindopstellen als primaire signalen worden gebruikt. Deze methoden zijn niet ontworpen om het kernmechanisme vast te leggen waarmee AI het leren in de praktijk beïnvloedt: voortdurende, gepersonaliseerde interacties die zich meeontwikkelen met de strategieën, voorkeuren en studiegewoonten van een student. Ook maken ze niet duidelijk of verbeteringen in één vaardigheid, zoals kortetermijnherinnering, gepaard kunnen gaan met afwegingen in andere, zoals volharding, autonome motivatie of creatief probleemoplossend vermogen. Daardoor missen ze de longitudinale cognitieve effecten die uiteindelijk bepalen of AI het leren betekenisvol verbetert.

Omdat leeromgevingen sterk verschillen tussen landen, curricula en institutionele doelstellingen, zijn uitkomsten van eenmalige studies zelden generaliseerbaar tussen systemen. Meetbenaderingen moeten daarom flexibel genoeg zijn zodat verschillende onderwijssystemen kunnen bepalen hoe succes eruitziet in hun context, AI kunnen evalueren aan de hand van hun eigen normen en dienovereenkomstig kunnen itereren.

Bouwen aan een beter meetsysteem

Op basis van de inzichten uit het onderzoek van OpenAI naar de Leermodus hebben we gewerkt aan een gestructureerd meetsysteem om de impact van AI op leerlingen op grote schaal te meten en een mechanisme te creëren om modellen op basis van die resultaten te verbeteren. Het is gebaseerd op drie signalen: hoe het model zich gedraagt, hoe leerlingen reageren en welke meetbare cognitieve uitkomsten er in de loop van de tijd uit voortkomen. Dit omvat:

Systeeminstructies om het gedrag van het model te verfijnen: gebruik van natuurlijke taal om het standaardgedrag van het model te wijzigen zodat het beter aansluit bij specifieke pedagogische benaderingen.
Classificatoren voor leerinteracties: deze detecteren automatisch 'leermomenten' binnen echte, geanonimiseerde, leerling–model-interacties en labelen opvallende kenmerken zoals betrokkenheid en foutcorrectie.
Beoordelaars van leerkvaliteit: deze evalueren en scoren elk van die leermomenten op basis van of de leerling zijn of haar doel heeft bereikt en de mate waarin de interactie sterke pedagogische principes volgde, waaronder het identificeren van foutmodi.
Longitudinale leerbeoordelaars: deze volgen veranderingen in de interacties van dezelfde leerling met het model in de loop van de tijd, waaronder betrokkenheid, volharding en metacognitieve strategieën, op individueel en cohortniveau.
Gestandaardiseerde cognitieve en metacognitieve metingen: dit zijn gevalideerde instrumenten van derden die via ChatGPT vóór, tijdens en na toegang worden afgenomen om baselines vast te stellen en veranderingen te meten in fundamentele vaardigheden zoals kritisch denken, creativiteit en geheugen.

Wanneer we ze combineren, verwijzen we naar dit meetsysteem als de Learning Outcomes Measurement Suite.

Het levert belangrijke signalen op die het onderwijsecosysteem kan gebruiken: gestructureerde weergaven van leermomenten, dashboards die laten zien hoe uitkomsten in de loop van de tijd verschuiven binnen cohorten, indicatoren van modelprestaties ten opzichte van les- en begeleidingsrubrics, en uitkomstmaten die zijn afgestemd op gestandaardiseerde toetsen en korte vragenlijsten voor lerenden. Waar beschikbaar kan het door partners verstrekte grondwaarheid opnemen, zoals examenscores, observaties in de klas of aanwezigheid.

Diagram dat een workflow voor het meten van leerresultaten illustreert, waarbij AI gegevens verwerkt via analyse-, evaluatie- en verificatiestappen voordat inzichten worden geleverd ter ondersteuning van een leerling.

Alle gegevens geanonimiseerd

Het stelt onze partners ook in staat om de diepere cognitieve effecten van het gebruik van AI voor leren in de loop van de tijd te begrijpen, aangezien we via dit systeem ook de impact kunnen volgen op capaciteiten zoals:

Autonome motivatie: de mate waarin lerenden hun eigen studie vormgeven versus door het model worden aangestuurd
Productieve betrokkenheid: de frequentie, variatie en kwaliteit van pedagogische interacties
Taakvolharding: de mate waarin een leerling blijft zitten en doorzet bij cognitieve uitdagingen
Metacognitie: de frequentie en kwaliteit van de inspanningen van leerlingen om hun aanpak van studeren te plannen, te reflecteren en te monitoren
Recall: de nauwkeurigheid waarmee een lerende zich inhoud uit eerdere interacties kan herinneren

Dit weerspiegelt onze algehele inspanningen om ons niet simpelweg te richten op enge definities van leerresultaten (stijgende testscores), maar op de holistische capaciteiten die aan leren ten grondslag liggen. Het weerspiegelt ook onze overtuiging dat er geen wondermiddel zal zijn als het gaat om wat je moet optimaliseren: systemen en onderwijsprofessionals zullen in staat moeten worden gesteld om afwegingen te maken in lijn met pedagogische best practices en benaderingen.

De volgende stappen

We valideren de Learning Outcomes Measurement Suite via grootschalige studies voordat we deze breder beschikbaar maken. Dit werk is gaande met de Universiteit van Tartu en het SCALE-initiatief van Stanford, samen met partners op nationale schaal zoals Estland, waar de meetset gedurende meerdere maanden wordt bestudeerd met bijna 20.000 studenten van 16 tot 18 jaar. Het gebruik door studenten zal plaatsvinden in nauwe samenwerking met lokale leiders om veiligheid en afstemming met lokale curricula te waarborgen.

“Estland heeft onderwijs nooit als iets statisch gezien, maar als een systeem dat we voortdurend verbeteren. Nu AI onderdeel wordt van dat geheel, is de grote vraag hoe we de langetermijnimpact van AI kunnen meten. Dat is wat we samen met OpenAI aan het uitzoeken zijn. Studenten willen graag betrokken zijn bij het ontwikkelproces, en velen willen leren hoe ze AI kunnen inzetten om het onderwijs te ondersteunen. Het voelt als een echt keerpunt, en we zijn enthousiast om methoden bij te dragen die andere onderwijssystemen kunnen hergebruiken en verder op kunnen bouwen.”

–Jaan Aru, Universiteit van Tartu

Dit werk bouwt voort op een bredere basis van lopend samenwerkingsonderzoek. Naast het uitkomstenonderzoek dat via oprichtende partners in de Learning Lab wordt uitgevoerd, ondersteunt OpenAI studies op het snijvlak van leren en arbeid, waarbij wordt onderzocht hoe AI de academische trajecten van studenten, loopbaankeuzes en de manieren waarop instellingen verantwoorde adoptie kunnen ondersteunen, vormgeeft. Dit onderzoek vindt plaats bij Bocconi University, Innova Schools en Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University en anderen.

Terwijl we langetermijnonderzoek doen naar hoe studenten het beste leren met AI, willen we bevindingen delen en samenwerken met het bredere onderwijsecosysteem om ervoor te zorgen dat AI leerlingen overal ten goede komt.

Wie geïnteresseerd is in updates over dit werk kan zich hier⁠ aanmelden.

Auteur

OpenAI

Andere interessante artikelen

Alles weergeven

AI-infrastructuur bouwen met de gemeenschap van Effingham County

Wereldwijde aangelegenheden22 jul 2026

Advancing the next era of national science card image

De volgende fase van nationale wetenschap stimuleren

Wereldwijde aangelegenheden22 jul 2026

Helping build shared standards for advanced AI - card image

De VS bevorderen AI-veiligheid via actie op staats- en federaal niveau

Wereldwijde aangelegenheden15 jul 2026