Nya verktyg för att förstå AI och inlärningsresultat
Förbättra hur AI:s inverkan mäts i olika lärmiljöer
Utbildning är en av AI:s mest lovande områden. Med verktyg som ChatGPT kan personligt anpassat stöd för lärande göras tillgängligt för alla studenter överallt och när som helst.
Fast utbildningssektorn befinner sig fortfarande i ett tidigt skede i sin förståelse av AI:s påverkan på läranderesultaten. Förra året gav sig vårt team ut för att studera användningen av verktyg som Studieläge och upptäckte lovande förbättringar i studenternas prestationer. Fast vår forskning väckte även en viktig fråga: hur kan vi bedöma hur AI påverkar en elevs utveckling över tid och inte bara vid ett slutprov?
Detta är en utmaning för det bredare ekosystemet. Hittills har de flesta forskningsmetoder fokuserat på snäva prestationssignaler såsom testresultat och saknar förmågan att bedöma hur studenter faktiskt lär sig med AI i verkliga miljöer samt hur den användningen påverkar resultaten på lång sikt.
För att åtgärda denna brist utvecklade vi Learning Outcomes Measurement Suite, ett ramverk som skapats tillsammans med Estlands University of Tartu och SCALE Initiative vid Stanford Accelerator for Learning för att stödja långsiktig mätning av läranderesultat i olika utbildningssammanhang.
Omfattande validering pågår genom en randomiserad kontrollerad studie och ytterligare forskning planeras tillsammans med grundande organisationer i Learning Lab, OpenAI:s ekosystem för lärandeforskning, inklusive forskare från Arizona State University, UCL Knowledge Lab och MIT Media Lab (med utgångspunkt i tidigare samarbetsstudier).
Idag berättar vi om hur mätsviten fungerar och varför den är viktig. Vi har för avsikt framöver att publicera mer forskning och göra mätpaketet tillgängligt som en offentlig resurs för skolor, universitet och utbildningssystem världen över.
"Den här forskningen gör att vi kan lära oss snabbt och lägger samtidigt grunden för en djupare förståelse av hur AI kan integreras i skolor på ett genomtänkt sätt med effekt. Vi vill förstå hur dessa verktyg kan stödja akademiska studier och främja tänkande, kreativitet, nyfikenhet och öka studenternas självförtroende som lärande individer."
- Dagens forskningsmetoder om AI:s påverkan på lärande visar lovande resultat fast fångar inte upp hela bilden av hur AI påverkar läranderesultaten över tid.
- Learning Outcomes Measurement Suite kommer för första gången att tillhandahålla ett standardramverk för långsiktiga studier som hjälper lärare, forskare och institutioner att förstå hur AI påverkar lärande och läranderesultat i olika sammanhang.
- OpenAI:s Learning Lab är ett nytt forskningsekosystem med fokus på att driva detta arbete framåt. OpenAI kommer att publicera resultat tillsammans med en mängd olika partners i takt med att området fortsätter att utvecklas.
Det kan betyda många olika saker när studenter använder AI-verktyg i sina studier, de kan vara ute efter alltifrån snabba svar till handledning när de arbetar sig igenom problem. För att uppmuntra användare att använda ChatGPT på sätt som främjar en djupare förståelse och kompetensutveckling introducerade OpenAI Studieläge förra året. Studieläge drivs av anpassade systeminstruktioner som vi skapat i samarbete med lärare, forskare och pedagogikexperter för att återspegla en grundläggande uppsättning beteenden som stödjer verkligt lärande med hjälp av stöttning, kontroller av förståelse och guidad övning.
För att testa om den här typen av pedagogiskt anpassad AI-interaktionsstil leder till bättre inlärningsresultat genomförde vi en randomiserad studie med över 300 universitetsstudenter som förberedde sig inför tentor i neurovetenskap och mikroekonomi. Även om analysen fortfarande indikerar tidiga resultat att en pedagogiskt anpassad AI-interaktionsstil (som uppmuntras genom funktioner såsom Studieläge) kan förbättra läranderesultaten. Fast den här forskningen belyste även en annan viktig sak: det som verkligen spelar roll är om vinsterna och de tillhörande produktiva beteendena förblir varaktiga över tid.
Studiedesign
Deltagarna delades in i tre grupper: en kontrollgrupp som studerade med traditionella onlineresurser såsom Google Search och YouTube med AI-genererade översiktsfunktioner inaktiverade, de andra två grupperna fick tillgång till en av två varianter av Studieläge som utformats för att vägleda studenter genom inlärningsprocessen. Enkätter och undersökningar samlades in i förväg för att justera för skillnader i tidigare kursers omfattning, studievanor, akademiskt självförtroende och kännedom om AI-verktyg. Studenter genomförde tidsbegränsade sessioner i Studieläge före varje tentamen där de två varianterna av Studieläge motbalanserades mellan ämnena.
Denna konfiguration utformades för att spegla verkliga studieförhållanden snarare än en strikt kontrollerad labbmiljö. Deltagandet var inte kopplat till provresultat och alla studenter använde inte Studieläge i samma utsträckning under sessionerna som varade i 40 minuter. Detta gjorde det möjligt för oss att mäta och rapportera intention-to-treat-effekter (ITT), effekten av att få tillgång till verktyget under realistiska utrullningsförhållanden—med andra ord, den kausala effekten av att erbjudas Studieläge med beaktande av att engagemanget kan variera i praktiken.
Resultat
Vi mätte prestation på varje prov separat. I vår randomiserade studie var förbättringarna inte enhetliga mellan försökspersonerna och graden av engagemang i Studieläge varierade mellan deltagarna.
- Neurovetenskap (primary ITT): Vi observerade positiva skillnader för Studieläge jämfört med kontroll men resultaten gick inte att skilja från studenter som studerade med traditionella onlineresurser. Vissa inledande och tekniska problem påverkade den tid som studenter spenderade på Studieläge.
- Mikroekonomi (primär ITT): Vi observerade meningsfulla förbättringar i provresultat bland studenter som använde Studieläge jämfört med kontrollgruppen utan AI—cirka 15 % högre poäng.
Effekten förblir konsekvent när vi jämför varje variant av Studieläge separat med kontrollen.
Även om detta återspeglar variationer i den verkliga världen belyste det även en djupare begränsning i hur läranderesultat vanligtvis mäts.
De flesta befintliga utvärderingsmetoder förlitar sig på fasta interventioner som bedöms över korta tidsperioder och använder utfall såsom provresultat eller uppsatser som primära signaler. Dessa metoder är inte utformade för att fånga upp den kärnmekanism genom vilken AI påverkar lärande i praktiken: pågående, individanpassade interaktioner som utvecklas i takt med en students egna strategier, preferenser och studievanor. De tar inte heller hänsyn till hur förbättringar i en viss förmåga (t.ex. korttidsminne) kan ske på bekostnad av andra såsom uthållighet, autonom motivation eller kreativ problemlösning. Som ett resultat missar de longitudinella kognitiva effekter som i slutändan avgör om AI på ett meningsfullt sätt förbättrar inlärningen.
Eftersom lärmiljöer skiljer sig avsevärt mellan länder, läroplaner och institutionella mål går resultaten från enstaka studier sällan att generalisera mellan olika system. Metoder för mätning måste därför låta olika utbildningssystem definiera hur framgång ser ut i deras sammanhang för att därefter utvärdera AI utifrån sina egna standarder och iterera därefter.
Skapande av ett bättre mätsystem
Baserat på lärdomarna från OpenAI:s forskning om Studieläge har vi skapat ett strukturerat mätsystem som mäter AI:s påverkan på studenter i stor skala och skapar en mekanism för att förbättra modeller baserat på dessa resultat. Det är baserat på tre signaler: hur modellen beter sig, hur studenter reagerar, och mätbara kognitiva resultat över tid. Detta inkluderar följande:
- Systeminstruktioner för att finjustera modellens beteende: användning av naturligt språk för att ändra modellens standardbeteende så att den bättre anpassas till specifika pedagogiska metoder.
- Klassificerare för lärandeinteraktioner: dessa upptäcker automatiskt "lärandeögonblick" i verkliga, avidentifierade interaktioner mellan studenten och modellen och märker framträdande egenskaper såsom engagemang och felkorrigering.
- Bedömare av lärandekvalitet: dessa utvärderar och poängsätter var och en av dessa lärandeögonblick utifrån om studenten uppnådde sitt mål och i vilken grad interaktionen följde starka pedagogiska principer, inklusive identifiering av misslyckanden.
- Longitudinella bedömare av inlärning: dessa spårar förändringar i studenternas interaktioner med modellen över tid (inklusive engagemang, uthållighet och metakognitiva strategier) på individ- och kohortnivå.
- Standardiserade kognitiva och metakognitiva mått: dessa är validerade tredjepartsinstrument som levereras via ChatGPT före, under och efter åtkomst för att fastställa baslinjer och mäta förändringar i grundläggande förmågor såsom kritiskt tänkande, kreativitet och minne.
När de kombineras hänvisar vi till detta mätsystem som Learning Outcomes Measurement Suite.
Den ger viktiga signaler som utbildningsekosystemet kan använda: strukturerade vyer av inlärningsögonblick, informationspaneler som visar hur resultaten förändras över tid mellan kohorter, indikatorer på modellens prestanda i förhållande till undervisnings- och handledningsrubriker samt resultatmått som är anpassade till standardiserade bedömningar och korta enkäter för studenter. När tillgängligt kan den inkludera fakta från partners såsom provresultat, klassrumsobservationer och närvaro.
All data är avidentifierad
Det gör det även möjligt för våra partners att förstå de djupare kognitiva effekterna vid användning av AI för lärande över tid eftersom vi genom detta system även kan spåra påverkan på förmågor såsom:
- Autonom motivation: i vilken grad studenterna formar sina egna studier jämfört med att bli styrda av modellen
- Produktivt engagemang: frekvensen, variationen och kvaliteten på pedagogiska interaktioner
- Uppgiftspersistens: i vilken grad en student sitter kvar och tar sig igenom kognitiva utmaningar
- Metakognition: frekvensen och kvaliteten på studentens ansträngningar att planera, reflektera och övervaka sina tillvägagångssätt för studier
- Minne: den noggrannhet med vilken en student kan komma ihåg innehåll från tidigare interaktioner
Detta återspeglar våra övergripande insatser för att inte bara fokusera på snäva definitioner av studieresultat (att testpoängen stiger) utan även de holistiska förmågor som ligger till grund för lärande. Det återspeglar även vår övertygelse om att det inte kommer att finnas någon universallösning när det kommer till vad man ska optimera för: system och utbildare kommer att behöva få befogenhet att vägleda avvägningar i linje med pedagogisk bästa praxis och tillvägagångssätt.
Vad som kommer härnäst
Vi validerar Learning Outcomes Measurement Suite genom storskaliga studier innan vi gör den allmänt tillgänglig. Detta arbete pågår tillsammans med University of Tartu och Stanfords SCALE-initiativ i samarbete med nationella partners i stor skala såsom Estland där mätsviten studeras med nästan 20 000 studenter i åldrarna 16-18 under flera månader. Studenternas användning kommer att ske i nära samarbete med lokala ledare för att säkerställa säkerhet och anpassning till lokala läroplaner.
"Estland har aldrig sett utbildning som något statiskt utan som ett system som vi ständigt förbättrar. Nu när AI håller på att bli en del av den bilden är den stora frågan hur vi mäter AI:s långsiktiga påverkan på lärandet. Det är vad vi håller på att ta reda på i samarbete med OpenAI. Studenter är angelägna om att vara involverade i utvecklingsprocessen och många vill få reda på hur man kan stödja inlärningen med AI. Det känns som en vändpunkt och vi ser fram emot att bidra med metoder som andra utbildningssystem kan återanvända och bygga vidare på."
Detta arbete bygger på en bredare mängd pågående samarbetsforskning. Utöver den resultatforskning som genomförs via grundande partners i Learning Lab stödjer OpenAI studier i skärningspunkten mellan lärande och arbetsliv, d.v.s. hur AI formar studenters akademiska vägar, karriärbeslut och hur institutioner kan stödja ansvarsfull implementering. Denna forskning sker vid Bocconi University, Innova Schools och Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University med fler.
I takt med att vi genomför längre studier om hur studenter lär sig bäst med AI avser vi att dela med oss av resultat och arbeta med det bredare utbildningsekosystemet för att säkerställa att AI gynnar studenter överallt.
De som är intresserade av att få uppdateringar om detta arbete kan anmäla sig här.


