Nye værktøjer til at forstå AI og læringsresultater
Fremme af, hvordan AI’s indvirkning måles på tværs af læringsmiljøer
Uddannelse er en af AI’s mest lovende banebrydende. Med værktøjer som ChatGPT kan personlig læringsstøtte være tilgængelig for enhver elev, hvor som helst, når som helst.
Men uddannelsessektoren er stadig i en tidlig fase i sin forståelse af AI's indvirkning på læringsresultater. Sidste år satte vores team sig for at undersøge brugen af værktøjer som studietilstand og fandt lovende forbedringer i de studerendes præstationer. Vores forskning rejste dog også et vigtigt spørgsmål: Hvordan kan vi vurdere, hvordan AI påvirker en studerendes fremskridt over tid, ikke kun ved en afsluttende eksamen?
Dette er en udfordring for det bredere økosystem. Til dato fokuserer de fleste forskningsmetoder på snævre præstationssignaler, som f.eks. testresultater, og mangler evnen til at vurdere, hvordan elever rent faktisk lærer med AI i virkelige sammenhænge, og hvordan denne brug former resultater over tid.
For at afhjælpe dette problem udviklede vi Learning Outcomes Measurement Suite, en ramme udviklet sammen med Estlands Universitet i Tartu og SCALE-initiativet under Stanford Accelerator for Learning for at understøtte longitudinel måling af læringsresultater på tværs af forskellige uddannelseskontekster.
Omfattende validering er i gang gennem et randomiseret kontrolleret forsøg, og yderligere forskning planlægges sammen med stiftende organisationer i Learning Lab, OpenAI’s økosystem for læringsforskning, herunder forskere fra Arizona State University, UCL Knowledge Lab og MIT Media Lab (med afsæt i tidligere samarbejdsstudier).
I dag deler vi et overblik over, hvordan målesuiten fungerer, og derfor er det vigtigt. Over tid har vi til hensigt at offentliggøre mere forskning og frigive målesuiten som en offentlig ressource for skoler, universiteter og uddannelsessystemer verden over.
"Denne forskning giver os mulighed for at lære hurtigt, samtidig med at den lægger grundlaget for en dybere forståelse af, hvordan AI kan integreres gennemtænkt i skoler på måder, der virkelig betyder noget." Vi vil gerne forstå, hvordan disse værktøjer kan understøtte stringent akademisk læring og samtidig fremme avanceret tænkning, kreativitet, nysgerrighed og elevernes tillid til sig selv som lærende.”
- Nutidens forskningsmetoder om AI's indvirkning på læring viser lovende signaler om præstation, men indfanger ikke det fulde billede af, hvordan AI påvirker læringsresultater over tid.
- Learning Outcomes Measurement Suite vil for første gang levere en standardramme for longitudinale studier, der hjælper undervisere, forskere og institutioner med at forstå, hvordan AI former læring og læringsresultater på tværs af forskellige kontekster.
- OpenAI’s Learning Lab er et nyt forskningsøkosystem, der er fokuseret på at fremme dette arbejde. OpenAI vil offentliggøre resultater sammen med en række partnere, efterhånden som feltet fortsætter med at udvikle sig.
Når studerende bruger AI-værktøjer til at studere og lære, kan det betyde mange forskellige ting lige fra at gå til AI for at få hurtige svar til at bruge det til at arbejde sig igennem problemer trin for trin med tutorlignende vejledning. For at opmuntre brugere til at engagere sig med ChatGPT på måder, der understøtter en dybere forståelse og opbygning af færdigheder, introducerede OpenAI studietilstand sidste år. Bag kulisserne drives studietilstand af brugerdefinerede systeminstruktioner, som vi har skrevet i samarbejde med lærere, forskere og pædagogiske eksperter for at afspejle et kernesæt af adfærd, der understøtter reel læring, og ikke kun svar, ved at bruge stilladsering, tjek af forståelse og guidet øvelse.
For at teste, om denne type pædagogisk afstemt AI-interaktionsstil kan omsættes til bedre læringsudbytte, gennemførte vi et randomiseret studie med over 300 universitetsstuderende, der forberedte sig til eksamener i neurovidenskab og mikroøkonomi. Mens analysen stadig er i gang, giver de tidlige resultater os tillid til, at en pædagogisk afstemt AI-interaktionsstil, som fremmes gennem funktioner som studietilstand, kan forbedre læringsresultater. Men denne forskning afdækkede også en vigtig realitet. Det, der virkelig betyder noget, er, om gevinsterne og den tilknyttede produktive adfærd forbliver holdbare over tid.
Studiets design
Deltagerne blev tildelt en af tre grupper: en kontrolgruppe studerede ved hjælp af traditionelle online-ressourcer såsom Google Search og YouTube, med AI-genererede oversigtsfunktioner deaktiveret, mens to yderligere grupper fik adgang til en af to varianter af studietilstand, der var designet til at guide studerende gennem læringsprocessen på lidt forskellige måder. Baseline-quizzer og onboardingundersøgelser blev indsamlet på forhånd for at justere for forskelle i tidligere eksponering for kursusforløb, studievaner, akademisk selvtillid og kendskab til AI-værktøjer. Studerende gennemførte tidsbegrænsede studietilstandssessioner før hver eksamen, hvor de to studietilstandsvarianter blev modbalanceret på tværs af fag.
Denne opsætning blev designet til at afspejle virkelige studieforhold snarere end et stramt kontrolleret laboratoriemiljø. Deltagelse var ikke knyttet til eksamenspræstation, og ikke alle studerende brugte studietilstand i samme omfang i løbet af de nominelle 40 minutters sessioner. Dette gjorde det muligt for os at måle og rapportere intention-to-treat (ITT)-effekter, virkningen af at få adgang til værktøjet under realistiske udrulningsbetingelser – med andre ord den kausale effekt af at blive tilbudt studietilstand, idet vi anerkender, at engagement kan variere i praksis.
Resultater
Vi målte præstationen på hver eksamen separat. I vores randomiserede studie var forbedringerne ikke ensartede på tværs af forsøgspersoner, og niveauerne af engagement i studietilstand varierede på tværs af deltagerne.
- Neurovidenskab (primær ITT): Vi observerede retningsmæssigt positive forskelle for studietilstand i forhold til kontrol, men resultaterne kunne ikke skelnes fra studerende, der studerede med traditionelle online-ressourcer. Nogle onboarding- og tekniske problemer påvirkede den tid, som studerende, der brugte studietilstand, brugte på at studere.
- Mikroøkonomi (primær ITT): Vi observerede betydelige forbedringer i eksamensresultaterne blandt de studerende, der fik tildelt adgang til studietilstand, sammenlignet med kontrolgruppen uden AI, ca. 15 % højere score relativt set.
Effekten forbliver konsistent, når vi sammenligner hver variant af studietilstand separat med kontrolgruppen.
Selvom dette afspejler variation i den virkelige verden, fremhævede det en dybere begrænsning i, hvordan læringsresultater typisk måles.
De fleste eksisterende evalueringsmetoder er baseret på faste interventioner, der vurderes over korte tidsperioder, og anvender resultater som testscorer eller afsluttende essays som primære indikatorer. Disse metoder er ikke designet til at indfange den centrale mekanisme, hvorigennem AI påvirker læring i praksis: løbende, personlige interaktioner, der udvikler sig i takt med en lærendes egne strategier, præferencer og studievaner. De afdækker heller ikke, om forbedringer i én evne, såsom korttidshukommelse, kan medføre kompromiser i andre, såsom vedholdenhed, autonom motivation eller kreativ problemløsning. Som følge heraf overser de de longitudinelle kognitive effekter, der i sidste ende afgør, om AI på meningsfuld vis forbedrer læring.
Eftersom læringsmiljøer varierer meget på tværs af lande, læseplaner og institutionelle mål, kan resultater fra enkeltstående studier sjældent generaliseres på tværs af systemer. Målemetoder skal derfor være fleksible nok til, at forskellige uddannelsessystemer kan definere, hvordan succes ser ud i deres kontekst, evaluere AI ud fra deres egne standarder og iterere i overensstemmelse hermed.
Opbygning af et bedre målesystem
Baseret på erfaringerne fra OpenAI’s forskning i studietilstand har vi været i gang med at opbygge et struktureret målesystem til at måle AI’s indvirkning på elever i stor skala og skabe en mekanisme til at forbedre modeller baseret på disse resultater. Den er forankret i tre signaler: hvordan modellen opfører sig, hvordan eleverne reagerer, og hvilke målbare kognitive resultater der opstår over tid. Dette omfatter:
- Systeminstruktioner til at finjustere modellens adfærd: brug af naturligt sprog til at ændre modellens standardadfærd, så den er bedre tilpasset specifikke pædagogiske tilgange.
- Klassifikatorer til læringsinteraktioner: disse registrerer automatisk “læringsøjeblikke” i reelle, af-identificerede interaktioner mellem elev og model og mærker fremtrædende karakteristika såsom engagement og fejlkorrektion.
- Bedømmere af læringskvalitet: disse evaluerer og scorer hvert af disse læringsøjeblikke ud fra, om den lærende nåede sit mål, og i hvilken grad interaktionen fulgte stærke pædagogiske principper, herunder identifikation af fejltilstande.
- Longitudinelle læringsvurderere: disse sporer ændringer i den samme elevs interaktioner med model over tid, herunder engagement, vedholdenhed og metakognitive strategier, på enkeltpersons og gruppeniveau.
- Standardiserede kognitive og metakognitive målinger: disse er validerede tredjepartsinstrumenter, der leveres via ChatGPT før/under/efter adgang for at etablere udgangspunkter og måle ændringer i grundlæggende evner såsom kritisk tænkning, kreativitet og hukommelse.
Når de kombineres, omtaler vi dette målesystem som Learning Outcomes Measurement Suite.
Det producerer vigtige signaler, som uddannelsesøkosystemet kan bruge: strukturerede visninger af læringsøjeblikke, dashboards, der viser, hvordan resultater ændrer sig over tid på tværs af kohorter, indikatorer for modellens ydeevne i forhold til undervisnings- og vejledningsrubrikker samt resultatmål, der er afstemt med standardiserede vurderinger og korte spørgeskemaer til elever. Hvor det er muligt, kan den indarbejde partnerleveret facit såsom eksamensresultater, observationer i klasseværelset eller fremmøde.
Alle data er anonymiserede
Det gør det også muligt for vores partnere at forstå de dybere kognitive konsekvenser af at bruge AI til læring over tid, da vi gennem dette system også kan spore indvirkningen på kapaciteter såsom:
- Autonom motivation: i hvilken grad de studerende former deres egne studier vs. bliver styret af modellen
- Produktivt engagement: hyppigheden, variationen og kvaliteten af pædagogiske interaktioner
- Vedholdenhed i opgaver: i hvilken grad en elev bliver ved og arbejder sig igennem kognitive udfordringer
- Metakognition: hyppigheden og kvaliteten af den studerendes indsats for at planlægge, reflektere og overvåge deres tilgange til at studere
- Genkaldelse: nøjagtigheden, hvormed en studerende kan huske indhold fra tidligere interaktioner
Dette afspejler vores overordnede indsats for ikke blot at fokusere på snævre definitioner af læringsresultater (stigende testresultater), men på de holistiske kompetencer, der understøtter læring. Det afspejler også vores tro på, at der ikke vil være nogen mirakelløsning i forhold til, hvad der skal optimeres for: systemer og undervisere skal have beføjelser til at styre afvejninger i overensstemmelse med pædagogisk bedste praksis og tilgange.
Hvad er næste skridt
Vi validerer Learning Outcomes Measurement Suite gennem storstilede undersøgelser, før vi gør den bredt tilgængelig. Dette arbejde er i gang med University of Tartu og Stanford’s SCALE Initiative på tværs af partnere i national skala som Estland, hvor målesuiten bliver undersøgt med næsten 20.000 studerende i alderen 16-18 over flere måneder. Studenterbrug vil ske i tæt samarbejde med lokale ledere for at sikre sikkerhed og overensstemmelse med lokale læseplaner.
“Estland har altid betragtet uddannelse som et system, vi løbende forbedrer, og ikke som noget statisk. Efterhånden som AI vinder frem, er det store spørgsmål, hvordan vi måler AI's langsigtede indvirkning på læring. Det er det, vi undersøger i samarbejde med OpenAI. Studerende er ivrige efter at deltage i udviklingsprocessen, og mange vil gerne lære, hvordan man kan understøtte læring med AI. Det føles som et reelt vendepunkt, og vi ser frem til at bidrage med metoder, som andre uddannelsessystemer kan genbruge og bygge videre på.”
Dette arbejde bygger på en bredere mængde samarbejdsforskning, der er i gang. Ud over den resultatsforskning, der udføres gennem stiftende partnere i Learning Lab, støtter OpenAI studier i krydsfeltet mellem læring og arbejde, der undersøger, hvordan AI former studerendes akademiske veje, karrierebeslutninger og måder, hvorpå institutioner kan understøtte ansvarlig implementering. Denne forskning foregår på tværs af Bocconi University, Innova Schools og Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University og andre.
I takt med at vi gennemfører længerevarende undersøgelser af, hvordan studerende lærer bedst med AI, har vi til hensigt at dele resultater og arbejde sammen med det bredere uddannelsesøkosystem for at sikre, at AI kommer elever og studerende overalt til gode.
De, der er interesseret i at modtage opdateringer om dette arbejde, kan tilmelde sig her.


