Nye verktøy for å forstå KI og læringsresultater
Forbedre hvordan innvirkningen av KI måles på tvers av læringsmiljøer
Utdanning er en av de mest lovende og banebrytende områder innen KI. Med verktøy som ChatGPT kan personlig tilpasset læringsstøtte være tilgjengelig for enhver student, hvor som helst, når som helst.
Men utdanningssektoren er fortsatt tidlig i sin forståelse av hvilken innvirkning KI har på læringsresultater. I fjor satte teamet vårt seg fore å studere bruken av verktøy som studiemodus og fant lovende forbedringer i studentenes prestasjoner. Men forskningen vår reiste også et viktig spørsmål: Hvordan kan vi vurdere hvordan KI påvirker en elevs fremgang over tid, ikke bare på en avsluttende eksamen?
Dette er en utfordring for det bredere økosystemet. Til dags dato fokuserer de fleste forskningsmetoder på smale prestasjonssignaler—som testresultater—og mangler evnen til å vurdere hvordan studenter faktisk lærer med KI i den virkelige verden, og hvordan denne bruken former læringsutfall over tid.
For å tette dette gapet utviklet vi Learning Outcomes Measurement Suite, et rammeverk utviklet sammen med Estonia’s University of Tartu og SCALE Initiative ved Stanford Accelerator for Learning for å støtte langsiktig måling av læringsresultater på tvers av ulike utdanningskontekster.
Omfattende validering pågår gjennom en randomisert kontrollert studie, og videre forskning er planlagt med grunnleggende organisasjoner i Learning Lab, OpenAIs økosystem for læringsforskning, inkludert forskere fra Arizona State University, UCL Knowledge Lab og MIT Media Lab (med utgangspunkt i tidligere samarbeidsstudier).
I dag deler vi en oversikt over hvordan målesuiten fungerer, og hvorfor det er viktig. Over tid har vi til hensikt å publisere mer forskning og gjøre målesuiten tilgjengelig som en offentlig ressurs for skoler, universiteter og utdanningssystemer over hele verden.
“Denne forskningen gjør at vi kan lære raskt, samtidig som vi legger grunnlaget for en dypere forståelse av hvordan KI kan integreres gjennomtenkt i skoler på måter som virkelig betyr noe. Vi ønsker å forstå hvordan disse verktøyene kan støtte grundig faglig læring, samtidig som de fremmer høyereordens tenkning, kreativitet, nysgjerrighet og elevenes tro på seg selv som lærende.”
- Dagens forskningsmetoder på virkningen av KI på læring viser lovende signaler om prestasjoner, men fanger ikke opp hele bildet av hvordan KI påvirker læringsutfall over tid.
- Learning Outcomes Measurement Suite vil for første gang tilby et standard rammeverk for langsiktige studier som hjelper lærere, forskere og institusjoner med å forstå hvordan KI former læring og læringsutfall på tvers av ulike kontekster.
- OpenAIs Learning Lab er et nytt forskningsøkosystem som fokuserer på å fremme dette arbeidet. OpenAI vil publisere funn sammen med en rekke partnere etter hvert som feltet fortsetter å utvikle seg.
Når studenter bruker KI-verktøy til å studere og lære, kan det bety mange forskjellige ting—fra å gå til KI for raske svar til å bruke det til å jobbe seg gjennom problemer trinn for trinn med veiledning som en privatlærer. For å oppmuntre brukere til å engasjere seg med ChatGPT på måter som støtter dypere forståelse og ferdighetsbygging, introduserte OpenAI studiemodus i fjor. Under panseret drives studiemodus av tilpassede systeminstruksjoner vi har skrevet i samarbeid med lærere, vitenskapsfolk og pedagogikkeksperter for å gjenspeile et kjerneutvalg av atferder som støtter ekte læring, ikke bare svar—ved å bruke stillasbygging, sjekker for forståelse og veiledet øving.
For å teste om denne typen pedagogisk tilpasset KI-interaksjonsstil gir bedre læringsresultater, gjennomførte vi en randomisert studie med over 300 universitetsstudenter som forberedte seg til eksamener i nevrovitenskap og mikroøkonomi. Mens analysen fortsatt pågår, gir tidlige resultater oss tillit til at en pedagogisk tilpasset KI-interaksjonsstil, oppmuntret gjennom funksjoner som studiemodus, kan forbedre læringsresultater. Men denne forskningen avdekket også en viktig realitet: Det som virkelig betyr noe, er om gevinstene og tilhørende produktive atferder forblir varige over tid.
Studieutforming
Deltakerne ble tildelt én av tre grupper: en kontrollgruppe studerte ved hjelp av tradisjonelle nettressurser som Google Søk og YouTube, med KI-genererte oversiktsfunksjoner deaktivert, mens to ytterligere grupper fikk tilgang til én av to varianter av studiemodus som var utformet for å veilede studenter gjennom læringsprosessen på litt ulike måter. Grunnleggende quizer og innføringsundersøkelser ble samlet inn på forhånd for å justere for forskjeller i tidligere eksponering for kursarbeid, studievaner, akademisk selvtillit og kjennskap til KI-verktøy. Studentene gjennomførte tidsbegrensede økter i studiemodus før hver eksamen, med de to variantene av studiemodus motbalansert på tvers av fag.
Dette oppsettet ble utformet for å gjenspeile studieforhold i den virkelige verden i stedet for et strengt kontrollert laboratoriemiljø. Deltakelse var ikke knyttet til eksamensprestasjoner, og ikke alle studentene brukte studiemodus i samme grad i løpet av de nominelle 40 minutters øktene. Dette gjorde det mulig for oss å måle og rapportere intention-to-treat (ITT)-effekter, virkningen av å få tilgang til verktøyet under realistiske utrullingsforhold—med andre ord den kausale virkningen av å bli tilbudt studiemodus, samtidig som vi anerkjenner at engasjementet kan variere i praksis.
Funn
Vi målte ytelsen på hver eksamen separat. I vår randomiserte studie var forbedringene ikke ensartede på tvers av forsøkspersoner, og nivåene av engasjement med studiemodus varierte på tvers av deltakerne.
- Nevrovitenskap (primær ITT): Vi observerte retningsmessig positive forskjeller for studiemodus sammenlignet med kontroll, men resultatene kunne ikke skilles fra studenter som brukte tradisjonelle nettbaserte ressurser. Noen introduksjons- og tekniske problemer påvirket tiden studentene brukte på å studere blant dem som brukte studiemodus.
- Mikroøkonomi (primær ITT): Vi observerte meningsfulle forbedringer i eksamensresultater blant studenter som fikk tilgang til studiemodus sammenlignet med kontrollgruppen uten KI—omtrent 15% høyere poengsum relativt sett.
Effekten forblir konsistent når vi sammenligner hver studiemodusvariant separat med kontrollen.
Selv om dette gjenspeiler variasjon i den virkelige verden, fremhevet det en dypere begrensning i hvordan læringsutbytte vanligvis måles.
De fleste eksisterende evalueringsmetoder baserer seg på faste intervensjoner som vurderes over korte tidsvinduer, og bruker utfall som prøveresultater eller avsluttende essays som primære signaler. Disse metodene er ikke utformet for å fange opp kjernemekanismen som KI påvirker læring gjennom i praksis: løpende, personaliserte interaksjoner som utvikler seg i takt med en elevs egne strategier, preferanser og studievaner. De synliggjør heller ikke om forbedringer i én evne, som korttidsminne, kan komme sammen med avveininger i andre, som vedvarende evne, autonom motivasjon eller kreativ problemløsning. Som et resultat går de glipp av de langsgående kognitive effektene som til slutt avgjør om KI meningsfullt forbedrer læring.
Fordi læringsmiljøer varierer mye på tvers av land, læreplaner og institusjonelle mål, kan resultater fra enkeltstående studier sjelden generaliseres på tvers av systemer. Målemetoder må derfor være fleksible nok til at ulike utdanningssystemer kan definere hvordan suksess ser ut i sin kontekst, evaluere KI opp mot sine egne standarder og iterere deretter.
Bygge et bedre målesystem
Basert på lærdommene fra OpenAIs forskning på studiemodus har vi bygget et strukturert målesystem for å måle KI og dets innvirkning på elever i stor skala, og skape en mekanisme for å forbedre modeller basert på disse resultatene. Den er forankret i tre signaler—hvordan modellen oppfører seg, hvordan elever reagerer, og hvilke målbare kognitive utfall som oppstår over tid. Dette inkluderer:
- Systeminstruksjoner for å finjustere modellatferd: bruk av naturlig språk for å endre standardatferden til modellen slik at den blir bedre tilpasset spesifikke pedagogiske tilnærminger.
- Klassifiserere for læringsinteraksjoner: disse oppdager automatisk «læringsøyeblikk» i ekte, avidentifiserte elev–modell-interaksjoner og merker fremtredende kjennetegn som engasjement og feilretting.
- Vurderingsenheter for læringskvalitet: disse evaluerer og gir poeng til hvert av disse læringsøyeblikkene basert på om eleven nådde målet sitt og i hvilken grad samhandlingen fulgte gode pedagogiske prinsipper, inkludert identifisering av feilmodi.
- Longitudinelle læringsvurderere: disse sporer endringer i den samme elevens samhandlinger med modellen over tid—inkludert engasjement, utholdenhet og metakognitive strategier—på individ- og kohortnivå.
- Standardiserte kognitive og metakognitive målinger: dette er validerte tredjepartsinstrumenter levert via ChatGPT før/under/etter tilgang for å etablere grunnlinjer og måle endringer i grunnleggende ferdigheter som kritisk tenkning, kreativitet og hukommelse.
Når de kombineres, omtaler vi dette målesystemet som pakken for måling av læringsutbytte.
Det produserer viktige signaler som utdanningsøkosystemet kan bruke: strukturerte visninger av læringsøyeblikk, instrumentpaneler som viser hvordan utfall endrer seg over tid på tvers av kohorter, indikatorer på modellens ytelse opp mot rubrikker for undervisning og veiledning, og utfallsmål tilpasset standardiserte vurderinger og korte spørreskjemaer for elever. Der det er tilgjengelig, kan den innlemme partnerlevert grunnsannhet som eksamensresultater, observasjoner i klasserommet eller oppmøte.
Alle data avidentifisert
Det gjør det også mulig for partnerne våre å forstå de dypere kognitive innvirkningene av å bruke KI til læring over tid, ettersom vi gjennom dette systemet også kan spore innvirkning på ferdigheter som:
- Autonom motivasjon: graden til hvilken elever former sine egne studier kontra å bli styrt av modellen
- Produktivt engasjement: hyppigheten, variasjonen og kvaliteten på pedagogiske interaksjoner
- Oppgaveutholdenhet: graden av utholdenhet en elev viser ved å bli sittende med og presse seg gjennom kognitive utfordringer
- Metakognisjon: frekvensen og kvaliteten på elevens innsats for å planlegge, reflektere og overvåke sine tilnærminger til studier
- Gjenkalling: nøyaktigheten som en elev kan huske innhold fra tidligere interaksjoner
Dette gjenspeiler vår overordnede innsats for ikke bare å fokusere på snevre definisjoner av læringsutbytte (testresultater som stiger), men på de helhetlige ferdighetene som ligger til grunn for læring. Det gjenspeiler også troen vår på at det ikke vil finnes noen «silver bullet» når det gjelder hva man skal optimalisere for: systemer og lærere må få myndighet til å veilede avveininger i tråd med pedagogisk beste praksis og tilnærminger.
Veien videre
Vi validerer Learning Outcomes Measurement Suite gjennom storskala studier før vi gjør den mer tilgjengelig. Dette arbeidet er i gang med Universitetet i Tartu og Stanfords SCALE-initiativ på tvers av partnere i nasjonal skala som Estland, der målesuiten blir studert med nesten 20,000 elever i alderen 16-18 over flere måneder. Studentbruk vil skje i nært samarbeid med lokale ledere, for å sikre sikkerhet og samsvar med lokale læreplaner.
«Estland har alltid sett på utdanning ikke som noe statisk, men som et system vi kontinuerlig forbedrer.» Nå som KI blir en del av det bildet, er det store spørsmålet hvordan vi måler KI og dets langsiktige innvirkning på læring. Det er det vi finner ut i samarbeid med OpenAI. Studenter er ivrige etter å være involvert i utviklingsprosessen, og mange ønsker å lære hvordan de kan støtte læring med KI. Det føles som et reelt vendepunkt, og vi gleder oss til å bidra med metoder som andre utdanningssystemer kan gjenbruke og bygge videre på.”
Dette arbeidet bygger videre på en bredere samling av samarbeidsorientert forskning som pågår. I tillegg til resultatforskningen som gjennomføres gjennom grunnleggende partnere i Learning Lab, støtter OpenAI studier i skjæringspunktet mellom læring og arbeidsliv—som undersøker hvordan KI former studenters akademiske løp, karrierevalg og hvordan institusjoner kan støtte ansvarlig adopsjon. Denne forskningen foregår på tvers av Bocconi University, Innova Schools og Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University, og andre.
Når vi kjører mer langsiktige studier om hvordan studenter lærer best med KI, har vi tenkt å dele funn og jobbe med det bredere økosystemet for utdanning for å sikre at KI kan hjelpe elever overalt.
De som er interessert i å motta oppdateringer om dette arbeidet, kan registrere seg her.


