Ný verkfæri til að skilja gervigreind og námsárangur
Að bæta mælingar á áhrifum gervigreindar í námsumhverfum
Menntun er ein af framarlegustu og efnilegustu sviðum gervigreindar. Með verkfærum eins og ChatGPT getur sérsniðin námsaðstoð verið aðgengileg öllum nemendum, hvar sem er, hvenær sem er.
En menntageirinn er enn á frumstigi í skilningi á áhrifum gervigreindar á námsárangur. Á síðasta ári hóf teymið okkar rannsókn á notkun verkfæra eins og námsstillingu og fann efnilegar framfarir í frammistöðu nemenda. En rannsóknir okkar vöktu einnig mikilvæga spurningu: hvernig getum við metið áhrif gervigreindar á framfarir nemanda með tímanum, ekki bara á lokaprófi?
Þetta er víðari vistkerfisáskorun. Hingað til hafa flestar rannsóknaraðferðir einblínt á þröng frammistöðumerki, eins og prófeinkunnir, og skortir getu til að meta hvernig nemendur læra í raun með gervigreind í raunverulegum aðstæðum og hvernig sú notkun mótar árangur yfir tíma.
Til að brúa þetta bil þróuðum við Learning Outcomes Measurement Suite, ramma sem var þróaður í samstarfi við Háskólann í Tartu í Eistlandi og SCALE-verkefnið við Stanford Accelerator for Learning til að styðja við langtímamælingar á námsárangri í ólíkum menntunarsamhengjum.
Víðtæk staðfesting er í gangi í gegnum slembiraðaða samanburðarrannsókn, og frekari rannsóknir eru fyrirhugaðar með stofnendum í Learning Lab, vistkerfi OpenAI fyrir rannsóknir á námi, þar á meðal vísindamönnum frá Arizona State University, UCL Knowledge Lab og MIT Media Lab (byggt á fyrri samstarfsrannsóknum).
Í dag deilum við yfirliti yfir hvernig mælingapakkinn virkar og af hverju það skiptir máli. Með tímanum ætlum við að birta fleiri rannsóknir og gefa út mælingapakkann sem opinbert úrræði fyrir skóla, háskóla og menntakerfi um allan heim.
“Þessar rannsóknir gera okkur kleift að læra hratt og jafnframt leggja grunn að dýpri skilningi á því hvernig gervigreind getur verið samþætt í skólum á ígrundaðan hátt á þann hátt sem skiptir raunverulega máli. Við viljum skilja hvernig þessi verkfæri geta stutt við strangt fræðilegt nám en jafnframt ræktað æðri hugsun, sköpunargáfu, forvitni og sjálfstraust nemenda á sjálfum sér sem námsmönnum.”
- Rannsóknaraðferðir dagsins í dag á áhrifum gervigreindar á nám sýna jákvæð merki um frammistöðu, en ná ekki utan um heildarmyndina af því hvernig gervigreind hefur áhrif á námsárangur til lengri tíma.
- Learning Outcomes Measurement Suite mun í fyrsta sinn veita staðlaðan ramma fyrir langtímarannsóknir sem hjálpa kennurum, vísindamönnum og stofnunum að skilja hvernig gervigreind mótar nám og námsárangur í ólíku samhengi.
- Learning Lab hjá OpenAI er nýtt rannsóknarvistkerfi sem einbeitir sér að því að efla þetta starf. OpenAI mun birta niðurstöður hlið við hlið með ýmsum samstarfsaðilum eftir því sem sviðið heldur áfram að þróast.
Þegar nemendur nota gervigreindarverkfæri til að læra og tileinka sér námsefni getur það þýtt margt ólíkt – allt frá því að leita til gervigreindar eftir skjótum svörum til þess að nota hana til að vinna sig í gegnum verkefni skref fyrir skref með leiðsögn líkt og frá einkakennara. Til að hvetja notendur til að nota ChatGPT á þann hátt að það styðji við dýpri skilning og færniþróun kynnti OpenAI námsstillingu á síðasta ári. Undir yfirborðinu er námsstillingin knúin áfram af sérsniðnum kerfisleiðbeiningum sem við höfum þróað í samstarfi við kennara, vísindamenn og sérfræðinga í kennslufræðum til að endurspegla kjarnahegðun sem styður raunverulegt nám, ekki bara svör – með stoðbyggingu, athugunum á skilningi og æfingu undir leiðsögn.
Til að prófa hvort þessi tegund kennslufræðilega samræmds samskiptastíls gervigreindar skili betri námsárangri, framkvæmdum við slembirannsókn með yfir 300 háskólanemum sem undirbjuggu sig fyrir próf í taugavísindum og rekstrarhagfræði. Þótt greining sé enn í gangi, gefa fyrstu niðurstöður okkur traust á að kennslufræðilega samræmdur samskiptastíll gervigreindar, sem er hvattur með eiginleikum eins og námsstillingu, geti bætt námsárangur. En þessar rannsóknir leiddu einnig í ljós mikilvægan veruleika: það sem skiptir raunverulega máli er hvort ávinningurinn og tengd afkastamikil hegðun haldist varanleg með tímanum.
Rannsóknarhönnun
Þátttakendum var úthlutaður einn af þremur hópum: samanburðarhópur lærði með hefðbundnum netauðlindum eins og Google Search og YouTube, þar sem yfirlitseiginleikar búnir til með gervigreind voru óvirkir, á meðan tveir viðbótarhópar fengu aðgang að einu af tveimur afbrigðum námsstillinga sem voru hönnuð til að leiðbeina nemendum í gegnum námsferlið á örlítið ólíkan hátt. Grunnkannanir og kynningarkannanir voru safnaðar fyrirfram til að gera ráð fyrir mun á fyrri námskeiðsreynslu, námsháttum, akademísku sjálfstrausti og kunnugleika á gervigreindarverkfærum. Nemendur luku tímasettum lotum í námsstillingu fyrir hvert próf, þar sem jafnvægi var haft á milli tveggja afbrigða námsstillingarinnar milli þátttakenda.
Þessi uppsetning var hönnuð til að endurspegla raunverulegar aðstæður í námi frekar en náið stýrðu rannsóknarstofuumhverfi. Þátttaka var ekki tengd frammistöðu á prófi, og ekki allir nemendur notuðu námsstillinguna í sama mæli á meðan á hinum nefndu 40 mínútna lotum stóð. Þetta gerði okkur kleift að mæla og greina frá intention-to-treat (ITT) áhrifum, áhrifum þess að fá veittan aðgang að verkfærinu við raunhæfar innleiðingaraðstæður—með öðrum orðum, orsakaáhrifum þess að vera boðin námsstilling, með viðurkenningu á því að þátttaka getur verið breytileg í reynd.
Niðurstöður
Við mældum frammistöðu á hverju prófi fyrir sig. Í slembirannsókn okkar voru umbæturnar ekki einsleitar milli þátttakenda og stig þátttöku í námsstillingu var mismunandi milli þátttakenda.
- Taugavísindi (aðal ITT): Við sáum jákvæðan mun í tiltekna átt fyrir námsstillingu miðað við viðmiðunarhóp, en niðurstöðurnar voru ekki aðgreinanlegar frá nemendum sem lærðu með hefðbundnum netauðlindum. Sum innleiðingar- og tæknileg vandamál höfðu áhrif á þann tíma sem nemendur sem notuðu námsstillingu eyddu í nám.
- Rekstrarhagfræði (aðal ITT): Við sáum marktækar framfarir í prófárangri meðal nemenda sem fengu aðgang að námsstillingu samanborið við viðmiðunarhópinn án gervigreindar—um það bil 15% hærri einkunn að meðaltali.
Áhrifin haldast stöðug þegar við berum saman hvert afbrigði námsstillingar fyrir sig við viðmiðið.
Þótt þetta endurspegli breytileika í raunheimum varpaði það ljósi á dýpri takmörkun í því hvernig námsárangur er yfirleitt mældur.
Flestar núverandi matsaðferðir reiða sig á fastmótaðar íhlutanir sem eru metnar yfir stutt tímabil og nota niðurstöður eins og prófseinkunnir eða lokaritgerðir sem aðalmerki. Þessar aðferðir eru ekki hannaðar til að fanga kjarnakerfið sem gervigreind hefur áhrif á nám í reynd: viðvarandi, persónusniðin samskipti sem þróast samhliða eigin aðferðum, óskum og námsháttum nemanda. Þau leiða heldur ekki í ljós hvort umbætur í einni getu, til dæmis skammtímaminnis, geti komið samhliða málamiðlunum í öðrum, til dæmis þrautseigju, sjálfstæðum hvata eða skapandi lausn vandamála. Þess vegna missa þau af langtímaáhrifum á vitsmuni sem að lokum ráða því hvort gervigreind bætir nám á marktækan hátt.
Vegna þess að námsumhverfi er mismunandi milli landa, kennsluskráa og markmiða stofnana, er sjaldgæft að niðurstöður úr einstökum rannsóknum eigi við í öðrum kerfum. Mælingaaðferðir þurfa því að vera nægilega sveigjanlegar til að mismunandi menntakerfi geti skilgreint hvað telst árangur í þeirra samhengi, metið gervigreind út frá eigin viðmiðum og lagað ferlið í samræmi við það.
Að byggja upp betra mælikerfi
Með hliðsjón af lærdómi úr rannsóknum OpenAI á námsstillingu höfum við verið að þróa skipulagt mælikerfi til að meta áhrif gervigreindar á nemendur í stórum stíl og skapa ferli til að bæta líkön út frá þeim niðurstöðum. Það byggir á þremur merkjum – hvernig líkanið virkar, hvernig nemendur bregðast við og hvaða mælanlegar vitsmunalegar niðurstöður koma fram með tímanum. Það inniheldur:
- Kerfisleiðbeiningar til að fínstilla hegðun líkansins: notkun náttúrulegs máls til að breyta sjálfgefnu hegðun líkansins þannig að hún samræmist betur tilteknum kennslufræðilegum nálgunum.
- Flokkarar fyrir námsvíxlverkanir: þeir greina sjálfkrafa „námsaugnablik“ innan raunverulegra, nafnlausra samskipta nemanda–líkans og merkja áberandi einkenni eins og þátttöku og villuleiðréttingu.
- Gæðamatsaðilar fyrir nám: þeir meta og gefa einkunn fyrir hvert þessara námsaugnablika út frá því hvort nemandinn náði markmiði sínu og að hve miklu leyti samskiptin fylgdu traustum kennslufræðilegum meginreglum, þar á meðal greiningu á bilunarstillingum.
- Langtímamatsaðilar fyrir nám: þeir fylgjast með breytingum á samskiptum sama nemanda við líkanið yfir tíma—þar á meðal þátttöku, þrautseigju og metavitundarlegar aðferðum—á einstaklings- og hópstigi.
- Staðlaðar hugrænar og metahugrænar mælingar: þetta eru staðfest mælitæki frá þriðja aðila sem eru lögð fyrir í gegnum ChatGPT fyrir/á meðan/eftir aðgang til að setja grunnlínur og mæla breytingar á grunngetu, svo sem gagnrýnni hugsun, sköpunargáfu og minni.
Þegar þetta er sameinað köllum við þetta mælikerfi mælingapakka fyrir námsárangur.
Hann skapar mikilvæg merki sem menntakerfið getur nýtt: skipulagðar yfirsýnir yfir námsaugnablik, mælaborð sem sýna hvernig niðurstöður breytast yfir tíma milli árgangahópa, vísbendingar um frammistöðu líkans gagnvart matsramma fyrir kennslu og leiðsögn, og útkomumælikvarða sem eru samræmdir við staðlaðar prófanir og stutta spurningalista fyrir nemendur. Þar sem það er í boði getur það fellt inn raunveruleg gögn sem samstarfsaðilar veita, svo sem prófeinkunnir, athuganir í kennslustofu eða mætingu.
Öll gögn óauðkennd
Þetta gerir samstarfsaðilum okkar einnig kleift að skilja dýpri hugrænu áhrifin af því að nota gervigreind til náms með tímanum, þar sem við getum einnig í gegnum þetta kerfi fylgst með áhrifum á getu eins og:
- Sjálfráð hvatning: að hve miklu leyti nemendur móta eigið nám í stað þess að vera stýrt af líkani
- Afkastamikil þátttaka: tíðni, fjölbreytni og gæði kennslufræðilegra samskipta
- Þrautseigja í verkefnum: hversu vel nemandi situr við og þrýstir sér í gegnum vitsmunalegar áskoranir
- Metavitsmunir: tíðni og gæði viðleitni nemandans til að skipuleggja, ígrunda og fylgjast með nálgunum sínum á námi
- Upprifjun: nákvæmnin sem nemandi getur munað efni úr fyrri samskiptum
Þetta endurspeglar heildarviðleitni okkar til að einblína ekki eingöngu á þröngar skilgreiningar á námsárangri (prófeinkunnir hækka), heldur á heildræna hæfni sem liggur til grundvallar námi. Þetta endurspeglar einnig trú okkar á að engin töfralausn verði til þegar kemur að því hvað eigi að hámarka: kerfi og kennarar þurfa að fá umboð til að stýra málamiðlunum í samræmi við bestu starfsvenjur og nálganir í kennslufræði.
Hvert förum við héðan
Við erum að staðfesta Learning Outcomes Measurement Suite með umfangsmiklum rannsóknum áður en við gerum það víðtækt aðgengilegt. Þessi vinna er í gangi með Tartu-háskóla og SCALE-verkefni Stanford í gegnum samstarfsaðila á landsvísu eins og Eistland, þar sem verið er að rannsaka mælingapakkann með nærri 20,000 nemendum á aldrinum 16-18 ára yfir nokkra mánuði. Notkun nemenda mun eiga sér stað í nánu samstarfi við staðbundna leiðtoga til að tryggja öryggi og samræmi við staðbundnar námskrár.
„Eistland hefur alltaf nálgast menntun ekki sem eitthvað stöðugt heldur sem kerfi sem við bætum stöðugt. Með gervigreind sem hluta af þeirri heildarmynd er stóra spurningin hvernig við mælum langtímaáhrif gervigreindar á nám. Það er það sem við erum að átta okkur á í samstarfi við OpenAI. Nemendur eru áhugasamir um að taka þátt í þróunarferlinu og margir vilja læra hvernig á að styðja nám með gervigreind. Þetta virkar eins og raunveruleg tímamót og við erum spennt að leggja til aðferðir sem önnur menntakerfi geta endurnýtt og byggt á.”
Þessi vinna byggir á víðtækari heild samstarfsrannsókna sem eru í gangi. Til viðbótar við rannsóknir á námsárangri sem eru framkvæmdar í gegnum stofnaðila í Learning Lab styður OpenAI rannsóknir á mörkum náms og vinnumarkaðar—með því að skoða hvernig gervigreind mótar námsferla nemenda, starfsval og hvernig stofnanir geta stutt ábyrga innleiðingu. Þessar rannsóknir fara fram hjá Bocconi University, Innova Schools og Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University og fleirum.
Þegar við framkvæmum langtímarannsóknir á því hvernig nemendur læra best með gervigreind ætlum við að deila niðurstöðum og vinna með víðtækara menntakerfi til að tryggja að gervigreind komi nemendum alls staðar til góða.
Þeir sem hafa áhuga á að fá uppfærslur um þessa vinnu geta skráð sig hér.


