Nova orodja za razumevanje UI in učnih izidov
Nadgrajevanje načinov merjenja vpliva UI v različnih učnih okoljih
Izobraževanje je eno najbolj obetavnih področij UI. Z orodji, kot je ChatGPT, je lahko prilagojena podpora pri učenju na voljo vsakemu učencu kjer koli in kadar koli.
Toda izobraževalni sektor je še vedno v zgodnji fazi razumevanja vpliva UI na učne izide. Lani se je naša ekipa lotila preučevanja uporabe orodij, kot je učni način, in ugotovila obetavne izboljšave pri uspešnosti študentov. Naša raziskava pa je odprla tudi pomembno vprašanje: kako lahko ocenimo, kako UI vpliva na napredek učenca skozi čas, ne le pri zaključnem izpitu?
To je širši izziv celotnega ekosistema. Dosedanje raziskovalne metode se večinoma osredotočajo na ozke kazalnike uspešnosti, kot so rezultati testov, in ne omogočajo presoje, kako se študenti dejansko učijo z UI v okoliščinah iz resničnega sveta ter kako ta uporaba skozi čas vpliva na učne izide.
Da bi zapolnili to vrzel, smo razvili nabor za merjenje učnih izidov, okvir, ki je nastal v sodelovanju z Univerzo v Tartuju v Estoniji in pobudo SCALE pri Stanford Accelerator for Learning ter podpira longitudinalno merjenje učnih izidov v različnih izobraževalnih kontekstih.
Trenutno poteka obsežna validacija z randomizirano kontrolirano raziskavo, načrtovane pa so tudi nadaljnje raziskave z ustanovnimi organizacijami v Learning Lab-u, OpenAI-jevem raziskovalnem ekosistemu za učenje, vključno z raziskovalci z Arizona State University, UCL Knowledge Lab in MIT Media Lab (pri čemer se te raziskave opirajo na predhodne skupne študije).
Danes predstavljamo pregled delovanja nabora za merjenje in razloge, zakaj je pomembna. Sčasoma nameravamo objaviti več raziskav in naborov za merjenje dati na voljo kot javni vir za šole, univerze in izobraževalne sisteme po vsem svetu.
»Ta raziskava nam omogoča hitro učenje, hkrati pa postavlja temelje za poglobljeno razumevanje, kako je mogoče UI premišljeno vključevati v šole na načine, ki imajo resničen pomen. Želimo razumeti, kako lahko ta orodja podpirajo poglobljeno akademsko učenje, hkrati pa spodbujajo mišljenje višje ravni, ustvarjalnost, radovednost in zaupanje učencev vase kot učence.«
- Današnje raziskovalne metode za proučevanje vpliva UI na učenje kažejo obetavne signale glede uspešnosti, vendar ne zajamejo celotne slike o tem, kako UI skozi čas vpliva na učne izide.
- Nabor za merjenje učnih izidov bo prvič zagotovila standardiziran okvir za longitudinalne študije, ki bodo učiteljem, raziskovalcem in institucijam pomagale razumeti, kako UI oblikuje učenje in učne izide v različnih kontekstih.
- OpenAI-jev Learning Lab je nov raziskovalni ekosistem, osredotočen na spodbujanje tega dela. OpenAI bo objavljal ugotovitve skupaj z različnimi partnerji, medtem ko se bo to področje še naprej razvijalo.
Ko študenti pri študiju in učenju uporabljajo orodja UI, to lahko pomeni poljubno situacijo, npr. na UI se obrnejo po hiter odgovor ali pa jo uporabljajo za postopno reševanje nalog z usmerjanjem, podobnim mentorstvu). Da bi uporabnike spodbudili k uporabi ChatGPT‑ja na načine, ki podpirajo globlje razumevanje in razvijanje spretnosti, je OpenAI lani uvedel učni način. V ozadju učni način poganjajo prilagojena sistemska navodila, ki smo jih pripravili v sodelovanju z učitelji, znanstveniki in strokovnjaki za pedagogiko, tako da odražajo temeljni nabor pristopov, ki podpirajo resnično učenje, ne le podajanja odgovorov (z uporabo postopnega usmerjanja, preverjanja razumevanja in vodenih vaj).
Da bi preverili, ali se takšen pedagoško usklajen slog interakcije z UI odraža v boljših učnih izidih, smo izvedli randomizirano raziskavo z več kot 300 študenti, ki so se pripravljali na izpite iz nevroznanosti in mikroekonomije. Čeprav analiza še vedno poteka, nam zgodnji rezultati dajejo zaupanje, da lahko pedagoško usklajen slog interakcije z UI, ki ga spodbujajo funkcionalnosti, kot je učni način, izboljša učne izide. Toda ta raziskava je pokazala tudi pomembno dejstvo: resnično pomembno je, ali ti dosežki in z njimi povezana produktivna vedenja dolgoročno ostanejo trajni.
Zasnova raziskave
Udeleženci so bili razporejeni v eno od treh skupin: kontrolna skupina se je učila z uporabo tradicionalnih spletnih virov, kot sta Google Search in YouTube, pri čemer so bile funkcionalnosti za pregled vsebine, ustvarjene z UI, onemogočene, medtem ko sta dve dodatni skupini dobili dostop do ene od dveh različic učnega načina, zasnovanih tako, da študente na nekoliko različna načina vodita skozi učni proces. Vnaprej smo zbrali uvrstitvene teste in uvodne ankete, da bi prilagodili razlike v predhodni izpostavljenosti predmetni snovi, učnih navadah, akademski samozavesti in poznavanju orodij UI. Študenti so pred vsakim izpitom opravili časovno omejene seje v učnem načinu, pri čemer sta bili dve različici učnega načina uravnoteženi med udeleženci.
Ta postavitev je bila zasnovana tako, da odraža pogoje učenja v resničnem svetu, ne pa strogo nadzorovanega laboratorijskega okolja. Sodelovanje ni bilo povezano z uspešnostjo na izpitu in vsi študenti v nominalnih 40-minutnih seansah niso uporabljali učnega načina v enakem obsegu. To nam je omogočilo merjenje in poročanje o učinkih namere za zdravljenje (ITT), torej vpliva samega dostopa do orodja v realističnih pogojih uvajanja, z drugimi besedami, vzročnega vpliva tega, da je bil študentu ponujen učni način, ob upoštevanju, da se lahko stopnja uporabe v praksi razlikuje.
Ugotovitve
Uspešnost smo merili pri vsakem izpitu posebej. V naši randomizirani raziskavi izboljšave niso bile enotne pri vseh predmetih, ravni uporabe učnega načina pa so se med udeleženci razlikovale.
- Nevroznanost (primarni ITT): opazili smo smerno pozitivne razlike v korist učnega načina v primerjavi s kontrolno skupino, vendar rezultatov ni bilo mogoče razlikovati od rezultatov študentov, ki so se učili s tradicionalnimi spletnimi viri. Nekatera vprašanja, povezana z uvajanjem in tehničnimi težavami, so vplivala na čas, ki so ga študenti pri učenju porabili za uporabo učnega načina.
- Mikroekonomija (primarni ITT): pri študentih, ki so jim dodelili dostop do učnega načina, smo v primerjavi s kontrolno skupino brez UI opazili pomembne izboljšave pri uspešnosti na izpitu, približno za 15 % višji relativni rezultat.
Učinek ostaja dosleden, ko posamezne variante načina študija primerjamo ločeno s kontrolno skupino.
Čeprav to odraža variabilnost v resničnem svetu, je hkrati pokazalo globljo omejitev v načinu, kako se učni izidi običajno merijo.
Večina obstoječih evalvacijskih pristopov temelji na nespremenljivih intervencijah, ki se ocenjujejo v kratkih časovnih obdobjih, pri čemer se kot primarni signali uporabljajo izidi, kot so rezultati testov ali zaključni eseji. Ti pristopi niso zasnovani tako, da bi zajeli osrednji mehanizem, prek katerega UI v praksi vpliva na učenje: stalne, prilagojene interakcije, ki se razvijajo skupaj z lastnimi strategijami, preferencami in učnimi navadami učenca. Prav tako ne pokažejo, ali se izboljšave na enem področju zmožnosti, kot je kratkoročni priklic, lahko pojavljajo skupaj s kompromisi na drugih področjih, kot so vztrajnost, avtonomna motivacija ali ustvarjalno reševanje problemov. Zato ne zajamejo longitudinalnih kognitivnih učinkov, ki na koncu odločajo o tem, ali UI učenje smiselno izboljšuje.
Ker se učna okolja med državami, učnimi načrti in institucionalnimi cilji zelo razlikujejo, se rezultati enkratnih študij le redko posplošijo na različne sisteme. Pristopi k merjenju morajo biti zato dovolj prilagodljivi, da lahko različni izobraževalni sistemi opredelijo, kaj v njihovem kontekstu pomeni uspeh, evalvirajo UI glede na lastna merila in nato temu ustrezno iterirajo.
Vzpostavitev boljšega sistema merjenja
Na podlagi spoznanj iz raziskave OpenAI o učnem načinu razvijamo strukturiran sistem merjenja za merjenje vpliva UI na učence v velikem obsegu in za vzpostavitev mehanizma za izboljševanje modelov na podlagi teh izidov. Temelji na treh signalih: kako se model vede, kako se odzivajo učenci in kateri merljivi kognitivni izidi se sčasoma pokažejo. Vsebuje:
- Sistemska navodila za izpopolnjevanje vedenja modela: uporabo naravnega jezika za spremembo privzetega vedenja modela, da bo bolje usklajeno s specifičnimi pedagoškimi pristopi.
- Klasifikatorje učnih interakcij: ti v resničnih, psevdonimiziranih interakcijah med učencem in modelom samodejno zaznavajo »učne trenutke« in označujejo izstopajoče značilnosti, kot sta vključenost in popravljanje napak.
- Ocenjevalnike kakovosti učenja: ti evalvirajo in ocenjujejo vsakega od teh učnih trenutkov glede na to, ali je učenec dosegel svoj cilj, in glede na stopnjo, do katere je interakcija sledila dobrim pedagoškim načelom, vključno s prepoznavanjem načinov odpovedi.
- Ocenjevalnike longitudinalnega učenja: ti skozi čas spremljajo spremembe v interakcijah istega učenca z modelom, vključno z vključenostjo, vztrajnostjo in metakognitivnimi strategijami, tako na ravni posameznika kot na ravni kohorte.
- Standardizirana kognitivna in metakognitivna merila: to so validirani instrumenti tretjih oseb, ki se izvajajo prek ChatGPT‑ja pred dostopom, med dostopom in po dostopu, da se vzpostavijo izhodišča ter merijo spremembe v temeljnih zmožnostih, kot so kritično mišljenje, ustvarjalnost in spomin.
Ko so ti elementi združeni, ta sistem merjenja poimenujemo Nabor za merjenje učnih izidov.
Ustvarja pomembne signale, ki jih lahko uporablja izobraževalni ekosistem: strukturirane prikaze učnih trenutkov, nadzorne plošče, ki prikazujejo, kako se učni izidi skozi čas spreminjajo med kohortami, kazalnike delovanja modela glede na pedagoške rubrike in rubrike za mentorsko podporo ter merila izidov, usklajena s standardiziranimi preverjanji znanja in kratkimi vprašalniki. Kjer je to mogoče, lahko vključuje tudi referenčne podatke, ki jih zagotovijo partnerji, kot so rezultati izpitov, opazovanja v razredu ali prisotnost.
Vsi podatki so psevdonimizirani
Partnerjem omogoča tudi razumevanje globljih kognitivnih vplivov uporabe UI za učenje skozi čas, saj lahko s tem sistemom spremljamo tudi vpliv na zmožnosti, kot so:
- Avtonomna motivacija: stopnja, do katere učeči se oblikujejo svoj študij sami v primerjavi s tem, da jih usmerja model
- Produktivno sodelovanje: pogostost, raznolikost in kakovost pedagoških interakcij
- Vztrajnost pri nalogah: stopnja, do katere se učenec posveti kognitivnim izzivom in jih premaguje
- Metakognicija: pogostost in kakovost učenčevih prizadevanj za načrtovanje, refleksijo in spremljanje svojih pristopov k učenju
- Priklic: natančnost, s katero si lahko učeči se zapomni vsebino iz prejšnjih interakcij
To odraža naša širša prizadevanja, da se ne osredotočamo zgolj na ozke opredelitve učnih izidov (naraščanje rezultatov testov), temveč na celostne zmožnosti, ki so temelj učenja. Odraža tudi naše prepričanje, da ne bo enega samega univerzalnega odgovora glede tega, kaj optimizirati: sistemom in učiteljem je treba omogočiti, da usmerjajo kompromise v skladu z najboljšimi pedagoškimi praksami in pristopi.
Kam od tu naprej
Nabor za merjenje učnih izidov validiramo z obsežnimi raziskavami, preden ga bomo dali v širšo uporabo. To delo poteka z Univerzo v Tartuju in pobudo SCALE Univerze Stanford pri partnerjih na ravni celotnih držav, kot je Estonija, kjer nabor za merjenje učnih izidov preučujejo pri skoraj 20.000 učencih, starih od 16 do 18 let, v obdobju več mesecev. Uporaba med učečimi se bo potekala v tesnem sodelovanju z lokalnimi vodji, da se zagotovita varnost in usklajenost z lokalnimi učnimi načrti.
»Estonija je k izobraževanju vedno pristopala ne kot k nečemu statičnemu, temveč kot k sistemu, ki ga nenehno izboljšujemo. Ker umetna inteligenca (UI) postaja del te slike, je ključno vprašanje, kako merimo dolgoročni vpliv UI na učenje. Prav to ugotavljamo v sodelovanju z OpenAI. Učeči se si želijo sodelovati v razvojnem procesu, mnogi pa se želijo naučiti, kako z UI podpirati učenje. Zdi se, da gre za resnično prelomnico, in veseli smo, da lahko prispevamo metode, ki jih bodo drugi izobraževalni sistemi lahko ponovno uporabili in nadgrajevali.«
To delo temelji na širšem sklopu skupnih raziskav, ki že potekajo. Poleg raziskav učnih izidov, ki jih izvajajo ustanovni partnerji v Learning Labu, OpenAI podpira tudi študije na stičišču učenja in dela, v katerih preučujejo, kako UI oblikuje akademske poti študentov, njihove karierne odločitve in načine, kako lahko institucije podpirajo odgovorno sprejemanje. Te raziskave potekajo na Bocconi University, v Innova Schools in na Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University ter drugod.
Ko bomo izvajali dolgoročnejše raziskave o tem, kako se študenti z UI najbolje učijo, nameravamo ugotovitve deliti in sodelovati s širšim izobraževalnim ekosistemom, da bi zagotovili, da UI koristi učencem povsod.
Če o tem želite prejemati obvestila, se lahko prijavite tukaj.


