2026 m. kovo 4 d.

Nauji įrankiai DI ir mokymosi rezultatams suprasti

DI poveikio matavimo mokymosi aplinkose tobulinimas

Švietimas yra viena perspektyviausių DI sričių. Naudojant tokius įrankius kaip „ChatGPT“, personalizuotas mokymosi palaikymas gali būti prieinamas bet kuriam mokiniui, bet kur ir bet kada.

Tačiau švietimo sektorius dar tik pradeda suprasti DI poveikį mokymosi rezultatams. Praėjusiais metais mūsų komanda ėmėsi tirti, kaip naudojami tokie įrankiai kaip mokymosi režimas⁠, ir nustatė daug žadančių mokinių pasiekimų gerėjimo ženklų. Vis dėlto mūsų tyrimas taip pat iškėlė svarbų klausimą: kaip galime įvertinti, kokią įtaką DI daro besimokančiojo pažangai ilgainiui, o ne tik per baigiamąjį egzaminą?

Tai yra platesnis ekosistemos iššūkis. Iki šiol dauguma tyrimo metodų orientuoti į siaurus pasiekimų signalus, tokius kaip testų balai, ir jais neįmanoma įvertinti, kaip mokiniai iš tikrųjų mokosi naudodami DI realiose situacijose ir kaip šis naudojimas formuoja rezultatus ilgainiui.

Siekdami užpildyti šią spragą, sukūrėme „Learning Outcomes Measurement Suite“ – sistemą, sukurtą kartu su Estijos Tartu universitetu ir Stanfordo mokymosi akceleratoriaus (angl. Stanford Accelerator for Learning) iniciatyva SCALE, skirtą palaikyti ilgalaikį mokymosi rezultatų matavimą įvairiuose švietimo kontekstuose.

Šiuo metu atliekamas išsamus patvirtinimas atsitiktinių imčių kontroliuojamuoju tyrimu, planuojami tolesni tyrimai su „OpenAI“ mokymosi tyrimų ekosistemos „Learning Lab“ organizacijomis steigėjomis, įskaitant tyrėjus iš Arizonos valstijos universiteto, UCL žinių laboratorijos (angl. UCL Knowledge Lab) ir MIT žiniasklaidos laboratorijos (angl. MIT Media Lab) (remiantis ankstesniais bendrais tyrimais⁠).

Šiandien dalijamės apžvalga, kaip veikia ši matavimo sistema ir kodėl ji svarbi. Ilgainiui ketiname paskelbti daugiau tyrimų ir išleisti šią matavimo sistemą kaip viešąjį išteklių, skirtą mokykloms, universitetams ir švietimo sistemoms visame pasaulyje.

„Šis tyrimas leidžia mums greitai mokytis ir kartu pakloja pamatą gilesniam supratimui, kaip DI galima apgalvotai ir išties prasmingai integruoti į mokyklas. Norime suprasti, kaip šie įrankiai gali palaikyti griežtą akademinį mokymąsi ir kartu ugdyti aukštesnio lygio mąstymą, kūrybiškumą, smalsumą ir mokinių pasitikėjimą savimi kaip besimokančiaisiais.“

– Susanna Loeb, edukologijos profesorė ir Stanfordo universiteto iniciatyvos SCALE fakulteto direktorė

Pagrindinių išvadų santrauka

Dabartiniai tyrimo metodai, vertinantys DI poveikį mokymuisi, rodo daug žadančius pasiekimų signalus, bet neatskleidžia viso vaizdo, kaip DI veikia mokymosi rezultatus ilgainiui.
„Learning Outcomes Measurement Suite“ pirmą kartą pateiks standartinę sistemą ilgalaikiams tyrimams, padedantiems pedagogams, tyrėjams ir institucijoms suprasti, kaip DI formuoja mokymąsi ir rezultatus skirtinguose kontekstuose.
„OpenAI“ mokymosi laboratorija yra nauja mokslinių tyrimų ekosistema, skirta šiam darbui plėtoti. „OpenAI“ „Learning Lab“ yra nauja tyrimų ekosistema, skirta šiam darbui skatinti.

Ištakos ir ankstyvieji tyrimai

Kai mokiniai naudoja DI įrankius mokymuisi, tai gali reikšti daug skirtingų dalykų – nuo greitų atsakymų ieškojimo DI sistemose iki jo naudojimo problemoms spręsti žingsnis po žingsnio su mokytojo lygio patarimais. Siekdama paskatinti naudotojus bendrauti su „ChatGPT“ būdais, kurie palaiko gilesnį supratimą ir įgūdžių formavimą, „OpenAI“ praėjusiais metais pristatė mokymosi režimą⁠. Mokymosi režimas veikia pagal pritaikytus sistemos nurodymus, kuriuos parengėme bendradarbiaudami su mokytojais, mokslininkais ir pedagogikos ekspertais, kad atspindėtume pagrindines elgsenas, kurios palaiko tikrą mokymąsi, o ne tik atsakymų pateikimą – naudojant pastoliavimą (angl. scaffolding), supratimo patikrinimus ir vadovaujamą praktiką.

Norėdami patikrinti, ar toks pedagogiškai suderintas bendravimo su DI stilius lemia geresnius mokymosi rezultatus, atlikome atsitiktinių imčių tyrimą su daugiau nei 300 universiteto studentų, besiruošiančių neuromokslų ir mikroekonomikos egzaminams. Nors analizė vis dar atliekama, ankstyvieji rezultatai suteikia mums pasitikėjimo, kad pedagogiškai suderintas bendravimo su DI stilius, skatinamas per tokias funkcijas kaip mokymosi režimas, gali pagerinti mokymosi rezultatus. Tačiau šis tyrimas taip pat atskleidė svarbią realybę: iš tikrųjų svarbu tai, ar pasiekimai ir su jais susijusi produktyvi elgsena išlieka ilgą laiką.

Tyrimo planas

Dalyviai buvo priskirti vienai iš trijų grupių: kontrolinė grupė mokėsi naudodama tradicinius internetinius išteklius, tokius kaip „Google Search“ ir „YouTube“, išjungus DI generuojamas apžvalgos funkcijas, o kitoms dviem grupėms buvo suteikta prieiga prie vieno iš dviejų mokymosi režimo variantų, skirtų šiek tiek skirtingai nukreipti studentus per mokymosi procesą. Prieš tai buvo surinkti pradinių žinių testų ir įvedimo apklausų duomenys, siekiant pakoreguoti rezultatus atsižvelgiant į ankstesnio mokymosi patirties, mokymosi įpročių, akademinio pasitikėjimo savimi ir susipažinimo su DI įrankiais skirtumus. Prieš kiekvieną egzaminą studentai atliko riboto laiko mokymosi režimo sesijas, o abu mokymosi režimo variantai buvo tolygiai paskirstyti tarp dalykų.

Ši sąranka buvo sukurta taip, kad atspindėtų realias mokymosi sąlygas, o ne griežtai kontroliuojamą laboratorijos aplinką. Dalyvavimas nebuvo susietas su egzaminų rezultatais, ir ne visi studentai vienodai naudojo mokymosi režimą per nominalias 40 minučių sesijas. Tai leido mums išmatuoti ir pranešti apie ketinimo gydyti (angl. intention-to-treat, ITT) poveikį – poveikį, atsirandantį suteikus prieigą prie įrankio realiomis diegimo sąlygomis – kitais žodžiais tariant, priežastinį mokymosi režimo pasiūlymo poveikį, pripažįstant, kad įsitraukimas praktikoje gali skirtis.

Išvados

Kiekvieno egzamino rezultatus matavome atskirai. Mūsų atsitiktinių imčių tyrime pagerėjimas nebuvo vienodas visuose dalykuose, o dalyvių įsitraukimo į mokymosi režimą lygis skyrėsi.

Neuromokslai (pirminis ITT): pastebėjome kryptingai teigiamus mokymosi režimo skirtumus, palyginti su kontroline grupe, tačiau rezultatai statistiškai nesiskyrė nuo studentų, besimokančių naudojant tradicinius internetinius išteklius. Kai kurios įvedimo ir techninės problemos turėjo įtakos laikui, kurį studentai praleido mokydamiesi naudodami mokymosi režimą.
Mikroekonomika (pirminis ITT): pastebėjome reikšmingą egzaminų rezultatų pagerėjimą tarp studentų, kuriems buvo priskirta prieiga prie mokymosi režimo, palyginti su kontroline grupe be DI – balas buvo maždaug 15 proc. didesnis.

Mokymosi režimas (A ir B variantai) palyginti su kontroline grupe (grupė be DI): koreguotieji egzaminų balų vidurkiai

Poveikis išlieka nuoseklus, kai kiekvieną mokymosi režimo variantą lyginame su kontroline grupe atskirai.

Nors tai atspindi realius skirtumus, tai išryškino gilesnį apribojimą to, kaip paprastai matuojami mokymosi rezultatai.

Dauguma esamų vertinimo metodų remiasi fiksuotomis intervencijomis, vertinamomis per trumpus laiko tarpus, kaip pagrindinius signalus naudojant tokius rezultatus kaip testų balai ar baigiamieji rašiniai. Šie metodai nėra sukurti užfiksuoti pagrindinį mechanizmą, per kurį DI praktikoje veikia mokymąsi: nuolatines, personalizuotas sąveikas, kurios kinta kartu su paties besimokančiojo strategijomis, pageidavimais ir mokymosi įpročiais. Jie taip pat neatskleidžia, ar vieno gebėjimo, pavyzdžiui, trumpalaikio įsiminimo, pagerėjimas gali atsirasti kitų gebėjimų, pavyzdžiui, atkaklumo, savarankiškos motyvacijos ar kūrybiško problemų sprendimo, sąskaita. Dėl to jie nepastebi ilgalaikio kognityvinio poveikio, kuris galiausiai nulemia, ar DI reikšmingai pagerina mokymąsi.

Kadangi mokymosi aplinkos labai skiriasi skirtingose šalyse, mokymo programose ir institucijų tiksluose, vienkartinių tyrimų rezultatai retai apibendrinami visoms sistemoms. Todėl matavimo metodai turi būti pakankamai lankstūs, kad skirtingos švietimo sistemos galėtų apibrėžti, kas yra sėkmė jų kontekste, įvertinti DI pagal savo standartus ir atitinkamai iteruoti.

Geresnės matavimo sistemos kūrimas

Remdamiesi patirtimi, įgyta iš „OpenAI“ mokymosi režimo tyrimų, kūrėme struktūruotą matavimo sistemą, skirtą DI poveikiui besimokantiesiems dideliu mastu matuoti, ir mechanizmą modeliams pagal tuos rezultatus tobulinti. Ji pagrįsta trimis signalais: kaip veikia modelis, kaip reaguoja besimokantieji ir kokie išmatuojami kognityviniai rezultatai pasiekiami ilgainiui. Ji apima šiuos elementus:

sistemos nurodymai modelio elgsenai tobulinti: natūraliosios kalbos naudojimas keičiant numatytąją modelio elgseną, kad ji geriau atitiktų konkrečius pedagoginius metodus;
mokymosi sąveikų klasifikatoriai: jie automatiškai aptinka „mokymosi akimirkas“ realiose, nuasmenintose besimokančiojo ir modelio sąveikose ir pažymi ryškias savybes, tokias kaip įsitraukimas ir klaidų taisymas;
mokymosi kokybės vertintojai: jie įvertina kiekvieną iš tų mokymosi akimirkų pagal tai, ar besimokantysis pasiekė savo tikslą, ir pagal tai, kiek sąveika atitiko tvirtus pedagoginius principus, įskaitant nesėkmės režimų nustatymą;
ilgalaikio mokymosi vertintojai: jie seka to paties besimokančiojo sąveikų su modeliu pokyčius ilgainiui – įskaitant įsitraukimą, atkaklumą ir metakognityvines strategijas – individualiu ir kohortos lygmenimis;
standartizuoti kognityviniai ir metakognityviniai matai: tai patvirtinti trečiųjų šalių instrumentai, pateikiami per „ChatGPT“ prieš suteikiant prieigą, jos metu ir po jos, siekiant nustatyti bazinius lygius ir išmatuoti pagrindinių gebėjimų, tokių kaip kritinis mąstymas, kūrybiškumas ir atmintis, pokyčius.

Sujungę šiuos elementus, šią matavimo sistemą vadiname Learning Outcomes Measurement Suite.

Ji generuoja svarbius signalus, kuriuos gali naudoti švietimo ekosistema: struktūruotus mokymosi akimirkų vaizdus, prietaisų skydelius, rodančius, kaip ilgainiui keičiasi rezultatai skirtingose kohortose, modelio veikimo rodiklius pagal mokymo ir konsultavimo rubrikas bei rezultatų matus, suderintus su standartizuotais vertinimais ir trumpais besimokančiųjų klausimynais. Kai įmanoma, į ją galima integruoti partnerių pateiktus etaloninius duomenis (angl. ground truth), pavyzdžiui, egzaminų balus, stebėjimo klasėje duomenis ar lankomumą.

Diagrama, iliustruojanti mokymosi rezultatų matavimo procesą, kuriame dirbtinis intelektas (DI) apdoroja duomenis atlikdamas analizės, vertinimo ir patikros veiksmus, prieš pateikdamas įžvalgas, skirtas paremti besimokančiajam.

Visi duomenys nuasmeninti

Ji taip pat leidžia mūsų partneriams suprasti gilesnį kognityvinį DI naudojimo mokymuisi poveikį ilgainiui, nes per šią sistemą taip pat galime stebėti poveikį tokiems gebėjimams kaip:

savarankiška motyvacija: laipsnis, kuriuo besimokantieji patys formuoja savo studijas, palyginti su modelio vadovavimu;
produktyvus įsitraukimas: pedagoginių sąveikų dažnumas, įvairovė ir kokybė;
atkaklumas atliekant užduotį: laipsnis, kuriuo besimokantysis išlaiko dėmesį ir įveikia kognityvinius iššūkius;
metakognicija: besimokančiojo pastangų planuoti, apmąstyti ir stebėti savo mokymosi metodus dažnumas ir kokybė;
įsiminimas: tikslumas, kuriuo besimokantysis gali prisiminti turinį iš ankstesnių sąveikų.

Tai atspindi mūsų bendras pastangas susitelkti ne tik į siaurus mokymosi rezultatų apibrėžimus (kylančius testų balus), bet ir į holistinius gebėjimais, kurie sudaro mokymosi pagrindą. Tai taip pat atspindi mūsų įsitikinimą, kad nebus vieno stebuklingo sprendimo, į ką reikėtų orientuotis: sistemoms ir pedagogams reikės suteikti galių patiems rasti pusiausvyrą, derančią su geriausia pedagogine praktika ir metodais.

Kur mes einame toliau

Prieš padarydami „Learning Outcomes Measurement Suite“ plačiai prieinamą, ją patvirtiname didelio masto tyrimais. Šis darbas atliekamas su Tartu universitetu ir Stanfordo iniciatyva SCALE per nacionalinio masto partnerius, tokius kaip Estija, kurioje matavimo sistema tiriama kelis mėnesius įtraukiant beveik 20 tūkst. mokinių nuo 16 iki 18 metų amžiaus. Mokiniai ja naudosis glaudžiai bendradarbiaujant su vietos vadovais, siekiant užtikrinti saugą ir suderinamumą su vietos mokymo programomis.

„Estija į švietimą visada žiūrėjo ne kaip į statinę sistemą, o kaip į tokią, kurią nuolat tobuliname. DI tampant šio paveikslo dalimi, kyla didelis klausimas – kaip išmatuoti ilgalaikį DI poveikį mokymuisi. Būtent tai ir bandome išsiaiškinti bendradarbiaudami su „OpenAI“. Mokiniai noriai dalyvauja kūrimo procese, ir daugelis nori sužinoti, kaip palaikyti mokymąsi pasitelkiant DI. Atrodo, kad pasiektas lūžio taškas, ir džiaugiamės galėdami prisidėti kurdami metodus, kuriuos galėtų naudoti ir toliau plėtoti kitos švietimo sistemos.“

– Jaan Aru, Tartu universitetas

Šis darbas remiasi platesniais vykdomais bendrais tyrimais. Be rezultatų tyrimų, atliekamų per „Learning Lab“ partnerius steigėjus, „OpenAI“ remia tyrimus mokymosi ir darbo sankirtoje – nagrinėja, kaip DI formuoja studentų akademinius kelius, karjeros sprendimus ir būdus, kuriais institucijos gali palaikyti atsakingą jo diegimą. Šie tyrimai atliekami Bocconi universitete, „Innova Schools“ ir Dartmuto Tucko verslo mokykloje, San Diego valstijos universitete, Stoni Bruko universitete ir kitur.

Atlikdami ilgalaikius tyrimus, kaip studentai geriausiai mokosi su DI, ketiname dalytis išvadomis ir bendradarbiauti su platesne švietimo ekosistema, siekdami užtikrinti, kad DI būtų naudingas besimokantiesiems visur.

Norintieji gauti naujienas apie šį darbą gali užsiregistruoti čia⁠.

Autorius

OpenAI

Skaityti toliau

Peržiūrėti viską

Kuriame DI infrastruktūrą su Efinghamo bendruomene

Naujienos iš pasaulio2026-07-22

Advancing the next era of national science card image

Kuriame kitą nacionalinio mokslo erą

Naujienos iš pasaulio2026-07-22

Helping build shared standards for advanced AI - card image

JAV stiprina DI saugą valstijų ir federaliniais veiksmais

Naujienos iš pasaulio2026-07-15