2026. gada 4. marts

Jauni rīki mākslīgā intelekta un mācību rezultātu izpratnei

Mākslīgā intelekta ietekmes mērīšanas uzlabošana dažādās mācību vidēs

Izglītība ir viena no MI daudzsološākajām robežšķirtnēm. Izmantojot tādus rīkus kā ChatGPT, personalizēts mācību atbalsts var būt pieejams jebkuram skolēnam jebkur un jebkurā laikā.

Taču izglītības nozare joprojām ir agrīnā stadijā attiecībā uz izpratni par mākslīgā intelekta ietekmi uz mācību rezultātiem. Pagājušajā gadā mūsu komanda uzsāka pētīt tādu rīku kā mācību režīms⁠ izmantošanu un atklāja daudzsološus uzlabojumus studentu sniegumā. Taču mūsu pētījums arī izvirzīja svarīgu jautājumu: kā mēs varam novērtēt, kā mākslīgais intelekts laika gaitā ietekmē izglītojamā progresu, nevis tikai noslēguma eksāmenā?

Šis ir plašāks ekosistēmas izaicinājums. Līdz šim lielākā daļa pētniecības metožu koncentrējas uz šauriem veiktspējas signāliem—piemēram, testu rezultātiem—un tām trūkst spējas novērtēt, kā skolēni patiesībā mācās ar mākslīgo intelektu reālās pasaules apstākļos, un kā šī izmantošana laika gaitā ietekmē rezultātus.

Lai novērstu šo nepilnību, mēs izstrādājām Mācību rezultātu mērīšanas komplektu, ietvaru, kas izveidots sadarbībā ar Igaunijas Tartu Universitāti un SCALE iniciatīvu Stenfordas Universitātes Mācību Paātrinātājā, lai atbalstītu mācību rezultātu ilglaicīgu mērīšanu dažādos izglītības kontekstos.

Pašlaik tiek veikta plaša validācija, izmantojot randomizētu kontrolētu pētījumu, un ir plānoti turpmāki pētījumi kopā ar dibinātājorganizācijām Learning Lab, OpenAI mācīšanās pētniecības ekosistēmā, tostarp ar pētniekiem no Arizonas Valsts universitātes, UCL Knowledge Lab un MIT Media Lab (balstoties uz iepriekšējiem kopīgiem pētījumiem⁠).

Šodien mēs dalāmies ar pārskatu par to, kā darbojas mērījumu komplekts un kāpēc tas ir svarīgi. Laika gaitā mēs plānojam publicēt vairāk pētījumu un padarīt mērījumu kopumu par publiski pieejamu resursu skolām, universitātēm un izglītības sistēmām visā pasaulē.

“Šis pētījums ļauj mums ātri mācīties, vienlaikus ieliekot pamatus dziļākai izpratnei par to, kā mākslīgo intelektu var pārdomāti integrēt skolās patiesi svarīgos veidos. Mēs vēlamies saprast, kā šie rīki var atbalstīt stingru akadēmisko mācīšanos, vienlaikus veicinot augstāka līmeņa domāšanu, radošumu, zinātkāri un skolēnu pārliecību par sevi kā apguvējiem.”

–Susanna Loeba (Susanna Loeb), Stenfordas Universitātes izglītības profesore un SCALE iniciatīvas fakultātes direktore

Galveno atziņu kopsavilkums

Mūsdienu pētījumu metodes par MI ietekmi uz mācīšanos rāda daudzsološas pazīmes attiecībā uz sniegumu, taču neaptver pilnu ainu par to, kā MI laika gaitā ietekmē mācību rezultātus.
Mācību rezultātu mērīšanas rīku komplekts pirmo reizi nodrošinās standartizētu ietvaru ilgtermiņa pētījumiem, kas palīdz pedagogiem, pētniekiem un iestādēm izprast, kā MI dažādos kontekstos veido mācīšanos un mācību rezultātus.
OpenAI mācību laboratorija ir jauna pētniecības ekosistēma, kas vērsta uz šī darba virzīšanu uz priekšu. OpenAI publicēs secinājumus kopā ar dažādiem partneriem, jo nozare turpina attīstīties.

Izcelsme un agrīnie pētījumi

Kad studenti mācībām un mācīšanās procesā izmanto MI rīkus, tas var nozīmēt daudz dažādu lietu — no vēršanās pie MI pēc ātrām atbildēm līdz tā izmantošanai, lai soli pa solim izietu cauri uzdevumiem ar pasniedzējam līdzīgu vadību. Lai mudinātu lietotājus iesaistīties ChatGPT tādā veidā, kas veicina dziļāku izpratni un prasmju veidošanu, OpenAI pagājušajā gadā ieviesa Mācību režīmu⁠. Ielūkojoties dziļāk, Mācību režīmu nodrošina pielāgotas sistēmas instrukcijas, kuras esam izstrādājuši sadarbībā ar skolotājiem, zinātniekiem un pedagoģijas ekspertiem, lai atspoguļotu pamata uzvedības kopumu, kas atbalsta patiesu mācīšanos, nevis tikai atbilžu sniegšanu—izmantojot strukturētu atbalstu, izpratnes pārbaudes un vadītu praktizēšanos.

Lai pārbaudītu, vai šāda pedagoģiski saskaņota MI mijiedarbības stila izmantošana pārvēršas labākos mācību rezultātos, mēs veicām randomizētu pētījumu ar vairāk nekā 300 koledžas studentiem, kuri gatavojās neirozinātnes un mikroekonomikas eksāmeniem. Lai gan analīze joprojām turpinās, agrīnie rezultāti dod mums pārliecību, ka pedagoģiski saskaņots MI mijiedarbības stils, ko veicina tādas funkcijas kā Mācību režīms, var uzlabot mācību rezultātus. Taču šis pētījums atklāja arī svarīgu realitāti: patiesi svarīgi ir tas, vai produktivitātes palielināšanās un ar to saistītā produktīvā uzvedība laika gaitā saglabājas noturīga.

Mācību dizains

Dalībnieki tika iedalīti vienā no trim grupām: kontroles grupa mācījās, izmantojot tradicionālos tiešsaistes resursus, piemēram, Google Search un YouTube, ar atspējotām MI ģenerētām pārskata funkcijām, savukārt divām papildu grupām tika piešķirta piekļuve vienam no diviem Mācību režīma variantiem, kas izstrādāti, lai nedaudz atšķirīgos veidos vadītu studentus mācību procesā. Sākotnējās viktorīnas un ievadaptaujas tika savāktas iepriekš, lai pielāgotos atšķirībām iepriekšējā kursu apguvē, mācību paradumos, akadēmiskajā pārliecībā un pazīstamībā ar mākslīgā intelekta rīkiem. Studenti pirms katra eksāmena pabeidza mācību režīma sesijas ar noteiktu laika ierobežojumu, un abi mācību režīma varianti tika līdzsvaroti starp dalībniekiem.

Šī iestatīšana tika izstrādāta, lai atspoguļotu reālās pasaules studiju apstākļus, nevis stingri kontrolētu laboratorijas vidi. Dalība nebija saistīta ar eksāmena rezultātiem, un ne visi studenti nominālo 40 minūšu sesiju laikā mācību režīmu izmantoja vienādā mērā. Tas ļāva mums izmērīt un ziņot par "intention-to-treat" (ITT) ietekmi, ko rada piekļuve rīkam reālos ieviešanas apstākļos - citiem vārdiem sakot, par mācību režīma piedāvājuma cēloņsakarību, atzīstot, ka iesaistīšanās praksē var atšķirties.

Secinājumi

Mēs mērījām veiktspēju katrā eksāmenā atsevišķi. Mūsu randomizētajā pētījumā uzlabojumi nebija vienmērīgi visiem subjektiem, un iesaistes līmeņi Mācību režīmā atšķīrās starp dalībniekiem.

Neirozinātne (primārais ITT): mēs novērojām virzieniski pozitīvas atšķirības Mācību režīmam salīdzinājumā ar kontroli, taču rezultāti nebija atšķirami no studentiem, kuri mācījās, izmantojot tradicionālos tiešsaistes resursus. Dažas ievadapmācības un tehniskas problēmas ietekmēja laiku, kuru studenti veltīja mācībām, izmantojot mācību režīmu.
Mikroekonomika (primārais ITT): mēs novērojām būtisku eksāmenu snieguma pieaugumu studentiem, kuriem tika piešķirta piekļuve Mācību režīmam, salīdzinājumā ar kontroles grupu bez mākslīgā intelekta (MI)—aptuveni par 15 % augstāks relatīvais rezultāts.

Mācību režīms (varianti A un B) pret kontroli (bez MI grupas): koriģētie vidējie eksāmena rezultāti

Efekts saglabājas konsekvents, ja katru Mācību režīma variantu atsevišķi salīdzinām ar kontroles grupu.

Lai gan tas atspoguļo reālās pasaules atšķirības, tas norāda uz izteiktākiem ierobežojumiem, kas saistīti ar to, kā parasti tiek mērīti mācību rezultāti.

Lielākā daļa esošo novērtēšanas pieeju balstās uz fiksētām iejaukšanās metodēm, kas tiek novērtētas īsos laika periodos, izmantojot tādus rezultātus kā testu rezultāti vai noslēguma esejas kā primāros signālus. Šīs metodes nav izstrādātas, lai praksē uztvertu pamatmehānismu, ar kura palīdzību MI ietekmē mācīšanos: nepārtrauktu, personalizētu mijiedarbību, kas attīstās līdztekus izglītojamā paša stratēģijām, vēlmēm un mācību paradumiem. Tāpat tie neatklāj, vai uzlabojumi vienā spējā, piemēram, īstermiņa atmiņā, pavada kompromisus citās, piemēram, noturībā, autonomā motivācijā vai radošā problēmu risināšanā. Tā rezultātā viņiem paslīd garām garenvirziena kognitīvā ietekme, kas galu galā nosaka, vai mākslīgais intelekts jēgpilni uzlabo mācības.

Tā kā mācību vides dažādās valstīs, mācību programmās un institucionālajos mērķos ievērojami atšķiras, vienreizēju pētījumu rezultāti reti ir vispārināmi dažādās sistēmās. Tāpēc mērījumu pieejām jābūt pietiekami elastīgām, lai dažādas izglītības sistēmas varētu definēt, kā izskatās panākumi to kontekstā, novērtēt MI atbilstoši saviem standartiem un attiecīgi veikt iterācijas.

Labākas mērījumu sistēmas izveide

Balstoties uz atziņām no OpenAI pētījumiem par mācību režīmu, mēs esam izveidojuši strukturētu mērījumu sistēmu, lai lielā mērogā mērītu MI ietekmi uz apguvējiem un izveidotu mehānismu, kā uzlabot modeļus, balstoties uz šiem rezultātiem. Tā balstās uz trim signāliem: kā uzvedas modelis, kā reaģē apguvēji un kādi izmērāmi kognitīvie rezultāti rodas laika gaitā. Tajā ietverts:

Sistēmas norādījumi modeļa uzvedības pilnveidei: dabiskās valodas izmantošana, lai mainītu modeļa noklusējuma uzvedību un labāk to saskaņotu ar konkrētām pedagoģiskām pieejām.
Mācību mijiedarbības klasifikatori: tie automātiski nosaka “mācību brīžus” reālās, deidentificētās, apguvēja–modeļa sarunās un marķē būtiskas īpašības, piemēram, iesaisti un kļūdu labošanu.
Mācību kvalitātes vērtētāji: tie novērtē un piešķir punktus katram no šiem mācību brīžiem, ņemot vērā, vai apmācāmais sasniedza savu mērķi, un to, cik lielā mērā mijiedarbība atbilda stingriem pedagoģiskajiem principiem, tostarp kļūmju režīmu identificēšanu.
Garenvirziena mācīšanās vērtētāji: tie laika gaitā izseko izmaiņām viena un tā paša apguvēja mijiedarbībā ar modeli — tostarp iesaistei, neatlaidībai un metakognitīvajām stratēģijām — individuālā un kohortas līmenī.
Standartizēti kognitīvie un metakognitīvie mērījumi: tie ir validēti trešo pušu instrumenti, kas tiek nodrošināti, izmantojot ChatGPT pirms/piekļuves laikā/pēc piekļuves, lai noteiktu bāzes līmeņus un mērītu izmaiņas pamatspējās, piemēram, kritiskajā domāšanā, radošumā un atmiņā.

Apvienotā veidā mēs šo mērījumu sistēmu dēvējam par Mācību rezultātu mērīšanas komplektu.

Tas rada svarīgus signālus, ko izglītības ekosistēma var izmantot: strukturētus skatījumus uz mācīšanās brīžiem, informācijas paneļus, kas parāda, kā rezultāti laika gaitā mainās dažādās kohortās, modeļa veiktspējas rādītājus attiecībā pret mācīšanas un individuālās apmācības kritērijiem, un rezultātu mērījumus, kas saskaņoti ar standartizētiem vērtējumiem un īsām apguvējo aptaujām. Ja pieejams, tas var iekļaut partnera sniegtus patiesības datus, piemēram, eksāmenu rezultātus, novērojumus klasē vai apmeklējumu.

Diagramma, kas ilustrē mācību rezultātu mērīšanas darbplūsmu un kurā mākslīgais intelekts (MI) apstrādā datus, veicot analīzi, novērtēšanu un pārbaudi, pirms sniedz ieskatus, lai atbalstītu apguvēju.

Visi dati anonimizēti

Tas arī ļauj mūsu partneriem laika gaitā izprast dziļāku kognitīvo ietekmi, ko rada MI izmantošana mācībām, jo, izmantojot šo sistēmu, mēs varam arī izsekot ietekmei uz tādām spējām kā:

Autonoma motivācija: pakāpe, kādā apguvēji veido savas mācības paši, salīdzinot ar to, ka viņus vada modelis
Produktīva iesaiste: pedagoģisko mijiedarbību biežums, daudzveidība un kvalitāte
Uzdevuma neatlaidība: pakāpe, kādā apguvējs spēj tikt galā ar kognitīviem izaicinājumiem un tos pārvarēt
Metakognitīvā domāšana: apguvēja centienu biežums un kvalitāte, plānojot, apdomājot un uzraugot savas pieejas mācībām
Atsaukšana: precizitāte, ar kādu apguvējs spēj atcerēties saturu no iepriekšējām sarunām

Tas atspoguļo mūsu vispārējos centienus ne tikai koncentrēties uz šaurām mācību rezultātu definīcijām (testu rezultātu uzlabošanos), bet gan uz holistiskajām spējām, kas ir mācīšanās pamatā. Tas arī atspoguļo mūsu pārliecību, ka nebūs vienas “sudraba lodes” attiecībā uz to, ko optimizēt: sistēmām un pedagogiem būs jābūt pilnvarotiem vadīt kompromisus saskaņā ar labāko pedagoģisko praksi un pieejām.

Turpmākā rīcība

Mēs pārbaudām Mācību rezultātu mērīšanas komplektu, veicot liela mēroga pētījumus, pirms padarām to plaši pieejamu. Šis darbs tiek īstenots sadarbībā ar Tartu Universitāti un Stenfordas SCALE iniciatīvu, iesaistot valsts mēroga partnerus, piemēram, Igauniju, kur mērījumu komplekts tiek pētīts ar gandrīz 20 000 studentiem vecumā no 16 līdz 18 gadiem vairāku mēnešu garumā. Skolēnu izmantošana notiks ciešā sadarbībā ar vietējiem vadītājiem, lai nodrošinātu drošību un saskaņotību ar vietējām mācību programmām.

“Igaunijas pieeja izglītībai vienmēr bijusi nevis kā kaut kam statiskam, bet kā sistēmai, ko mēs pastāvīgi uzlabojam. Tā kā mākslīgais intelekts kļūst par daļu no šīs kopainas, lielais jautājums ir, kā mēs mēram mākslīgā intelekta ilgtermiņa ietekmi uz mācīšanos. To mēs noskaidrojam sadarbībā ar OpenAI. Studenti labprāt iesaistās izstrādes procesā, un daudzi vēlas uzzināt, kā ar MI sniegt atbalstu mācībām. Tas šķiet kā īsts pagrieziena punkts, un mēs ar nepacietību gaidām iespēju sniegt metodes, ko citas izglītības sistēmas var atkārtoti izmantot un uz tām balstīties.”

–Jāns Aru (Jaan Aru), Tartu Universitāte

Šis darbs balstās uz plašāku pašlaik notiekošu sadarbības pētījumu kopumu. Papildus mācību rezultātu pētījumiem, kas tiek veikti ar dibinātājpartneru starpniecību Learning Lab, OpenAI atbalsta pētījumus mācīšanās un darba krustpunktā—izpētot, kā MI veido studentu akadēmiskos ceļus, karjeras izvēles un veidus, kā iestādes var atbalstīt atbildīgu ieviešanu. Šis pētījums notiek Bokoni Universitātē, Innova Schools un Dārtmutas Taka Biznesa skolā, Sandjego štata universitātē, Stonijas Brukas universitātē un citur.

Veicot ilgtermiņa pētījumus par to, kā skolēni vislabāk mācās ar MI palīdzību, mēs plānojam dalīties ar secinājumiem un sadarboties ar plašāku izglītības ekosistēmu, lai nodrošinātu, ka MI sniedz labumu apguvējiem it visur.

Tie, kurus interesē saņemt jaunāko informāciju par šo darbu, var reģistrēties šeit⁠.

Autors

OpenAI

Turpināt lasīt

Skatīt visu

MI infrastruktūras veidošana kopā ar Efingemas apgabala kopienu

Globālā situācija2026. g. 22. jūl.

Advancing the next era of national science card image

Veicinām nacionālās zinātnes nākamo ēru

Globālā situācija2026. g. 22. jūl.

Helping build shared standards for advanced AI - card image

ASV virza MI drošību ar štatu un federālu rīcību

Globālā situācija2026. g. 15. jūl.