Marso 4, 2026

Mga bagong tool para sa pag-unawa sa AI at mga resulta ng pagkatuto

Pagpapaunlad kung paano sinusukat ang epekto ng AI sa mga kapaligiran ng pag-aaral

Ang edukasyon ay isa sa mga pinaka-promising na larangan ng AI. Sa mga tool tulad ng ChatGPT, puwedeng maging available ang naka-personalize na suporta sa pagkatuto sa sinumang estudyante, saanman, anumang oras.

Pero maaga pa lang ang pag-unawa ng sektor ng edukasyon sa epekto ng AI sa mga resulta ng pagkatuto. Noong nakaraang taon, sinimulan ng aming team na pag-aralan ang paggamit ng mga tool tulad ng Study Mode⁠ at nakakita ng mga positibong pagbuti sa performance ng mga estudyante. Pero nagbangon din ng mahalagang tanong ang aming pananaliksik: paano natin masusuri kung paano naiimpluwensyahan ng AI ang pag-unlad ng mag-aaral sa paglipas ng panahon, hindi lang sa pangwakas na pagsusulit?

Isa itong hamon sa mas malawak na ecosystem. Sa ngayon, karamihan sa mga pamamaraan ng pananaliksik ay nakatuon sa makikitid na sukatan ng performance—gaya ng mga test score—at kulang sa kakayahang tasahin kung paano talaga natututo ang mga mag-aaral gamit ang AI sa mga tunay na sitwasyon, at kung paano nito hinuhubog ang mga kinalabasan sa paglipas ng panahon.

Para matugunan ang puwang na ito, binuo namin ang Learning Outcomes Measurement Suite, isang framework na ginawa kasama ang University of Tartu ng Estonia at ang SCALE Initiative sa Stanford Accelerator for Learning para suportahan ang pangmatagalang pagsukat ng mga resulta ng pagkatuto sa iba’t ibang konteksto ng edukasyon.

Isinasagawa ang malawakang beripikasyon sa pamamagitan ng randomisadong kontroladong pagsubok, at nakaplano ang karagdagang pananaliksik kasama ang mga organisasyong nagtatag sa Learning Lab, ang ecosystem ng pananaliksik sa pagkatuto ng OpenAI, kabilang ang mga mananaliksik mula sa Arizona State University, UCL Knowledge Lab, at MIT Media Lab (na bumubuo sa mga naunang kolaboratibong pag-aaral⁠).

Ngayon, ibabahagi namin ang pangkalahatang-ideya kung paano gumagana ang measurement suite at kung bakit ito mahalaga. Sa paglipas ng panahon, balak naming maglathala ng mas maraming pananaliksik at ilabas ang hanay ng mga sukat bilang pampublikong mapagkukunan para sa mga paaralan, unibersidad, at mga sistema ng edukasyon sa buong mundo.

“Pinapayagan kami ng pananaliksik na ito na matuto nang mabilis habang inilalatag din ang pundasyon para sa mas malalim na pag-unawa kung paano puwedeng maingat na maisama ang AI sa mga paaralan sa paraang tunay na mahalaga. Gusto naming maunawaan kung paano makatutulong ang mga tool na ito sa mahigpit na pagkatutong pang-akademiko habang pinauunlad din ang mas mataas na antas ng pag-iisip, pagkamalikhain, pagkamausisa, at kumpiyansa ng mga mag-aaral sa kanilang sarili bilang mga nag-aaral.”

–Susanna Loeb, Propesor ng Edukasyon at Direktor ng Faculty, SCALE Initiative sa Stanford University

Buod ng mga natutunan

Ipinapakita ng mga pamamaraan ng pananaliksik ngayon tungkol sa epekto ng AI sa pagkatuto ang mga positibong palatandaan tungkol sa performance, pero hindi nito nakukuha ang buong larawan kung paano nakaaapekto ang AI sa mga resulta ng pagkatuto sa paglipas ng panahon.
Ang Learning Outcomes Measurement Suite ay, sa unang pagkakataon, magbibigay ng pamantayang balangkas para sa mga longitudinal study na tutulong sa mga tagapagturo, mananaliksik, at institusyon na maunawaan kung paano hinuhubog ng AI ang pagkatuto at mga resulta sa iba't ibang konteksto.
Ang Learning Lab ng OpenAI ay bagong ecosystem ng pananaliksik na nakatuon sa pagpapaunlad ng gawaing ito. Maglalathala ang OpenAI ng mga natuklasan kasama ang iba't ibang hanay ng mga partner habang patuloy na umuunlad ang larangan.

Mga pinagmulan at maagang pananaliksik

Kapag gumagamit ang mga estudyante ng mga AI tool para mag-aral at matuto, puwede itong mangahulugan ng maraming iba’t ibang bagay—mula sa pagpunta sa AI para sa mabilisang mga sagot hanggang sa paggamit nito para lutasin ang mga problema nang sunud-sunod na may gabay na parang tutor. Para hikayatin ang mga user na makipag-ugnayan sa ChatGPT sa mga paraang sumusuporta sa mas malalim na pag-unawa at pagbuo ng kasanayan, ipinakilala ng OpenAI ang study mode⁠ noong nakaraang taon. Sa ilalim ng hood, ang Study Mode ay pinapagana ng mga pasadyang tagubilin ng system na isinulat namin sa pakikipagtulungan ng mga guro, siyentipiko, at mga eksperto sa pedagogy para maipakita ang pangunahing hanay ng mga paggawi na sumusuporta sa tunay na pagkatuto, hindi lang mga sagot—gamit ang scaffolding, mga pagsusuri para sa pag-unawa, at ginabayang pagsasanay.

Para subukan kung ang ganitong uri ng AI interaction style na nakahanay sa pedagohiya ay nagreresulta sa mas magagandang kinalabasan sa pagkatuto, nagsagawa kami ng randomisadong pag-aaral na may mahigit 300 estudyante sa kolehiyo na naghahanda para sa mga pagsusulit sa neuroscience at microeconomics. Habang nagpapatuloy pa ang pagsusuri, nagbibigay ang mga paunang resulta ng kumpiyansa na ang AI interaction style na nakahanay sa pedagohiya, na hinihikayat sa pamamagitan ng mga feature tulad ng study mode, ay maaaring magpabuti sa mga resulta sa pagkatuto. Ngunit inilantad din ng pananaliksik na ito ang isang mahalagang realidad: ang talagang mahalaga ay kung nananatili sa paglipas ng panahon ang mga pagtaas at ang mga kaugnay na produktibong pag-uugali.

Disenyo ng pag-aaral

Ang mga kalahok ay inilagay sa isa sa tatlong grupo: ang control group ay nag-aral gamit ang mga tradisyonal na online resource tulad ng Google Search at YouTube, na naka-disable ang mga AI-generated overview feature; samantalang ang dalawa pang grupo ay binigyan ng access sa isa sa dalawang variant ng study mode na idinisenyo para gabayan ang mga mag-aaral sa proseso ng pagkatuto sa bahagyang magkaibang paraan. Kinolekta nang maaga ang mga baseline quiz at onboarding survey para maisaayos ang mga pagkakaiba sa naunang exposure sa coursework, mga gawi sa pag-aaral, kumpiyansa sa akademiko, at pamilyaridad sa mga AI tool. Natapos ng mga mag-aaral ang mga timed study mode session bago ang bawat pagsusulit, kung saan ang dalawang variant ng study mode ay salit-salitang ginamit sa iba’t ibang asignatura.

Idinisenyo ang setup na ito para sumalamin sa mga kondisyon ng pag-aaral sa totoong mundo sa halip na isang mahigpit na kontroladong kapaligiran sa lab. Ang pakikilahok ay hindi nakatali sa performance sa pagsusulit, at hindi lahat ng estudyante ay gumamit ng study mode sa parehong antas sa loob ng nominal na 40 minutong session. Dahil dito, nasukat at naiulat namin ang mga epekto ng intention-to-treat (ITT), ang epekto ng pagkakaloob ng access sa tool sa ilalim ng makatotohanang mga kondisyon ng paglulunsad—sa madaling salita, ang sanhi at bunga ng pag-aalok ng study mode, na kinikilala na puwedeng mag-iba sa pagsasagawa ang pakikipag-ugnayan.

Mga Natuklasan

Sinukat namin ang pagganap sa bawat pagsusulit nang hiwalay. Sa aming randomized na pag-aaral, ang mga pagpapabuti ay hindi pare-pareho sa iba't ibang paksa, at ang mga antas ng pakikipag-ugnayan sa study mode ay iba-iba sa iba't ibang kalahok.

Neuroscience (primary ITT): Napagmasdan namin ang direksiyonal na positibong mga pagkakaiba para sa Study Mode kumpara sa control, ngunit hindi maihiwalay ang mga resulta mula sa mga estudyanteng nag-aaral gamit ang mga tradisyonal na online na mapagkukunan. May ilang onboarding at teknikal na isyu na nakaapekto sa oras na ginugol sa pag-aaral ng mga estudyanteng gumagamit ng study mode.
Mikroekonomiks (pangunahing ITT): Nakakita kami ng makabuluhang pagtaas sa pagganap sa pagsusulit sa mga mag-aaral na binigyan ng access sa study mode kumpara sa no-AI control group—humigit-kumulang 15% na mas mataas na marka kumpara sa iba.

Paraan ng pag-aaral (mga baryante A at B) vs Kontrol (walang grupo ng AI): Inayos na mean scores sa pagsusulit

Nanatiling pareho ang epekto kapag ikinumpara namin nang hiwalay ang bawat variant ng study mode sa control.

Bagaman sumasalamin ito sa pagkakaiba-iba sa totoong mundo, itinampok nito ang mas malalim na limitasyon sa kung paano karaniwang sinusukat ang mga resulta ng pagkatuto.

Karamihan sa mga umiiral na pamamaraan ng pagsusuri ay umaasa sa mga nakapirming interbensyon na tinasa sa loob ng maikling panahon, gamit ang mga resulta tulad ng mga marka sa pagsusulit o mga pangwakas na sanaysay bilang pangunahing hudyat. Hindi dinisenyo ang mga pamamaraang ito para makuha ang pangunahing mekanismo kung paano naaapektuhan ng AI ang pag-aaral sa aktuwal na pagsasagawa: mga patuloy, naka-personalize na pakikipag-ugnayan na umuunlad kasabay ng sarili mismong mga estratehiya, kagustuhan, at mga gawi sa pag-aaral ng isang mag-aaral. Hindi rin nila ipinapakita kung ang pagbuti sa isang kakayahan, tulad ng panandaliang pag-alala, ay maaaring may kasamang kapalit sa iba, gaya ng pagtitiyaga, sariling motibasyon, o malikhaing paglutas ng problema. Bilang resulta, hindi nila napapansin ang mga pangmatagalang epekto sa kognisyon na sa huli ay tumutukoy kung makabuluhang nagpapahusay sa pagkatuto ang AI.

Dahil malaki ang pagkakaiba-iba ng mga kapaligiran sa pagkatuto sa iba’t ibang bansa, kurikulum, at mga layunin ng institusyon, bihirang mailapat sa iba’t ibang system ang mga resulta mula sa mga one-off na pag-aaral. Samakatuwid, ang mga pamamaraan ng pagsukat ay dapat maging sapat na flexible para ang iba’t ibang sistema ng edukasyon ay matukoy kung ano ang kahulugan ng tagumpay sa kanilang konteksto, masuri ang AI batay sa sarili nilang pamantayan, at makapagpaulit ng mga pagpapabuti ayon dito.

Pagbuo ng mas mahusay na sistema ng pagsukat

Batay sa mga natutunan mula sa pananaliksik ng OpenAI sa Study Mode, bumubuo kami ng nakabalangkas na sistema ng pagsukat para sukatin ang epekto ng AI sa mga mag-aaral sa malawakang saklaw, at gumawa ng mekanismo para pahusayin ang mga modelo batay sa mga resultang iyon. Nakabatay ito sa tatlong signal—kung paano kumikilos ang modelo, kung paano tumutugon ang mga nag-aaral, at kung anong nasusukat na mga kognitibong kinalabasan ang nagreresulta sa paglipas ng panahon. Kasama rito ang:

Mga tagubilin ng system para ayusin ang paggawi ng modelo: paggamit ng natural na wika para baguhin ang default na paggawi ng modelo para mas umayon sa mga partikular na pamamaraang pedagogical.
Mga classifier ng interaksyon sa pagkatuto: awtomatiko nitong natutukoy ang mga “sandali ng pagkatuto” sa loob ng mga aktuwal, na-de-identify, interaksyon ng mag-aaral–modelo at nili-label ang mahahalagang katangian gaya ng pakikilahok at pagwawasto ng error.
Mga grader para sa kalidad ng pagkatuto: sinusuri at binibigyan ng marka ng mga ito ang bawat isa sa mga sandaling iyon ng pagkatuto batay sa kung natamo ng nag-aaral ang kanilang layunin at sa antas kung saan sinunod ng interaksyon ang matitibay na prinsipyong pedagogical, kabilang ang pagtukoy sa mga mode ng pagkabigo.
Mga grader para sa longitudinal na pagkatuto: sinusubaybayan ng mga ito ang mga pagbabago sa mga interaksyon ng iisang mag-aaral sa modelo sa paglipas ng panahon—kabilang ang pakikipag-ugnayan, pagpupursige, at mga estratehiyang metakognitibo—sa antas ng indibidwal at cohort.
Mga istandardisadong sukat sa kognitibo at metakognitibo: mga na-validate na third-party instrument ang mga ito na inihahatid sa pamamagitan ng ChatGPT bago/habang/pagkatapos ng pag-access para magtatag ng mga baseline at sukatin ang mga pagbabago sa mga pangunahing kakayahan tulad ng kritikal na pag-iisip, pagkamalikhain, at memorya.

Kapag pinagsama, tinutukoy namin ang sistema ng pagsukat na ito bilang Learning Outcomes Measurement Suite.

Nagbubuo ito ng mahahalagang senyales na magagamit ng ecosystem ng edukasyon: mga nakabalangkas na pananaw sa mga sandali ng pagkatuto, mga dashboard na nagpapakita kung paano nagbabago ang mga resulta sa paglipas ng panahon sa iba't ibang cohort, mga tagapagpahiwatig ng pagganap ng modelo laban sa mga rubric sa pagtuturo at pagtuturo, at mga sukat ng resulta na nakahanay sa mga naka-standard na pagtatasa at mga talatanungan para sa mga short learner. Kung saan available, puwede nitong isama ang ground truth na ibinigay ng partner tulad ng mga marka sa pagsusulit, mga obserbasyon sa silid-aralan, o pagdalo.

Diagram na naglalarawan ng workflow sa pagsukat ng mga resulta ng pagkatuto kung saan pinoproseso ng AI ang data sa pamamagitan ng mga hakbang sa pag-aanalisa, pagsusuri, at pag-verify bago maghatid ng mga insight para suportahan ang mag-aaral.

Inalis ang pagkakakilanlan ng lahat ng data

Nakakatulong din ito sa aming mga partner na maunawaan ang mas malalalim na epekto sa kognisyon ng paggamit ng AI para sa pagkatuto sa pagdaan ng panahon, dahil sa pamamagitan ng sistemang ito ay nagagawa rin naming subaybayan ang epekto sa mga kakayahan tulad ng:

Awtonomong Motibasyon: ang antas kung saan hinuhubog ng mga nag-aaral ang sarili nilang pag-aaral kumpara sa pagdidirekta ng modelo
Produktibong Pakikilahok: ang dalas, iba-iba, at kalidad ng mga interaksyong pedagogikal
Pagpupursige sa Gawain: ang antas kung hanggang saan nananatili ang mag-aaral at nagpupursige sa pagharap sa mga hamong kognitibo
Metacognition: ang dalas at kalidad ng mga pagsisikap ng mag-aaral na magplano, magmuni-muni, at subaybayan ang kanilang mga pamamaraan sa pag-aaral
Recall: ang katumpakan kung gaano kahusay na natatandaan ng nag-aaral ang nilalaman mula sa mga nakaraang pakikipag-ugnayan

Sinasalamin nito ang aming pangkalahatang pagsisikap na hindi lang tumuon sa makikitid na kahulugan ng mga resulta ng pagkatuto (pagtaas ng mga marka sa pagsusulit), kundi pati na rin sa mga holistikong kakayahan na sumusuporta sa pagkatuto. Sinasalamin din nito ang aming paniniwala na walang magiging solusyon sa kung ano ang dapat i-optimize: ang mga sistema at mga tagapagturo ay kailangang bigyan ng kapangyarihan para gabayan ang mga kompromiso na naaayon sa pinakamahusay na kasanayan at pamamaraan ng pedagogical.

Saan tayo tutungo mula rito

Pinapatunayan namin ang Learning Outcomes Measurement Suite sa pamamagitan ng malakihang mga pag-aaral bago namin ito gawing mas malawak na available. Isinasagawa ang gawaing ito kasama ang University of Tartu at ang SCALE Initiative ng Stanford sa mga partner na pambansa tulad ng Estonia, kung saan pinag-aaralan ang hanay ng pagsukat kasama ang halos 20,000 mag-aaral na may edad 16-18 sa loob ng ilang buwan. Magaganap ang paggamit ng mga mag-aaral sa malapit na pakikipagtulungan sa mga lokal na lider, para matiyak ang kaligtasan at pagkakatugma sa mga lokal na kurikulum.

“Palaging itinuturing ng Estonia ang edukasyon hindi bilang bagay na nakapirmi kundi bilang system na patuloy naming pinapahusay. Habang nagiging bahagi ang AI ng larawang iyon, ang malaking tanong ay kung paano natin sinusukat ang pangmatagalang epekto ng AI sa pagkatuto. Iyan ang sinusubukan naming alamin sa pakikipagtulungan sa OpenAI. Sabik ang mga mag-aaral na makilahok sa proseso ng pag-unlad, at marami ang gustong matuto kung paano suportahan ang pag-aaral gamit ang AI. Parang isa itong tunay na punto ng pagbabago, at nasasabik kaming mag-ambag ng mga pamamaraan na puwedeng gamitin muli at paunlarin ng ibang mga system ng edukasyon.”

–Jaan Aru, Unibersidad ng Tartu

Ang gawaing ito ay nakabatay sa mas malawak na kalipunan ng kolaboratibong pananaliksik na kasalukuyang isinasagawa. Bukod sa pananaliksik sa mga resulta na isinasagawa sa pamamagitan ng mga founding partner sa Learning Lab, sinusuportahan ng OpenAI ang mga pag-aaral sa sangandaan ng pagkatuto at paggawa—sinusuri kung paano hinuhubog ng AI ang mga akademikong landas ng mga mag-aaral, mga desisyon sa karera, at ang mga paraan kung paano masusuportahan ng mga institusyon ang responsableng pag-aampon. Ang pananaliksik na ito ay isinasagawa sa Bocconi University, Innova Schools at Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University, at iba pa.

Habang nagsasagawa kami ng mas matagalang pag-aaral sa kung paano pinakamahusay na natututo ang mga estudyante sa AI, layunin naming ibahagi ang mga natuklasan at makipagtulungan sa mas malawak na ecosystem ng edukasyon para matiyak na mapapakinabangan ng mga mag-aaral sa lahat ng dako ang AI.

Ang mga interesadong makatanggap ng mga update tungkol sa gawaing ito ay puwedeng mag-sign up dito⁠.

May-akda

OpenAI

Magpatuloy sa pagbabasa

Tingnan lahat

Pagbuo ng imprastrukturang AI kasama ang Effingham County

Pandaigdigang UgnayanHul 22, 2026

Advancing the next era of national science card image

Isinusulong ang susunod na panahon ng pambansang agham

Pandaigdigang UgnayanHul 22, 2026

Helping build shared standards for advanced AI - card image

Isinusulong ng US ang kaligtasan ng AI sa aksyon ng estado at pederal na pamahalaan

Pandaigdigang UgnayanHul 15, 2026