Preskočiť na hlavný obsah
OpenAI

Nové nástroje na pochopenie umelej inteligencie a výsledkov vzdelávania

Zlepšenie spôsobu merania vplyvu umelej inteligencie v rôznych vzdelávacích prostrediach

Vzdelávanie je jednou z najsľubnejších oblastí rozvoja umelej inteligencie. Vďaka nástrojom ako ChatGPT môže byť personalizovaná vzdelávacia podpora dostupná pre každého študenta, kdekoľvek a kedykoľvek. 

Sektor vzdelávania je však stále na začiatku chápania vplyvu umelej inteligencie na výsledky vzdelávania. Minulý rok sa náš tím pustil do štúdia používania nástrojov, ako je režim štúdia, a zistil sľubné zlepšenia výkonu študentov. Náš výskum však zároveň nastolil dôležitú otázku: ako môžeme posúdiť, ako umelá inteligencia ovplyvňuje pokrok študenta v priebehu času, a nielen na záverečnej skúške?

Ide o širšiu ekosystémovú výzvu. V súčasnosti sa väčšina výskumných metód zameriava na úzke signály o výkonnosti – ako sú napríklad výsledky testov – a chýba im schopnosť posúdiť, ako sa študenti v skutočnosti učia s umelou inteligenciou v reálnych podmienkach a ako toto používanie v priebehu času formuje výsledky. 

Aby sme túto medzeru vyriešili, vyvinuli sme Sadu meraní výsledkov vzdelávania, rámec vytvorený v spolupráci s Estónskou univerzitou v Tartu a iniciatívou SCALE v Stanfordskom akcelerátore pre vzdelávanie na podporu longitudinálneho merania výsledkov vzdelávania v rôznych vzdelávacích kontextoch. 

Prebieha rozsiahla validácia prostredníctvom randomizovanej kontrolovanej štúdie a ďalší výskum sa plánuje so zakladajúcimi organizáciami v Learning Lab, ekosystéme výskumu vzdelávania OpenAI, vrátane výskumníkov z Arizona State University, UCL Knowledge Lab a MIT Media Lab (v nadväznosti na predchádzajúce spoločné štúdie).

Dnes sa s vami podelíme o prehľad toho, ako funguje sada meraní a prečo je dôležitá. Postupom času máme v úmysle publikovať viac výskumných prác a sprístupniť sadu meracích nástrojov ako verejný zdroj pre školy, univerzity a vzdelávacie systémy na celom svete.

„Tento výskum nám umožňuje rýchlo sa učiť a zároveň kladie základy pre hlbšie pochopenie toho, ako možno umelú inteligenciu premyslene integrovať do škôl spôsobmi, na ktorých skutočne záleží. Chceme pochopiť, ako tieto nástroje môžu podporiť dôkladné akademické učenie a zároveň rozvíjať vyššie úrovne myslenia, kreativitu, zvedavosť a dôveru študentov v seba samých ako študentov.“
– Susanna Loeb, profesorka vzdelávania a riaditeľka fakulty, iniciatíva SCALE na Stanfordskej univerzite

Súhrn kľúčových bodov

  • Dnešné výskumné metódy zamerané na vplyv umelej inteligencie na učenie ukazujú sľubné signály o výkonnosti, ale nezachytávajú úplný obraz o tom, ako umelá inteligencia ovplyvňuje výsledky učenia v priebehu času.
  • Súbor meraní výsledkov vzdelávania po prvýkrát poskytne štandardný rámec pre longitudinálne štúdie, ktoré pomôžu pedagógom, výskumníkom a inštitúciám pochopiť, ako umelá inteligencia formuje vzdelávanie a výsledky v rôznych kontextoch.
  • Vzdelávacie laboratórium OpenAI je nový výskumný ekosystém zameraný na pokrok v tejto práci. OpenAI bude zverejňovať zistenia spolu s celým radom partnerov, keďže sa táto oblasť naďalej rozvíja.

Počiatky a raný výskum

Keď študenti používajú nástroje umelej inteligencie na štúdium a učenie sa, môže to znamenať mnoho rôznych vecí – od vyhľadávania rýchlych odpovedí pomocou umelej inteligencie až po jej používanie na postupné riešenie problémov s vedením podobným usmerňovaniu od tútora. Aby OpenAI povzbudila používateľov k interakcii s ChatGPT spôsobmi, ktoré podporujú hlbšie porozumenie a budovanie zručností, zaviedla minulý rok režim štúdia .  V podstate je režim štúdia poháňaný vlastnými systémovými pokynmi, ktoré sme napísali v spolupráci s učiteľmi, vedcami a pedagogickými expertmi, aby odrážali základný súbor správania, ktoré podporuje skutočné učenie, nielen odpovede – využívajúc scaffolding, kontroly porozumenia a riadenú prax.

Aby sme otestovali, či sa tento druh pedagogicky zosúladeného štýlu interakcie s umelou inteligenciou premieta do lepších výsledkov vzdelávania, uskutočnili sme randomizovanú štúdiu s viac ako 300 vysokoškolskými študentmi, ktorí sa pripravovali na skúšky z neurovedy a mikroekonómie. Hoci analýza stále prebieha, prvé výsledky nám dávajú istotu, že pedagogicky zosúladený štýl interakcie s umelou inteligenciou, podporovaný funkciami, ako je režim štúdia, môže zlepšiť výsledky vzdelávania. Tento výskum však zároveň odhalil dôležitú skutočnosť: skutočne dôležité je, či zisky a súvisiace produktívne správanie zostanú v priebehu času trvalé.

Návrh štúdia

Účastníci boli rozdelení do jednej z troch skupín: kontrolná skupina študovala pomocou tradičných online zdrojov, ako sú Vyhľadávanie Google a YouTube, s vypnutými funkciami prehľadu generovaného umelou inteligenciou, zatiaľ čo dve ďalšie skupiny mali prístup k jednému z dvoch variantov režimu štúdia, ktoré boli navrhnuté tak, aby študentov sprevádzali procesom učenia mierne odlišnými spôsobmi. Vopred boli zozbierané základné kvízy a úvodné dotazníky, aby sa zohľadnili rozdiely v predchádzajúcom štúdiu, študijných návykoch, akademickej sebadôvere a znalosti nástrojov umelej inteligencie. Študenti pred každou skúškou absolvovali časovo obmedzené relácie režimu štúdia, pričom tieto dve varianty režimu štúdia boli vyvážené medzi jednotlivými predmetmi.

Toto nastavenie bolo navrhnuté tak, aby odrážalo skôr podmienky štúdie v reálnom svete než prísne kontrolované laboratórne prostredie. Účasť nebola viazaná na výsledky skúšky a nie všetci študenti využívali režim štúdia v rovnakej miere počas nominálnych 40-minútových stretnutí. To nám umožnilo merať a hlásiť účinky analýzy podľa liečebného zámeru (ITT), vplyv poskytnutia prístupu k nástroju za realistických podmienok zavádzania – inými slovami, kauzálny vplyv ponuky študijného režimu, pričom sa uznáva, že zapojenie sa v praxi môže líšiť.

Zistenia

Výkonnosť sme merali pri každej skúške samostatne. V našej randomizovanej štúdii neboli zlepšenia u všetkých subjektov rovnomerné a úroveň zapojenia do režimu štúdia sa medzi účastníkmi líšila. 

  • Neuroveda (primárna ITT): Pozorovali sme smerovo pozitívne rozdiely v spôsobe štúdia v porovnaní s kontrolnou skupinou, ale výsledky neboli odlíšiteľné od študentov študujúcich s tradičnými online zdrojmi. Čas strávený štúdiom u študentov používajúcich študijný režim ovplyvnili niektoré problémy s nástupom do školy a technické problémy. 
  • Mikroekonómia (primárna ITT): U študentov, ktorým bol pridelený prístup k režimu štúdia, sme v porovnaní s kontrolnou skupinou bez umelej inteligencie pozorovali významné zlepšenie výsledkov na skúškach – relatívne skóre je približne o 15 % vyššie.

Režim štúdia (varianty A a B) vs. Kontrola (skupina bez umelej inteligencie): upravené priemerné skóre na skúške

Účinok zostáva konzistentný, aj keď porovnávame každý variant režimu štúdia samostatne s kontrolnou skupinou.

Hoci to odráža rozdiely v reálnom svete, poukázalo to na hlbšie obmedzenie v spôsobe, akým sa zvyčajne merajú výsledky vzdelávania.

Väčšina existujúcich hodnotiacich prístupov sa spolieha na fixné intervencie posudzované v krátkych časových intervaloch, pričom ako primárne signály sa používajú výsledky, ako sú výsledky testov alebo záverečné eseje. Tieto metódy nie sú navrhnuté tak, aby zachytili základný mechanizmus, prostredníctvom ktorého umelá inteligencia ovplyvňuje učenie v praxi: prebiehajúce, personalizované interakcie, ktoré sa vyvíjajú spolu s vlastnými stratégiami, preferenciami a študijnými návykmi študenta. Taktiež sa v nich neuvádza, či zlepšenia v jednej schopnosti, ako je napríklad krátkodobá pamäť, môžu prichádzať popri kompromisoch v iných, ako je vytrvalosť, autonómna motivácia alebo kreatívne riešenie problémov. V dôsledku toho prehliadajú longitudinálne kognitívne účinky, ktoré v konečnom dôsledku určujú, či umelá inteligencia zmysluplne zlepšuje učenie. 

Keďže sa vzdelávacie prostredia v jednotlivých krajinách, učebných osnovách a inštitucionálnych cieľoch značne líšia, výsledky z jednorazových štúdií sa zriedkavo zovšeobecňujú naprieč systémami. Prístupy k meraniu musia byť preto dostatočne flexibilné, aby rôzne vzdelávacie systémy mohli definovať, ako vyzerá úspech v ich kontexte, vyhodnotiť umelú inteligenciu podľa vlastných štandardov a podľa toho iterovať.

Budovanie lepšieho systému merania 

Na základe poznatkov z výskumu OpenAI v oblasti režimu štúdia sme vybudovali štruktúrovaný systém merania na meranie vplyvu umelej inteligencie na študentov vo veľkom meradle a vytvorili sme mechanizmus na zlepšenie modelov založených na týchto výsledkoch. Je založený na troch signáloch – ako sa model správa, ako študenti reagujú a aké merateľné kognitívne výsledky sa v priebehu času dosahujú. Zahŕňa: 

  • Systémové inštrukcie na spresnenie správania modelu: použitie prirodzeného jazyka na zmenu predvoleného správania modelu tak, aby bolo lepšie zosúladené s konkrétnymi pedagogickými prístupmi.
  • Klasifikátory interakcií pri učení: tieto automaticky detekujú „momenty učenia“ v rámci reálnych, anonymizovaných interakcií medzi študentom a modelom a označujú dôležité charakteristiky, ako je angažovanosť a korekcia chýb.
  • Hodnotitelia kvality učenia: títo hodnotia a bodujú každý z týchto vzdelávacích momentov podľa toho, či študent dosiahol svoj cieľ a do akej miery interakcia dodržiavala silné pedagogické princípy vrátane identifikácie spôsobov zlyhania.
  • Hodnotitelia longitudinálneho učenia: tieto sledujú zmeny v interakciách toho istého študenta s modelom v priebehu času – vrátane zapojenia, vytrvalosti a metakognitívnych stratégií – na úrovni jednotlivca aj kohorty.
  • Štandardizované kognitívne a metakognitívne merania: ide o validované nástroje tretích strán poskytované prostredníctvom ChatGPT pred/počas/po prístupe na stanovenie východiskových hodnôt a meranie zmien v základných schopnostiach, ako je kritické myslenie, kreativita a pamäť.

V kombinácii označujeme tento systém merania ako Sada meraní výsledkov vzdelávania. 

Vytvára dôležité signály, ktoré môže vzdelávací ekosystém využiť: štruktúrované pohľady na momenty učenia, hlavné panely zobrazujúce, ako sa výsledky v priebehu času menia v rámci kohort, ukazovatele výkonnosti modelu v porovnaní s rubrikami výučby a doučovania a miery výsledkov zosúladené so štandardizovanými hodnoteniami a krátkymi dotazníkmi pre študentov. Ak sú k dispozícii, môže zahŕňať základné informácie poskytnuté partnerom, ako napríklad výsledky skúšok, pozorovania v triede alebo dochádzku.

 Diagram znázorňujúci pracovný postup merania výsledkov vzdelávania, kde umelá inteligencia spracováva údaje prostredníctvom krokov analýzy, hodnotenia a overovania predtým, ako poskytne poznatky na podporu študenta.

Všetky údaje anonymizované

Umožňuje to tiež našim partnerom pochopiť hlbšie kognitívne dopady používania umelej inteligencie na učenie v priebehu času, pretože prostredníctvom tohto systému sme schopní sledovať aj vplyv na schopnosti, ako napríklad:

  • Autonómna motivácia: miera, do akej si študenti formujú svoje vlastné štúdium, v porovnaní s mierou, do akej sú riadení modelom 
  • Produktívne zapojenie: frekvencia, rozmanitosť a kvalita vzdelávacích interakcií
  • Vytrvalosť pri úlohách: miera, do akej sa študent venuje kognitívnym výzvam a prekonáva ich
  • Metakognícia: frekvencia a kvalita úsilia študenta plánovať, reflektovať a monitorovať svoje prístupy k učeniu
  • Vybavovanie si: presnosť, s akou si študent dokáže zapamätať obsah z predchádzajúcich interakcií

Toto odráža naše celkové úsilie nezameriavať sa len na úzke definície výsledkov vzdelávania (rastúce výsledky testov), ale na holistické schopnosti, ktoré sú základom učenia. Odráža to tiež naše presvedčenie, že nebude existovať univerzálne riešenie, pokiaľ ide o optimalizáciu: systémy a pedagógovia budú musieť byť oprávnení usmerňovať kompromisy v súlade s najlepšími pedagogickými postupmi a prístupmi.

Kam ďalej

Sadu meraní výsledkov vzdelávania overujeme prostredníctvom rozsiahlych štúdií predtým, ako ju sprístupníme širokej verejnosti. Táto práca prebieha v spolupráci s Univerzitou v Tartu a iniciatívou SCALE Stanfordskej univerzity v rámci celoštátnych partnerov, ako je Estónsko, kde sa súbor meraní skúma s takmer 20 000 študentmi vo veku 16 – 18 rokov počas niekoľkých mesiacov. Používanie študentmi bude prebiehať v úzkej spolupráci s miestnymi vedúcimi pracovníkmi, aby sa zabezpečila bezpečnosť a súlad s miestnymi učebnými osnovami.

„Estónsko vždy pristupovalo k vzdelávaniu nie ako k niečomu statickému, ale ako k systému, ktorý neustále zlepšujeme. Keďže umelá inteligencia sa stáva súčasťou tohto obrazu, veľkou otázkou je, ako meriame dlhodobý vplyv umelej inteligencie na učenie. To zisťujeme v spolupráci s OpenAI. Študenti sa radi zapájajú do procesu vývoja a mnohí sa chcú naučiť, ako podporovať učenie pomocou umelej inteligencie. Pôsobí to ako skutočný zlomový bod a tešíme sa, že môžeme prispieť metódami, ktoré môžu iné vzdelávacie systémy opätovne použiť a ďalej na nich stavať.”
–Jaan Aru, univerzita v Tartu

Táto práca nadväzuje na širší súbor prebiehajúcich spoločných výskumov. Okrem výskumu výsledkov, ktorý vykonávajú zakladajúci partneri v rámci Learning Lab, OpenAI podporuje štúdie na priesečníku vzdelávania a práce – skúma, ako umelá inteligencia formuje akademické dráhy študentov, kariérne rozhodnutia a spôsoby, akými môžu inštitúcie podporovať zodpovedné prijatie. Tento výskum prebieha na Bocconi University, Innova Schools a Tuck School of Business v Dartmouthe, San Diego State University, Stony Brook University a ďalších.

Keďže vykonávame dlhodobejšie štúdie o tom, ako sa študenti najlepšie učia s umelou inteligenciou, máme v úmysle podeliť sa o zistenia a spolupracovať so širším vzdelávacím ekosystémom, aby sme zabezpečili, že umelá inteligencia bude prínosom pre študentov na celom svete.

Záujemcovia o odber noviniek o tejto práci sa môžu prihlásiť tu.