Přeskoč na hlavní obsah
OpenAI

Nové nástroje pro pochopení umělé inteligence a výsledků učení

Zlepšení způsobu měření dopadu umělé inteligence v různých vzdělávacích prostředích

Vzdělávání je jednou z nejslibnějších oblastí umělé inteligence. Díky nástrojům, jako je ChatGPT, může být personalizovaná podpora učení dostupná každému studentovi, kdekoli a kdykoli. 

Vzdělávací sektor je však stále v rané fázi porozumění dopadu umělé inteligence na výsledky učení. Náš tým se loni pustil do studia využití nástrojů, jako je studijní mód, a zjistil slibné zlepšení výsledků studentů. Náš výzkum ale také nastolil důležitou otázku: jak můžeme posoudit, jak umělá inteligence ovlivňuje pokrok studenta v čase, nejen u závěrečné zkoušky?

To je širší ekosystémová výzva. Většina výzkumných metod se dosud zaměřuje na úzké signály výkonnosti – jako jsou výsledky testů – a postrádá schopnost posoudit, jak se studenti s umělou inteligencí skutečně učí v reálném prostředí a jak toto využití v průběhu času formuje výsledky. 

Abychom tuto mezeru překlenuli, vyvinuli jsme sadu pro měření výsledků učení, rámec vytvořený ve spolupráci s estonskou Univerzitou v Tartu a iniciativou SCALE ve Stanford Accelerator for Learning. Tento rámec podporuje dlouhodobé měření výsledků učení v různých vzdělávacích kontextech. 

Probíhá rozsáhlé ověřování prostřednictvím randomizované kontrolované studie a další výzkum je plánován se zakládajícími organizacemi v Learning Lab, ekosystému výzkumu učení OpenAI, zahrnující výzkumníky z Arizonské státní univerzity, UCL Knowledge Lab a MIT Media Lab (navazující na předchozí společné studie).

Dnes se s vámi podělíme o přehled toho, jak sada měření funguje a jaký má význam. Postupem času máme v úmyslu publikovat další výzkumné práce a zpřístupnit sadu měřicích nástrojů jako veřejný zdroj pro školy, univerzity a vzdělávací systémy po celém světě.

„Tento výzkum nám umožňuje rychle se učit a zároveň pokládá základy pro hlubší pochopení toho, jak lze umělou inteligenci promyšleně integrovat do škol způsoby, které mají skutečný význam. Chceme pochopit, jak tyto nástroje mohou podpořit důsledné akademické učení a zároveň rozvíjet myšlení vyššího řádu, kreativitu, zvědavost a sebevědomí studentů jako někoho, kdo se učí.“
– Susanna Loeb, profesorka pedagogiky a výkonná ředitelka iniciativy SCALE na Stanfordské univerzitě

Shrnutí klíčových poznatků

  • Dnešní výzkumné metody dopadu umělé inteligence na učení ukazují slibné signály ohledně výkonnosti, ale nezachycují úplný obraz toho, jak umělá inteligence ovlivňuje výsledky učení v čase.
  • Sada nástrojů pro měření výsledků učení poprvé poskytne standardní rámec pro dlouhodobé studie, které pomáhají pedagogům, výzkumníkům a institucím porozumět tomu, jak umělá inteligence formuje učení a výsledky v různých kontextech.
  • Learning Lab společností OpenAI je nový výzkumný ekosystém zaměřený na pokrok v této oblasti. Společnost OpenAI bude zveřejňovat svá zjištění společně s řadou partnerů, jak se tato oblast bude nadále vyvíjet.

Počátky a raný výzkum

Když studenti používají nástroje umělé inteligence ke studiu a učení, může to znamenat mnoho různých věcí – od hledání rychlých odpovědí od umělé inteligence až po její použití k postupnému řešení problémů s pomocí lektora. Aby společnost OpenAI povzbudila uživatele k interakci s ChatGPT způsoby, které podporují hlubší porozumění a rozvoj dovedností, zavedla loni studijní mód.  Studijní mód stojí na vlastních systémových instrukcích, které jsme napsali ve spolupráci s učiteli, vědci a pedagogickými experty. Tyto instrukce odrážejí základní soubor chování, které podporuje skutečné učení, nejen odpovědi – využívání výstavby, kontroly porozumění a řízeného procvičování.

Abychom otestovali, zda se tento typ pedagogicky vhodného stylu interakce s umělou inteligenci promítá do lepších studijních výsledků, provedli jsme randomizovanou studii s více než 300 vysokoškolskými studenty, kteří se připravovali na zkoušky z neurověd a mikroekonomie. I když analýza stále probíhá, první výsledky nám dávají jistotu, že pedagogicky vhodný styl interakce s umělou inteligencí, podporovaný funkcemi, jako je studijní mód, může zlepšit výsledky učení. Tento výzkum však také odhalil důležitou skutečnost: na čem skutečně záleží, je to, zda přínosy a související produktivní chování zůstávají v průběhu času trvalé.

Design studie

Účastníci byli rozděleni do jedné ze tří skupin: kontrolní skupina studovala pomocí tradičních online zdrojů, jako je vyhledávání Google a YouTube, s vypnutými funkcemi přehledu generovanými umělou inteligencí, zatímco dvě další skupiny měly přístup k jedné ze dvou variant studijního módu, které byly navrženy tak, aby studenty provedly procesem učení mírně odlišnými způsoby. Předem byly pořízeny testy a úvodní dotazníky sloužící jako základ, aby se zohlednily rozdíly v předchozí zkušenosti s kurzy, studijních návycích, akademické sebejistotě a obeznámenosti s nástroji umělé inteligence. Studenti před každou zkouškou absolvovali časově omezené studijní lekce, přičemž obě varianty studijního režimu byly napříč předměty vyváženy.

Toto provedení bylo navrženo tak, aby odráželo reálné podmínky studia, nikoli přísně kontrolované laboratorní prostředí. Účast nebyla vázána na výsledky u zkoušky a ne všichni studenti během vyhrazených 40minutových lekcí využívali studijní mód ve stejné míře. To nám umožnilo měřit a vykazovat účinky analýzy podle původního záměru (ITT), tedy dopadu poskytnutí přístupu k nástroji za realistických podmínek nasazení – jinými slovy, příčinný dopad nabídnutého studijního módu, s vědomím, že zapojení se v praxi může lišit.

Zjištění

Výkon jsme měřili u každé zkoušky zvlášť. V naší randomizované studii nebylo zlepšení u všech subjektů rovnoměrné a úroveň zapojení do studijního módu se u jednotlivých účastníků lišila. 

  • Neurověda (primární ITT): Pozorovali jsme směrově pozitivní rozdíly v případě využití studijního módu v porovnání s kontrolní skupinou, ale výsledky nebyly odlišitelné od studentů studujících s využitím tradičních online zdrojů. Dobu strávenou studiem u studentů používajících studijní mód ovlivnily některé problémy se zaváděním a technické problémy. 
  • Mikroekonomie (primární ITT): U studentů s přístupem ke studijnímu módu jsme oproti kontrolní skupině bez umělé inteligence pozorovali významné zlepšení výsledků u zkoušek – relativně zhruba o 15 % vyšší skóre.

Studijní mód (varianty A a B) vs kontrolní skupina (skupina bez umělé inteligence): upravené průměrné výsledky zkoušek

Efekt zůstává konzistentní, když porovnáme každou variantu studijního módu zvlášť s kontrolní skupinou.

I když to odráží rozdíly v reálném světě, zdůraznilo to hlubší omezení v tom, jak se obvykle měří výsledky učení.

Většina stávajících přístupů k hodnocení se opírá o pevně dané zásahy posuzované v krátkých časových oknech a jako primární signály používá výsledky, jako jsou výsledky testů nebo závěrečné práce. Tyto metody nejsou navrženy tak, aby zachytily základní mechanismus, kterým umělá inteligence v praxi ovlivňuje učení: průběžné, personalizované interakce, které se vyvíjejí spolu s vlastními strategiemi, preferencemi a studijními návyky studenta. Ani neukazují, zda zlepšení v jedné schopnosti, například krátkodobé paměti, může být spojeno s kompromisy v jiných oblastech, například ve vytrvalosti, vnitřní motivaci nebo kreativním řešení problémů. V důsledku toho jim unikají dlouhodobé kognitivní účinky, které ve výsledku určují, zda umělá inteligence učení smysluplně zlepšuje. 

Protože se vzdělávací prostředí v jednotlivých zemích, v rámci učebních osnov a mezi institucionálními cíli značně liší, výsledky jednorázových studií se jen zřídka dají zobecnit napříč systémy. Přístupy k měření proto musí být dostatečně flexibilní, aby různé vzdělávací systémy dokázaly definovat, jak vypadá úspěch v jejich kontextu, vyhodnotit umělou inteligenci podle vlastních standardů a odpovídajícím způsobem iterovat.

Budování lepšího systému měření 

Na základě poznatků z výzkumu studijního módu OpenAI jsme vytvořili strukturovaný systém měření, který měří vliv umělé inteligence na studenty ve velkém měřítku a vytváří mechanismus pro zlepšování modelů na základě těchto výsledků. Je založen na třech signálech – jak se model chová, jak studenti reagují a jaké měřitelné kognitivní výsledky z toho v průběhu času plynou. Zahrnuje: 

  • Systémové instrukce pro vyladění chování modelu: použití přirozeného jazyka ke změně výchozího chování modelu tak, aby lépe odpovídalo specifickým pedagogickým přístupům.
  • Klasifikátory interakcí učení: ty automaticky detekují „momenty učení“ v rámci reálných, anonymizovaných interakcí mezi studentem a modelem a označují důležité charakteristiky, jako je zapojení a oprava chyb.
  • Hodnotitelé kvality učení: tito hodnotitelé hodnotí a bodují každý z těchto momentů učení podle toho, zda student dosáhl svého cíle a do jaké míry se interakce řídila silnými pedagogickými principy, včetně identifikace způsobů selhání.
  • Dlouhodobá měřítka hodnocení učení: ta sledují změny v interakcích téhož studenta s modelem v čase – včetně zapojení, vytrvalosti a metakognitivních strategií – na úrovni jednotlivce i kohorty.
  • Standardizované kognitivní a metakognitivní ukazatele: jedná se o validované nástroje třetích stran poskytované prostřednictvím ChatGPT před přístupem, během něj a po něm k vytvoření základní úrovně a měření změn v základních schopnostech, jako je kritické myšlení, kreativita a paměť.

V kombinaci označujeme tento systém měření jako sadu pro měření výsledků učení. 

Generuje důležité signály, které může vzdělávací ekosystém využít: strukturované pohledy na momenty učení, přehledy ukazující, jak se výsledky v čase mění napříč kohortami, ukazatele výkonnosti modelu v porovnání s pokyny ve výuce a vedení a ukazatele výsledků, které jsou v souladu se standardizovanými hodnoceními a krátkými dotazníky pro studenty. Pokud jsou k dispozici, mohou zahrnovat základní informace poskytnuté partnerem, jako jsou výsledky zkoušek, pozorování ve třídě nebo docházka.

 Diagram znázorňující pracovní postup měření výsledků učení, kde umělá inteligence zpracovává data prostřednictvím kroků analýzy, hodnocení a ověřování a následně poskytne poznatky na podporu studenta.

Všechna data jsou deidentifikovaná

Také to umožňuje našim partnerům pochopit hlubší kognitivní dopady používání umělé inteligence na učení v průběhu času, protože prostřednictvím tohoto systému jsme schopni sledovat dopad na vlastnosti, jako jsou:

  • Autonomní motivace: míra, do jaké si studenti utvářejí vlastní studium nebo jsou řízeni modelem 
  • Produktivní zapojení: četnost, rozmanitost a kvalita pedagogických interakcí
  • Vytrvalost při plnění úkolů: míra, do jaké se student dokáže soustředit a překonávat kognitivní výzvy
  • Metakognice: četnost a kvalita úsilí studujícího při plánování, reflexi a monitorování vlastních přístupů ke studiu
  • Vybavování: přesnost, s jakou si student dokáže zapamatovat obsah z předchozích interakcí

To odráží naši celkovou snahu nezaměřovat se pouze na úzké definice výsledků učení (lepší výsledky testů), ale na celostní schopnosti, které jsou základem učení. Odráží to také naše přesvědčení, že nebude existovat univerzální řešení, pokud jde o to, co optimalizovat: systémy a pedagogové budou muset být schopni rozhodovat o kompromisech v souladu s osvědčenými pedagogickými postupy a přístupy.

Kam dál

Sadu pro měření výsledků učení je nejprve ověřujeme prostřednictvím rozsáhlých studií, než ji zpřístupníme široké veřejnosti. Tato práce probíhá ve spolupráci s Univerzitou v Tartu a iniciativou SCALE Stanfordské univerzity napříč partnery na úrovni států, jako je Estonsko, kde je sada měření studována s téměř 20 000 studenty ve věku 16–18 let po dobu několika měsíců. Využívání studenty bude probíhat v úzké spolupráci s místními lídry, aby byla zajištěna bezpečnost a soulad s místními osnovami.

„Estonsko vždy přistupovalo ke vzdělávání ne jako ke statické věci, ale jako k systému, který neustále zlepšujeme. S tím, jak se umělá inteligence stává součástí tohoto obrazu, je velkou otázkou, jak měříme její dlouhodobý dopad na učení. To ve spolupráci s OpenAI zjišťujeme. Studenti se rádi zapojují do procesu vývoje a mnozí se chtějí naučit, jak napomáhat učení pomocí umělé inteligence. Je to jako skutečný zlom a jsme nadšení, že můžeme přispět metodami, které mohou použít ostatní vzdělávací systémy a na stavět na nich.“
– Jaan Aru, Tartuská univerzita

Tato práce navazuje na širší soubor probíhajících společných výzkumů. Kromě výzkumu výsledků učení, který probíhá prostřednictvím zakládajících partnerů v Learning Lab, OpenAI podporuje studie spojující učení a práci – zkoumá, jak umělá inteligence formuje akademické dráhy studentů, jejich kariérní rozhodnutí a způsoby, jak mohou instituce podpořit zodpovědné zavádění. Tento výzkum probíhá na Bocconi University, Innova Schools a Tuck School of Business na Dartmouth College, San Diego State University, Stony Brook University a dalších.

Jak provádíme dlouhodobé studie o tom, jak se studenti nejlépe učí s umělou inteligencí, máme v úmyslu sdílet zjištění a spolupracovat s širším vzdělávacím ekosystémem, abychom zajistili, že bude umělá inteligence přínosem pro studenty všude.

Zájemci o zasílání novinek o této práci se mohou přihlásit zde.