Nowe narzędzia do zrozumienia AI i wyników nauczania
Rozwijanie sposobów mierzenia wpływu AI w różnych środowiskach edukacyjnych
Edukacja to jeden z najbardziej obiecujących pionierskich obszarów, w których stosowana jest sztuczna inteligencja. Dzięki narzędziom takim jak ChatGPT spersonalizowana pomoc w uczeniu się może być dostępna dla każdego ucznia, wszędzie i zawsze.
Jednak sektor edukacji wciąż jest na wczesnym etapie poznawania wpływu AI na wyniki nauczania. W ubiegłym roku nasz zespół postanowił zbadać wykorzystanie narzędzi takich jak Tryb nauki i zauważył obiecującą poprawę wyników uzyskiwanych przez uczniów. Jednak nasze badania pozwoliły postawić również inne ważne pytanie: w jaki sposób możemy ocenić, jak AI wpływa na postępy ucznia się w czasie, a nie tylko na egzaminie końcowym?
Jest to znacznie szersze wyzwanie. Do tej pory większość metod badawczych koncentrowała się na wąskich sygnałach dotyczących wyników (takich jak na przykład wyniki testów) i nie oferowała możliwości ocenienia tego, w jaki sposób uczniowie i studenci faktycznie uczą się z pomocą AI w rzeczywistych warunkach oraz jak wykorzystanie AI wpływa na wyniki w dłuższym okresie.
Aby spróbować odpowiedzieć na to pytanie, opracowaliśmy pakiet Learning Outcomes Measurement Suite. Jest to system stworzony we współpracy z estońskim Uniwersytetem w Tartu oraz inicjatywą SCALE w ramach Stanford Accelerator for Learning, którego celem jest wspieranie długoterminowych pomiarów wyników nauczania w różnych kontekstach edukacyjnych.
Aktualnie trwają szeroko zakrojone prace weryfikacyjne w ramach randomizowanego badania kontrolowanego, a dalsze badania są planowane wraz z organizacjami założycielskimi w Learning Lab – ekosystemie skupiającym się na badaniach nad uczeniem się OpenAI, w którym uczestniczą badacze z Arizona State University, UCL Knowledge Lab i MIT Media Lab rozwijający wcześniejsze wspólne badania.
Dzisiaj opiszemy, jak działa pakiet narzędzi do pomiarów i dlaczego jest to istotne. W przyszłości zamierzamy publikować więcej badań i udostępnić publicznie zestaw narzędzi pomiarowych dla szkół, uczelni i systemów edukacyjnych na całym świecie.
„Te badania pozwalają nam szybko się uczyć, a jednocześnie kładą podwaliny pod głębsze zrozumienie tego, jak AI można w przemyślany sposób zintegrować w szkołach. Chcemy zrozumieć, w jaki sposób te narzędzia mogą wspierać rzetelną naukę akademicką, a jednocześnie rozwijać myślenie wysokopoziomowe, kreatywność, ciekawość oraz pewność siebie studentów jako osób uzyskujących wiedzę”.
- Dzisiejsze metody badawcze dotyczące wpływu AI na uczenie się pokazują obiecujące sygnały w zakresie wyników, ale nie oferują pełnego obrazu tego, jak AI wpływa na wyniki uczenia się w czasie.
- Pakiet Learning Outcomes Measurement Suite po raz pierwszy zapewni standardowe systemy dla badań długoterminowych, które pomagają nauczycielom, badaczom i instytucjom zrozumieć, jak AI kształtuje proces uczenia się i wpływa wyniki nauczania w różnych kontekstach.
- Laboratorium OpenAI Learning Lab to nowy ekosystem badawczy skoncentrowany na rozwijaniu prac w tym zakresie. OpenAI będzie publikować wyniki opracowywane wraz z wieloma partnerami, w miarę jak ta dziedzina będzie się dalej rozwijać.
Gdy uczniowie korzystają z narzędzi AI do zdobywania wiedzy i uczenia się, może to oznaczać wiele różnych działań: od proszenia AI o szybkie odpowiedzi po wykorzystywanie sztucznej inteligencji do wieloetapowego rozwiązywania problemów w trybie podobnym do zajęć z korepetytorem lub mentorem. Aby zachęcić użytkowników do korzystania z ChatGPT w sposób rozwijający głębsze zrozumienie i kształcenie umiejętności, w zeszłym roku OpenAI wprowadziło Tryb nauki. Tryb nauki korzysta z niestandardowych instrukcji systemu, które napisaliśmy we współpracy z nauczycielami, naukowcami i ekspertami w dziedzinie pedagogiki, aby odzwierciedlały podstawowy zestaw zachowań wspierających prawdziwą naukę, a nie tylko udzielanie odpowiedzi – z wykorzystaniem stopniowania trudności, sprawdzania zrozumienia i wykonywania nadzorowanych ćwiczeń.
Aby sprawdzić, czy ten rodzaj pedagogicznie dopasowanego stylu interakcji z AI przekłada się na lepsze wyniki w nauce, przeprowadziliśmy randomizowane badanie z udziałem ponad 300 studentów przygotowujących się do egzaminów z neuronauki i mikroekonomii. Chociaż analiza wciąż trwa, wstępne wyniki dają nam pewność, że styl interakcji z AI zgodny z zasadami pedagogicznymi, uzupełniany funkcjami takimi jak Tryb nauki, może poprawić efekty uczenia się. Jednak te badania ujawniły również ważną kwestię: naprawdę liczy się to, czy zyski i związane z nimi produktywne zachowania nie znikają z czasem.
Projekt
Uczestników przydzielono do jednej z trzech grup: grupa kontrolna uczyła się, korzystając z tradycyjnych zasobów online, takich jak wyszukiwarka Google i YouTube, z wyłączonymi funkcjami podsumowań oferowanymi przez AI, natomiast dwóm dodatkowym grupom zapewniono dostęp do jednego z dwóch wariantów Trybu nauki zaprojektowanych tak, aby prowadzić uczniów przez proces uczenia się w nieco odmienny sposób. Testy wstępne i ankiety wdrożeniowe zebrano z wyprzedzeniem, aby skorygować różnice w zakresie wcześniejszego kontaktu z materiałem kursowym, nawyków uczenia się, akademickiej pewności siebie oraz znajomości narzędzi AI. Studenci przed każdym egzaminem ukończyli czasowe sesje z Trybem nauki, przy czym dwa warianty Trybu nauki były zrównoważone między badanymi.
Konfigurację opracowano tak, aby odzwierciedlała warunki badań w rzeczywistym świecie, a nie w ściśle kontrolowanym środowisku laboratoryjnym. Udział nie był powiązany z wynikami egzaminu, a nie wszyscy studenci korzystali z Trybu nauki w takim samym stopniu podczas nominalnych 40-minutowych sesji. Pozwoliło nam to zmierzyć i przekazać efekty zgodnie z zaplanowanym działaniem (intention-to-treat, ITT), czyli wpływ zapewnienia dostępu do narzędzia w realistycznych warunkach wdrażania. Inaczej można to podejście określić jako przyczynowy wpływ zaoferowania Trybu nauki, z uwzględnieniem, że wykorzystanie w praktyce może się różnić.
Ustalenia
Zmierzyliśmy wydajność oddzielnie podczas każdego egzaminu. W naszym randomizowanym badaniu poprawa nie była jednolita wśród badanych, a poziomy wykorzystania Trybu nauki różniły się między uczestnikami.
- Neuronauka (pierwotn. ITT): Zaobserwowaliśmy kierunkowo pozytywne różnice w przypadku Trybu nauki w porównaniu z grupą kontrolną, ale wyniki nie różniły się od wyników studentów uczących się z wykorzystaniem tradycyjnych zasobów online. Niektóre problemy związane z wdrażaniem i kwestie techniczne wpłynęły na czas poświęcany na naukę wśród studentów korzystających z trybu nauki.
- Mikroekonomia (pierwotn. ITT): Zaobserwowaliśmy istotną poprawę wyników egzaminów wśród studentów, którym zapewniono dostęp do Trybu nauki w porównaniu z grupą kontrolną bez AI (względnie wynik wyższy średnio o około 15%).
Efekt pozostaje spójny, gdy porównujemy każdy wariant trybu nauki osobno z grupą kontrolną.
Chociaż wyniki odzwierciedlały to zróżnicowanie w warunkach rzeczywistych, uwidoczniły jednak głębsze ograniczenie w sposobie, w jaki zazwyczaj mierzy się wyniki uczenia się.
Większość istniejących podejść do oceniania opiera się na stałych interwencjach ocenianych w krótkich przedziałach czasu przy wykorzystaniu wyników takich jak oceny z testów lub końcowe eseje, które stanowią podstawowe sygnały. Metody te nie są zaprojektowane po to, aby uchwycić podstawowy mechanizm, poprzez który AI wpływa na uczenie się w praktyce: ciągłe, spersonalizowane interakcje, które zmieniają się wraz z własnymi strategiami studentów, preferencjami i ich nawykami. Nie ujawniają też, czy poprawa w jednym obszarze, takim jak pamięć krótkotrwała, może iść w parze z kompromisami w innych, takich jak wytrwałość, samodzielna motywacja lub kreatywne rozwiązywanie problemów. W rezultacie pomijają długofalowe efekty poznawcze, które ostatecznie decydują o tym, czy AI w istotny sposób poprawia proces uczenia się.
Ponieważ środowiska edukacyjne znacznie różnią się w zależności od kraju, programów nauczania i celów instytucjonalnych, wyniki jednorazowych badań rzadko dają się uogólnić na różne systemy. Podejścia do pomiarów muszą zatem być na tyle elastyczne, aby różne systemy edukacji mogły określić, jak wygląda sukces w ich kontekście, oceniać AI według własnych standardów i odpowiednio modyfikować systemy.
Tworzenie lepszego systemu pomiarów
W oparciu o wnioski z badań OpenAI dotyczących Trybu nauki budujemy ustrukturyzowany system pomiarów, aby sprawdzać wpływ AI na studentów na dużą skalę oraz stworzyć mechanizm ulepszania modeli na podstawie tych wyników. Opiera się on na trzech sygnałach: jak zachowuje się model, jak reagują studenci oraz jakie mierzalne rezultaty poznawcze pojawiają się z czasem. Obejmuje on:
- Instrukcje systemowe służące do doprecyzowania zachowania modelu: użycie języka naturalnego w celu zmiany domyślnego zachowania modelu w celu zapewnienia lepszego dostosowania do określonych podejść pedagogicznych.
- Klasyfikatory interakcji edukacyjnych: automatycznie wykrywają „momenty uczenia się” w ramach rzeczywistych, pozbawionych danych identyfikujących interakcji uczeń–model i oznaczają istotne cechy, takie jak zaangażowanie i korygowanie błędów.
- Moduły oceniające jakość nauki: oceniają każdy z tych momentów uczenia się pod kątem tego, czy student osiągnął swój cel, oraz stopnia, w jakim interakcja była zgodna z zasadami pedagogicznymi, w tym identyfikacją trybów niepowodzeń.
- Oceny uczenia się w czasie: śledzą zmiany w interakcjach tego samego studenta z modelem w czasie (co obejmuje zaangażowanie, wytrwałość i strategie metapoznawcze) na poziomie indywidualnym i kohorty.
- Standaryzowane miary poznawcze i metapoznawcze: są to zweryfikowane narzędzia firm zewnętrznych udostępniane za pośrednictwem ChatGPT przed/w trakcie/po uzyskaniu dostępu, aby ustalić poziomy bazowe i mierzyć zmiany w podstawowych zdolnościach, takich jak myślenie krytyczne, kreatywność i pamięć.
Ogólnie nazywamy ten system pomiaru pakietem Learning Outcomes Measurement Suite.
Dostarcza on ważnych sygnałów, z których może korzystać ekosystem edukacyjny: ustrukturyzowane widoki momentów uczenia się, panele wskazujące, jak wyniki zmieniają się w czasie w różnych kohortach, wskaźniki wydajności modelu względem arkuszy nauczania i korepetycji oraz miary wyników zgodne ze standaryzowanymi ocenami i krótkimi kwestionariuszami dla studentów. Gdy jest to dostępne, możliwe jest uwzględnianie realnych wartości dostarczonych przez partnerów, takich jak wyniki egzaminów, obserwacje w klasie lub frekwencja.
Wszystkie dane są zanonimizowane
Umożliwia to również naszym partnerom zrozumienie głębszych skutków poznawczych korzystania z AI w uczeniu się w dłuższej perspektywie, ponieważ dzięki temu systemowi możemy także śledzić wpływ na takie zdolności jak:
- Samodzielna motywacja: stopień, w jakim studenci wpływają samodzielnie na swój proces uczenia się, a nie są kierowani przez model
- Produktywne zaangażowanie: częstotliwość, różnorodność i jakość interakcji pedagogicznych
- Wytrwałość w realizacji zadań: stopień, w jakim student pozostaje przy zadaniu i pokonuje wyzwania poznawcze
- Metapoznanie: częstotliwość i jakość wysiłków studenta w zakresie planowania, refleksji i monitorowania swojego podejścia do nauki
- Przywoływanie: dokładność, z jaką student potrafi zapamiętać treści z poprzednich interakcji
Odzwierciedla to nasze ogólne wysiłki zmierzające ku temu, aby nie skupiać się wyłącznie na wąskich definicjach wyników nauczania (wyższych wynikach testów), lecz na holistycznych kompetencjach, które stanowią podstawę uczenia się. Ponadto odzwierciedla to także nasze przekonanie, że nie opracujemy jednego, cudownego rozwiązania w zakresie aspektów przeznaczonych do optymalizacji: systemy i edukatorzy będą musieli uzyskać wsparcie, aby zarządzać kompromisami zgodnie z najlepszymi zasadami pedagogicznymi i podejściami.
Spojrzenie w przyszłość
Pakiet Learning Outcomes Measurement Suite zweryfikujemy w ramach dogłębnych badań, zanim udostępnimy go na szerszą skalę. Prace te są prowadzone z Uniwersytetem w Tartu oraz inicjatywą SCALE Uniwersytetu Stanforda w ramach partnerstw krajowych np. z Estonią, gdzie zestaw narzędzi pomiarowych jest badany wśród prawie 20 000 uczniów w wieku 16-18 lat przez kilka miesięcy. Korzystanie z rozwiązań przez uczniów będzie odbywać się w ścisłej współpracy z lokalnymi liderami, aby zapewnić bezpieczeństwo i zgodność z lokalnymi programami nauczania.
„W Estonii zawsze uznawaliśmy edukację nie za niezmienny aspekt, lecz jako system, który nieustannie ulepszamy. Wraz z tym, jak AI staje się częścią edukacji, kluczowe pytanie brzmi, jak zmierzyć długoterminowy wpływ AI na uczenie się. To właśnie ustalamy we współpracy z OpenAI. Uczniowie chętnie angażują się w proces rozwoju, a wielu z nich chce się dowiedzieć, jak rozwijać uczenie się z pomocą AI. Mamy wrażenie, że to prawdziwy punkt zwrotny i cieszymy się, że możemy dopracowywać metody, które inne systemy edukacji będą mogły ponownie wykorzystać i rozwijać we własnym zakresie”.
Nasze działania bazują na szerszym dorobku prowadzonych wspólnie badań. Oprócz badań nad wynikami prowadzonych za pośrednictwem partnerów założycielskich w Learning Lab, OpenAI wspiera badania na styku edukacji i rynku pracy, analizując, jak AI kształtuje ścieżki akademickie studentów, decyzje zawodowe oraz sposoby, w jakie instytucje mogą wspierać odpowiedzialne wdrażanie sztucznej inteligencji. Badania te są prowadzone na Uniwersytecie Bocconi, w Innova Schools oraz w Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University i innych.
W miarę prowadzenia długoterminowych badań dotyczących tego, w jaki sposób studenci najlepiej uczą się z pomocą AI, zamierzamy dzielić się wnioskami i współpracować z szeroką paletą placówek edukacyjnych, aby zapewnić korzyści płynące z AI studentom na całym świecie.
Osoby zainteresowane otrzymywaniem aktualizacji dotyczących tych prac mogą zarejestrować się tutaj.


