Нові інструменти для розуміння ШІ та результатів навчання
Удосконалення підходів до вимірювання впливу ШІ в навчальних середовищах
Освіта — одна з найперспективніших передових сфер використання ШІ. Завдяки таким інструментам, як ChatGPT, персоналізована підтримка навчання доступна будь-якому студенту будь-де й будь-коли.
Але освітній сектор досі перебуває на ранньому етапі розуміння впливу ШІ на результати навчання. Минулого року наша команда взялася за вивчення використання таких інструментів, як режим навчання, і виявила багатообіцяюче покращення успішності студентів. Але наше дослідження також підняло важливе питання: як ми можемо оцінити, як ШІ впливає на прогрес учня із часом, а не лише на підсумковому іспиті?
Це виклик для ширшої екосистеми. На сьогодні більшість методів дослідження зосереджуються на вузьких сигналах ефективності (таких як результати тестів) і не мають змоги оцінити, як студенти насправді навчаються із ШІ в умовах реального світу та як таке використання впливає на результати з часом.
Аби усунути цю прогалину, ми розробили Learning Outcomes Measurement Suite, структуру, створену разом з естонським Тартуським університетом та ініціативою SCALE в Акселераторі навчання Стенфордського університету, щоб підтримати тривале вимірювання результатів навчання в різних освітніх контекстах.
Триває масштабна валідація в межах рандомізованого контрольованого дослідження, а також заплановано подальші дослідження із засновницькими організаціями в Learning Lab, дослідницькій екосистемі OpenAI у сфері навчання, зокрема за участю дослідників з Університету штату Аризона, UCL Knowledge Lab та MIT Media Lab (спираючись на попередні спільні дослідження).
Сьогодні ми ділимося оглядом того, як працює набір інструментів для вимірювання, і пояснюємо, чому це важливо. Згодом ми плануємо публікувати більше досліджень і зробити набір інструментів для вимірювання загальнодоступним ресурсом для шкіл, університетів та освітніх систем у всьому світі.
«Це дослідження дає нам змогу швидко навчатися, водночас закладаючи підґрунтя для глибшого розуміння того, як ШІ можна вдумливо інтегрувати в систему навчання так, щоб це справді мало значення. Ми хочемо зрозуміти, як ці інструменти можуть підтримувати ґрунтовне академічне навчання, водночас розвиваючи мислення вищого порядку, креативність, допитливість і впевненість учнів у собі.»
- Сучасні методи дослідження впливу ШІ на навчання демонструють обнадійливі сигнали щодо успішності, але не відображають повної картини того, як ШІ впливає на результати навчання з часом.
- Система вимірювання результатів навчання вперше надасть стандартну рамкову структуру для довготривалих досліджень, які допомагають освітянам, дослідникам та закладам зрозуміти, як ШІ формує навчання та результати в різних контекстах.
- Learning Lab від OpenAI — це нова дослідницька екосистема, зосереджена на просуванні цієї роботи. OpenAI публікуватиме результати разом із низкою партнерів у міру того, як ця сфера продовжуватиме розвиватися.
Коли студенти використовують інструменти ШІ «для навчання та засвоєння матеріалу», це фактично може означати багато різних речей: від звернення до ШІ задля отримання швидких відповідей до використання його для ретельного опрацювання завдань крок за кроком із супроводом, подібно до репетиторства. Прагнучи заохотити користувачів взаємодіяти з ChatGPT так, щоб це сприяло глибшому розумінню та розвитку навичок, OpenAI торік представила режим навчання. Фактично режим навчання працює на основі спеціальних системних інструкцій, які ми написали у співпраці з учителями, науковцями та експертами з педагогіки, щоб відобразити основний набір поведінкових моделей, що підтримують справжнє навчання, а не просто відповіді, використовуючи навчальне підкріплення, перевірки розуміння та керовану практику.
Аби перевірити, чи такий педагогічно узгоджений стиль взаємодії з ШІ трансформується в кращі результати навчання, ми провели рандомізоване дослідження за участю понад 300 студентів коледжу, які готувалися до іспитів із нейробіології та мікроекономіки. Поки аналіз ще триває, але перші результати дають нам упевненість у тому, що педагогічно узгоджений стиль взаємодії з ШІ, який заохочується завдяки таким функціям, як режим навчання, дійсно може покращити результати навчання. Але це дослідження також виявило важливий аспект: насправді має значення те, чи залишаються з плином часу стійкими досягнення та пов’язані з ними продуктивні моделі поведінки.
Дизайн дослідження
Учасників розподілили на три групи: контрольна група навчалася за допомогою традиційних онлайн-ресурсів, таких як пошук у Google і YouTube, із вимкненими ШІ-функціями. Дві інші групи отримали доступ до одного з двох варіантів режиму навчання, розроблених для спрямування студентів у процесі навчання різними способами. Базові тести та опитування для ознайомлення були зібрані заздалегідь, щоб скоригувати відмінності в попередньому навчальному досвіді, навчальних звичках, академічній упевненості та обізнаності в роботі з інструментами ШІ. Студенти проходили сеанси режиму навчання з обмеженням часу перед кожним іспитом, причому два варіанти режиму навчання були збалансовані за предметами.
Умови дослідження були розроблені таким чином, щоб відображати реальні умови навчання, а не жорстко контрольоване лабораторне середовище. Участь не була пов’язана з результатами іспиту, і не всі студенти однаковою мірою використовували режим навчання протягом номінальних 40-хвилинних сесій. Це дозволило нам виміряти та скласти звіт про ефект intention-to-treat (далі ITT) — вплив надання доступу до інструмента за реалістичних умов розгортання: інакше кажучи, причинно-наслідковий вплив пропозиції режиму навчання в межах дослідження, визнаючи, що залученість на практиці може відрізнятися.
Результати
Ми вимірювали ефективність на кожному іспиті окремо. У нашому рандомізованому дослідженні покращення не були однаковими серед учасників, а рівні залученості до режиму навчання відрізнялися між учасниками.
- Нейробіологія (первинний ITT): Ми спостерігали прямо позитивні відмінності для режиму навчання порівняно з контрольною групою, але результати загалом не відрізнялися від результатів студентів, які навчалися з використанням традиційних онлайн-ресурсів. Деякі проблеми з адаптацією та технічні труднощі вплинули на час, витрачений на навчання, серед студентів, які використовували режим навчання.
- Мікроекономіка (первинний ITT): Ми спостерігали суттєве покращення результатів іспитів серед студентів, яким надали доступ до режиму навчання, порівняно з контрольною групою без ШІ — приблизно на 15% вищий відносний бал.
Ефект залишається незмінним, коли ми порівнюємо кожен варіант режиму навчання окремо з контрольною групою.
Хоча це відображає варіативність у реальному світі, це висвітлило глибше обмеження в тому, як зазвичай вимірюють результати навчання.
Більшість наявних підходів до оцінювання спираються на фіксовані втручання, які оцінюються протягом коротких часових проміжків, використовуючи такі результати, як тестові бали або підсумкові есе, як основні сигнали. Ці методи не призначені для того, щоб фіксувати основний механізм, через який ШІ впливає на навчання на практиці: безперервні, персоналізовані взаємодії, що розвиваються разом із власними стратегіями, уподобаннями та навчальними звичками учня. Також вони не показують, чи можуть покращення однієї здібності, такої як короткочасне запам'ятовування, супроводжуватися компромісами в інших, як-от наполегливість, автономна мотивація або творче вирішення проблем. Як наслідок, вони не враховують довгострокові когнітивні ефекти, які зрештою й визначають, чи ШІ значуще покращує результативність навчання.
Оскільки навчальні середовища суттєво відрізняються між країнами, навчальними програмами та цілями навчальних закладів, результати разових досліджень рідко узагальнюються на різні системи. Отже, підходи до вимірювання мають бути достатньо гнучкими, щоб різні освітні системи могли визначати, як виглядає успіх у їхньому власному контексті, оцінювати ШІ за власними стандартами та відповідно до цього вдосконалювати підхід до навчання.
Створення оптимальної системи вимірювання
Спираючись на висновки з дослідження OpenAI щодо режиму навчання, ми почали роботу над створенням структурованої системи вимірювання, щоб оцінювати вплив ШІ на учнів у масштабі та створити механізм для вдосконалення моделей на основі цих результатів. Вона ґрунтується на трьох сигналах: на тому, як поводиться модель, як реагують учні, і на тому, які вимірювані когнітивні результати проявляються з часом. Система включає:
- Системні інструкції для уточнення поведінки моделі: використання природної мови для зміни стандартної поведінки моделі, аби вона краще відповідала конкретним педагогічним підходам.
- Класифікатори навчальних взаємодій: автоматично виявляють «навчальні моменти» в реальних, знеособлених взаємодіях учня та моделі й позначають ключові характеристики, такі як залученість і виправлення помилок.
- Оцінювачі якості навчання: оцінюють і виставляють бали за кожен із цих навчальних моментів залежно від того, чи досяг учень своєї мети, і від ступеня, до якого взаємодія відповідала сильним педагогічним принципам, зокрема з визначенням невдач.
- Оцінювачі тривалого навчання: відстежують зміни у взаємодіях одного й того самого учня з моделлю з часом — зокрема залученість, наполегливість і метакогнітивні стратегії — на індивідуальному та когортному рівнях.
- Стандартизовані когнітивні та метакогнітивні показники: валідовані сторонні інструменти, що надаються через ChatGPT до/під час/після доступу, щоб встановити базові рівні та вимірювати зміни в базових здібностях, таких як критичне мислення, креативність і пам’ять.
У сукупності ми називаємо цю систему вимірювання комплексом вимірювання результатів навчання — Learning Outcomes Measurement Suite.
Вона генерує важливі сигнали, які може використовувати освітня екосистема: структуровані уявлення про навчальні моменти, інформаційні панелі, що показують, як результати змінюються з часом у різних групах студентів, індикатори ефективності моделі щодо викладання та репетиторства, а також показники результатів, узгоджені зі стандартизованими оцінюваннями та короткими анкетами для студентів. За наявності вона може включати надані партнерами перевірені значення, такі як результати іспитів, спостереження в класі або відвідуваність.
Усі дані анонімізовано
Це також дає змогу нашим партнерам із часом глибше зрозуміти когнітивні наслідки використання ШІ для навчання, оскільки завдяки цій системі ми також можемо відстежувати вплив на такі здібності, як-от:
- Автономна мотивація: ступінь, до якого учні формують власне навчання, а не керуються моделлю
- Продуктивна залученість: частота, різноманітність і якість педагогічних взаємодій
- Наполегливість у виконанні завдань: ступінь, до якого учень зосереджується та долає когнітивні труднощі
- Метакогніція: частота та якість зусиль учня щодо планування, рефлексії та відстеження своїх підходів до навчання
- Відтворення: точність, із якою учень може пригадувати вміст із попередніх взаємодій
Це відображає наші загальні зусилля, спрямовані на те, щоб не просто зосереджуватися на вузьких визначеннях результатів навчання (підвищенні оцінки в балах), а на цілісних можливостях, що лежать в основі навчання. Це також відображає наше переконання в тому, що не існує універсального рішення щодо того, що саме слід оптимізувати: системи та освітяни мають бути уповноважені керувати компромісами відповідно до передового педагогічного досвіду та підходів.
Що далі
Перш ніж випустити Learning Outcomes Measurement Suite в широкий доступ, ми проводимо перевірку системи в рамках масштабних досліджень. Ця робота триває спільно з Тартуським університетом та ініціативою SCALE Стенфордського університету серед партнерів на національному рівні, таких як Естонія, де комплекс інструментів для вимірювання вивчають протягом кількох місяців за участю майже 20 000 учнів віком від 16 до 18 років. Робота з учнями відбуватиметься у тісній співпраці з місцевими лідерами, щоб гарантувати безпеку та відповідність місцевим навчальним програмам.
«Естонія завжди підходила до освіти не як до чогось статичного, а як до системи, яку ми постійно вдосконалюємо. Оскільки ШІ стає частиною цієї загальної картини, велике питання полягає в тому, як ми вимірюємо довгостроковий вплив ШІ на навчання. Ось що ми з’ясовуємо у співпраці з OpenAI. Студенти прагнуть брати участь у процесі розробки, і багато хто хоче дізнатися, як підтримувати навчання за допомогою ШІ. Це схоже на справжній переломний момент, і ми з нетерпінням чекаємо можливості зробити внесок, запропонувавши методи, які інші системи освіти зможуть повторно використовувати та розвивати.»
Ця робота спирається на ширший масив спільних досліджень, що наразі тривають. Окрім досліджень результатів навчання, що проводяться через партнерів-засновників у Learning Lab, OpenAI підтримує дослідження на перетині навчання та ринку праці — вивчаючи, як ШІ формує академічні траєкторії студентів, кар’єрні рішення та те, як навчальні заклади можуть підтримувати відповідальне впровадження. Це дослідження проводиться в Університеті Бокконі, школах Innova та Tuck School of Business у Дартмуті, Державному університеті Сан-Дієго, Університеті штату Нью-Йорк в Стоуні-Брук та інших.
Проводячи довгострокові дослідження того, як студенти найкраще навчаються за допомогою ШІ, ми плануємо ділитися результатами та працювати разом із ширшою освітньою екосистемою, щоб забезпечити всеохоплюючу користь ШІ для учнів.
Бажаючі отримувати новини щодо цієї роботи можуть зареєструватися тут.


