Новые инструменты для оценки влияния ИИ на результаты обучения
Развитие методов оценки влияния ИИ в разных образовательных средах
Образование — одно из самых перспективных направлений применения ИИ. С такими инструментами, как ChatGPT, персонализированная поддержка обучения может быть доступна любому студенту — в любом месте и в любое время.
Но сектор образования еще находится на ранней стадии понимания влияния ИИ на результаты обучения. В прошлом году наша команда поставила перед собой задачу изучить использование таких инструментов, как режим обучения, и обнаружила многообещающие улучшения в успеваемости студентов. Но наше исследование также поставило важный вопрос: как оценивать влияние ИИ на прогресс учащегося с течением времени, а не только по результатам итогового экзамена?
Это более широкая задача для всей экосистемы. На сегодняшний день большинство методов исследования сосредоточены на узких показателях эффективности — таких как результаты тестов — и не позволяют оценить, как студенты на самом деле учатся с ИИ в реальных условиях и как это со временем влияет на результаты.
Чтобы устранить этот пробел, мы разработали набор инструментов для оценки результатов обучения (Learning Outcomes Measurement Suite). Он был создан совместно с Тартуским университетом в Эстонии и экспертами проекта SCALE (Stanford Accelerator for Learning), чтобы поддерживать долгосрочное измерение результатов обучения в различных образовательных контекстах.
В настоящее время проводится масштабная валидация в рамках рандомизированного контролируемого исследования, а также планируются дальнейшие исследования с организациями-основателями Learning Lab — исследовательской экосистемы OpenAI в сфере обучения. Среди них будут эксперты из Университет штата Аризона (Arizona State University), UCL Knowledge Lab и MIT Media Lab (на основе предыдущих совместных исследований).
Сегодня мы представляем обзор того, как работает комплекс инструментов, и рассказываем, почему он важен. Со временем мы намерены публиковать больше исследований и сделать набор инструментов общедоступным ресурсом для школ, университетов и систем образования по всему миру.
«Данное исследование позволяет нам быстро учиться и одновременно закладывать основу для более глубокого понимания того, как вдумчиво интегрировать ИИ в образование так, чтобы это приносило реальную пользу. Мы хотим понять, как эти инструменты могут поддерживать строгий академический подход к обучению, одновременно развивая мышление более высокого уровня, креативность, любознательность и уверенность учащихся в собственных силах».
- Современные методы исследования влияния ИИ на обучение показывают многообещающие сигналы в отношении успеваемости, но не отражают полной картины того, как ИИ со временем влияет на результаты обучения.
- Набор инструментов для оценки результатов обучения впервые предложит стандартную методологическую основу для лонгитюдных исследований, которые помогут преподавателям, исследователям и образовательным учреждениям понять, как ИИ влияет на обучение и его результаты в разных контекстах.
- OpenAI’s Learning Lab — это новая исследовательская экосистема, направленная на развитие этой работы. OpenAI будет публиковать результаты исследований совместно с рядом партнеров по мере дальнейшего развития этой области.
Когда студенты используют инструменты ИИ для учебы и обучения, это может означать многое — от обращения к ИИ за быстрыми ответами до использования его для пошагового решения задач с сопровождением, как у репетитора. Чтобы побудить пользователей взаимодействовать с ChatGPT так, чтобы это способствовало более глубокому пониманию и развитию навыков, OpenAI в прошлом году представила режим обучения. В основе режима обучения лежат специальные системные инструкции, разработанные нами совместно с преподавателями, учёными и экспертами по педагогике. Они отражают набор ключевых подходов, поддерживающих настоящее обучение, а не просто получение ответов — включая поэтапную поддержку, проверку понимания и направляемую практику.
Чтобы проверить, приводит ли такой педагогически выверенный стиль взаимодействия с ИИ к улучшению результатов обучения, мы провели рандомизированное исследование с участием более 300 студентов вузов, готовившихся к экзаменам по нейробиологии и микроэкономике. Хотя анализ всё ещё продолжается, предварительные результаты дают нам основания полагать, что стиль взаимодействия с ИИ, согласованный с педагогическими принципами и поддерживаемый такими функциями, как режим обучения, может улучшать результаты обучения. Но это исследование также выявило важный момент: решающим является то, сохраняются ли эти улучшения и связанные с ними продуктивные учебные практики со временем.
Дизайн исследования
Участники были распределены в одну из трёх групп: контрольная группа занималась, используя традиционные онлайн-ресурсы, такие как Google Search и YouTube (при этом функции обзоров, созданных ИИ, были отключены), а двум другим группам предоставили доступ к одному из двух вариантов режима обучения, разработанных для того, чтобы направлять студентов в процессе обучения немного разными способами. Базовые тесты и опросы при адаптации были собраны заранее, чтобы скорректировать различия в предыдущем учебном опыте, учебных привычках, академической уверенности и знакомстве с инструментами ИИ. Перед каждым экзаменом студенты проходили ограниченные по времени занятия в режиме обучения, при этом два варианта режима были сбалансированно распределены между предметами.
Эта конфигурация была разработана для отражения реальных условий исследования, а не строго контролируемой лабораторной среды. Участие не было связано с результатами экзамена, и не все студенты использовали режим обучения в равной степени в течение номинальных 40-минутных сессий. Это позволило нам измерить и представить результаты анализа «исходя из назначенного лечения» (ITT — intention-to-treat). Этот метод оценивает эффект от предоставления доступа к инструменту в условиях реального внедрения — иными словами, это причинно-следственное влияние самого предложения воспользоваться режимом обучения, с учетом того, что на практике степень вовлеченности пользователей может быть разной.
Результаты
Мы оценивали результаты по каждому экзамену в отдельности. В нашем рандомизированном исследовании улучшения не были одинаковыми по всем предметам, а уровень вовлеченности в режим обучения варьировался среди участников.
- Нейробиология (первичный ITT): мы наблюдали направленно положительные различия для режима обучения по сравнению с контрольной группой, но результаты не отличались от результатов студентов, которые обучались с использованием традиционных онлайн-ресурсов. Некоторые проблемы с онбордингом и технические неполадки повлияли на время, затраченное на обучение среди студентов, использующих режим обучения.
- Микроэкономика (первичный ITT): мы наблюдали заметный рост результатов экзамена среди студентов, которым предоставили доступ к режиму обучения, по сравнению с контрольной группой без ИИ — примерно на 15 % выше.
Эффект остается устойчивым, когда мы сравниваем каждый режим обучения отдельно с контрольной группой.
Хотя это отражает вариативность реального мира, данная ситуация высветила более глубокое ограничение в том, как обычно измеряются результаты обучения.
Большинство существующих подходов к оценке опираются на фиксированные вмешательства, оцениваемые в коротких временных окнах, используя такие результаты, как баллы тестов или итоговые эссе, в качестве основных сигналов. Эти методы не предназначены для того, чтобы уловить основной механизм, посредством которого ИИ влияет на обучение на практике: непрерывные, персонализированные взаимодействия, которые развиваются вместе с собственными стратегиями, предпочтениями и учебными привычками учащегося. Они также не позволяют выявить, могут ли улучшения в одной области (например, в кратковременном запоминании) сопровождаться потерями в других, таких как настойчивость, внутренняя мотивация или творческое решение задач. В результате они упускают из виду долгосрочные когнитивные эффекты, которые в конечном счете определяют, действительно ли ИИ значимо улучшает процесс обучения.
Поскольку образовательная среда сильно варьируется в зависимости от страны, учебной программы и целей конкретного учреждения, результаты разовых исследований редко применимы к другим системам. Поэтому подходы к измерению должны быть достаточно гибкими, чтобы разные системы образования могли определять, как выглядит успех в их контексте, оценивать ИИ по собственным стандартам и соответствующим образом итеративно совершенствовать подход.
Создание более совершенной системы оценки
Опираясь на выводы из исследований OpenAI по режиму обучения, мы создавали структурированную систему измерения, чтобы оценивать влияние ИИ на учащихся в масштабе и создать механизм улучшения моделей на основе этих результатов. Система опирается на три сигнала: поведение модели, реакция учащихся и измеримые когнитивные результаты, проявляющиеся со временем. Она включает в себя:
- Системные инструкции для уточнения поведения модели: использование естественного языка для изменения поведения модели по умолчанию, чтобы лучше согласовать его с конкретными педагогическими подходами.
- Классификаторы обучающих взаимодействий: они автоматически обнаруживают «учебные моменты» в реальных деидентифицированных взаимодействиях между учеником и моделью, а также отмечают ключевые характеристики, такие как вовлеченность и исправление ошибок.
- Оценщики качества обучения: они анализируют и оценивают каждый из таких учебных моментов на предмет того, достиг ли учащийся своей цели и в какой степени взаимодействие соответствовало строгим педагогическим принципам (включая выявление сценариев сбоев/ошибок).
- Лонгитюдные оценщики обучения: они отслеживают изменения во взаимодействии одного и того же учащегося с моделью с течением времени — включая вовлеченность, настойчивость и метакогнитивные стратегии — как на индивидуальном уровне, так и на уровне групп (когорт).
- Стандартизированные когнитивные и метакогнитивные показатели: это валидированные сторонние инструменты, предлагаемые через ChatGPT до, во время и после предоставления доступа для установления базовых показателей и измерения изменений в таких фундаментальных способностях, как критическое мышление, креативность и память.
В совокупности мы называем эту систему измерений набором инструментов для оценки результатов обучения.
Он дает важные сигналы, которые может использовать образовательная экосистема: структурированные представления учебных моментов, панели мониторинга, показывающие, как результаты со временем меняются в разных группах, индикаторы эффективности модели по рубрикам преподавания и репетиторства, а также показатели результатов, согласованные со стандартизированными оценками и краткими опросами для учащихся. Там, где это возможно, система может включать предоставляемые партнерами контрольные данные, такие как результаты экзаменов, наблюдения в классах или посещаемость.
Все данные обезличены.
Это также позволяет нашим партнерам понять более глубокое когнитивное влияние использования ИИ для обучения в долгосрочной перспективе, так как благодаря этой системе мы можем отслеживать воздействие на такие способности, как:
- Автономная мотивация: степень, в которой учащиеся формируют собственное обучение, а не следуют указаниям модели.
- Продуктивное взаимодействие: частота, разнообразие и качество педагогических взаимодействий.
- Настойчивость в выполнении задач: степень, в которой учащийся сохраняет вовлеченность и преодолевает когнитивные трудности.
- Метапознание (метакогниция): частота и качество усилий учащегося по планированию, рефлексии и отслеживанию своих подходов к обучению.
- Воспроизведение (память): точность, с которой обучающийся может вспомнить контент из предыдущих взаимодействий.
Это отражает наши общие усилия, направленные на то, чтобы не ограничиваться узким определением результатов обучения (ростом баллов за тесты), а фокусироваться на целостных способностях, которые лежат в основе процесса познания. Это также отражает наше убеждение в том, что не существует универсального решения в вопросе выбора целей для оптимизации: системы и педагоги должны иметь возможность самостоятельно расставлять приоритеты в соответствии с передовыми педагогическими практиками и подходами.
Что дальше
Мы проверяем набор инструментов для оценки результатов обучения с помощью крупномасштабных исследований, прежде чем сделать его широко доступным. Эта работа уже ведется совместно с Тартуским университетом и проектом SCALE Стэнфордского университета, а также при участии партнеров государственного масштаба, таких как Эстония, где в тестировании системы участвуют почти 20 000 учащихся в возрасте 16–18 лет в течение нескольких месяцев. Это происходит в тесном сотрудничестве с местными администрациями, чтобы обеспечить безопасность и соответствие местным учебным программам.
«Эстония всегда подходила к образованию не как к чему-то статичному, а как к системе, которую мы постоянно совершенствуем. Теперь, когда ИИ становится её частью, главный вопрос — как измерять его долгосрочное влияние на обучение. Именно над этим мы работаем совместно с OpenAI. Студенты с большим интересом участвуют в процессе разработки, и многие хотят научиться поддерживать обучение с помощью ИИ. Кажется, что это переломный момент, и мы рады внести вклад в разработку методов, которые другие образовательные системы смогут использовать и развивать».
Эта работа опирается на более широкий массив совместных исследований, которые уже ведутся. Помимо исследований результатов обучения, проводимых совместно с партнерами-основателями Learning Lab, OpenAI поддерживает проекты на стыке образования и рынка труда. В рамках этих исследований изучается то, как ИИ формирует образовательные траектории студентов и их карьерные решения, а также способы, с помощью которых учебные заведения могут поддерживать ответственное внедрение технологий. Эта исследовательская работа проводится на базе Университета Боккони, сети школ Innova Schools, Таковской школы бизнеса при Дартмутском колледже, Университета штата Сан-Диего, Университета Стоуни-Брук и ряда других организаций.
По мере проведения долгосрочных исследований того, как студенты лучше всего учатся с помощью ИИ, мы намерены делиться полученными результатами и сотрудничать с широким образовательным сообществом, чтобы преимущества искусственного интеллекта были доступны учащимся по всему миру.
Те, кто заинтересован в получении обновлений по этой работе, могут подписаться здесь.


