4 марта 2026 г.

Новые инструменты для оценки влияния ИИ на результаты обучения

Развитие методов оценки влияния ИИ в разных образовательных средах

Образование — одно из самых перспективных направлений применения ИИ. С такими инструментами, как ChatGPT, персонализированная поддержка обучения может быть доступна любому студенту — в любом месте и в любое время.

Но сектор образования еще находится на ранней стадии понимания влияния ИИ на результаты обучения. В прошлом году наша команда поставила перед собой задачу изучить использование таких инструментов, как режим обучения⁠, и обнаружила многообещающие улучшения в успеваемости студентов. Но наше исследование также поставило важный вопрос: как оценивать влияние ИИ на прогресс учащегося с течением времени, а не только по результатам итогового экзамена?

Это более широкая задача для всей экосистемы. На сегодняшний день большинство методов исследования сосредоточены на узких показателях эффективности — таких как результаты тестов — и не позволяют оценить, как студенты на самом деле учатся с ИИ в реальных условиях и как это со временем влияет на результаты.

Чтобы устранить этот пробел, мы разработали набор инструментов для оценки результатов обучения (Learning Outcomes Measurement Suite). Он был создан совместно с Тартуским университетом в Эстонии и экспертами проекта SCALE (Stanford Accelerator for Learning), чтобы поддерживать долгосрочное измерение результатов обучения в различных образовательных контекстах.

В настоящее время проводится масштабная валидация в рамках рандомизированного контролируемого исследования, а также планируются дальнейшие исследования с организациями-основателями Learning Lab — исследовательской экосистемы OpenAI в сфере обучения. Среди них будут эксперты из Университет штата Аризона (Arizona State University), UCL Knowledge Lab и MIT Media Lab (на основе предыдущих совместных исследований⁠).

Сегодня мы представляем обзор того, как работает комплекс инструментов, и рассказываем, почему он важен. Со временем мы намерены публиковать больше исследований и сделать набор инструментов общедоступным ресурсом для школ, университетов и систем образования по всему миру.

«Данное исследование позволяет нам быстро учиться и одновременно закладывать основу для более глубокого понимания того, как вдумчиво интегрировать ИИ в образование так, чтобы это приносило реальную пользу. Мы хотим понять, как эти инструменты могут поддерживать строгий академический подход к обучению, одновременно развивая мышление более высокого уровня, креативность, любознательность и уверенность учащихся в собственных силах».

— Сюзанна Лёб, профессор образования и директор программы SCALE Стэнфордского университета.

Ключевые моменты

Современные методы исследования влияния ИИ на обучение показывают многообещающие сигналы в отношении успеваемости, но не отражают полной картины того, как ИИ со временем влияет на результаты обучения.
Набор инструментов для оценки результатов обучения впервые предложит стандартную методологическую основу для лонгитюдных исследований, которые помогут преподавателям, исследователям и образовательным учреждениям понять, как ИИ влияет на обучение и его результаты в разных контекстах.
OpenAI’s Learning Lab — это новая исследовательская экосистема, направленная на развитие этой работы. OpenAI будет публиковать результаты исследований совместно с рядом партнеров по мере дальнейшего развития этой области.

Истоки и первые исследования

Когда студенты используют инструменты ИИ для учебы и обучения, это может означать многое — от обращения к ИИ за быстрыми ответами до использования его для пошагового решения задач с сопровождением, как у репетитора. Чтобы побудить пользователей взаимодействовать с ChatGPT так, чтобы это способствовало более глубокому пониманию и развитию навыков, OpenAI в прошлом году представила режим обучения⁠. В основе режима обучения лежат специальные системные инструкции, разработанные нами совместно с преподавателями, учёными и экспертами по педагогике. Они отражают набор ключевых подходов, поддерживающих настоящее обучение, а не просто получение ответов — включая поэтапную поддержку, проверку понимания и направляемую практику.

Чтобы проверить, приводит ли такой педагогически выверенный стиль взаимодействия с ИИ к улучшению результатов обучения, мы провели рандомизированное исследование с участием более 300 студентов вузов, готовившихся к экзаменам по нейробиологии и микроэкономике. Хотя анализ всё ещё продолжается, предварительные результаты дают нам основания полагать, что стиль взаимодействия с ИИ, согласованный с педагогическими принципами и поддерживаемый такими функциями, как режим обучения, может улучшать результаты обучения. Но это исследование также выявило важный момент: решающим является то, сохраняются ли эти улучшения и связанные с ними продуктивные учебные практики со временем.

Дизайн исследования

Участники были распределены в одну из трёх групп: контрольная группа занималась, используя традиционные онлайн-ресурсы, такие как Google Search и YouTube (при этом функции обзоров, созданных ИИ, были отключены), а двум другим группам предоставили доступ к одному из двух вариантов режима обучения, разработанных для того, чтобы направлять студентов в процессе обучения немного разными способами. Базовые тесты и опросы при адаптации были собраны заранее, чтобы скорректировать различия в предыдущем учебном опыте, учебных привычках, академической уверенности и знакомстве с инструментами ИИ. Перед каждым экзаменом студенты проходили ограниченные по времени занятия в режиме обучения, при этом два варианта режима были сбалансированно распределены между предметами.

Эта конфигурация была разработана для отражения реальных условий исследования, а не строго контролируемой лабораторной среды. Участие не было связано с результатами экзамена, и не все студенты использовали режим обучения в равной степени в течение номинальных 40-минутных сессий. Это позволило нам измерить и представить результаты анализа «исходя из назначенного лечения» (ITT — intention-to-treat). Этот метод оценивает эффект от предоставления доступа к инструменту в условиях реального внедрения — иными словами, это причинно-следственное влияние самого предложения воспользоваться режимом обучения, с учетом того, что на практике степень вовлеченности пользователей может быть разной.

Результаты

Мы оценивали результаты по каждому экзамену в отдельности. В нашем рандомизированном исследовании улучшения не были одинаковыми по всем предметам, а уровень вовлеченности в режим обучения варьировался среди участников.

Нейробиология (первичный ITT): мы наблюдали направленно положительные различия для режима обучения по сравнению с контрольной группой, но результаты не отличались от результатов студентов, которые обучались с использованием традиционных онлайн-ресурсов. Некоторые проблемы с онбордингом и технические неполадки повлияли на время, затраченное на обучение среди студентов, использующих режим обучения.
Микроэкономика (первичный ITT): мы наблюдали заметный рост результатов экзамена среди студентов, которым предоставили доступ к режиму обучения, по сравнению с контрольной группой без ИИ — примерно на 15 % выше.

Режим обучения (варианты A и B) по сравнению с контрольной группой (без ИИ): скорректированные средние результаты экзамена

Эффект остается устойчивым, когда мы сравниваем каждый режим обучения отдельно с контрольной группой.

Хотя это отражает вариативность реального мира, данная ситуация высветила более глубокое ограничение в том, как обычно измеряются результаты обучения.

Большинство существующих подходов к оценке опираются на фиксированные вмешательства, оцениваемые в коротких временных окнах, используя такие результаты, как баллы тестов или итоговые эссе, в качестве основных сигналов. Эти методы не предназначены для того, чтобы уловить основной механизм, посредством которого ИИ влияет на обучение на практике: непрерывные, персонализированные взаимодействия, которые развиваются вместе с собственными стратегиями, предпочтениями и учебными привычками учащегося. Они также не позволяют выявить, могут ли улучшения в одной области (например, в кратковременном запоминании) сопровождаться потерями в других, таких как настойчивость, внутренняя мотивация или творческое решение задач. В результате они упускают из виду долгосрочные когнитивные эффекты, которые в конечном счете определяют, действительно ли ИИ значимо улучшает процесс обучения.

Поскольку образовательная среда сильно варьируется в зависимости от страны, учебной программы и целей конкретного учреждения, результаты разовых исследований редко применимы к другим системам. Поэтому подходы к измерению должны быть достаточно гибкими, чтобы разные системы образования могли определять, как выглядит успех в их контексте, оценивать ИИ по собственным стандартам и соответствующим образом итеративно совершенствовать подход.

Создание более совершенной системы оценки

Опираясь на выводы из исследований OpenAI по режиму обучения, мы создавали структурированную систему измерения, чтобы оценивать влияние ИИ на учащихся в масштабе и создать механизм улучшения моделей на основе этих результатов. Система опирается на три сигнала: поведение модели, реакция учащихся и измеримые когнитивные результаты, проявляющиеся со временем. Она включает в себя:

Системные инструкции для уточнения поведения модели: использование естественного языка для изменения поведения модели по умолчанию, чтобы лучше согласовать его с конкретными педагогическими подходами.
Классификаторы обучающих взаимодействий: они автоматически обнаруживают «учебные моменты» в реальных деидентифицированных взаимодействиях между учеником и моделью, а также отмечают ключевые характеристики, такие как вовлеченность и исправление ошибок.
Оценщики качества обучения: они анализируют и оценивают каждый из таких учебных моментов на предмет того, достиг ли учащийся своей цели и в какой степени взаимодействие соответствовало строгим педагогическим принципам (включая выявление сценариев сбоев/ошибок).
Лонгитюдные оценщики обучения: они отслеживают изменения во взаимодействии одного и того же учащегося с моделью с течением времени — включая вовлеченность, настойчивость и метакогнитивные стратегии — как на индивидуальном уровне, так и на уровне групп (когорт).
Стандартизированные когнитивные и метакогнитивные показатели: это валидированные сторонние инструменты, предлагаемые через ChatGPT до, во время и после предоставления доступа для установления базовых показателей и измерения изменений в таких фундаментальных способностях, как критическое мышление, креативность и память.

В совокупности мы называем эту систему измерений набором инструментов для оценки результатов обучения.

Он дает важные сигналы, которые может использовать образовательная экосистема: структурированные представления учебных моментов, панели мониторинга, показывающие, как результаты со временем меняются в разных группах, индикаторы эффективности модели по рубрикам преподавания и репетиторства, а также показатели результатов, согласованные со стандартизированными оценками и краткими опросами для учащихся. Там, где это возможно, система может включать предоставляемые партнерами контрольные данные, такие как результаты экзаменов, наблюдения в классах или посещаемость.

Диаграмма, иллюстрирующая рабочий процесс измерения результатов обучения, в котором ИИ обрабатывает данные на этапах анализа, оценки и верификации, прежде чем предоставить инсайты для поддержки обучающегося.

Все данные обезличены.

Это также позволяет нашим партнерам понять более глубокое когнитивное влияние использования ИИ для обучения в долгосрочной перспективе, так как благодаря этой системе мы можем отслеживать воздействие на такие способности, как:

Автономная мотивация: степень, в которой учащиеся формируют собственное обучение, а не следуют указаниям модели.
Продуктивное взаимодействие: частота, разнообразие и качество педагогических взаимодействий.
Настойчивость в выполнении задач: степень, в которой учащийся сохраняет вовлеченность и преодолевает когнитивные трудности.
Метапознание (метакогниция): частота и качество усилий учащегося по планированию, рефлексии и отслеживанию своих подходов к обучению.
Воспроизведение (память): точность, с которой обучающийся может вспомнить контент из предыдущих взаимодействий.

Это отражает наши общие усилия, направленные на то, чтобы не ограничиваться узким определением результатов обучения (ростом баллов за тесты), а фокусироваться на целостных способностях, которые лежат в основе процесса познания. Это также отражает наше убеждение в том, что не существует универсального решения в вопросе выбора целей для оптимизации: системы и педагоги должны иметь возможность самостоятельно расставлять приоритеты в соответствии с передовыми педагогическими практиками и подходами.

Что дальше

Мы проверяем набор инструментов для оценки результатов обучения с помощью крупномасштабных исследований, прежде чем сделать его широко доступным. Эта работа уже ведется совместно с Тартуским университетом и проектом SCALE Стэнфордского университета, а также при участии партнеров государственного масштаба, таких как Эстония, где в тестировании системы участвуют почти 20 000 учащихся в возрасте 16–18 лет в течение нескольких месяцев. Это происходит в тесном сотрудничестве с местными администрациями, чтобы обеспечить безопасность и соответствие местным учебным программам.

«Эстония всегда подходила к образованию не как к чему-то статичному, а как к системе, которую мы постоянно совершенствуем. Теперь, когда ИИ становится её частью, главный вопрос — как измерять его долгосрочное влияние на обучение. Именно над этим мы работаем совместно с OpenAI. Студенты с большим интересом участвуют в процессе разработки, и многие хотят научиться поддерживать обучение с помощью ИИ. Кажется, что это переломный момент, и мы рады внести вклад в разработку методов, которые другие образовательные системы смогут использовать и развивать».

— Яан Ару, Тартуский университет.

Эта работа опирается на более широкий массив совместных исследований, которые уже ведутся. Помимо исследований результатов обучения, проводимых совместно с партнерами-основателями Learning Lab, OpenAI поддерживает проекты на стыке образования и рынка труда. В рамках этих исследований изучается то, как ИИ формирует образовательные траектории студентов и их карьерные решения, а также способы, с помощью которых учебные заведения могут поддерживать ответственное внедрение технологий. Эта исследовательская работа проводится на базе Университета Боккони, сети школ Innova Schools, Таковской школы бизнеса при Дартмутском колледже, Университета штата Сан-Диего, Университета Стоуни-Брук и ряда других организаций.

По мере проведения долгосрочных исследований того, как студенты лучше всего учатся с помощью ИИ, мы намерены делиться полученными результатами и сотрудничать с широким образовательным сообществом, чтобы преимущества искусственного интеллекта были доступны учащимся по всему миру.

Те, кто заинтересован в получении обновлений по этой работе, могут подписаться здесь⁠.

Автор

OpenAI

Читать далее

Просмотреть все

Создаем инфраструктуру ИИ вместе с округом Эффингем

Международные отношения22 июл. 2026 г.

Advancing the next era of national science card image

Приближая новую эру американской науки

Международные отношения22 июл. 2026 г.

Helping build shared standards for advanced AI - card image

США продвигают безопасность ИИ через действия штатов и федерального правительства

Международные отношения15 июл. 2026 г.