メインコンテンツにスキップ
OpenAI

AI と学習成果を理解するための新たなツール

学習環境全体での AI の影響測定を進める

教育は AI にとって最も有望なフロンティアのひとつです。ChatGPT のようなツールを活用すれば、個別化された学習支援を、いつでも、どこでも、あらゆる学生が利用できるようになります。 

しかし、教育分野では、AI が学習成果に与える影響についての理解はまだ初期段階です。昨年、当社のチームは学習モードのようなツールの活用について調査を開始し、学生の成績向上において有望な成果を確認しました。しかし、私たちの研究は同時に重要な問いを提起しました。AI が最終試験の結果だけでなく、学習者の長期的な成長にどのような影響を与えるのかを、どのように評価できるのでしょうか。

これは、より広範なエコシステム全体の課題です。これまでの研究手法の多くは、テストの点数といった限定的な成果指標に焦点を当てており、実社会の学習環境において学生が AI をどのように活用して学んでいるのか、またその活用が時間の経過とともにどのように成果へ影響するのかを十分に評価することができていません。 

この課題に対応するため、私たちはエストニアのタルトゥ大学およびスタンフォード大学の Stanford Accelerator for Learning の SCALE イニシアチブと連携し、学習成果測定スイート を開発しました。この枠組みでは、多様な教育環境における学習成果を長期的に測定することを目的としています。。 

現在、無作為化比較試験を通じた大規模な検証が進められており、さらにLearning Lab(OpenAIの学習研究エコシステム)に参画する創設機関と連携した追加研究も計画されています。これには、アリゾナ州立大学、UCL Knowledge Lab、MIT Media Labの研究者が含まれており、これまでの共同研究を基盤としています。

本日は、この測定スイートがどのように機能するのか、そしてなぜ重要なのかについて概要をご紹介します。今後、私たちはさらに多くの研究を公開し、測定スイートを世界中の学校、大学、教育システム向けの公共リソースとして公開する予定です。

「本研究は、迅速に知見を蓄積することを可能にすると同時に、AIを教育現場において意義ある形で慎重に統合していくための、より深い理解の基盤を築くものです。私たちは、これらのツールが厳密な学術的学習を支援すると同時に、高次の思考力、創造性、好奇心、そして学習者としての生徒自身の自信を育むうえで、どのように役立つのかを理解したいと考えています。」
–Susanna Loeb 氏、教育学教授、スタンフォード大学 SCALE Initiative ファカルティ・ディレクター

重要ポイントの要約

  • AI が学習に与える影響に関する現行の研究では、成績向上について有望な兆しを示しているものの、AI が長期的に学習成果にどのような影響を与えるのかという全体像を十分には捉えられていません。
  • 学習成果測定スイートは、長期的な研究のための標準的な枠組みを初めて提供し、教育者、研究者、教育機関が、AI がさまざまな文脈において学習や成果にどのような影響を与えるのかを理解することを支援します。
  • OpenAI の Learning Lab は、この取り組みを前進させることに焦点を当てた新しい研究エコシステムです。OpenAI は、この分野が発展し続ける中で、さまざまなパートナーとともに調査結果を公開します。

起源と初期研究

学生がAIツールを使って学習する場合、その活用の仕方はさまざまです。AIにすぐ答えを求める使い方もあれば、チューターのようなガイダンスのもとで段階的に問題を解いていく使い方もあります。ユーザーがより深い理解とスキル構築を支援する形で ChatGPT を活用できるよう、OpenAI は昨年、学習モードを導入しました。 内部的には、学習モードは、教師や研究者、教育学の専門家と共同で設計したカスタムのシステム指示によって支えられています。これらの指示は、単に答えを提示するのではなく、足場かけ(スキャフォールディング)、理解度の確認、段階的な練習といった、真の学習を支える中核的な行動を反映するよう設計されています。

このような教育学的に整合した AI との対話スタイルが、実際により良い学習成果につながるかを検証するため、私たちは神経科学およびミクロ経済学の試験に備える 300 名超の大学生を対象に、無作為化研究を実施しました。分析は継続中ですが、初期結果からは、学習モードなどを通じて促される教育学的に整合したAIとの対話が、学習成果の向上につながる可能性が示唆されています。しかし本研究は同時に、重要な現実も浮き彫りにしました。真に重要なのは、得られた成果やそれに伴う望ましい学習行動が、時間の経過とともに持続するかどうかという点です。

学習の設計

参加者は 3 つのグループのいずれかに無作為に割り当てられました。対照群は、Google 検索や YouTube などの従来のオンラインリソースを用いて学習し、AI による概要生成機能は無効化されました。一方、残りの 2つのグループには、学習プロセスをやや異なる方法で段階的に支援するよう設計された 2 種類の学習モードのバリアントのいずれかへのアクセスが与えられました。事前にベースラインテストおよびオンボーディング調査を実施し、履修経験、学習習慣、学業に対する自信、AI ツールへの習熟度といった既存の差異を統計的に調整しました。学生は各試験前に時間制限付きの学習モードのセッションを行い、2種類の学習モードのバリエーションを科目間で偏りが生じないように交互に割り当てられました。

このセットアップは、厳密に管理されたラボ環境ではなく、実際の研究条件を反映するように設計されました。本研究への参加は試験成績とは連動しておらず、名目上 40 分間とされたセッションにおいても、学習モードの利用程度は学生ごとに異なっていました。これにより、意図された処置効果(ITT)を測定・報告することが可能となりました。すなわち、実際の導入環境に近い条件下でツールへのアクセスが提供されたこと自体の影響、言い換えれば、実際の利用度にはばらつきがあることを踏まえたうえで、学習モードが提供されたことによる因果効果を評価しています。

所見

各試験ごとに成績を個別に測定しました。無作為化試験の結果、成績向上は科目によって異なり、学習モードの利用度にも参加者間でばらつきが見られました。 

  • 神経科学(主要な ITT 効果):学習モード群は対照群と比較して方向性としては正の差が観察されましたが、その結果は従来のオンラインリソースで学習した学生との差を統計的に明確に区別できるものではありませんでした。学習モード利用群では、オンボーディング上の課題や技術的な問題が学習時間に影響を及ぼしました。 
  • ミクロ経済学(主要な ITT 効果):学習モードへのアクセスが割り当てられた学生は、AI を使用しない対照群と比較して試験成績において有意義な向上が見られました。相対的には、およそ 15% 高い得点に相当します。

学習モード(バリアントA・B)と対照群(AI 非使用群)の比較:調整後平均試験得点

各学習モードのバリエーションをそれぞれ対照群と比較しても、効果は一貫して確認されます。

これは実社会におけるばらつきを反映した結果である一方で、学習成果が通常どのように測定されているかという点における、より根本的な限界も浮き彫りにしました。

既存の評価手法の多くは、短期間に実施される固定的な介入に依拠し、テストの得点や最終レポートといった成果指標を主要な評価基準としています。これらの手法は、AI が実際の学習に影響を与える中核的なメカニズム、すなわち学習者自身の戦略や嗜好、学習習慣とともに進化していく継続的かつ個別化された対話を捉えるようには設計されていません。また、短期的な記憶力の向上といった特定の能力の改善が、持続性、自律的な動機づけ、創造的な問題解決といった他の能力とのトレードオフを伴う可能性についても、十分に明らかにしていません。その結果、AIが学習を実質的に向上させるかどうかを最終的に左右する、長期的な認知的影響を捉えきれていません。 

学習環境は国やカリキュラム、教育機関の目標によって大きく異なるため、単発的な研究の成果は、異なる教育システム間で広く一般化されることはほとんどありません。したがって、測定手法は各教育システムが自らの文脈における「成功」の定義を明確にし、その基準に照らして AI を評価し、必要に応じて改善を重ねていけるだけの柔軟性を備えている必要があります。

より良い測定システムの構築 

OpenAI の学習モードに関する研究から得られた知見をもとに、私たちは AI が学習者に与える影響を大規模に測定するための体系的な評価システムを構築しています。また、その成果に基づいてモデルを継続的に改善する仕組みの整備も進めています。本枠組みは、モデルの挙動、学習者の反応、そして時間の経過とともに現れる測定可能な認知的成果という 3 つの指標に基づいています。これには以下が含まれます: 

  • モデル挙動を調整するためのシステム指示:自然言語による指示を用いて、モデルの既定の挙動を特定の教育学的アプローチにより適合するよう変更すること。
  • 学習インタラクション分類器:実際の匿名化された学習者とモデルの対話の中から「学習の瞬間」を自動的に検出し、エンゲージメントや誤りの修正といった重要な特性をラベル付けする仕組み。
  • 学習品質評価器:検出された各「学習の瞬間」について、学習者が目標を達成したかどうか、また当該対話が優れた教育学的原則にどの程度沿っていたか(失敗パターンの特定を含む)を評価・採点する仕組み。
  • 長期的学習評価器 同一学習者によるモデルとの対話の変化を時間の経過に沿って追跡し、エンゲージメント、持続性、メタ認知戦略などの指標を個人レベルおよびコホートレベルで分析する仕組み。
  • 標準化された認知・メタ認知指標:ChatGPT の利用前・利用中・利用後に実施される、外部で妥当性が検証された第三者機関の評価指標を用いて、批判的思考力、創造性、記憶力といった基礎的能力のベースラインを設定し、その変化を測定する仕組み。

これらを統合した測定システムを学習成果測定スイート(Learning Outcomes Measurement Suite)と呼んでいます。

本システムは、教育エコシステムが活用できる重要な指標を提供します。具体的には、学習の瞬間を構造的に可視化したビュー、コホート間で成果が時間とともにどのように変化するかを示すダッシュボード、指導・チュータリングの評価基準に照らしたモデル性能の指標、そして標準化された評価や短時間の学習者アンケートと整合した成果指標などが含まれます。可能な場合には、試験成績、授業観察データ、出席状況など、パートナー機関から提供されるグラウンドトゥルース(実測データ)も取り込むことができます。

 AI が分析、評価、検証の各ステップを通じてデータを処理し、学習者を支援するための洞察を提供する前に、学習成果の測定ワークフローを示す図。

すべてのデータは匿名化されています

さらに本システムにより、パートナー機関は AI を活用した学習が長期的に与えるより深い認知的影響を理解することが可能になります。具体的には、次のような能力への影響を追跡することができます。

  • 自律的動機づけ:学習者がモデルに指示されるのではなく、自ら学習の方向性を主体的に形成している度合い。
  • 生産的エンゲージメント:教育学的に有意義な対話の頻度、多様性、および質を示す指標。
  • 課題持続性:学習者が認知的な困難に直面した際に、それに向き合い、粘り強く取り組み続ける度合い。
  • メタ認知:学習者が学習計画を立て、振り返りを行い、自らの学習方略をモニタリングしようとする取り組みの頻度および質。
  • 想起:学習者がこれまでの対話で扱った内容をどの程度正確に再生できるかを示す指標。

これは、テスト得点の向上といった限定的な学習成果の定義にとどまらず、学習を支えるより包括的な能力に目を向けるという、私たちの全体的な取り組みを反映しています。またこれは、何を最適化すべきかについて単一の万能解が存在するわけではないという私たちの考えも反映しています。教育システムや教育者は、教育学的な最良の実践や方針に沿って、必要なトレードオフを主体的に判断できるよう支援されるべきです。

ここからどこへ向かうのか

学習成果測定スイートは、一般提供に先立ち、大規模な研究を通じて妥当性の検証を行っています。本取り組みは、タルトゥ大学およびスタンフォード大学の SCALE イニシアチブと連携し、エストニアのような国家規模のパートナーとともに進められています。現在、16〜18 歳の約 2 万人の学生を対象に、数か月にわたって本測定スイートの検証が行われています。学生による利用は、地域の教育関係者と緊密に連携しながら、安全性および地域のカリキュラムとの整合性を確保した形で実施されます。

「エストニアでは、教育を静的なものではなく、継続的に改善していくシステムとして常に捉えてきました。AI がその一部となる中で、大きな問いは、AI が学習に与える長期的な影響をどのように測定するかです。それは OpenAI と協力しながら解明しているところです。学生は開発プロセスに関わることに意欲的で、多くの学生が AI で学習を支援する方法を学びたいと考えています。本当に大きな転換点のように感じており、他の教育システムが再現し、さらに発展させられる手法を提供できることを楽しみにしています。」
–Jaan Aru 氏、タルトゥ大学

本取り組みは、現在進行中のより広範な共同研究の蓄積を基盤としています。Learning Lab の創設パートナーとともに進めている学習成果研究に加え、OpenAI は学習と労働の接点に関する研究も支援しています。具体的には、AI が学生の学業進路やキャリア選択にどのような影響を与えるのか、また教育機関が責任ある導入をどのように支援できるのかを検討しています。本研究は、ボッコーニ大学、Innova Schools、ダートマス大学タック・スクール・オブ・ビジネス、サンディエゴ州立大学、ストーニーブルック大学など、複数の教育機関で進められています。

学生が AI を活用して最適に学ぶ方法についての長期的研究を進めるとともに、その成果を共有し、教育エコシステム全体と協働することで、AI があらゆる学習者にとって有益となるよう取り組んでいきます。

本取り組みに関する最新情報をご希望の方は、こちらから登録できます。