跳至主要內容
OpenAI

2026年3月4日

國際事務

全新評估工具,解析 AI 帶來的學習成果

推動新的學習成果衡量標準,用於評估 AI 在不同學習環境中的影響力。

教育是 AI 深具潛力的應用前沿。透過 ChatGPT 等工具,任何學生都能隨時隨地獲得個人化的學習支援。

但教育界對 AI 如何影響學習成果的理解仍處於起步階段。去年,我們的團隊開始研究學習模式等工具的使用情況,並觀察到學生表現出現令人鼓舞的提升。但這項研究也提出了一個重要問題:我們要如何在單次考試成績之外,長期評估 AI 對學習進展的影響?

這是整個教育生態系統需要共同面對的挑戰。截至目前為止,多數研究方法仍聚焦於狹隘的表現指標,例如測驗分數,且難以評估學生在真實情境中如何運用 AI 學習,以及這些使用方式如何長遠影響學習成果。

為了強化不足之處,我們與愛沙尼亞塔爾圖大學以及 Stanford Accelerator for Learning 的 SCALE Initiative 計畫合作,開發了 Learning Outcomes Measurement Suite(學習成果衡量套件),這套框架旨在協助在不同教育情境中長期追蹤與衡量學習成果。

目前,我們正透過隨機對照試驗進行大規模驗證,也計畫與 OpenAI 學習研究生態系 Learning Lab 的創始合作機構展開進一步研究,其中包括來自亞利桑那州立大學、倫敦大學學院 (UCL) Knowledge Lab 與麻省理工學院 (MIT) Media Lab 的研究人員(延續先前的合作研究)。

今天,我們將簡介衡量套件的運作方式,並說明這套標準的重要性。未來,我們也會持續發表相關研究,並將這套衡量系統作為公共資源釋出,供全球各地的學校、大學與教育體系使用。

「我們透過這項研究快速累積經驗,同時打下基礎,讓我們更深入理解如何審慎地將 AI 整合進學校教育,為學習帶來實質幫助,我們希望了解,這些工具如何在支持嚴謹學術學習的同時,也能培養高階思考、創造力、好奇心,以及學生對於學習的自信心。」
— Susanna Loeb,教育學教授暨史丹佛大學 SCALE Initiative 計畫學術主任

重點摘要

  • 目前,AI 學習影響的相關研究有其侷限,雖然顯示出 AI 對學習表現具潛力的正向訊號,但仍無法完整呈現 AI 如何長遠影響學習成果。
  • Learning Outcomes Measurement Suite 首次提供一套標準化框架,用於縱向研究,協助教育工作者、研究人員與教育機構了解在不同情境中,AI 如何形塑學習過程與學習成果。
  • OpenAI 的 Learning Lab 是全新研究生態系統,專注推動這類研究。隨著這個領域持續發展,OpenAI 也將與多個合作夥伴共同發布研究成果。

起源與早期研究

學生使用 AI 工具讀書與學習時,實際形式可能有很多種,例如要求 AI 快速提供答案,又或者以貼身輔導的方式,引導使用者逐步解題。為了鼓勵使用者以有助於深化理解與培養技能的方式使用 ChatGPT,OpenAI 於去年推出 學習模式。學習模式的驅動核心,是我們與教師、科學家和教學法專家合作所撰寫的一套自訂系統指令,這些指令體現了一系列有助於促進學習的關鍵行為,包括鷹架式引導、理解檢核與引導式練習。

為了檢驗這種與教學法對齊的 AI 互動方式是否能帶來更好的學習成果,我們針對 300 多名準備神經科學與個體經濟學考試的大學生進行了一項隨機研究。分析仍在進行中,但初步結果已讓我們有信心認為:透過學習模式等功能所鼓勵的教學法導向 AI 互動方式,確實能提升學習成果。此外,這項研究揭示了一個重要事實:真正的關鍵在於,這些成果及相關的有效學習行為,是否能持之以恆地維持。

學習設計

參與者分成三組:對照組使用 Google 搜尋與 YouTube 等傳統線上資源學習,並停用 AI 生成的概覽功能;另外兩組則可使用兩種學習模式版本之一,這兩種版本會以略有不同的方式引導學生完成學習過程。研究開始前,我們先收集基準測驗與入門問卷,以校正參與者在過往修習內容、學習習慣、學業自信,以及對 AI 工具熟悉程度上的差異。學生在每次考試前都會完成一段限時的學習模式練習,兩種學習模式版本則在不同科目之間交錯使用。

此研究設計旨在貼近真實世界的讀書情境,而非高度受控的實驗室環境。參與本研究並不影響學生的考試成績,而且在規定的 40 分鐘學習時段中,各學生使用學習模式的程度也有所不同。因此,我們得以衡量並報告意向治療 (ITT) 效果,也就是在真實推行條件下「提供工具使用權」所帶來的影響,換言之,我們衡量的是「提供學習模式」本身所帶來的因果影響,同時也承認在實際情況中,使用者的參與程度可能有所不同。

研究結果

我們將每一場考試的表現分別進行分析。在這項隨機研究中,不同科目的提升幅度並不一致,參與者使用學習模式的投入程度也有所差異。

  • 神經科學(主要 ITT 分析):與對照組相比,學習模式在整體趨勢上呈現正向差異,但其結果與使用傳統線上資源學習的學生並未展現出明顯差別。部分新手引導流程與技術問題影響了使用學習模式的學生實際投入的學習時間。
  • 個體經濟學(主要 ITT 分析):與無 AI 的對照組相比,獲分派可使用學習模式的學生在考試表現上明顯提升,平均分數約高出 15%。

學習模式(版本 A 與 B)vs 對照組(不使用 AI):調整後平均考試得分

當我們將每種學習模式版本分別與對照組比較時,結果仍然一致。

以上數據反映了真實世界中的差異,但同時也突顯出傳統學習成果衡量方式本身,其實存在更深層的限制。

大多數現行的評估方法,是在短時間內評估某項固定介入的效果,並以考試成績或期末論文等結果作為主要指標。然而,這類方法無法捕捉 AI 在實際學習情境中發揮作用的核心機制:持續且個人化的互動,並會隨著學習者自身的策略、偏好與學習習慣逐漸演變。此外,它們也無法揭示某項能力的提升(例如短期記憶),是否可能犧牲了其他能力作為代價(例如持續學習、自主動機或創造性問題解決)。因此,這些方法往往無法捕捉縱向認知影響,而正是這些影響最終決定 AI 是否能真正提升學習成果。

由於各國的學習環境、課程設計與教育機構目標差異甚大,單次研究的結果難以推廣到不同教育體系。因此,衡量方法必須要夠靈活,供不同教育體系在各自情境中界定成功標準,依據自身標準評估 AI,並據此持續調整與改進。

建立更完善的衡量系統

OpenAI 根據對於學習模式的研究成果,正在建立一套結構化的衡量系統,用於大規模評估 AI 對學習者的影響,並建立一套機制,讓模型能根據這些成果持續改進。這套系統以三種訊號為基礎:模型如何運作、學習者如何回應,以及長期累積所產生的可衡量認知成果,包括:

  • 用於調整模型行為的系統指令:以自然語言調整模型的預設行為,使其更符合特定的教學法取向。
  • 學習互動分類器:在真實且已去識別化的學習者與模型互動中,自動偵測「學習時刻」,並標記如參與度與錯誤修正等顯著特徵。
  • 學習品質評分器::對每一個「學習時刻」進行評估與評分,判斷學習者是否達成目標,以及互動在多大程度上符合良好的教學原則,同時辨識失敗模式。
  • 縱向學習評分器:長期追蹤同一位學習者與模型互動的變化,包括投入度、持續性與後設認知策略,並在個人與群體層級進行分析。
  • 標準化認知與後設認知量測:這些經驗證的第三方工具會透過 ChatGPT 在使用前、使用期間與使用後施測,用來建立基準並衡量批判性思考、創造力與記憶等基礎能力的變化。

我們把上述工具結合在一起,並將這套衡量系統命名為 Learning Outcomes Measurement Suite

這套系統可提供重要訊號,供教育生態系統參考運用,包括:學習時刻的結構化圖表、顯示不同群體的成果隨時間變化的資訊主頁、根據教學與輔導評量規準衡量模型表現的指標,以及與標準化評量與簡短學習者問卷相對應的成果指標。在可行的情況下,系統也能納入合作夥伴提供的真實資料,例如考試成績、課堂觀察或出席紀錄。

 圖表說明學習成果衡量的工作流程:AI 先透過分析、評估與驗證等步驟處理資料,再提供洞見,協助學習者學習。

所有資料均已去識別化

該系統也能協助合作夥伴理解,長期使用 AI 輔助學習所帶來的深層認知影響,這是因為我們可以透過這套系統追蹤 AI 對以下能力的影響:

  • 自主動機:學習者在多大程度上主導自己的學習,而不是由模型引導
  • 有效參與:教學互動的頻率、多樣性與品質
  • 任務持續性:學習者面對認知挑戰時持續投入並克服困難的程度
  • 後設認知:學習者在規劃、反思與監控其學習方法上的投入頻率與品質
  • 回想:學習者從先前互動中記住內容的準確度

這反映出我們努力的大方向:不只著眼於狹隘的學習成果定義(例如測驗分數提高),而是關注支撐學習的整體能力。同時也反映了我們的觀點:在提升學習品質方面,並不存在「唯一最佳解」;教育體系與教育工作者需要具備足夠的主導權,才能依循教學最佳做法,適當地權衡取捨。

我們從這裡開始

我們正透過大規模研究驗證 Learning Outcomes Measurement Suite,日後會將這套系統廣泛開放使用。目前,我們與塔爾圖大學及史丹佛大學的 SCALE Initiative 計畫合作,並透過愛沙尼亞等國家級合作夥伴展開實驗,以數個月為期,追蹤近 2 萬名 16 至 18 歲學生,研究這套衡量系統的運作方式與成效。學生會與當地教育主管機關密切合作來使用 AI,確保安全並配合當地課綱。

「愛沙尼亞一直將教育視為一個持續改進的系統,而不是一成不變的制度。隨著 AI 成為教育的一環,關鍵在於如何衡量 AI 對學習帶來的長期影響。這正是我們與 OpenAI 合作探索的問題。學生也都很踴躍參與這個開發過程,許多人想學習如何運用 AI 來幫助課業學習。目前正處於一個重要的轉捩點,我們也很期待能分享方法,供其他國家的教育體系參考採用,並以此為基礎持續發展。」
— Jaan Aru,塔爾圖大學

這項工作屬於一系列正在進行的合作研究。除了透過 Learning Lab 創始合作夥伴進行的學習成果研究外,OpenAI 也資助跨學習與就業領域的多項研究,探討 AI 如何影響學生的學業發展路徑、職涯選擇,以及教育機構如何支持負責任的導入。相關研究正在博科尼大學、Innova Schools、達特茅斯學院塔克商學院、聖地牙哥州立大學、石溪大學等多個機構進行。

隨著我們持續進行更長期的研究,探索學生如何在 AI 協助下達到最佳學習效果,我們也計畫分享研究發現,並與教育生態系統中的各類組織合作,確保 AI 能惠及世界各地的學習者。

若想接收此項研究的最新消息,可在這裡註冊。