跳到主要內容
OpenAI

2026年3月4日

全球事務

理解 AI 與學習成果的新工具

推動在不同學習環境中衡量 AI 影響的新方法

教育是 AI 最具潛力的應用領域之一。透過像 ChatGPT 這樣的工具,任何學生都可隨時隨地獲得個人化學習支援。 

然而,教育界對 AI 對學習成果的影響仍處於早期探索階段。去年,我們的團隊開始研究學習模式等工具的使用情況,並發現學生表現有可觀的提升。但研究同時提出一個重要問題:我們怎樣評估 AI 如何影響學習者在不同時段的學習進展,而不只是一次考試的結果?

這是一個整個教育生態系統需要共同面對的挑戰。目前,大多數研究方法仍然只著重考試分數等狹隘的表現指標,而缺乏能力去評估學生在真實情境中如何與 AI 互動學習,以及這些互動如何隨時間影響學習成果。

為了填補這個缺口,我們與愛沙尼亞塔爾圖大學以及 Stanford Accelerator for Learning 的 SCALE Initiative 合作,建立了 Learning Outcomes Measurement Suite(學習成果衡量套件)。這是一個用於在不同教育情境中進行長期學習成果評估的框架。

目前,我們正透過隨機對照試驗進行廣泛驗證。此外,我們亦計劃與學習實驗室(OpenAI 的學習研究生態系統)中的創始合作機構進一步開展研究,其中包括來自亞利桑那州立大學、UCL Knowledge Lab 及 MIT Media Lab 的研究人員,以延續過去的合作研究)。

今天,我們將分享這套衡量系統如何運作,以及當中的重要性。未來,我們亦計劃發表更多研究成果,並以公共資源將這套衡量工具提供給全球的學校、大學及教育體系。

「這項研究讓我們能快速學習,同時亦為更深入理解 AI 如何在學校中有意義地整合奠定基礎。我們希望了解,這些工具如何既能支持嚴謹的學術學習,同時亦能培養更高層次的思考能力、創意、好奇心,以及學生對自己作為學習者的信心。」
–史丹福大學教育學教授兼 SCALE Initiative 學術主任 Susanna Loeb

重點摘要

  • 目前研究 AI 對學習影響的方法已展現令人鼓舞的表現訊號,但仍未能完整反映 AI 在不同時間如何影響學習成果。
  • Learning Outcomes Measurement Suite 將首次提供一個可用於長期研究的標準化框架,協助教育工作者、研究人員和機構了解 AI 如何在不同情境中影響學習與成果。
  • OpenAI 的學習實驗室是一個全新的研究生態系統,旨在推動這項工作。隨著研究領域持續發展,OpenAI 亦會與多個合作夥伴共同發表研究成果。

起源與早期研究

學生使用 AI 工具學習的形式可以非常多樣,有些學生可能純粹向向 AI 查詢快速答案,也有些學生會像與導師互動一樣,逐步與 AI 一起解題。為鼓勵用戶以加深理解與技能培養的方式使用 ChatGPT,OpenAI 在去年推出了學習模式。在技術層面上,學習模式由一套專門設計的系統指示所驅動。這些指示由我們與教師、科學家以及教學法專家合作設計,旨在鼓勵真正促進學習的互動方式,而非單純提供答案,例如鷹架式分段提示、理解檢查和引導式練習。

為測試這種符合教學原則的 AI 互動方式是否能帶來更好的學習成果,我們與超過 300 名正準備神經科學及微觀經濟學考試的大學生進行了一項隨機研究。雖然分析仍在進行中,但初步結果顯示,透過學習模式等功能進行的教學導向 AI 互動方式,確實可以改善學習成果。不過,研究亦揭示一個重要現實:真正重要的是,這些成果以及相關的學習行為能否在長時間內持續。

研究設計

參與者被分配到三個組別:對照組使用傳統網上資源(例如「Google 搜尋」和 YouTube)進行學習,並停用 AI 生成的概覽功能。另外兩組則可使用兩種不同版本的學習模式,引導學生以略為不同的方式進行學習。在研究開始前,我們透過基準測驗和入門問卷收集資料,以調整以下因素的差異:過往修讀的課程、學習習慣、學術自信、對 AI 工具的熟悉程度。學生在每次考試前都會進行限時的學習模式學習,而兩個學習模式版本會在不同科目之間交替使用。

整個設計旨在反映真實的學習情境,而非高度控制的實驗室環境。參與研究與考試成績並無直接關聯,而且並非所有學生都在名義上的 40 分鐘學習時段內同樣使用學習模式。因此,我們能夠測量意向治療效應 (ITT),了解在現實推行情況下讓學生可使用工具所帶來的影響,亦即提供學習模式這項工具本身所帶來的因果影響,即使實際使用程度有所不同。

研究發現

我們分別衡量每場考試的表現。在這項隨機研究中,不同科目之間的表現提升並不一致,而參與者使用學習模式的程度亦有所不同。

  • 神經科學(主要 ITT):與對照組相比,我們觀察到學習模式在方向上呈現正向差異,但結果與使用傳統網上資源學習的學生相比,未達到可明確區分的程度。部分入門流程和技術問題影響了學生使用學習模式時的實際學習時間。 
  • 微觀經濟學(主要 ITT): 我們觀察到,被分配使用學習模式的學生,相比不使用 AI 的對照組,考試表現有明顯提升,分數大約高出 15%。

學習模式(版本 A 及 B)對比對照組(無 AI 組):調整後平均考試成績

當我們把每種學習模式分別與對照組比較時,效果仍然保持一致。

雖然這反映了真實世界中的差異,但亦突顯出學習成果衡量方式的一個更深層限制。

目前大多數評估方法都依賴固定介入方式,並在短時間範圍內進行評估,以考試分數或期末論文等結果作為主要訊號。這些方法並非為了解 AI 在真實學習情境中影響學習的核心機制而設:亦即持續進行、個人化,並會隨學習者本身策略、偏好與學習習慣而演變的互動。這些方式亦無法反映特定能力的提升(例如短期記憶)是否同時伴隨其他方面的取捨,例如持續性、自主學習動機或創意解難能力,因此無法捕捉最終決定 AI 是否真正改善學習的長期認知影響。 

由於不同國家、課程體系和機構目標之間的學習環境有極大差異,單次研究結果大都無法直接套用到不同系統之中。因此,衡量方法必須要夠靈活,讓不同教育體系能根據各自的情境定義成功的標準,按自己的準則評估 AI,並持續調整。

建立更完善的衡量系統 

根據 OpenAI 學習模式研究所得的經驗,我們致力建立一套結構化的衡量系統,用以大規模衡量 AI 對學習者的影響,並根據這些結果建立改善模型的機制。這套系統建基於三類訊號:模型如何表現、學習者如何回應,以及隨時間產生哪些可衡量的認知結果。當中包括: 

  • 用以改善模型行為的系統指示:利用自然語言調整模型的預設行為,令其更符合特定教學方法。
  • 學習互動分類器:這些分類器會在已去識別化的真實學習者與模型互動中,自動識別「學習時刻」,並標示當中重要特徵,例如投入程度及錯誤修正。
  • 學習質素評分器: 這些評分器會評估並為每個學習時刻評分,判斷學習者是否能達成目標,以及互動在多大程度上符合良好的教學原則,並識別失效模式。
  • 長期學習評分器 :這些評分器會追蹤同一位學習者在不同時間與模型互動的變化,包括投入程度、持續性及後設認知策略,並可在個人及群組層面進行分析。
  • 標準化認知及後設認知衡量工具:透過在使用 ChatGPT 前、使用中及使用後執行這些經驗證的第三方工具,建立基線並衡量批判思考、創意及記憶等基礎能力的變化。

這些部分結合起來,就成為了我們所稱的 Learning Outcomes Measurement Suite

它會產出教育生態系統可用的重要訊號:包括對學習時刻的結構化觀察、顯示不同群組成果如何隨時間變化的資訊主頁、模型在教學及輔導評分標準下的表現指標,以及與標準化評估和簡短學習者問卷對齊的成果指標。在有需要及可行的情況下,它亦可納入合作夥伴提供的基本事實,例如考試成績、課堂觀察或出席紀錄。

 說明學習成果衡量流程的示意圖,AI 透過分析、評估及驗證等步驟處理資料,最後提供分析資料以支援學習者。

所有資料均已去識別化

這亦讓合作夥伴能更深入了解 AI 在不同時間對學習所帶來的認知影響,因為透過這套系統,我們亦可以追蹤 AI 對以下能力的影響:

  • 自主學習動機:學習者在多大程度上主導自己的學習,而不是由模型主導 
  • 有效參與: 教學互動的頻率、多樣性及質素
  • 任務持續性:學習者面對認知挑戰時,願意繼續堅持並嘗試克服困難的程度
  • 後設認知:學習者在規劃、反思及監察自己學習方法方面所作努力的頻率及質素
  • 回憶能力:學習者能準確記住先前互動內容的程度

這反映了我們的整體方向:不只著重狹義的學習成果定義(例如考試分數上升),而是同樣重視支撐學習的整體能力。這亦反映了我們的看法:在「應該優化甚麼」這個問題上,不會有單一的萬用答案。系統與教育工作者需要有能力根據良好的教學實踐與方法,作出適當取捨並加以引導。

未來發展

在廣泛推出之前,我們正透過大規模研究驗證 Learning Outcomes Measurement Suite。這項工作正與塔爾圖大學及史丹福大學 SCALE Initiative 共同進行,並延伸至愛沙尼亞等國家規模的合作夥伴,在當地以接近 20,000 名 16 至 18 歲學生為對象,進行為期數月的研究。學生使用將會與當地領導團隊緊密合作進行,以確保安全,並符合本地課程要求。

「愛沙尼亞一直把教育視為需要持續改進的系統,而非一成不變的制度。隨著 AI 逐漸成為其中一部分,最大的問題是:我們如何衡量 AI 對學習所帶來的長遠影響。這正是我們與 OpenAI 合作探索的方向。學生亦十分希望參與這個發展過程,許多人都想了解如何利用 AI 來支持學習。這感覺像是一個真正的轉捩點,我們也很高興能夠貢獻一些方法,讓其他教育體系可以參考並在此基礎上進一步發展。」
–塔爾圖大學 Jaan Aru

這項工作亦建基於更廣泛的協作研究基礎之上。除了透過學習實驗室創始合作夥伴進行的學習成果研究外,OpenAI 亦正支援位於學習與勞動交界的研究,探討 AI 如何影響學生的學術路徑、職業決定,以及機構可以怎樣支援負責任的採用方式。相關研究正在 Bocconi University、Innova Schools、Dartmouth 的 Tuck School of Business、San Diego State University、Stony Brook University 等機構進行。

隨著我們開展更多關於學生如何最有效地與 AI 一起學習的長期研究,我們會分享研究發現,並與更廣泛的教育生態系統合作,確保 AI 能為各地學習者帶來實際益處。

如你有興趣接收這項工作的最新消息,可在此處登記。