跳至主要内容
OpenAI

2026年3月4日

全球事务

推出全新评估工具:深入理解 AI 带来的学习成效

重塑 AI 在不同学习环境下的影响力衡量标准

教育是 AI 最具潜力的应用前沿之一。借助 ChatGPT 等工具,个性化的学习支持已变得触手可及,让学生能随时随地获得帮助。

然而,教育界对 AI 如何影响学习成效的认知仍处于起步阶段。去年,我们的团队深入研究了学习模式等功能的使用情况,并发现其对提升学生表现有显著作用。但研究也提出了一个关键问题:我们该如何评估 AI 在整个学习周期中对学生进步的长期影响,而非仅仅关注最终的考试分数?

这是一个亟需整个行业共同面对的挑战。目前,多数研究方法仍局限于单一的成绩信号(如考试得分),缺乏在真实场景中评估学生如何利用 AI 进行学习,以及这种模式如何影响长期的学习成效。

为了填补这一空白,我们与爱沙尼亚塔尔图大学 (University of Tartu) 以及 Stanford Accelerator for Learning 的 SCALE 项目联合开发了学习成效衡量套件 (Learning Outcomes Measurement Suite)。这是一套旨在支持跨教育场景进行纵向跟踪、衡量学习成效的系统性框架。

目前,我们正通过随机对照试验对其进行广泛验证。未来,我们还将与 OpenAI 学习研究生态系统学习实验室 (Learning Lab) 的创始机构展开深度合作,包括亚利桑那州立大学、伦敦大学学院 (UCL) 知识实验室,以及麻省理工学院 (MIT) 媒体实验室(基于先前的合作研究成果)。

今天,我们将重点介绍这一衡量套件的运作机制及其核心价值。未来,我们计划发布更多研究成果,并将该套件作为公共资源向全球中小学、高校及教育系统开放。

“这项研究让我们能够快速获取经验,同时也为深入理解如何将 AI 审慎地整合进学校教育奠定了基础,确保这种整合能产生实质影响。我们希望了解:这些工具在支持严谨的学科学习的同时,如何培养高阶思维、创造力、好奇心,以及学习者的自信心。”
–Susanna Loeb,斯坦福大学教育学教授、SCALE 项目主任

核心要点

  • 当前研究的局限性: 现有的 AI 学习影响评估方法虽然显示出 AI 对学习的积极影响,但仍无法完整刻画 AI 随时间推移对学习成效产生的全周期影响。
  • 标准化衡量框架: “学习成效衡量套件”首次为纵向研究提供了标准化框架,旨在帮助教育者、研究人员及相关机构深入理解 AI 如何在不同教育背景下塑造学习过程与最终成效。
  • 推进研究生态建设: OpenAI 的“学习实验室”是一个专注于推进此类研究的新型生态系统。随着该领域的不断演进,OpenAI 将联合各界合作伙伴持续发布研究成果。

起源与早期研究

学生利用 AI 工具进行学习的方式多种多样:既包括直接向 AI 索取快速答案,也包括在类似于导师的引导下逐步推导问题。为了帮助用户以促进“深度理解”和“技能构建”的方式使用 ChatGPT,OpenAI 在去年推出了学习模式。在底层逻辑上,“学习模式”由一套特定的系统指令驱动。这些指令由我们与教师、科学家及教学法专家共同编写,旨在体现支持真实学习(而非仅仅获取答案)的核心行为,包括:脚手架式引导 (scaffolding)、理解程度检查以及启发式练习。

为了验证这种符合教学法的 AI 交互方式能否转化为更显著的学习成效,我们针对 300 多名准备神经科学和微观经济学考试的大学生进行了一项随机研究。虽然分析仍在进行中,但初步结果让我们确信:通过“学习模式”等功能所引导的教学法对齐交互,确实能提升学习成效。然而,这项研究也揭示了一个不容忽视的现实:真正核心的指标在于,这些成效以及与之相关的产出性行为,在时间跨度上是否具有持久性。

实验设计

参与者被随机分配到三个组别中:对照组使用传统的在线资源(如 Google 搜索和 YouTube),且禁用了 AI 自动生成摘要的功能;另外两个实验组则分别使用两种不同版本的“学习模式”,旨在以略微不同的方式引导学生完成学习过程。在实验开始前,我们收集了基准测试成绩和入组调查问卷,以校正先前课程接触史、学习习惯、学术自信度,以及对 AI 工具熟悉程度所带来的个体差异。学生在每次考试前完成定时的“学习模式”环节,两种“学习模式”版本在不同科目间进行了平衡抵消 (counterbalanced) 处理。

这一设置旨在反映真实世界的学习环境,而非严苛受控的实验室环境。参与度与考试成绩不挂钩,且并非所有学生在名义上的 40 分钟“学习模式”环节内都达到了相同的参与程度。这使我们能够衡量并报告意向性治疗(intention-to-treat,简称 ITT)效应,即在现实推广条件下提供该工具所产生的实际影响 — 换言之,我们衡量的是提供“学习模式”这一行为带来的因果影响,并承认在实践中用户的参与度存在差异。

研究发现

我们分别衡量了每门学科的考试表现。在随机研究中,不同科目的提升程度并不统一,参与者对“学习模式”的投入程度也各不相同。

  • 神经科学(主要 ITT 分析):与对照组相比,我们观察到“学习模式”组呈现出倾向性的正向差异,但其结果与使用传统在线资源的学生相比,在统计学上并无显著差异。部分入组引导和技术问题影响了“学习模式”组学生的实际学习时长。
  • 微观经济学(主要 ITT 分析): 我们观察到,被分配使用“学习模式”的学生与“无 AI 对照组”相比,考试成绩有显著提升 — 得分高出约 15%。

“学习模式”(版本 A 与 B)与对照组(无 AI 组)比较:调整后考试平均得分

当我们将每种“学习模式”版本分别与对照组进行比较时,其效果保持一致。

虽然这些数据反映了现实世界的差异,但也暴露出传统学习成效衡量方式的深层局限。

目前,大多数评估方法依赖于短期窗口内的固定干预,并以测试分数或期末论文作为核心信号。这些方法无法捕捉 AI 影响实际学习的核心机制:即 AI 如何与学习者的策略、偏好和习惯共同演化,并产生持续而个性化的交互。此外,现有方法无法揭示某项能力的提升(如短期记忆)是否以牺牲其他能力为代价,例如学习持久性、自主动机或创造性问题解决能力。因此,它们忽略了最终决定 AI 能否实质性提升学习质量的纵向认知效应 (Longitudinal Cognitive Effect)。

由于各国教育环境、教学大纲及机构目标差异巨大,单次研究所得出的结论很难在不同系统间普遍推行。因此,衡量方法必须具备足够的灵活性,以便不同的教育体系能够根据自身语境定义“何为成功”,按照自身标准评估 AI,并据此进行迭代。

构建更完善的衡量体系

基于 OpenAI“学习模式”的研究成果,我们正在构建一套结构化的衡量体系,旨在大规模评估 AI 对学习者的影响,并建立一套根据学习成效反向优化模型的机制。该体系立足于三大核心信号:模型的行为方式、学习者的反馈表现、以及随时间推移产生的可衡量的认知产出。该套件包含以下核心组件:

  • 用于优化模型行为的系统指令:利用自然语言改变模型的默认行为,使其与特定的教学法精准对齐。
  • 学习交互分类器:自动检测真实、去标识化的“人机交互”中的“学习瞬间”,并标注参与度、纠错表现等核心特征。
  • 学习质量评分器:对每一个“学习瞬间”进行评估和打分,判断学习者是否达成目标,以及交互过程在多大程度上符合教学原则,同时识别失灵模式 (Failure Mode)。
  • 纵向学习评分器在个人和群组层面,长期追踪同一学习者与模型交互的变化,包括参与度、持久性以及元认知策略 (Metacognitive Strategy)。
  • 标准化认知与元认知衡量:通过 ChatGPT 在接入前、接入中、接入后提供经过验证的第三方量表,建立基准线并衡量批判性思维、创造力和记忆力等基础能力的改变。

当这些组件结合在一起时,我们将此系统称为学习成效衡量套件

它能为教育生态系统提供关键信号:包括“学习瞬间”的结构化视图、展示不同群组随时间变化的成效看板、模型对比教学/辅导准则的性能指标,以及与标准化评估和简易学生问卷挂钩的成效衡量。在条件允许的情况下,它还可以整合合作伙伴提供的实况数据,如考试成绩、课堂观察或出勤率。

 学习成效衡量工作流示意图:展示了 AI 如何通过分析、评估和验证步骤处理原始数据,并最终生成旨在辅助学习者的洞察建议。

所有数据均已去标识化

该体系还使我们的合作伙伴能够理解长期使用 AI 对学习者产生的深层认知影响。通过学习成效衡量套件,我们能够追踪以下能力的演变:

  • 自主动机:衡量学习者在多大程度上是在自主规划学习路径,而非被动接受模型的指令
  • 产出性参与:衡量教学交互发生的频率、多样性及其质量
  • 任务持久性:衡量学习者在面对认知挑战时的专注度以及克服困难的毅力
  • 元认知: 衡量学习者对自身学习方法进行计划、反思和监控的频率与质量
  • 知识回溯:衡量学习者对此前交互内容记忆的准确程度

这些指标反映了我们整体的研究导向:不再仅仅盯着狭义的学习成效(如考试分数的上涨),而是关注支撑学习的综合能力。这也体现了我们的核心观点:在提升学习质量方面,不存在所谓的“万灵药”。教育系统和教育者应当获得相应工具和资源,以便根据教学法最佳实践和不同的教学方案,在各种能力的权衡中做出最优引导。

未来展望

在广泛开放学习成效衡量套件之前,我们正通过大规模研究对该系统进行验证。目前,我们正与爱沙尼亚塔尔图大学及斯坦福大学 SCALE 项目合作,在爱沙尼亚等国家级合作伙伴中开展实验。该研究涵盖了近 2 万名 16 至 18 岁的学生,跨度长达数月。学生对 AI 的使用离不开当地教育主管机构的密切协作,以确保安全性并符合当地教学大纲的要求。

“爱沙尼亚始终将教育视为一个持续改进的动态系统,而非一成不变。随着 AI 融入这一版图,核心挑战在于我们如何衡量 AI 对学习的长期影响。这正是我们与 OpenAI 协作探索的课题。学生们渴望参与到这一过程中,许多人希望学会如何利用 AI 辅助学习。这感觉像是一个真正的转折点,我们很高兴能贡献出一套其他教育系统可以复用并持续构建的衡量方法。”
–Jaan Aru, 塔尔图大学

这项工作是更大规模协作研究的一部分。除了通过“学习实验室”创始合作伙伴开展的“学习成效”研究外,OpenAI 还在资助关于“学习与就业”交叉领域的课题,探讨 AI 如何塑造学生的学术路径、职业决策,以及教育机构应如何支持负责任的 AI 引入。此类研究正在博科尼大学 (Bocconi University)、Innova Schools、达特茅斯学院塔克商学院、圣地亚哥州立大学、纽约州立大学石溪分校等机构展开。

我们将长期追踪学生如何利用 AI 提升学习体验,并持续分享研究成果。此外,我们将与教育生态系统中的各类组织深化合作,确保 AI 惠及全球学习者。

若想获取该研究的最新进展,请点击此处订阅。