2026년 3월 4일

AI와 학습 성과를 이해하기 위한 새로운 도구

학습 환경 전반에서 AI의 영향을 측정하는 방식을 개선하기

교육은 AI가 가장 큰 잠재력을 보이는 분야 중 하나입니다. ChatGPT와 같은 도구를 활용하면 언제 어디서나 모든 학생이 개인 맞춤형 학습 지원을 받을 수 있습니다.

하지만 교육 분야는 AI가 학습 성과에 미치는 영향을 이해하는 데 아직 초기 단계에 있습니다. 작년에 저희 팀은 공부 모드⁠ 와 같은 도구의 활용을 연구하기 시작했고, 학생 성과에서 의미 있는 향상을 확인했습니다. 하지만 이 연구는 또 하나의 중요한 질문을 제기했습니다. AI가 최종 시험 점수뿐 아니라 시간에 따라 학습자의 학습 진전에 어떤 영향을 미치는지 어떻게 평가할 수 있을까요?

이는 교육 생태계 전반의 과제입니다. 현재까지 대부분의 연구 방법은 시험 점수와 같은 제한적인 성과 신호에 초점을 맞추고 있으며, 실제 환경에서 학생들이 AI를 활용해 어떻게 학습하는지, 그리고 이러한 활용이 시간이 지남에 따라 학습 성과에 어떤 영향을 미치는지를 평가하기 어렵습니다.

이러한 격차를 해소하기 위해, 우리는 학습 성과 측정 스위트, 를 개발했습니다. 이 프레임워크는 에스토니아 타르투 대학교와 Stanford Accelerator for Learning의 SCALE Initiative와 협력해 개발되었으며, 다양한 교육 환경에서 학습 성과를 장기적으로 측정할 수 있도록 설계되었습니다.

현재 무작위 대조군 시험을 통해 광범위한 검증이 진행되고 있으며, Arizona State University, UCL Knowledge Lab, MIT Media Lab의 연구자들을 포함한 OpenAI의 학습 연구 생태계 Learning Lab 과 함께 추가 연구도 진행될 예정입니다.(이전 공동 연구⁠를 기반으로).

오늘 우리는 측정 도구 모음이 어떻게 작동하는지, 그리고 왜 중요한지에 대한 개요를 소개합니다. 앞으로 더 많은 연구를 발표하고, 이 측정 도구 모음을 전 세계 학교와 대학, 교육 시스템이 활용할 수 있는 공개 자원으로 제공할 계획입니다.

“이 연구를 통해 우리는 빠르게 배우는 동시에, AI를 학교 교육에 의미 있게 통합하는 방법을 더 깊이 이해할 수 있는 기반을 마련하고 있습니다. 또한 이러한 도구가 엄격한 학문적 학습을 지원하는 동시에 고차 사고, 창의성, 호기심, 그리고 학습자로서의 자신감을 어떻게 키울 수 있는지도 이해하고자 합니다.”

–Susanna Loeb, 스탠퍼드 대학교 SCALE Initiative 교수 디렉터 및 교육학 교수

핵심 요약

현재의 연구 방법은 AI가 학습에 미치는 영향과 관련해 성과 측면에서 유망한 신호를 보여주지만, 시간이 지나면서 AI가 학습 성과에 어떤 영향을 미치는지에 대한 전체적인 모습을 충분히 포착하지는 못합니다.
학습 성과 측정 스위트는 처음으로 교육자, 연구자, 기관이 다양한 맥락에서 AI가 학습과 학습 성과에 어떤 영향을 미치는지 이해할 수 있도록 돕는 장기 연구용 표준 프레임워크를 제공합니다.
OpenAI의 Learning Lab은 이 작업을 발전시키는 데 중점을 둔 새로운 연구 생태계입니다. 이 분야가 계속 발전함에 따라 OpenAI는 다양한 파트너들과 함께 연구 결과를 발표할 예정입니다.

배경과 초기 연구

학생들이 학습을 위해 AI 도구를 사용할 때 그 방식은 매우 다양합니다. 빠른 답을 얻기 위해 AI를 사용할 수도 있고, 튜터와 같은 안내를 받으며 단계별로 문제를 해결하는 데 활용할 수도 있습니다. 사용자가 더 깊이 이해하고 기술을 키울 수 있는 방식으로 ChatGPT를 활용하도록 돕기 위해 OpenAI는 작년에 공부 모드⁠ 를 도입했습니다. 공부 모드는 교사, 과학자, 교육학 전문가와 협력해 작성한 맞춤형 시스템 지침을 기반으로 작동합니다. 이러한 지침은 스캐폴딩, 이해도 점검, 안내형 연습과 같은 방식을 통해 단순히 답을 제공하는 것이 아니라 실제 학습을 지원하도록 설계되었습니다.

이러한 교육적으로 설계된 AI 상호작용 방식이 실제로 더 나은 학습 성과로 이어지는지 확인하기 위해, 우리는 신경과학과 미시경제학 시험을 준비하는 대학생 300명 이상을 대상으로 무작위 연구를 진행했습니다. 분석은 아직 진행 중이지만, 초기 결과는 공부 모드와 같은 기능을 통해 지원되는 교육적으로 설계된 AI 상호작용 방식이 학습 성과를 개선할 수 있음을 보여줍니다. 하지만 이 연구는 또 하나의 중요한 사실을 보여줍니다. 진정으로 중요한 것은 이러한 향상과 그에 따른 학습 행동이 시간이 지나도 지속되는지 여부입니다.

연구 설계

참가자들은 세 그룹 중 하나에 배정되었습니다. 대조군은 AI 생성 개요 기능을 비활성화한 상태에서 Google Search와 YouTube와 같은 기존 온라인 자료를 사용해 학습했습니다. 나머지 두 그룹은 학습 과정을 서로 다른 방식으로 안내하도록 설계된 두 가지 공부 모드 변형 중 하나를 사용했습니다. 이전 수강 경험, 학습 습관, 학업 자신감, AI 도구에 대한 익숙함의 차이를 보정하기 위해 사전에 기초 퀴즈와 온보딩 설문을 수집했습니다. 학생들은 각 시험 전에 시간 제한이 있는 공부 모드 세션을 진행했으며, 두 가지 공부 모드 변형은 과목 전반에 걸쳐 균형 있게 배정되었습니다.

이 설계는 엄격하게 통제된 실험실 환경이 아니라 실제 학습 환경을 반영하도록 구성되었습니다. 참여는 시험 성적과 연결되지 않았으며, 명목상 40분 세션 동안 모든 학생이 공부 모드를 동일한 정도로 사용한 것은 아니었습니다. 이를 통해 우리는 의도-대-처치(ITT) 효과, 즉 실제 배포 환경에서 도구 접근 권한이 제공될 때의 영향을 측정하고 보고할 수 있었습니다. 다시 말해, 실제 사용 참여도는 달라질 수 있음을 고려하면서 공부 모드가 제공되는 것 자체의 인과적 효과를 평가했습니다.

발견한 문제

각 시험의 성과를 별도로 측정했습니다. 무작위 배정 연구에서 향상 정도는 과목별로 동일하지 않았으며, 공부 모드에 대한 참여 수준도 참가자마다 달랐습니다.

신경과학(주요 ITT): 대조군 대비 공부 모드에서 긍정적인 방향의 차이가 관찰되었지만, 그 결과는 기존 온라인 자료로 학습한 학생들과 통계적으로 구분되지는 않았습니다. 일부 온보딩 및 문제로 인해 공부 모드를 사용하는 학생들의 학습 시간이 영향을 받았습니다.
미시경제학(1차 ITT): AI 미사용 대조군과 비교했을 때 공부 모드 접근 권한이 제공된 학생들의 시험 성적이 약 15% 더 높은 의미 있는 향상이 관찰되었습니다.

공부 모드(변형 A & B) vs 대조군(AI 없음 그룹): 보정 평균 시험 점수

각 학습 모드 변형을 대조군과 개별적으로 비교해도 효과는 일관되게 유지됩니다.

이는 실제 환경의 변동성을 반영하지만, 동시에 학습 성과를 일반적으로 측정하는 방식의 근본적인 한계를 드러냈습니다.

대부분의 기존 평가 방법은 짧은 기간 동안의 고정된 개입을 기준으로 평가하며, 시험 점수나 최종 에세이와 같은 결과를 주요 지표로 사용합니다. 실제 학습에 영향을 미치는 핵심 메커니즘을 포착하도록 설계되지 않았습니다. 이는 학습자의 전략, 선호도, 학습 습관과 함께 변화하는 지속적이고 개인화된 상호작용을 의미합니다. 또한 단기 기억과 같은 한 가지 역량의 향상이 지속성, 자율적 동기, 창의적 문제 해결과 같은 다른 역량의 감소와 함께 나타날 수 있는지 여부도 파악하지 못합니다. 그 결과, AI가 실제로 학습을 의미 있게 개선하는지를 결정하는 장기적인 인지 효과를 포착하지 못합니다.

학습 환경은 국가, 교육과정, 기관의 목표에 따라 크게 다르기 때문에, 단발성 연구의 결과는 교육 시스템 전반에 쉽게 일반화되기 어렵습니다. 따라서 측정 방식은 다양한 교육 시스템이 각자의 맥락에서 성공의 기준을 정의하고, 자체 기준에 따라 AI를 평가하며, 그에 맞게 지속적으로 개선할 수 있을 만큼 유연해야 합니다.

더 나은 측정 시스템 구축

OpenAI의 공부 모드 연구에서 얻은 인사이트를 바탕으로 우리는 대규모 환경에서 학습자에게 미치는 AI의 영향을 측정하고, 그 결과를 바탕으로 모델을 개선할 수 있는 구조화된 측정 시스템을 구축해 왔습니다. 이 시스템은 세 가지 신호를 기반으로 합니다. 모델의 행동, 학습자의 반응, 그리고 시간이 지남에 따라 나타나는 측정 가능한 인지적 결과입니다. 여기에는 다음 요소가 포함됩니다.

모델 동작을 개선하기 위한 시스템 지침: 자연어를 사용해 모델의 기본 동작을 조정하여 특정 교육적 접근 방식에 더 잘 맞도록 합니다.
학습 상호작용 분류기: 실제 비식별화된 학습자-모델 상호작용에서 ‘학습 순간’을 자동으로 감지하고, 참여도나 오류 수정과 같은 주요 특성을 분류합니다.
학습 품질 평가기: 학습자가 목표를 달성했는지 여부와 상호작용이 교육 원칙을 얼마나 잘 따랐는지를 기준으로 각 학습 순간을 평가하고 점수를 부여합니다. 여기에는 실패 패턴 식별도 포함됩니다.
종단 학습 평가기: 동일 학습자가 시간에 따라 모델과 상호작용하는 방식의 변화를 추적하며, 참여도, 지속성, 메타인지 전략 등을 개인 및 코호트 수준에서 분석합니다.
표준화된 인지 및 메타인지 측정: ChatGPT 사용 전/중/후에 제공되는 검증된 제3자 평가 도구로, 비판적 사고, 창의성, 기억력과 같은 핵심 역량의 기준선을 설정하고 변화를 측정합니다.

결합하면, 우리는 이 측정 시스템을 학습 성과 측정 스위트라고 부릅니다.

이 시스템은 교육 생태계에서 활용할 수 있는 중요한 지표를 제공합니다. 예를 들어 학습 순간에 대한 구조화된 분석, 코호트 전반에서 시간이 지나며 결과가 어떻게 변화하는지 보여주는 대시보드, 교수 및 튜터링 기준에 대한 모델 성능 지표, 그리고 표준화된 평가와 학습자 설문에 기반한 성과 지표 등이 포함됩니다. 가능한 경우 시험 점수, 수업 관찰, 출석 기록과 같은 파트너 제공 실제 데이터(ground truth)를 통합할 수 있습니다.

AI가 분석, 평가, 검증 단계를 거쳐 데이터를 처리하고 학습자를 지원하는 인사이트를 제공하기까지의 학습 성과 측정 워크플로를 보여주는 다이어그램

모든 데이터는 비식별 처리되었습니다.

또한 이 시스템을 통해 시간이 지나면서 학습에 AI를 사용하는 것이 미치는 더 깊은 인지적 영향을 파트너들이 이해할 수 있도록 하며, 다음과 같은 역량에 대한 영향도 추적할 수 있습니다:

자율적 동기: 모델의 지시에 따르기보다 학습자가 자신의 학습을 스스로 주도하는 정도
생산적인 참여: 교육적 상호작용의 빈도, 다양성 및 품질
과제 지속성: 학습자가 인지적 어려움에 직면했을 때 얼마나 오래 집중하며 끝까지 해결하려는지의 정도
메타인지: 학습자가 학습 전략을 계획하고 성찰하며 점검하려는 노력의 빈도와 질
회상: 학습자가 이전 상호작용의 내용을 얼마나 정확하게 기억해낼 수 있는지

이는 시험 점수 상승과 같은 좁은 의미의 학습 성과에만 집중하지 않고, 학습을 뒷받침하는 보다 총체적인 역량에 주목하려는 우리의 접근을 보여줍니다. 또한 무엇을 최적화해야 하는지에 대해 단 하나의 만능 해법은 없다는 우리의 관점을 반영합니다. 따라서 시스템과 교육자는 교육적 모범 사례에 맞게 서로 다른 선택 사이의 균형을 조정할 수 있어야 합니다.

앞으로 가야 할 방향

저희는 Learning Outcomes Measurement Suite를 더 많은 사용자가 사용할 수 있도록 하기 전에 대규모 연구를 통해 검증을 진행하고 있습니다. 이 연구는 타르투대학교와 스탠퍼드대학교의 SCALE 이니셔티브가 에스토니아와 함께 진행되고 있으며, 에스토니아와 같은 국가 단위 파트너들과 협력해 16–18세 학생 약 20,000명을 대상으로 수개월에 걸쳐 측정 시스템을 연구하고 있습니다. 학생 참여는 안전성과 현지 교육과정과의 정합성을 보장하기 위해 지역 교육 관계자들과 긴밀히 협력해 이루어질 예정입니다.

“에스토니아는 교육을 정적인 것이 아니라 지속적으로 개선해 나가는 시스템으로 바라봐 왔습니다. AI가 그 과정의 일부가 되면서, 중요한 질문은 AI가 학습에 미치는 장기적 영향을 어떻게 측정할 것인가입니다. 이를 위해 OpenAI와 협력해 방법을 찾고 있습니다. 학생들도 개발 과정에 적극적으로 참여하고 있으며, 많은 학생이 AI를 활용해 학습을 지원하는 방법을 배우고자 합니다. 지금은 중요한 전환점처럼 느껴지며, 다른 교육 시스템에서도 활용하고 발전시킬 수 있는 방법을 함께 만들어가고 있습니다.

Jaan Aru, 타르투 대학교

이 연구는 현재 진행 중인 보다 광범위한 공동 연구를 기반으로 합니다. Learning Lab의 창립 파트너들과 함께 진행되는 학습 성과 연구 외에도 OpenAI는 학습과 노동의 교차 영역에서 이루어지는 연구를 지원하고 있습니다. 이러한 연구는 AI가 학생들의 학업 경로와 진로 결정에 어떤 영향을 미치는지, 그리고 기관이 책임 있는 도입을 어떻게 지원할 수 있는지를 살펴봅니다. 이 연구는 Bocconi University, Innova Schools, Dartmouth의 Tuck School of Business, San Diego State University, Stony Brook University 등 여러 기관에서 진행되고 있습니다.

우리는 학생들이 AI를 활용해 가장 효과적으로 학습하는 방식을 장기적으로 연구하면서, 그 결과를 공유하고 더 넓은 교육 생태계와 협력해 모든 학습자가 AI의 혜택을 누릴 수 있도록 하고자 합니다.

이 연구에 대한 업데이트를 받아보려면 여기⁠에서 신청할 수 있습니다.

작성자

OpenAI

더 읽어보기

모두 보기

에핑엄 카운티 지역사회와 함께 만드는 AI 인프라

글로벌 정책2026년 7월 22일

Advancing the next era of national science card image

국가 과학의 새로운 시대를 열어가다

글로벌 정책2026년 7월 22일

Helping build shared standards for advanced AI - card image

미국은 주정부와 연방정부 차원의 정책을 통해 AI 안전성을 강화하고 있습니다.

글로벌 정책2026년 7월 15일