Langsung ke konten utama
OpenAI

4 Maret 2026

Urusan Global

Alat baru untuk memahami AI dan hasil pembelajaran

Memajukan cara dampak AI diukur di seluruh lingkungan pembelajaran

Pendidikan merupakan salah satu bidang paling menjanjikan bagi perkembangan AI Dengan alat seperti ChatGPT, dukungan pembelajaran yang dipersonalisasi dapat tersedia bagi setiap siswa, di mana saja, kapan saja. 

Namun, sektor pendidikan masih berada dalam tahap awal dalam memahami dampak AI terhadap hasil pembelajaran. Tahun lalu, tim kami mulai mempelajari penggunaan alat bantu seperti mode belajar dan menemukan peningkatan yang menjanjikan dalam kinerja peserta didik. Namun, penelitian kami juga mengangkat pertanyaan penting: bagaimana cara kita menilai bagaimana AI memengaruhi kemajuan peserta didik dari waktu ke waktu, bukan hanya pada ujian akhir?

Ini adalah tantangan ekosistem yang lebih luas. Hingga saat ini, sebagian besar metode riset berfokus pada sinyal kinerja yang sempit—seperti nilai ujian—dan tidak memiliki kemampuan untuk menilai bagaimana siswa benar-benar belajar dengan AI di lingkungan dunia nyata, serta bagaimana penggunaan tersebut membentuk hasil dari waktu ke waktu. 

Untuk mengatasi kesenjangan ini, kami mengembangkan Learning Outcomes Measurement Suite, sebuah kerangka kerja yang dibuat bersama oleh University of Tartu di Estonia dan SCALE Initiative di Stanford Accelerator for Learning untuk mendukung pengukuran longitudinal hasil pembelajaran di berbagai konteks pendidikan. 

Validasi ekstensif sedang berlangsung melalui uji coba terkontrol secara acak, dan penelitian lebih lanjut direncanakan bersama organisasi pendiri di Learning Lab, ekosistem riset pembelajaran OpenAI, termasuk peneliti dari Arizona State University, UCL Knowledge Lab, dan MIT Media Lab (berdasarkan studi kolaboratif sebelumnya).

Hari ini, kami membagikan ringkasan tentang cara kerja rangkaian pengukuran dan mengapa hal ini penting. Seiring berjalannya waktu, kami bermaksud untuk menerbitkan lebih banyak penelitian dan merilis rangkaian pengukuran sebagai sumber daya publik bagi sekolah, universitas, dan sistem pendidikan di seluruh dunia.

“Riset ini memungkinkan kami untuk mempelajari dengan cepat sekaligus meletakkan dasar bagi pemahaman yang lebih mendalam tentang bagaimana AI dapat diintegrasikan dengan bijak ke dalam sekolah dengan cara yang benar-benar bermakna. Kami ingin memahami bagaimana alat-alat ini dapat mendukung pembelajaran akademik yang ketat sekaligus menumbuhkan pemikiran tingkat tinggi, kreativitas, rasa ingin tahu, dan kepercayaan diri siswa sebagai pembelajar.”
–Susanna Loeb, Profesor Pendidikan dan Direktur Fakultas, Inisiatif SCALE di Stanford University

Ringkasan poin-poin penting

  • Metode riset saat ini tentang dampak AI terhadap pembelajaran menunjukkan sinyal yang menjanjikan terkait performa, tetapi tidak menangkap gambaran lengkap tentang bagaimana AI memengaruhi hasil pembelajaran dari waktu ke waktu.
  • Untuk pertama kalinya, rangkaian Pengukuran Hasil Pembelajaran akan menyediakan kerangka kerja standar untuk studi longitudinal yang membantu pendidik, peneliti, dan institusi memahami bagaimana AI memengaruhi pembelajaran dan hasil di berbagai konteks.
  • Learning Lab OpenAI adalah ekosistem riset baru yang berfokus untuk memajukan pekerjaan ini. OpenAI akan mempublikasikan hasil temuan bersama berbagai mitra seiring bidang ini terus berkembang.

Asal-usul dan riset awal

Saat siswa menggunakan alat AI untuk belajar dan mempelajari materi, hal itu bisa memiliki arti yang berbeda—mulai dari mencari jawaban cepat lewat AI hingga menggunakannya untuk mengerjakan soal langkah demi langkah dengan panduan seperti tutor. Untuk mendorong pengguna agar berinteraksi dengan ChatGPT dengan cara yang mendukung pemahaman yang lebih mendalam dan pengembangan keterampilan, OpenAI memperkenalkan mode belajar tahun lalu.  Di balik layar, mode belajar didukung oleh instruksi sistem khusus yang kami kembangkan dengan bekerja sama dengan para guru, ilmuwan, dan ahli pedagogi untuk mencerminkan seperangkat perilaku inti yang mendukung pembelajaran yang sesungguhnya, bukan sekadar memberikan jawaban—dengan menggunakan scaffolding, pemeriksaan pemahaman, dan latihan terbimbing.

Untuk menguji apakah gaya interaksi AI yang selaras secara pedagogis seperti ini menghasilkan hasil pembelajaran yang lebih baik, kami menjalankan studi acak dengan lebih dari 300 mahasiswa yang sedang mempersiapkan ujian neurosains dan mikroekonomi. Saat ini analisis masih berlangsung, dan hasil awal memberi kami keyakinan bahwa gaya interaksi AI yang selaras secara pedagogis, yang didorong melalui fitur seperti Mode Belajar, dapat meningkatkan hasil pembelajaran. Namun riset ini juga mengungkapkan realitas penting: yang benar-benar penting adalah apakah peningkatan dan perilaku produktif terkait tetap bertahan seiring waktu.

Desain penelitian

Para peserta ditugaskan ke salah satu dari tiga kelompok: kelompok kontrol belajar menggunakan sumber daya online tradisional seperti Google Search dan YouTube, dengan fitur ringkasan yang dihasilkan AI dinonaktifkan, sementara dua kelompok tambahan diberi akses ke salah satu dari dua varian Mode Belajar yang dirancang untuk memandu siswa melalui proses pembelajaran dengan cara yang sedikit berbeda. Kuis garis dasar dan survei orientasi dikumpulkan sebelumnya untuk menyesuaikan perbedaan dalam paparan mata kuliah sebelumnya, kebiasaan belajar, kepercayaan diri akademik, dan keakraban dengan alat AI. Siswa menyelesaikan sesi Mode Belajar dengan waktu terbatas sebelum setiap ujian, dengan dua varian Mode Belajar diimbangkan secara berlawanan di seluruh subjek.

Pengaturan ini dirancang untuk mencerminkan kondisi belajar di dunia nyata, bukan lingkungan laboratorium yang sangat terkontrol. Partisipasi tidak terkait dengan kinerja ujian, dan tidak semua siswa menggunakan mode belajar dengan tingkat yang sama selama sesi nominal 40 menit. Hal ini memungkinkan kami untuk mengukur dan melaporkan efek intention-to-treat (ITT), dampak dari diberikannya akses ke alat tersebut dalam kondisi peluncuran yang realistis—dengan kata lain, dampak kausal dari ditawarkannya Mode Belajar, dengan mengakui bahwa keterlibatan dapat bervariasi dalam praktiknya.

Temuan

Kami mengukur kinerja pada setiap ujian secara terpisah. Dalam studi acak kami, peningkatan tidak seragam di seluruh subjek, dan tingkat keterlibatan dengan Mode Belajar bervariasi di antara peserta. 

  • Neuroscience (primary ITT): Kami mengamati perbedaan yang cenderung positif pada study mode dibandingkan dengan kelompok kontrol, tetapi hasilnya tidak menunjukkan perbedaan yang jelas dibandingkan dengan siswa yang belajar menggunakan sumber belajar daring tradisional. Beberapa masalah orientasi dan teknis memengaruhi waktu yang dihabiskan untuk belajar oleh siswa yang menggunakan Mode Belajar. 
  • Mikroekonomi (primary ITT): Kami mengamati peningkatan yang bermakna dalam kinerja ujian di antara siswa yang ditugaskan akses ke mode belajar dibandingkan dengan kelompok kontrol tanpa AI—sekitar skor 15% lebih tinggi secara relatif.

Mode Belajar (varian A & B) vs Control (tanpa grup AI): Skor ujian rata-rata yang disesuaikan

Efeknya tetap konsisten ketika kami membandingkan setiap varian Mode Belajar secara terpisah dengan kontrol.

Meskipun ini mencerminkan variasi di dunia nyata, hal ini menyoroti keterbatasan yang lebih mendalam dalam cara hasil pembelajaran biasanya diukur.

Sebagian besar pendekatan evaluasi yang ada mengandalkan intervensi tetap yang dinilai dalam rentang waktu singkat, menggunakan hasil seperti skor tes atau esai akhir sebagai sinyal utama. Metode-metode ini tidak dirancang untuk menangkap cara utama AI memengaruhi proses belajar dalam praktik: interaksi yang berkelanjutan, dipersonalisasi, dan yang berkembang seiring dengan strategi, preferensi, dan kebiasaan strategi, preferensi, dan kebiasaan belajar pelajar itu sendiri. Metode ini juga tidak menunjukkan apakah peningkatan pada satu kemampuan, seperti ingatan jangka pendek, mungkin berdampak pada kemampuan lain, seperti ketekunan, motivasi mandiri, atau pemecahan masalah secara kreatif. Akibatnya, mereka melewatkan efek kognitif longitudinal yang pada akhirnya menentukan apakah AI secara bermakna meningkatkan pembelajaran. 

Karena lingkungan pembelajaran sangat beragam di berbagai negara, kurikulum, dan tujuan institusional, hasil dari studi satu kali jarang dapat digeneralisasi di seluruh sistem. Oleh karena itu, pendekatan pengukuran harus cukup fleksibel agar berbagai sistem pendidikan dapat menentukan seperti apa kesuksesan dalam konteks mereka, mengevaluasi AI berdasarkan standar mereka sendiri, dan melakukan iterasi sesuai kebutuhan.

Membangun sistem pengukuran yang lebih baik 

Berdasarkan pembelajaran dari riset mode belajar OpenAI, kami telah membangun sistem pengukuran terstruktur untuk mengukur dampak AI terhadap pelajar dalam skala besar, dan menciptakan mekanisme untuk meningkatkan model berdasarkan hasil tersebut. Ini didasarkan pada tiga sinyal—bagaimana model berperilaku, bagaimana pelajar merespons, dan hasil kognitif terukur apa yang dihasilkan seiring waktu. Ini mencakup: 

  • Instruksi sistem untuk menyempurnakan perilaku model: penggunaan bahasa alami untuk mengubah perilaku default model agar lebih selaras dengan pendekatan pedagogis tertentu.
  • Mempelajari pengklasifikasi interaksi: ini secara otomatis mendeteksi “momen belajar” dalam interaksi pelajar–model yang nyata dan dideidentifikasi, serta memberi label pada karakteristik yang menonjol seperti keterlibatan dan koreksi kesalahan.
  • Penilai kualitas pembelajaran: hal ini mengevaluasi dan memberi skor setiap momen pembelajaran tersebut berdasarkan apakah pelajar mencapai tujuan mereka dan sejauh mana interaksi mengikuti prinsip-prinsip pedagogis yang kuat, termasuk identifikasi mode kegagalan.
  • Penilai pembelajaran longitudinal: ini melacak perubahan dalam interaksi pelajar yang sama dengan model seiring waktu—termasuk keterlibatan, ketekunan, dan strategi metakognitif—pada tingkat individu dan kohort.
  • Ukuran kognitif dan metakognitif yang distandardisasi: hal ini adalah instrumen pihak ketiga yang tervalidasi yang disampaikan melalui akses ChatGPT sebelum/selama/setelah untuk menetapkan baseline dan mengukur perubahan dalam kapabilitas dasar seperti berpikir kritis, kreativitas, dan memori.

Jika digabungkan, kami menyebut sistem pengukuran ini sebagai Rangkaian Pengukuran Hasil Pembelajaran. 

Ini menghasilkan sinyal penting yang dapat digunakan ekosistem pendidikan: tampilan terstruktur dari momen pembelajaran, dasbor yang menunjukkan bagaimana hasil berubah seiring waktu di seluruh kohort, indikator kinerja model terhadap rubrik pengajaran dan bimbingan belajar, serta ukuran hasil yang selaras dengan penilaian terstandar dan kuesioner singkat bagi peserta didik. Jika tersedia, hal ini dapat menggabungkan kebenaran dasar yang disediakan mitra seperti nilai ujian, observasi di ruang kelas, atau kehadiran.

 Diagram yang menggambarkan alur kerja pengukuran hasil pembelajaran, di mana AI memproses data melalui tahap analisis, evaluasi, dan verifikasi sebelum menyampaikan wawasan untuk mendukung proses belajar peserta didik

Semua data telah disamarkan

Hal Ini juga memungkinkan para mitra kami untuk memahami dampak kognitif yang lebih mendalam dari penggunaan AI untuk pembelajaran dari waktu ke waktu, karena melalui sistem ini kami juga dapat melacak dampaknya terhadap kapabilitas seperti:

  • Motivasi Otonom: sejauh mana pelajar membentuk studi mereka sendiri vs diarahkan oleh model 
  • Keterlibatan Produktif: frekuensi, variasi, dan kualitas interaksi pedagogis
  • Ketekunan dalam Tugas: sejauh mana seorang pelajar bertahan dan terus berupaya melewati tantangan kognitif
  • Metakognisi: frekuensi dan kualitas upaya pelajar untuk merencanakan, merefleksikan, dan memantau pendekatan mereka dalam belajar
  • Recall: akurasi yang menunjukkan seberapa baik seorang pembelajar dapat mengingat konten dari interaksi sebelumnya

Hal ini mencerminkan secara keseluruhan upaya kami untuk tidak sekadar berfokus pada definisi sempit hasil pembelajaran (skor tes meningkat), tetapi pada kemampuan holistik yang mendasari pembelajaran. Hal ini juga mencerminkan keyakinan kami bahwa tidak akan ada solusi tunggal yang ampuh tentang apa yang harus dioptimalkan: sistem dan pendidik perlu diberdayakan untuk memandu kompromi agar selaras dengan praktik terbaik dan pendekatan pedagogis.

Ke mana kita melangkah dari sini

Kami sedang memvalidasi Learning Outcomes Measurement Suite melalui studi berskala besar sebelum membuatnya tersedia secara lebih luas. Pekerjaan ini sedang berlangsung bersama University of Tartu dan Stanford’s SCALE Initiative di berbagai mitra berskala nasional seperti Estonia, tempat rangkaian pengukuran sedang dipelajari dengan hampir 20.000 siswa berusia 16-18 selama beberapa bulan. Penggunaan oleh siswa akan dilakukan dalam kolaborasi erat dengan pemimpin lokal, untuk memastikan keamanan dan keselarasan dengan kurikulum lokal.

“Estonia selalu memandang pendidikan bukan sebagai sesuatu yang statis, melainkan sebagai sistem yang terus kami tingkatkan. Saat AI menjadi bagian dari gambaran tersebut, pertanyaan besarnya adalah bagaimana kita mengukur dampak jangka panjang AI terhadap pembelajaran. Itulah yang sedang kami cari tahu melalui kolaborasi dengan OpenAI. Siswa sangat ingin terlibat dalam proses pengembangan, dan banyak yang ingin mempelajari cara mendukung pembelajaran dengan AI. Rasanya seperti titik balik yang nyata, dan kami bersemangat untuk menyumbangkan metode yang dapat digunakan kembali dan dikembangkan oleh sistem pendidikan lain.”
–Jaan Aru, Universitas Tartu

Karya ini dibangun di atas rangkaian penelitian kolaboratif yang lebih luas yang sedang berlangsung. Selain penelitian hasil yang dilakukan melalui mitra pendiri di Learning Lab, OpenAI mendukung studi di persimpangan pembelajaran dan dunia kerja—menelaah bagaimana AI membentuk jalur akademik siswa, keputusan karier, dan cara institusi dapat mendukung adopsi yang bertanggung jawab. Riset ini berlangsung di Bocconi University, Innova Schools, dan Tuck School of Business at Dartmouth, San Diego State University, Stony Brook University, dan lainnya.

Seiring kami menjalankan studi jangka panjang tentang cara siswa belajar dengan optimal menggunakan AI, kami bermaksud untuk membagikan temuan dan bekerja dengan ekosistem pendidikan yang lebih luas untuk memastikan bahwa AI memberikan manfaat bagi peserta pembelajaran di mana pun.

Mereka yang tertarik untuk menerima kabar terbaru tentang pekerjaan ini dapat mendaftar di sini.