Các công cụ mới để hiểu AI và kết quả học tập
Nâng cao cách đo lường tác động của AI trên các môi trường học tập
Giáo dục là một trong những biên giới hứa hẹn nhất của AI. Với các công cụ như ChatGPT, hỗ trợ học tập được cá nhân hóa có thể có sẵn cho bất kỳ sinh viên nào, bất cứ nơi nào, bất cứ lúc nào.
Tuy nhiên, lĩnh vực giáo dục vẫn đang trong giai đoạn đầu tìm hiểu về tác động của trí tuệ nhân tạo đối với kết quả học tập. Năm ngoái, nhóm chúng tôi đã tiến hành nghiên cứu việc sử dụng các công cụ như chế độ học tập và nhận thấy những cải thiện đáng kể trong kết quả học tập của sinh viên. Nhưng nghiên cứu của chúng tôi cũng đặt ra một câu hỏi quan trọng: làm thế nào chúng tôi có thể đánh giá AI ảnh hưởng đến tiến bộ của người học theo thời gian như thế nào, chứ không chỉ dựa trên một bài thi cuối kỳ?
Đây là một thách thức hệ sinh thái rộng lớn hơn. Cho đến nay, hầu hết các phương pháp nghiên cứu tập trung vào các tín hiệu hiệu suất hẹp - chẳng hạn như điểm kiểm tra - và thiếu khả năng đánh giá cách học sinh thực sự học với AI trong môi trường thực tế và cách sử dụng nó định hình kết quả theo thời gian.
Để giải quyết khoảng trống này, chúng tôi đã phát triển Bộ công cụ Đo lường Kết quả Học tập, một khuôn khổ được xây dựng cùng Đại học Tartu của Estonia và Sáng kiến SCALE tại Stanford Accelerator for Learning nhằm hỗ trợ đo lường theo chiều dọc các kết quả học tập trong nhiều bối cảnh giáo dục khác nhau.
Việc xác nhận rộng rãi đang được tiến hành thông qua một thử nghiệm ngẫu nhiên có đối chứng và nghiên cứu sâu hơn được lên kế hoạch với các tổ chức sáng lập trong Phòng thí nghiệm học tập, hệ sinh thái nghiên cứu học tập của OpenAI, bao gồm các nhà nghiên cứu từ Đại học Bang Arizona, Phòng thí nghiệm tri thức UCL và Phòng thí nghiệm truyền thông MIT (dựa trên các nghiên cứu hợp tác trước đó).
Hôm nay, chúng tôi chia sẻ tổng quan về cách thức hoạt động của bộ đo lường và lý do tại sao nó lại quan trọng. Theo thời gian, chúng tôi dự định xuất bản nhiều nghiên cứu hơn và phát hành bộ đo lường như một nguồn lực công cộng cho các trường học, trường đại học và hệ thống giáo dục trên toàn thế giới.
“Nghiên cứu này cho phép chúng tôi học nhanh chóng đồng thời đặt nền tảng cho sự hiểu biết sâu sắc hơn về cách AI có thể được tích hợp chu đáo vào trường học theo những cách thực sự quan trọng. Chúng tôi muốn hiểu làm thế nào những công cụ này có thể hỗ trợ việc học tập nghiêm ngặt trong khi cũng nuôi dưỡng tư duy bậc cao hơn, sáng tạo, tò mò và sự tự tin của học sinh vào bản thân với tư cách là người học.”
- Các phương pháp nghiên cứu ngày nay về tác động của AI đối với việc học cho thấy những tín hiệu đầy hứa hẹn về hiệu suất, nhưng không nắm bắt được bức tranh đầy đủ về cách AI ảnh hưởng đến kết quả học tập theo thời gian.
- Bộ Đo Lường Kết quả Học tập lần đầu tiên sẽ cung cấp một khuôn khổ tiêu chuẩn cho các nghiên cứu theo chiều dọc giúp các nhà giáo dục, nhà nghiên cứu và tổ chức hiểu cách AI định hình học tập và kết quả trong các bối cảnh khác nhau.
- Phòng thí nghiệm học tập của OpenAI là một hệ sinh thái nghiên cứu mới tập trung vào việc thúc đẩy công việc này. OpenAI sẽ công bố những phát hiện cùng với một loạt các đối tác khi lĩnh vực này tiếp tục phát triển.
Khi học sinh sử dụng các công cụ AI để học tập và tiếp thu kiến thức, điều đó có thể mang nhiều ý nghĩa khác nhau—từ việc tìm đến AI để có câu trả lời nhanh cho đến việc dùng AI để cùng giải quyết vấn đề từng bước với sự hướng dẫn như gia sư. Để khuyến khích người dùng tương tác với ChatGPT theo cách hỗ trợ việc hiểu sâu hơn và phát triển kỹ năng, OpenAI đã giới thiệu chế độ học tập vào năm ngoái. Về cơ bản, Chế độ Học tập được vận hành bởi các hướng dẫn hệ thống tùy chỉnh mà chúng tôi đã viết với sự hợp tác của các giáo viên, nhà khoa học và chuyên gia sư phạm để phản ánh một tập hợp các hành vi cốt lõi hỗ trợ việc học thực sự, không chỉ là câu trả lời—thông qua việc cung cấp giàn giáo, kiểm tra mức độ hiểu, và thực hành có hướng dẫn.
Để kiểm tra xem kiểu tương tác AI phù hợp với phương pháp sư phạm này có dẫn đến kết quả học tập tốt hơn hay không, chúng tôi đã tiến hành một nghiên cứu ngẫu nhiên với hơn 300 sinh viên đại học đang chuẩn bị cho kỳ thi về khoa học thần kinh và kinh tế vi mô. Mặc dù quá trình phân tích vẫn đang tiếp diễn, nhưng kết quả ban đầu cho chúng ta sự tự tin rằng phong cách tương tác AI phù hợp với phương pháp sư phạm, được khuyến khích thông qua các tính năng như chế độ học tập, có thể cải thiện kết quả học tập. Nhưng nghiên cứu này cũng làm sáng tỏ một thực tế quan trọng: điều thực sự quan trọng là liệu những lợi ích và hành vi tích cực liên quan có bền vững theo thời gian hay không.
Thiết kế học tập
Những người tham gia được phân vào một trong ba nhóm: một nhóm đối chứng học bằng các tài nguyên trực tuyến truyền thống như Google Search và YouTube, với các tính năng tổng quan do AI tạo ra bị tắt, trong khi hai nhóm bổ sung được cấp quyền truy cập vào một trong hai biến thể Chế độ Học tập được thiết kế để hướng dẫn sinh viên trong suốt quá trình học theo những cách hơi khác nhau. Các bài kiểm tra cơ bản và khảo sát trong quá trình làm quen đã được thu thập trước để điều chỉnh theo sự khác biệt về mức độ tiếp xúc với các môn học trước đó, thói quen học tập, sự tự tin học thuật và mức độ quen thuộc với các công cụ AI. Sinh viên hoàn thành các buổi học theo Chế độ Học tập có giới hạn thời gian trước mỗi kỳ thi, với hai biến thể Chế độ Học tập được cân bằng giữa các môn học.
Thiết lập này được tạo ra để phản ánh điều kiện nghiên cứu thực tế chứ không phải môi trường phòng thí nghiệm được kiểm soát chặt chẽ. Việc tham gia không liên quan đến kết quả thi, và không phải tất cả sinh viên đều sử dụng Chế độ Học tập này ở mức độ như nhau trong các buổi học kéo dài 40 phút. Điều này cho phép chúng tôi đo lường và báo cáo các tác động của ý định điều trị (ITT), tác động của việc được cung cấp quyền truy cập vào công cụ trong các điều kiện triển khai thực tế — nói cách khác, tác động nhân quả của việc được cung cấp Chế độ Học tập, thừa nhận rằng sự tham gia có thể khác nhau trong thực tế.
Kết quả
Chúng tôi đo lường hiệu suất của mỗi kỳ thi riêng biệt. Trong nghiên cứu ngẫu nhiên của chúng tôi, những cải tiến không đồng nhất giữa các đối tượng và mức độ tham gia với chế độ nghiên cứu khác nhau giữa những người tham gia.
- Khoa học thần kinh (ITT sơ cấp): Chúng tôi quan sát thấy sự khác biệt tích cực về hướng đối với chế độ nghiên cứu so với đối chứng, nhưng kết quả không thể phân biệt được với sinh viên học bằng các tài nguyên trực tuyến truyền thống. Một số vấn đề về giới thiệu và kỹ thuật đã ảnh hưởng đến thời gian học tập của sinh viên sử dụng chế độ học tập.
- Kinh tế học vi mô (ITT sơ cấp): Chúng tôi quan sát thấy những thành tích có ý nghĩa trong kết quả thi ở những sinh viên được chỉ định quyền truy cập vào chế độ học tập so với nhóm kiểm soát không AI - tương đối cao hơn 15%.
Hiệu quả vẫn nhất quán khi chúng tôi so sánh từng biến thể chế độ nghiên cứu riêng biệt với đối chứng.
Mặc dù điều này phản ánh sự biến đổi trong thế giới thực, nhưng nó nhấn mạnh một hạn chế sâu sắc hơn trong cách đo lường kết quả học tập thường được đo lường.
Hầu hết các phương pháp đánh giá hiện có đều dựa trên các can thiệp cố định được đánh giá trong khoảng thời gian ngắn, sử dụng các kết quả như điểm kiểm tra hoặc bài luận cuối kỳ làm tín hiệu chính. Những phương pháp này không được thiết kế để nắm bắt cơ chế cốt lõi mà qua đó trí tuệ nhân tạo tác động đến việc học tập trong thực tế: đó là các tương tác cá nhân hóa liên tục, phát triển song song với các chiến lược, sở thích và thói quen học tập của người học. Họ cũng không làm rõ liệu sự cải thiện ở một khả năng nào đó, chẳng hạn như khả năng ghi nhớ ngắn hạn, có thể đi kèm với sự đánh đổi ở những khả năng khác, chẳng hạn như sự kiên trì, động lực tự chủ hoặc khả năng giải quyết vấn đề sáng tạo hay không. Do đó, họ bỏ qua những tác động nhận thức lâu dài, yếu tố quyết định liệu trí tuệ nhân tạo có thực sự cải thiện khả năng học tập hay không.
Bởi vì môi trường học tập rất khác nhau giữa các quốc gia, chương trình giảng dạy và mục tiêu tổ chức, kết quả từ các nghiên cứu một lần hiếm khi khái quát hóa giữa các hệ thống. Do đó, các phương pháp đo lường phải đủ linh hoạt để các hệ thống giáo dục khác nhau xác định thành công trông như thế nào trong bối cảnh của họ, đánh giá AI so với các tiêu chuẩn của riêng họ và lặp lại cho phù hợp.
Xây dựng một hệ thống đo lường tốt hơn
Dựa trên những bài học kinh nghiệm từ nghiên cứu về chế độ học tập của OpenAI, chúng tôi đã xây dựng một hệ thống đo lường có cấu trúc để đánh giá tác động của AI đối với người học trên quy mô lớn và tạo ra một cơ chế để cải thiện các mô hình dựa trên những kết quả đó. Nó dựa trên ba tín hiệu: cách thức hoạt động của mô hình, cách người học phản hồi và những kết quả nhận thức có thể đo lường được theo thời gian. Bao gồm:
- Hướng dẫn hệ thống để tinh chỉnh hành vi của mô hình: sử dụng ngôn ngữ tự nhiên để thay đổi hành vi mặc định của mô hình để phù hợp hơn với các phương pháp sư phạm cụ thể.
- Các bộ phân loại tương tác học tập: chúng tự động phát hiện các “khoảnh khắc học tập” trong các tương tác người học–mô hình thực tế đã được ẩn danh và gắn nhãn các đặc điểm nổi bật như mức độ tương tác và việc sửa lỗi.
- Trình chấm điểm chất lượng học tập: những hệ thống này đánh giá và chấm điểm từng khoảnh khắc học tập đó dựa trên việc người học có đạt được mục tiêu của họ hay không và mức độ mà tương tác tuân theo các nguyên tắc sư phạm vững chắc, bao gồm việc xác định các chế độ thất bại.
- Người chấm điểm học tập theo chiều dọc: những thứ này theo dõi những thay đổi trong tương tác của cùng một người học với mô hình theo thời gian — bao gồm cả các chiến lược tham gia, kiên trì và siêu nhận thức — ở cấp độ cá nhân và nhóm.
- Các thước đo nhận thức và siêu nhận thức được chuẩn hóa: đây là các công cụ của bên thứ ba đã được xác thực, được triển khai thông qua ChatGPT trước/trong/sau khi truy cập để thiết lập đường cơ sở và đo lường các thay đổi trong các năng lực nền tảng như tư duy phản biện, sáng tạo và trí nhớ.
Khi kết hợp lại, chúng tôi gọi hệ thống đo lường này là Bộ công cụ đo lường kết quả học tập.
Nó tạo ra các tín hiệu quan trọng mà hệ sinh thái giáo dục có thể sử dụng: quan điểm có cấu trúc về các khoảnh khắc học tập, bảng điều khiển cho thấy kết quả thay đổi như thế nào theo thời gian giữa các nhóm, các chỉ số về hiệu suất mô hình so với tiêu chí giảng dạy và dạy kèm, và các thước đo kết quả phù hợp với các đánh giá tiêu chuẩn hóa và bảng câu hỏi ngắn của người học. Nếu có, nó có thể kết hợp sự thật cơ bản do đối tác cung cấp như điểm thi, quan sát lớp học hoặc tham dự.
Tất cả dữ liệu đã được ẩn danh
Nó cũng cho phép các đối tác của chúng tôi hiểu được các tác động nhận thức sâu sắc hơn của việc sử dụng AI để học theo thời gian, vì thông qua hệ thống này chúng tôi cũng có thể theo dõi tác động đến các khả năng như:
- Động lực tự chủ: mức độ mà người học đang định hình việc học của chính mình so với việc được mô hình định hướng
- Sự tham gia hiệu quả: tần suất, mức độ đa dạng và chất lượng của các tương tác sư phạm
- Tính kiên trì với nhiệm vụ: mức độ mà người học ngồi lại và vượt qua các thách thức nhận thức
- Siêu nhận thức: tần suất và chất lượng nỗ lực của người học trong việc lập kế hoạch, tự suy ngẫm và theo dõi các cách tiếp cận của họ đối với việc học tập
- Nhớ lại: độ chính xác mà người học có thể nhớ nội dung từ các tương tác trước đó
Điều này phản ánh những nỗ lực tổng thể của chúng tôi để không chỉ tập trung vào các định nghĩa hẹp về kết quả học tập (điểm kiểm tra tăng), mà là các khả năng toàn diện làm nền tảng cho việc học. Nó cũng phản ánh niềm tin của chúng tôi rằng sẽ không có viên đạn bạc nào về những gì cần tối ưu hóa: các hệ thống và nhà giáo dục sẽ cần được trao quyền để hướng dẫn sự đánh đổi phù hợp với thực tiễn và phương pháp sư phạm tốt nhất.
Chúng ta sẽ hướng đến đâu từ điểm xuất phát này
Chúng tôi đang tiến hành kiểm định Bộ công cụ đo lường kết quả học tập thông qua các nghiên cứu quy mô lớn trước khi đưa nó ra thị trường rộng rãi. Công việc này đang được tiến hành với sự hợp tác giữa Đại học Tartu và Sáng kiến SCALE của Đại học Stanford trên phạm vi toàn quốc với các đối tác như Estonia, nơi bộ công cụ đo lường đang được nghiên cứu với gần 20.000 học sinh từ 16 đến 18 tuổi trong nhiều tháng. Việc sử dụng chương trình học sẽ được thực hiện với sự hợp tác chặt chẽ với các nhà lãnh đạo địa phương, nhằm đảm bảo an toàn và phù hợp với chương trình giảng dạy địa phương.
“Estonia luôn tiếp cận giáo dục không phải như một thứ tĩnh tại mà như một hệ thống mà chúng tôi liên tục cải tiến. Với việc AI trở thành một phần của bức tranh đó, câu hỏi lớn là làm thế nào chúng ta đo lường tác động lâu dài của AI đối với việc học. Đó là điều chúng tôi đang tìm hiểu thông qua sự hợp tác với OpenAI. Học sinh rất mong muốn được tham gia vào quá trình phát triển, và nhiều em muốn tìm hiểu cách hỗ trợ việc học tập với AI. Cảm giác như đây là một bước ngoặt thực sự, và chúng tôi rất hào hứng được đóng góp các phương pháp mà các hệ thống giáo dục khác có thể tái sử dụng và phát triển dựa trên đó.”
Công trình này dựa trên một loạt các nghiên cứu hợp tác rộng hơn đang được tiến hành. Ngoài các nghiên cứu kết quả đang được thực hiện thông qua các đối tác sáng lập trong Phòng thí nghiệm Học tập, OpenAI đang hỗ trợ các nghiên cứu ở điểm giao thoa giữa học tập và lao động — kiểm tra cách AI định hình lộ trình học tập, quyết định nghề nghiệp của sinh viên và cách các tổ chức có thể hỗ trợ việc áp dụng có trách nhiệm. Nghiên cứu này đang được thực hiện tại Đại học Bocconi, Trường Innova và Trường Kinh doanh Tuck thuộc Đại học Dartmouth, Đại học Bang San Diego, Đại học Stony Brook và nhiều trường khác.
Trong quá trình nghiên cứu dài hạn về việc học sinh học tập với AI như thế nào sẽ là hiệu quả nhất, chúng tôi dự định chia sẻ những phát hiện và hợp tác với hệ sinh thái giáo dục rộng lớn hơn để đảm bảo AI mang lại lợi ích cho người học ở mọi nơi.
Những người quan tâm đến việc nhận thông tin cập nhật về công việc này có thể đăng ký tại đây.


