ابزارهای جدید برای فهم هوش مصنوعی و نتایج آموزشی
پیشبرد شیوهی سنجش تأثیر هوش مصنوعی در سراسر محیطهای یادگیری
آموزش یکی از امیدوارکنندهترین حوزههای پیشروِ هوش مصنوعی است. با ابزارهایی مانند ChatGPT، حمایت از یادگیری شخصیسازیشده میتواند برای هر دانشآموزی، در هر کجا، در هر زمان در دسترس باشد.
اما بخش آموزش هنوز در مراحل اولیه درک تأثیر هوش مصنوعی بر نتایج یادگیری است. سال گذشته، تیم ما برای مطالعه استفاده از ابزارهایی مانند حالت مطالعه اقدام کرد و بهبودهای امیدوارکنندهای در عملکرد دانشآموزان یافت. اما پژوهش ما یک سؤال مهم دیگر را نیز مطرح کرد: چطور میتوانیم ارزیابی کنیم که هوش مصنوعی چگونه در گذر زمان بر پیشرفت یک یادگیرنده تأثیر میگذارد، نه فقط در یک آزمون نهایی؟
این یک چالش گستردهتر اکوسیستم است. تا به امروز، بیشتر روشهای پژوهشی بر سیگنالهای محدودِ عملکرد—مانند نمرات آزمون—تمرکز دارند و توانایی ارزیابی این را ندارند که دانشآموزان واقعاً چگونه با هوش مصنوعی در محیطهای واقعی یاد میگیرند و اینکه این استفاده چگونه در گذر زمان نتایج را شکل میدهد.
برای رفع این شکاف، ما مجموعه ابزار سنجش نتایج یادگیری، را توسعه دادیم؛ چارچوبی که با دانشگاه تارتوی استونی و برنامه ابتکاری SCALE در شتابدهنده یادگیری دانشگاه استنفورد (Stanford Accelerator for Learning) ایجاد شده است تا از سنجش طولی نتایج یادگیری در زمینههای آموزشی مختلف پشتیبانی کند.
اعتبارسنجی گسترده از طریق یک کارآزمایی کنترلشدهٔ تصادفی در حال انجام است و پژوهشهای بیشتری نیز با سازمانهای بنیانگذار در Learning Lab — اکوسیستم پژوهشی یادگیریِ OpenAI — برنامهریزی شده است؛ از جمله با مشارکت پژوهشگرانی از دانشگاه ایالتی آریزونا، آزمایشگاه دانش UCL و آزمایشگاه رسانه MIT (بر پایهٔ مطالعات مشترک پیشین).
امروز، مروری کلی بر نحوه عملکرد مجموعه ابزارهای اندازهگیری و اهمیت آن را به اشتراک میگذاریم. به مرور زمان، قصد داریم پژوهشهای بیشتری منتشر کنیم و مجموعه ابزارهای سنجش را بهعنوان یک منبع عمومی برای مدارس، دانشگاهها و نظامهای آموزشی در سراسر جهان ارائه دهیم.
«این پژوهش به ما امکان میدهد سریع یاد بگیریم و در عین حال زمینه را برای درک عمیقتر اینکه چگونه میتوان هوش مصنوعی را بهصورت سنجیده در مدارس ادغام کرد، به شیوههایی که واقعاً اهمیت دارند، فراهم میکند. ما میخواهیم درک کنیم این ابزارها چگونه میتوانند از یادگیری علمیِ دقیق حمایت کنند و در عین حال تفکر سطحبالا، خلاقیت، کنجکاوی و اعتمادبهنفس دانشآموزان را بهعنوان یادگیرنده نیز پرورش دهند.
- روشهای پژوهشیِ امروزی دربارهٔ تأثیر هوش مصنوعی بر یادگیری، نشانههای امیدوارکنندهای دربارهٔ عملکرد نشان میدهند، اما تصویر کامل از این امر را نشان نمیدهد که هوش مصنوعی در طول زمان چگونه بر نتایج یادگیری اثر میگذارد.
- مجموعه ابزار سنجش نتایج یادگیری برای نخستین بار، یک چارچوب استاندارد برای پژوهشهای طولی فراهم خواهد کرد که به آموزگاران، پژوهشگران و نهادها کمک میکند درک کنند هوش مصنوعی چگونه در زمینههای مختلف، یادگیری و نتایج را شکل میدهد.
- آزمایشگاه یادگیری OpenAI یک اکوسیستم پژوهشی جدید است که بر پیشبرد این کار تمرکز دارد. OpenAI یافتهها را در کنار طیفی از شرکا منتشر خواهد کرد، در حالی که این حوزه همچنان به توسعه خود ادامه میدهد.
وقتی دانشآموزان از ابزارهای هوش مصنوعی برای مطالعه و یادگیری استفاده میکنند، میتواند معانی بسیار متفاوتی داشته باشد—از مراجعه به هوش مصنوعی برای دریافت پاسخهای سریع گرفته تا استفاده از آن برای پیش بردن مسائل به صورت گام به گام با راهنمایی شبیه به یک معلم خصوصی. برای تشویق کاربران به تعامل با ChatGPT به شیوههایی که از درک عمیقتر و مهارتسازی پشتیبانی میکند، OpenAI سال گذشته حالت مطالعه را معرفی کرد. در باطن، «حالت مطالعه» با مجموعهای از دستورالعملهای سیستمیِ سفارشی که ما با همکاری معلمان، دانشمندان و متخصصان تعلیموتربیت تدوین کردهایم، پشتیبانی میشود؛ دستورالعملهایی که مجموعهای از رفتارهای اصلی برای حمایت از یادگیری واقعی—نه صرفاً ارائهٔ پاسخ—را منعکس میکنند و از روشهایی مانند داربست آموزشی (scaffolding)، سنجش میزان درک، و تمرین هدایتشده استفاده میکنند.
برای بررسی اینکه آیا این نوع سبک تعامل هوش مصنوعی که با اصول آموزشی همسو است میتواند به نتایج یادگیری بهتر منجر شود، ما یک مطالعهٔ تصادفی با بیش از ۳۰۰ دانشجوی کالج که برای آزمونهای علوم اعصاب و اقتصاد خرد آماده میشدند انجام دادیم. در حالی که تحلیلها هنوز ادامه دارد، نتایج اولیه به ما اطمینان میدهد که یک سبک تعامل هوش مصنوعیِ همسو با اصول آموزشی که از طریق قابلیتهایی مانند «حالت مطالعه» ترویج میشود، میتواند نتایج یادگیری را بهبود بخشد. اما این پژوهش همچنین یک واقعیت مهم را آشکار کرد: آنچه واقعاً اهمیت دارد این است که آیا این پیشرفتها و رفتارهای سازندهٔ مرتبط با آنها در طول زمان پایدار میمانند یا خیر.
طراحی مطالعه
شرکتکنندگان به یکی از سه گروه اختصاص داده شدند: یک گروه کنترل که با استفاده از منابع آنلاین سنتی مانند Google Search و YouTube مطالعه میکردند و قابلیتهای مرور کلیِ تولیدشده توسط هوش مصنوعی در آنها غیرفعال بود و دو گروه دیگر که به یکی از دو نسخهٔ حالت مطالعه دسترسی داشتند، نسخههایی که برای هدایت دانشآموزان در فرایند یادگیری به شیوههایی کمی متفاوت طراحی شده بودند. پیش از آغاز مطالعه، آزمونهای پایه و پرسشنامههای آغازین گردآوری شد تا تفاوتها در میزان آشنایی قبلی با دروس، عادات مطالعه، اعتمادبهنفس تحصیلی و آشنایی با ابزارهای هوش مصنوعی در تحلیل نتایج در نظر گرفته شود. دانشآموزان پیش از هر آزمون، جلسات زمانبندیشدهٔ حالت مطالعه را تکمیل کردند و دو نسخهٔ حالت مطالعه بهطور متقابل میان دروس توزیع شد.
این چیدمان بهگونهای طراحی شده بود که شرایط مطالعه در دنیای واقعی را بازتاب دهد، نه یک محیط آزمایشگاهیِ کاملاً کنترلشده. مشارکت به عملکرد در امتحان وابسته نبود و همه دانشآموزان در طول جلسات اسمی ۴۰ دقیقهای به یک اندازه از حالت مطالعه استفاده نکردند. این کار به ما امکان داد اثرات «تحلیل بر اساس قصد درمان (ITT)» را اندازهگیری کنیم؛ یعنی تأثیر ارائهٔ دسترسی به این ابزار در شرایط واقعی. به عبارت دیگر، این تحلیل اثر علّیِ ارائهٔ حالت مطالعه را بررسی میکند، با این فرض که میزان استفادهٔ کاربران در عمل ممکن است متفاوت باشد.
یافتهها
ما عملکرد را در هر امتحان بهطور جداگانه اندازهگیری کردیم. در مطالعهٔ تصادفی ما، بهبودها در همهٔ دروس یکسان نبود و میزان استفاده از «حالت مطالعه» نیز در میان شرکتکنندگان متفاوت بود.
- علوم اعصاب (ITT اولیه): ما تفاوتهای مثبتِ جهتدار را برای حالت مطالعه نسبت به گروه کنترل مشاهده کردیم، اما نتایج از دانشآموزانی که با منابع آنلاین سنتی مطالعه میکردند قابل تمایز نبود. برخی مشکلات مربوط به ورود اولیه و فنی بر زمان صرفشده برای مطالعه در میان دانشآموزانی که از حالت مطالعه استفاده میکردند، تأثیر گذاشت. ا
- اقتصاد خرد (ITT اولیه): ما افزایشهای معناداری در عملکرد آزمون در میان دانشآموزانی که دسترسی به حالت مطالعه به آنها اختصاص داده شده بود در مقایسه با گروه کنترلِ بدون هوش مصنوعی مشاهده کردیم—تقریباً نمرهای ۱۵٪ بالاتر بهصورت نسبی.
این اثر زمانی که هر گونهٔ حالت مطالعه را بهطور جداگانه با گروه کنترل مقایسه میکنیم، ثابت میماند.
اگرچه این موضوع بازتابی از تفاوتهای موجود در دنیای واقعی است، اما محدودیت عمیقتری را در شیوهای که معمولاً نتایج یادگیری سنجیده میشوند آشکار کرد.
بیشتر رویکردهای ارزیابی موجود بر مداخلات ثابت تکیه دارند که در بازههای زمانی کوتاه ارزیابی میشوند و از پیامدهایی مانند نمرات آزمون یا مقالههای نهایی بهعنوان سیگنالهای اصلی استفاده میکنند. این روشها برای ثبت سازوکار اصلیای که از طریق آن هوش مصنوعی در عمل بر یادگیری اثر میگذارد طراحی نشدهاند: تعاملات مداوم و شخصیسازیشدهای که همگام با راهبردها، ترجیحات و عادتهای مطالعه خودِ یادگیرنده تکامل مییابند. همچنین نشان نمیدهند که آیا بهبود در یک توانایی، مانند یادآوری کوتاهمدت، ممکن است همراه با کاهش یا تضعیف تواناییهای دیگری مانند پشتکار، انگیزهٔ خودمختار یا حل خلاقانهٔ مسئله باشد یا خیر. در نتیجه، آنها از تأثیرات شناختیِ طولی غافل میمانند؛ تأثیراتی که در نهایت تعیین میکنند آیا هوش مصنوعی واقعاً به بهبود یادگیری کمک میکند یا خیر.
از آنجا که محیطهای یادگیری در کشورهای مختلف، برنامههای درسی و اهداف نهادی بهطور گستردهای متفاوتاند، نتایج مطالعات موردی بهندرت در میان نظامها قابل تعمیم است. بنابراین، رویکردهای سنجش باید به اندازه کافی انعطافپذیر باشند تا نظامهای آموزشی مختلف بتوانند تعریف کنند که موفقیت در بافت خودشان چه شکلی دارد، هوش مصنوعی را بر اساس استانداردهای خودشان ارزیابی کنند و بر همان اساس بهطور تکرارشونده بهبود دهند.
ساخت یک سامانهٔ سنجش بهتر
بر اساس آموختههای حاصل از پژوهش حالت مطالعه OpenAI، ما در حال ساخت یک سامانه سنجش ساختاریافته بودهایم تا تأثیر هوش مصنوعی بر یادگیرندگان را در مقیاس وسیع اندازهگیری کنیم و سازوکاری برای بهبود مدلها بر اساس آن نتایج ایجاد کنیم. این بر سه سیگنال استوار است—اینکه مدل چگونه رفتار میکند، اینکه یادگیرندگان چگونه واکنش نشان میدهند، و اینکه در گذر زمان چه پیامدهای شناختیِ قابل اندازهگیریای حاصل میشود. این شامل موارد زیر است:
- دستورالعملهای سامانه برای پالایش رفتار مدل: استفاده از زبان طبیعی برای تغییر رفتار پیشفرض مدل تا با رویکردهای آموزشی خاص بهتر همسو شود.
- یادگیریِ دستهبندهای تعامل: اینها بهطور خودکار «لحظههای یادگیری» را در تعاملات واقعیِ ناشناسسازیشدهٔ زبانآموز–مدل تشخیص میدهند و ویژگیهای برجستهای مانند مشارکت و اصلاح خطا را برچسبگذاری میکنند.
- ارزیابهای کیفیت یادگیری: اینها هر یک از آن لحظات یادگیری را بر اساس اینکه آیا یادگیرنده به هدف خود دست یافته است و نیز میزان پایبندی تعامل به اصول آموزشیِ قوی—از جمله شناسایی حالتهای شکست—ارزیابی و امتیازدهی میکنند.
- نمرهدهندههای یادگیری طولی: اینها تغییرات را در تعاملات همان زبانآموز با مدل در طول زمان پیگیری میکنند—از جمله میزان مشارکت، پشتکار و راهبردهای فراشناختی—در سطح فردی و گروهی.
- سنجشهای استانداردشده شناختی و فراشناختی: اینها ابزارهای معتبرِ شخص ثالث هستند که از طریق دسترسی پیش/حین/پس از ChatGPT ارائه میشوند تا خط پایه را تعیین کنند و تغییرات را در قابلیتهای بنیادی مانند تفکر انتقادی، خلاقیت و حافظه اندازهگیری کنند.
وقتی با هم ترکیب شوند، به این سامانهٔ سنجش با عنوان مجموعه سنجش نتایج یادگیریاشاره میکنیم.
این کار سیگنالهای مهمی تولید میکند که اکوسیستم آموزش میتواند از آنها استفاده کند: نماهای ساختاریافته از لحظات یادگیری، داشبوردهایی که نشان میدهند نتایج در گذر زمان در میان همگروهها چگونه تغییر میکنند، شاخصهایی از عملکرد مدل در برابر معیارهای تدریس و تدریس خصوصی، و سنجههای نتیجه همراستا با ارزیابیهای استاندارد شده و پرسشنامههای کوتاه یادگیرنده. در صورت وجود، میتواند حقیقت زمینی ارائهشده توسط شریک را مانند نمرات آزمون، مشاهدات کلاس درس یا حضور و غیاب در خود بگنجاند.
تمام دادهها ناشناسشده
این همچنین به شرکای ما امکان میدهد تا تأثیرات شناختی عمیقترِ استفاده از AI برای یادگیری را در طول زمان درک کنند، زیرا ما از طریق این سامانه همچنین میتوانیم تأثیر را بر قابلیتهایی مانند موارد زیر ردیابی کنیم:
- انگیزهٔ خودمختار: میزان اینکه یادگیرندگان تا چه حد خودشان مسیر مطالعهٔ خود را شکل میدهند، در مقایسه با زمانی که توسط مدل هدایت میشوند.
- مشارکت سازنده: بسامد، تنوع و کیفیت تعاملات آموزشی
- پشتکار در انجام وظیفه: میزان اینکه یک یادگیرنده تا چه حد با چالشهای شناختی مینشیند و از آنها عبور میکند
- فراشناخت: بسامد و کیفیت تلاشهای یادگیرنده برای برنامهریزی، تأمل و پایش رویکردهای خود در مطالعه
- یادآوری: دقتی که یک یادگیرنده میتواند با آن محتوای تعاملات قبلی را به خاطر بیاورد
این بازتابدهندهٔ تلاشهای کلی ما است تا صرفاً بر تعاریف محدود نتایج یادگیری (افزایش امتیازهای آزمون) تمرکز نکنیم، بلکه بر قابلیتهای جامعتری که زیربنای یادگیری هستند تمرکز کنیم. این همچنین باور ما را منعکس میکند که از نظر اینکه چه چیزی را باید بهینهسازی کرد، هیچ راهحل جادویی واحدی وجود نخواهد داشت: نظامهای آموزشی و مربیان باید توانمند شوند تا در راستای بهترین شیوهها و رویکردهای آموزشی، مصالحهها را هدایت کنند.
مسیر پیشروی از اینجا
ما در حال اعتبارسنجی مجموعه ابزار سنجش نتایج یادگیری از طریق مطالعات در مقیاس بزرگ هستیم، پیش از آنکه آن را بهطور گسترده در دسترس قرار دهیم. این کار با همکاری دانشگاه تارتو و ابتکار SCALE دانشگاه استنفورد در میان شرکای ملی، از جمله استونی، در حال انجام است؛ جایی که مجموعهٔ ابزارهای سنجش طی چند ماه با نزدیک به ۲۰۰۰۰ دانشآموز ۱۶ تا ۱۸ ساله مورد مطالعه قرار میگیرد. استفادهٔ دانشآموزان با همکاری نزدیک با مسئولان محلی انجام خواهد شد تا ایمنی و همسویی با برنامههای درسی محلی تضمین شود.
«استونی همواره به آموزش نه بهعنوان عاملی ایستا، بلکه بهعنوان سیستمی که ما به طور مداوم آن را بهبود میدهیم، نگاه کرده است. با تبدیل شدن هوش مصنوعی به بخشی از آن تصویر، سؤال بزرگ این است که چگونه تأثیر بلندمدت هوش مصنوعی بر یادگیری را اندازهگیری میکنیم. این همان چیزی است که در همکاری با OpenAI بررسی میکنیم. دانشآموزان مشتاقاند در فرایند توسعه مشارکت داشته باشند و خیلیها میخواهند یاد بگیرند چطور با هوش مصنوعی به یادگیری کمک کنند. به نظر میرسد یک نقطه عطف واقعی باشد و ما مشتاقیم روشهایی ارائه کنیم که دیگر نظامهای آموزشی بتوانند دوباره از آنها استفاده کنند و بر پایه آن توسعه یابند.»
این کار بر بدنه گستردهتری از پژوهشهای همکاریمحورِ در حال انجام بنا شده است. علاوه بر پژوهش درباره نتایج یادگیری که از طریق شرکای بنیانگذار در آزمایشگاه یادگیری انجام میشود، OpenAI از مطالعاتی در نقطه تلاقی یادگیری و کار نیز حمایت میکند—با بررسی اینکه هوش مصنوعی چگونه مسیرهای تحصیلی دانشآموزان، تصمیمهای شغلی و شیوههایی را که نهادها میتوانند از پذیرش مسئولانه پشتیبانی کنند، شکل میدهد. این پژوهش در حال حاضر در چندین مؤسسه و دانشگاه، از جمله دانشگاه بوکونی، مدارس اینووا، دانشکدهٔ کسبوکار تاک در کالج دارتموث، دانشگاه ایالتی سندیگو، دانشگاه استونی بروک و چندین مرکز دیگر در حال انجام است.
همزمان با انجام مطالعات بلندمدتتر درباره اینکه دانشآموزان چگونه با هوش مصنوعی بهترین یادگیری را دارند، قصد داریم یافتهها را به اشتراک بگذاریم و با اکوسیستم آموزشی گستردهتر همکاری کنیم تا اطمینان حاصل کنیم که هوش مصنوعی به نفع یادگیرندگان در همهجا باشد.
افرادی که به دریافت بهروزرسانیها دربارهٔ این کار علاقهمند هستند، میتوانند اینجا ثبتنام کنند.


