۱۳ اسفند ۱۴۰۴

ابزارهای جدید برای فهم هوش مصنوعی و نتایج آموزشی

پیشبرد شیوه‌ی سنجش تأثیر هوش مصنوعی در سراسر محیط‌های یادگیری

آموزش یکی از امیدوارکننده‌ترین حوزه‌های پیشروِ هوش مصنوعی است. با ابزارهایی مانند ChatGPT، حمایت از یادگیری شخصی‌سازی‌شده می‌تواند برای هر دانش‌آموزی، در هر کجا، در هر زمان در دسترس باشد.

اما بخش آموزش هنوز در مراحل اولیه درک تأثیر هوش مصنوعی بر نتایج یادگیری است. سال گذشته، تیم ما برای مطالعه استفاده از ابزارهایی مانند حالت مطالعه⁠ اقدام کرد و بهبودهای امیدوارکننده‌ای در عملکرد دانش‌آموزان یافت. اما پژوهش ما یک سؤال مهم دیگر را نیز مطرح کرد: چطور می‌توانیم ارزیابی کنیم که هوش مصنوعی چگونه در گذر زمان بر پیشرفت یک یادگیرنده تأثیر می‌گذارد، نه فقط در یک آزمون نهایی؟

این یک چالش گسترده‌تر اکوسیستم است. تا به امروز، بیشتر روش‌های پژوهشی بر سیگنال‌های محدودِ عملکرد—مانند نمرات آزمون—تمرکز دارند و توانایی ارزیابی این را ندارند که دانش‌آموزان واقعاً چگونه با هوش مصنوعی در محیط‌های واقعی یاد می‌گیرند و اینکه این استفاده چگونه در گذر زمان نتایج را شکل می‌دهد.

برای رفع این شکاف، ما مجموعه ابزار سنجش نتایج یادگیری، را توسعه دادیم؛ چارچوبی که با دانشگاه تارتوی استونی و برنامه ابتکاری SCALE در شتاب‌دهنده یادگیری دانشگاه استنفورد (Stanford Accelerator for Learning) ایجاد شده است تا از سنجش طولی نتایج یادگیری در زمینه‌های آموزشی مختلف پشتیبانی کند.

اعتبارسنجی گسترده از طریق یک کارآزمایی کنترل‌شدهٔ تصادفی در حال انجام است و پژوهش‌های بیشتری نیز با سازمان‌های بنیان‌گذار در Learning Lab — اکوسیستم پژوهشی یادگیریِ OpenAI — برنامه‌ریزی شده است؛ از جمله با مشارکت پژوهشگرانی از دانشگاه ایالتی آریزونا، آزمایشگاه دانش UCL و آزمایشگاه رسانه MIT (بر پایهٔ مطالعات مشترک پیشین⁠).

امروز، مروری کلی بر نحوه عملکرد مجموعه ابزارهای اندازه‌گیری و اهمیت آن را به اشتراک می‌گذاریم. به مرور زمان، قصد داریم پژوهش‌های بیشتری منتشر کنیم و مجموعه ابزارهای سنجش را به‌عنوان یک منبع عمومی برای مدارس، دانشگاه‌ها و نظام‌های آموزشی در سراسر جهان ارائه دهیم.

«این پژوهش به ما امکان می‌دهد سریع یاد بگیریم و در عین حال زمینه را برای درک عمیق‌تر اینکه چگونه می‌توان هوش مصنوعی را به‌صورت سنجیده در مدارس ادغام کرد، به شیوه‌هایی که واقعاً اهمیت دارند، فراهم می‌کند. ما می‌خواهیم درک کنیم این ابزارها چگونه می‌توانند از یادگیری علمیِ دقیق حمایت کنند و در عین حال تفکر سطح‌بالا، خلاقیت، کنجکاوی و اعتمادبه‌نفس دانش‌آموزان را به‌عنوان یادگیرنده نیز پرورش دهند.

–Susanna Loeb، استاد آموزش و مدیر دانشکده، ابتکار SCALE در دانشگاه استنفورد

خلاصه نکات کلیدی

روش‌های پژوهشیِ امروزی دربارهٔ تأثیر هوش مصنوعی بر یادگیری، نشانه‌های امیدوارکننده‌ای دربارهٔ عملکرد نشان می‌دهند، اما تصویر کامل از این امر را نشان نمی‌دهد که هوش مصنوعی در طول زمان چگونه بر نتایج یادگیری اثر می‌گذارد.
مجموعه ابزار سنجش نتایج یادگیری برای نخستین بار، یک چارچوب استاندارد برای پژوهش‌های طولی فراهم خواهد کرد که به آموزگاران، پژوهشگران و نهادها کمک می‌کند درک کنند هوش مصنوعی چگونه در زمینه‌های مختلف، یادگیری و نتایج را شکل می‌دهد.
آزمایشگاه یادگیری OpenAI یک اکوسیستم پژوهشی جدید است که بر پیشبرد این کار تمرکز دارد. OpenAI یافته‌ها را در کنار طیفی از شرکا منتشر خواهد کرد، در حالی که این حوزه همچنان به توسعه خود ادامه می‌دهد.

خاستگاه‌ها و پژوهش‌های اولیه

وقتی دانش‌آموزان از ابزارهای هوش مصنوعی برای مطالعه و یادگیری استفاده می‌کنند، می‌تواند معانی بسیار متفاوتی داشته باشد—از مراجعه به هوش مصنوعی برای دریافت پاسخ‌های سریع گرفته تا استفاده از آن برای پیش بردن مسائل به صورت گام به گام با راهنمایی شبیه به یک معلم خصوصی. برای تشویق کاربران به تعامل با ChatGPT به شیوه‌هایی که از درک عمیق‌تر و مهارت‌سازی پشتیبانی می‌کند، OpenAI سال گذشته حالت مطالعه⁠ را معرفی کرد. در باطن، «حالت مطالعه» با مجموعه‌ای از دستورالعمل‌های سیستمیِ سفارشی که ما با همکاری معلمان، دانشمندان و متخصصان تعلیم‌وتربیت تدوین کرده‌ایم، پشتیبانی می‌شود؛ دستورالعمل‌هایی که مجموعه‌ای از رفتارهای اصلی برای حمایت از یادگیری واقعی—نه صرفاً ارائهٔ پاسخ—را منعکس می‌کنند و از روش‌هایی مانند داربست آموزشی (scaffolding)، سنجش میزان درک، و تمرین هدایت‌شده استفاده می‌کنند.

برای بررسی اینکه آیا این نوع سبک تعامل هوش مصنوعی که با اصول آموزشی همسو است می‌تواند به نتایج یادگیری بهتر منجر شود، ما یک مطالعهٔ تصادفی با بیش از ۳۰۰ دانشجوی کالج که برای آزمون‌های علوم اعصاب و اقتصاد خرد آماده می‌شدند انجام دادیم. در حالی که تحلیل‌ها هنوز ادامه دارد، نتایج اولیه به ما اطمینان می‌دهد که یک سبک تعامل هوش مصنوعیِ همسو با اصول آموزشی که از طریق قابلیت‌هایی مانند «حالت مطالعه» ترویج می‌شود، می‌تواند نتایج یادگیری را بهبود بخشد. اما این پژوهش همچنین یک واقعیت مهم را آشکار کرد: آنچه واقعاً اهمیت دارد این است که آیا این پیشرفت‌ها و رفتارهای سازندهٔ مرتبط با آن‌ها در طول زمان پایدار می‌مانند یا خیر.

طراحی مطالعه

شرکت‌کنندگان به یکی از سه گروه اختصاص داده شدند: یک گروه کنترل که با استفاده از منابع آنلاین سنتی مانند Google Search و YouTube مطالعه می‌کردند و قابلیت‌های مرور کلیِ تولیدشده توسط هوش مصنوعی در آن‌ها غیرفعال بود و دو گروه دیگر که به یکی از دو نسخهٔ حالت مطالعه دسترسی داشتند، نسخه‌هایی که برای هدایت دانش‌آموزان در فرایند یادگیری به شیوه‌هایی کمی متفاوت طراحی شده بودند. پیش از آغاز مطالعه، آزمون‌های پایه و پرسش‌نامه‌های آغازین گردآوری شد تا تفاوت‌ها در میزان آشنایی قبلی با دروس، عادات مطالعه، اعتمادبه‌نفس تحصیلی و آشنایی با ابزارهای هوش مصنوعی در تحلیل نتایج در نظر گرفته شود. دانش‌آموزان پیش از هر آزمون، جلسات زمان‌بندی‌شدهٔ حالت مطالعه را تکمیل کردند و دو نسخهٔ حالت مطالعه به‌طور متقابل میان دروس توزیع شد.

این چیدمان به‌گونه‌ای طراحی شده بود که شرایط مطالعه در دنیای واقعی را بازتاب دهد، نه یک محیط آزمایشگاهیِ کاملاً کنترل‌شده. مشارکت به عملکرد در امتحان وابسته نبود و همه دانش‌آموزان در طول جلسات اسمی ۴۰ دقیقه‌ای به یک اندازه از حالت مطالعه استفاده نکردند. این کار به ما امکان داد اثرات «تحلیل بر اساس قصد درمان (ITT)» را اندازه‌گیری کنیم؛ یعنی تأثیر ارائهٔ دسترسی به این ابزار در شرایط واقعی. به عبارت دیگر، این تحلیل اثر علّیِ ارائهٔ حالت مطالعه را بررسی می‌کند، با این فرض که میزان استفادهٔ کاربران در عمل ممکن است متفاوت باشد.

یافته‌ها

ما عملکرد را در هر امتحان به‌طور جداگانه اندازه‌گیری کردیم. در مطالعهٔ تصادفی ما، بهبودها در همهٔ دروس یکسان نبود و میزان استفاده از «حالت مطالعه» نیز در میان شرکت‌کنندگان متفاوت بود.

علوم اعصاب (ITT اولیه): ما تفاوت‌های مثبتِ جهت‌دار را برای حالت مطالعه نسبت به گروه کنترل مشاهده کردیم، اما نتایج از دانش‌آموزانی که با منابع آنلاین سنتی مطالعه می‌کردند قابل تمایز نبود. برخی مشکلات مربوط به ورود اولیه و فنی بر زمان صرف‌شده برای مطالعه در میان دانش‌آموزانی که از حالت مطالعه استفاده می‌کردند، تأثیر گذاشت. ا
اقتصاد خرد (ITT اولیه): ما افزایش‌های معناداری در عملکرد آزمون در میان دانش‌آموزانی که دسترسی به حالت مطالعه به آن‌ها اختصاص داده شده بود در مقایسه با گروه کنترلِ بدون هوش مصنوعی مشاهده کردیم—تقریباً نمره‌ای ۱۵٪ بالاتر به‌صورت نسبی.

حالت مطالعه (گونه‌های A و B) در برابر کنترل (گروه بدون هوش مصنوعی): میانگین تعدیل‌شده نمرات امتحان

این اثر زمانی که هر گونهٔ حالت مطالعه را به‌طور جداگانه با گروه کنترل مقایسه می‌کنیم، ثابت می‌ماند.

اگرچه این موضوع بازتابی از تفاوت‌های موجود در دنیای واقعی است، اما محدودیت عمیق‌تری را در شیوه‌ای که معمولاً نتایج یادگیری سنجیده می‌شوند آشکار کرد.

بیشتر رویکردهای ارزیابی موجود بر مداخلات ثابت تکیه دارند که در بازه‌های زمانی کوتاه ارزیابی می‌شوند و از پیامدهایی مانند نمرات آزمون یا مقاله‌های نهایی به‌عنوان سیگنال‌های اصلی استفاده می‌کنند. این روش‌ها برای ثبت سازوکار اصلی‌ای که از طریق آن هوش مصنوعی در عمل بر یادگیری اثر می‌گذارد طراحی نشده‌اند: تعاملات مداوم و شخصی‌سازی‌شده‌ای که همگام با راهبردها، ترجیحات و عادت‌های مطالعه خودِ یادگیرنده تکامل می‌یابند. همچنین نشان نمی‌دهند که آیا بهبود در یک توانایی، مانند یادآوری کوتاه‌مدت، ممکن است همراه با کاهش یا تضعیف توانایی‌های دیگری مانند پشتکار، انگیزهٔ خودمختار یا حل خلاقانهٔ مسئله باشد یا خیر. در نتیجه، آن‌ها از تأثیرات شناختیِ طولی غافل می‌مانند؛ تأثیراتی که در نهایت تعیین می‌کنند آیا هوش مصنوعی واقعاً به بهبود یادگیری کمک می‌کند یا خیر.

از آنجا که محیط‌های یادگیری در کشورهای مختلف، برنامه‌های درسی و اهداف نهادی به‌طور گسترده‌ای متفاوت‌اند، نتایج مطالعات موردی به‌ندرت در میان نظام‌ها قابل تعمیم است. بنابراین، رویکردهای سنجش باید به اندازه کافی انعطاف‌پذیر باشند تا نظام‌های آموزشی مختلف بتوانند تعریف کنند که موفقیت در بافت خودشان چه شکلی دارد، هوش مصنوعی را بر اساس استانداردهای خودشان ارزیابی کنند و بر همان اساس به‌طور تکرارشونده بهبود دهند.

ساخت یک سامانهٔ سنجش بهتر

بر اساس آموخته‌های حاصل از پژوهش حالت مطالعه OpenAI، ما در حال ساخت یک سامانه سنجش ساختاریافته بوده‌ایم تا تأثیر هوش مصنوعی بر یادگیرندگان را در مقیاس وسیع اندازه‌گیری کنیم و سازوکاری برای بهبود مدل‌ها بر اساس آن نتایج ایجاد کنیم. این بر سه سیگنال استوار است—اینکه مدل چگونه رفتار می‌کند، اینکه یادگیرندگان چگونه واکنش نشان می‌دهند، و اینکه در گذر زمان چه پیامدهای شناختیِ قابل اندازه‌گیری‌ای حاصل می‌شود. این شامل موارد زیر است:

دستورالعمل‌های سامانه برای پالایش رفتار مدل: استفاده از زبان طبیعی برای تغییر رفتار پیش‌فرض مدل تا با رویکردهای آموزشی خاص بهتر همسو شود.
یادگیریِ دسته‌بندهای تعامل: این‌ها به‌طور خودکار «لحظه‌های یادگیری» را در تعاملات واقعیِ ناشناس‌سازی‌شدهٔ زبان‌آموز–مدل تشخیص می‌دهند و ویژگی‌های برجسته‌ای مانند مشارکت و اصلاح خطا را برچسب‌گذاری می‌کنند.
ارزیاب‌های کیفیت یادگیری: این‌ها هر یک از آن لحظات یادگیری را بر اساس اینکه آیا یادگیرنده به هدف خود دست یافته است و نیز میزان پایبندی تعامل به اصول آموزشیِ قوی—از جمله شناسایی حالت‌های شکست—ارزیابی و امتیازدهی می‌کنند.
نمره‌دهنده‌های یادگیری طولی: این‌ها تغییرات را در تعاملات همان زبان‌آموز با مدل در طول زمان پیگیری می‌کنند—از جمله میزان مشارکت، پشتکار و راهبردهای فراشناختی—در سطح فردی و گروهی.
سنجش‌های استانداردشده شناختی و فراشناختی: این‌ها ابزارهای معتبرِ شخص ثالث هستند که از طریق دسترسی پیش/حین/پس از ChatGPT ارائه می‌شوند تا خط پایه را تعیین کنند و تغییرات را در قابلیت‌های بنیادی مانند تفکر انتقادی، خلاقیت و حافظه اندازه‌گیری کنند.

وقتی با هم ترکیب شوند، به این سامانهٔ سنجش با عنوان مجموعه سنجش نتایج یادگیریاشاره می‌کنیم.

این کار سیگنال‌های مهمی تولید می‌کند که اکوسیستم آموزش می‌تواند از آن‌ها استفاده کند: نماهای ساختاریافته از لحظات یادگیری، داشبوردهایی که نشان می‌دهند نتایج در گذر زمان در میان هم‌گروه‌ها چگونه تغییر می‌کنند، شاخص‌هایی از عملکرد مدل در برابر معیارهای تدریس و تدریس خصوصی، و سنجه‌های نتیجه هم‌راستا با ارزیابی‌های استاندارد شده و پرسشنامه‌های کوتاه یادگیرنده. در صورت وجود، می‌تواند حقیقت زمینی ارائه‌شده توسط شریک را مانند نمرات آزمون، مشاهدات کلاس درس یا حضور و غیاب در خود بگنجاند.

نموداری که یک گردش‌کارِ سنجش نتایج یادگیری را نشان می‌دهد؛ در آن هوش مصنوعی داده‌ها را از طریق مراحل تحلیل، ارزیابی و راستی‌آزمایی پردازش می‌کند و سپس بینش‌هایی را برای پشتیبانی از یادگیرنده ارائه می‌دهد.

تمام داده‌ها ناشناس‌شده

این همچنین به شرکای ما امکان می‌دهد تا تأثیرات شناختی عمیق‌ترِ استفاده از AI برای یادگیری را در طول زمان درک کنند، زیرا ما از طریق این سامانه همچنین می‌توانیم تأثیر را بر قابلیت‌هایی مانند موارد زیر ردیابی کنیم:

انگیزهٔ خودمختار: میزان اینکه یادگیرندگان تا چه حد خودشان مسیر مطالعهٔ خود را شکل می‌دهند، در مقایسه با زمانی که توسط مدل هدایت می‌شوند.
مشارکت سازنده: بسامد، تنوع و کیفیت تعاملات آموزشی
پشتکار در انجام وظیفه: میزان اینکه یک یادگیرنده تا چه حد با چالش‌های شناختی می‌نشیند و از آن‌ها عبور می‌کند
فراشناخت: بسامد و کیفیت تلاش‌های یادگیرنده برای برنامه‌ریزی، تأمل و پایش رویکردهای خود در مطالعه
یادآوری: دقتی که یک یادگیرنده می‌تواند با آن محتوای تعاملات قبلی را به خاطر بیاورد

این بازتاب‌دهندهٔ تلاش‌های کلی ما است تا صرفاً بر تعاریف محدود نتایج یادگیری (افزایش امتیازهای آزمون) تمرکز نکنیم، بلکه بر قابلیت‌های جامع‌تری که زیربنای یادگیری هستند تمرکز کنیم. این همچنین باور ما را منعکس می‌کند که از نظر اینکه چه چیزی را باید بهینه‌سازی کرد، هیچ راه‌حل جادویی واحدی وجود نخواهد داشت: نظام‌های آموزشی و مربیان باید توانمند شوند تا در راستای بهترین شیوه‌ها و رویکردهای آموزشی، مصالحه‌ها را هدایت کنند.

مسیر پیشروی از اینجا

ما در حال اعتبارسنجی مجموعه ابزار سنجش نتایج یادگیری از طریق مطالعات در مقیاس بزرگ هستیم، پیش از آنکه آن را به‌طور گسترده در دسترس قرار دهیم. این کار با همکاری دانشگاه تارتو و ابتکار SCALE دانشگاه استنفورد در میان شرکای ملی، از جمله استونی، در حال انجام است؛ جایی که مجموعهٔ ابزارهای سنجش طی چند ماه با نزدیک به ۲۰۰۰۰ دانش‌آموز ۱۶ تا ۱۸ ساله مورد مطالعه قرار می‌گیرد. استفادهٔ دانش‌آموزان با همکاری نزدیک با مسئولان محلی انجام خواهد شد تا ایمنی و هم‌سویی با برنامه‌های درسی محلی تضمین شود.

«استونی همواره به آموزش نه به‌عنوان عاملی ایستا، بلکه به‌عنوان سیستمی که ما به طور مداوم آن را بهبود می‌دهیم، نگاه کرده است. با تبدیل شدن هوش مصنوعی به بخشی از آن تصویر، سؤال بزرگ این است که چگونه تأثیر بلندمدت هوش مصنوعی بر یادگیری را اندازه‌گیری می‌کنیم. این همان چیزی است که در همکاری با OpenAI بررسی می‌کنیم. دانش‌آموزان مشتاق‌اند در فرایند توسعه مشارکت داشته باشند و خیلی‌ها می‌خواهند یاد بگیرند چطور با هوش مصنوعی به یادگیری کمک کنند. به نظر می‌رسد یک نقطه عطف واقعی باشد و ما مشتاقیم روش‌هایی ارائه کنیم که دیگر نظام‌های آموزشی بتوانند دوباره از آن‌ها استفاده کنند و بر پایه آن توسعه یابند.»

-Jaan Aru، دانشگاه تارتو

این کار بر بدنه گسترده‌تری از پژوهش‌های همکاری‌محورِ در حال انجام بنا شده است. علاوه بر پژوهش درباره نتایج یادگیری که از طریق شرکای بنیان‌گذار در آزمایشگاه یادگیری انجام می‌شود، OpenAI از مطالعاتی در نقطه تلاقی یادگیری و کار نیز حمایت می‌کند—با بررسی اینکه هوش مصنوعی چگونه مسیرهای تحصیلی دانش‌آموزان، تصمیم‌های شغلی و شیوه‌هایی را که نهادها می‌توانند از پذیرش مسئولانه پشتیبانی کنند، شکل می‌دهد. این پژوهش در حال حاضر در چندین مؤسسه و دانشگاه، از جمله دانشگاه بوکونی، مدارس اینووا، دانشکدهٔ کسب‌وکار تاک در کالج دارتموث، دانشگاه ایالتی سن‌دیگو، دانشگاه استونی بروک و چندین مرکز دیگر در حال انجام است.

همزمان با انجام مطالعات بلندمدت‌تر درباره اینکه دانش‌آموزان چگونه با هوش مصنوعی بهترین یادگیری را دارند، قصد داریم یافته‌ها را به اشتراک بگذاریم و با اکوسیستم آموزشی گسترده‌تر همکاری کنیم تا اطمینان حاصل کنیم که هوش مصنوعی به نفع یادگیرندگان در همه‌جا باشد.

افرادی که به دریافت به‌روزرسانی‌ها دربارهٔ این کار علاقه‌مند هستند، می‌توانند اینجا⁠ ثبت‌نام کنند.

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

ساخت زیرساخت هوش مصنوعی با جامعه شهرستان افینگهام

امور بین‌الملل۳۱ تیر ۱۴۰۵

Advancing the next era of national science card image

پیشبرد عصر بعدی علم ملی

امور بین‌الملل۳۱ تیر ۱۴۰۵

Helping build shared standards for advanced AI - card image

ایالات متحده با اقدام ایالتی و فدرال ایمنی هوش مصنوعی را پیش می‌برد

امور بین‌الملل۲۴ تیر ۱۴۰۵