تخطي إلى المحتوى الرئيسي
OpenAI

أدوات جديدة لفهم الذكاء الاصطناعي ومخرجات التعلّم

تعزيز كيفية قياس تأثير الذكاء الاصطناعي عبر بيئات التعلّم

يُعد التعليم أحد أكثر المجالات الواعدة للذكاء الاصطناعي. فمع أدوات مثل ChatGPT، يمكن أن يصبح دعم التعلّم المخصص متاحًا لأي طالب، في أي مكان، وفي أي وقت. 

لكن قطاع التعليم لا يزال في مرحلة مبكرة من فهم تأثير الذكاء الاصطناعي على نتائج التعلّم. في العام الماضي، شرع فريقنا في دراسة استخدام أدوات مثل وضع الدراسة ووجدنا تحسنًا واعدًا في أداء الطلاب. لكن أبحاثنا أثارت أيضًا سؤالًا مهمًا: كيف يمكننا تقييم تأثير الذكاء الاصطناعي في تقدّم المتعلّم بمرور الوقت، وليس فقط في الاختبار النهائي؟

يمثل ذلك تحديًا أوسع على مستوى المنظومة. فحتى اليوم، تركز معظم أساليب البحث على مؤشرات أداء ضيقة، مثل درجات الاختبارات، وتفتقر إلى القدرة على تقييم كيفية تعلّم الطلاب فعليًا باستخدام الذكاء الاصطناعي في البيئات الواقعية، وكيف يؤثر هذا الاستخدام في النتائج بمرور الوقت.

لمعالجة هذه الفجوة، طوّرنا مجموعة أدوات قياس مخرجات التعلم، وهو إطار عمل أُنشئ بالتعاون مع جامعة تارتو في إستونيا ومبادرة SCALE في Stanford Accelerator for Learning لدعم القياس الطولي لنتائج التعلّم عبر سياقات تعليمية مختلفة.

تجري حاليًا عملية تحقق موسّعة من خلال تجربة عشوائية محكومة، كما يُخطَّط لمزيد من الأبحاث بالتعاون مع الجهات المؤسسة ضمن Learning Lab، منظومة أبحاث التعلّم التابعة لـ OpenAI، بما يشمل باحثين من جامعة ولاية أريزونا وUCL Knowledge Lab وMIT Media Lab (استنادًا إلى دراسات تعاونية سابقة).

نشارك اليوم نظرة عامة على كيفية عمل مجموعة أدوات القياس وأهميتها. مع مرور الوقت، نعتزم نشر المزيد من الأبحاث وإتاحة مجموعة أدوات القياس كمورد عام للمدارس والجامعات وأنظمة التعليم في جميع أنحاء العالم.

“يتيح لنا هذا البحث التعلّم بسرعة، وفي الوقت نفسه يضع الأساس لفهم أعمق لكيفية دمج الذكاء الاصطناعي في المدارس بطريقة مدروسة وبما يحقق أثرًا حقيقيًا. ونسعى إلى فهم كيف يمكن لهذه الأدوات أن تدعم التعلّم الأكاديمي الصارم، مع تنمية مهارات التفكير العليا والإبداع والفضول وتعزيز ثقة الطلاب بأنفسهم كمتعلمين.”
–سوزانا لوب، أستاذة التربية ومديرة هيئة التدريس، مبادرة SCALE في جامعة ستانفورد

ملخص النقاط الأساسية

  • تُظهر أساليب البحث الحالية حول تأثير الذكاء الاصطناعي على التعلم مؤشرات واعدة بشأن الأداء، لكنها لا تلتقط الصورة الكاملة لكيفية تأثير الذكاء الاصطناعي في مخرجات التعلم على مدار الوقت.
  • ستوفّر مجموعة قياس مخرجات التعلّم، وللمرة الأولى، إطارًا معياريًا للدراسات الطولية التي تساعد المعلّمين والباحثين والمؤسسات على فهم كيفية تشكيل الذكاء الاصطناعي للتعلّم ومخرجاته عبر سياقات مختلفة.
  • يُعدّ Learning Lab (مختبر التعلّم) التابع لـ OpenAI منظومة بحثية جديدة تركّز على دفع هذا العمل قُدمًا. وستنشر OpenAI نتائج الأبحاث بالتعاون مع مجموعة من الشركاء مع استمرار هذا المجال في التطوّر.

الأصول والأبحاث المبكرة

عندما يستخدم الطلاب أدوات الذكاء الاصطناعي للدراسة والتعلّم، فقد يعني ذلك أشياء كثيرة ومختلفة، بدءًا من اللجوء إلى الذكاء الاصطناعي للحصول على إجابات سريعة، وصولًا إلى استخدامه للعمل على حلّ المشكلات خطوة بخطوة بإرشاد يشبه إرشاد المعلّم. ولتشجيع المستخدمين على التفاعل مع ChatGPT بطرق تدعم الفهم الأعمق وتنمية المهارات، قدّمت OpenAI العام الماضي وضع الدراسة.  ويعتمد وضع الدراسة في جوهره على تعليمات نظام مخصّصة صغناها بالتعاون مع المعلّمين والعلماء وخبراء التربية، بحيث تعكس مجموعة أساسية من السلوكيات التي تدعم التعلّم الحقيقي، لا مجرد تقديم الإجابات، وذلك من خلال استخدام أساليب الدعم التدريجي، والتحقّق من الفهم، والممارسة الموجّهة.

لاختبار ما إذا كان هذا النمط من التفاعل مع الذكاء الاصطناعي المتوافق تربويًا يترجم إلى نتائج تعلّم أفضل، أجرينا دراسة عشوائية شملت أكثر من 300 طالب جامعي كانوا يستعدون لامتحانات في علم الأعصاب والاقتصاد الجزئي. وبينما لا يزال تحليل النتائج جاريًا، فإن المؤشرات الأولية تمنحنا قدرًا من الثقة في أن نمط التفاعل مع الذكاء الاصطناعي المتوافق تربويًا، الذي تُشجّع عليه ميزات مثل وضع الدراسة، يمكن أن يسهم في تحسين مخرجات التعلّم. ومع ذلك، فقد كشف هذا البحث أيضًا عن حقيقة مهمة، وهي أن ما يهم فعلًا هو ما إذا كانت هذه المكاسب والسلوكيات الإنتاجية المرتبطة بها تظل مستدامة مع مرور الوقت.

تصميم الدراسة

جرى توزيع المشاركين على واحدة من ثلاث مجموعات: مجموعة ضابطة درست باستخدام موارد تقليدية عبر الإنترنت مثل Google Search وYouTube، مع تعطيل ميزات النظرة العامة التي ينشئها الذكاء الاصطناعي. وفي المقابل، مُنحت مجموعتان إضافيتان إمكانية الوصول إلى أحد شكلين من وضع الدراسة صُمِّما لإرشاد الطلاب خلال عملية التعلّم بطرق مختلفة قليلًا. وقبل ذلك، جُمعت اختبارات قصيرة أساسية واستبيانات تمهيدية مسبقًا لضبط الفروق في التعرض السابق للمقررات الدراسية، وعادات الدراسة، والثقة الأكاديمية، ومدى الإلمام بأدوات الذكاء الاصطناعي. ثم أكمل الطلاب جلسات محددة الوقت باستخدام وضع الدراسة قبل كل امتحان، مع موازنة شكلي وضع الدراسة عبر المواد المختلفة.

وقد صُمِّم هذا الإعداد ليعكس ظروف الدراسة في العالم الواقعي بدلًا من بيئة مخبرية محكمة وشديدة الضبط. ولم تكن المشاركة مرتبطة بالأداء في الامتحان، كما أن الطلاب لم يستخدموا وضع الدراسة بالقدر نفسه خلال الجلسات الاسمية التي امتدت 40 دقيقة. وأتاح لنا ذلك قياس آثار نية المعالجة والإبلاغ عنها (ITT)، أي أثر إتاحة الوصول إلى الأداة في ظروف تطبيق واقعية. وبعبارة أخرى، مكّننا ذلك من قياس الأثر السببي لعرض وضع الدراسة على الطلاب، مع الإقرار بأن مستوى التفاعل قد يختلف في الممارسة الفعلية.

النتائج

قمنا بقياس الأداء في كل اختبار على حدة. وفي دراستنا العشوائية، لم تكن التحسينات متسقة ومتساوية عبر جميع المواد المختلفة، وتفاوتت مستويات التفاعل مع وضع الدراسة بين المشاركين. 

  • علم الأعصاب (المؤشر الأساسي ITT):: لاحظنا فروقًا إيجابية من حيث الاتجاه لصالح وضع الدراسة مقارنةً بالمجموعة الضابطة، إلا أن النتائج لم تكن مميَّزة إحصائيًا مقارنةً بالطلاب الذين درسوا باستخدام الموارد التقليدية عبر الإنترنت. كما أثّرت بعض المشكلات التقنية ومشكلات الإعداد الأولي في الوقت الذي قضاه الطلاب في الدراسة لدى المستخدمين لوضع الدراسة. 
  • الاقتصاد الجزئي (المؤشر الأساسي ITT): لاحظنا مكاسب ملموسة في أداء الامتحانات بين الطلاب الذين الذين أُتيح لهم الوصول إلى وضع الدراسة مقارنةً بالمجموعة الضابطة التي لم تستخدم الذكاء الاصطناعي، إذ كان متوسط الدرجات أعلى بنحو 15% تقريبًا.

وضع الدراسة (المتغيران A & B) مقابل المجموعة الضابطة (بدون الذكاء الاصطناعي): متوسط درجات الامتحان المعدّلة

يظل التأثير متسقًا عندما نقارن كل متغير من متغيرات وضع الدراسة على حدة مع عنصر التحكم.

وبينما يعكس ذلك التباين الموجود في العالم الواقعي، فإنه يسلّط الضوء على محدودية أعمق في الطريقة التي تُقاس بها مخرجات التعلّم عادةً.

تعتمد معظم أساليب التقييم الحالية على تدخلات ثابتة تُقاس خلال فترات زمنية قصيرة، وتستخدم مؤشرات مثل درجات الاختبارات أو المقالات النهائية بوصفها الإشارات الأساسية. غير أن هذه الأساليب ليست مصممة لالتقاط الآلية الجوهرية التي يؤثر من خلالها الذكاء الاصطناعي في التعلّم على أرض الواقع، وهي التفاعلات المستمرة والمخصّصة التي تتطوّر جنبًا إلى جنب مع استراتيجيات المتعلّم وتفضيلاته وعادات دراسته. كما أنها لا تكشف ما إذا كانت التحسينات في قدرة معينة، مثل الاسترجاع قصير المدى، قد تأتي مصحوبة بمقايضات في قدرات أخرى مثل المثابرة أو الدافعية الذاتية أو حلّ المشكلات الإبداعي. ونتيجة لذلك، تفوّت هذه الأساليب رصد الآثار المعرفية الممتدة عبر الزمن التي تحدد في النهاية ما إذا كان الذكاء الاصطناعي يُحسّن التعلّم بصورة ذات معنى. 

نظرًا إلى أن بيئات التعلّم تختلف اختلافًا كبيرًا بين البلدان والمناهج والأهداف المؤسسية، فإن نتائج الدراسات التي تُجرى لمرة واحدة نادرًا ما يمكن تعميمها عبر الأنظمة المختلفة. ولذلك ينبغي أن تكون أساليب القياس مرنة بما يكفي لتمكين أنظمة التعليم المختلفة من تحديد ما يعنيه النجاح في سياقها الخاص، وتقييم الذكاء الاصطناعي وفق معاييرها الذاتية، ثم تحسين نهجها بناءً على ذلك.

بناء نظام قياس أفضل 

استنادًا إلى الدروس المستفادة من أبحاث OpenAI حول وضع الدراسة، عملنا على بناء نظام قياس منظَّم لقياس أثر الذكاء الاصطناعي في المتعلمين على نطاق واسع، وإنشاء آلية لتحسين النماذج استنادًا إلى تلك المخرجات. ويستند هذا النظام إلى ثلاث إشارات أساسية: كيفية تصرّف النموذج، وكيف يستجيب المتعلمون، وما المخرجات المعرفية القابلة للقياس التي تظهر مع مرور الوقت. ويشمل ما يلي: 

  • تعليمات النظام لتحسين سلوك النموذج: استخدام اللغة الطبيعية لتعديل السلوك الافتراضي للنموذج بحيث يصبح أكثر توافقًا مع مناهج تربوية محددة.
  • مصنِّفات تفاعل التعلّم: ترصد هذه المصنِّفات تلقائيًا 'لحظات التعلّم' داخل التفاعلات الفعلية بين المتعلّم والنموذج بعد إزالة أي معلومات تعريفية، وتُصنّف خصائص بارزة مثل مستوى التفاعل وتصحيح الأخطاء.
  • مقيّمو جودة التعلّم: تقوم هذه الأدوات بتقييم لحظات التعلّم تلك ومنحها درجة بناءً على ما إذا كان المتعلّم قد حقق هدفه، ومدى التزام التفاعل بمبادئ تربوية قوية، بما في ذلك تحديد أنماط الإخفاق.
  • مُقيِّمو التعلّم الطولي: تتتبّع هذه الأدوات التغيّرات في تفاعلات المتعلّم نفسه مع النموذج عبر الزمن، بما يشمل مستوى التفاعل والمثابرة والاستراتيجيات ما وراء المعرفة، وذلك على المستويين الفردي والجماعي.
  • مقاييس معرفية وما وراء معرفية معيارية: هذه أدوات قياس معتمدة من جهات خارجية تُقدَّم عبر ChatGPT قبل وأثناء وبعد الوصول إلى الأداة، بهدف تحديد خطوط الأساس وقياس التغيّرات في القدرات الأساسية مثل التفكير النقدي والإبداع والذاكرة.

عند جمع هذه العناصر معًا، نشير إلى نظام القياس هذا باسم Learning Outcomes Measurement Suite (مجموعة أدوات قياس مخرجات التعلم). 

ويُنتِج هذا النظام إشارات مهمة يمكن لمنظومة التعليم الاستفادة منها، مثل تصوّرات منظَّمة حول لحظات التعلّم، ولوحات معلومات تُظهر كيف تتغيّر مخرجات التعلّم بمرور الوقت بين المجموعات، ومؤشرات لأداء النموذج مقارنةً بمعايير التدريس والإرشاد التعليمي، إضافةً إلى مقاييس للمخرجات متوافقة مع التقييمات المعيارية واستبيانات قصيرة للمتعلمين. وعند توافرها، يمكن لهذا النظام أيضًا دمج بيانات واقعية يوفّرها الشركاء، مثل درجات الامتحانات أو ملاحظات الصف أو سجلات الحضور.

 مخطط يوضح سير عمل قياس مخرجات التعلّم حيث يعالج الذكاء الاصطناعي البيانات عبر خطوات التحليل والتقييم والتحقق قبل تقديم رؤى لدعم المتعلّم.

جميع البيانات غير محددة الهوية

كما يتيح ذلك لشركائنا فهم التأثيرات المعرفية الأعمق لاستخدام الذكاء الاصطناعي في التعلّم بمرور الوقت، إذ يمكننا من خلال هذا النظام أيضًا تتبّع الأثر على قدرات مثل:

  • الدافعية الذاتية: أي مدى قيام المتعلمين بتوجيه دراستهم بأنفسهم مقابل توجيهها من قبل النموذج؛ 
  • التفاعل الإنتاجي: أي تكرار التفاعلات التعليمية وتنوّعها وجودتها؛
  • المثابرة في أداء المهام: أي مدى استمرار المتعلم في مواجهة التحديات المعرفية والعمل على تجاوزها؛
  • ما وراء المعرفة: أي تواتر وجودة جهود المتعلم في التخطيط لدراسته والتأمل فيها ومتابعة نهجه في التعلّم؛
  • الاسترجاع: أي دقة تذكّر المتعلم للمحتوى من التفاعلات السابقة.

يعكس هذا النهج جهودنا الرامية إلى عدم الاكتفاء بالتركيز على تعريفات ضيقة لمخرجات التعلّم، مثل ارتفاع درجات الاختبارات، بل الاهتمام بالقدرات الشاملة التي تقوم عليها عملية التعلّم. كما يعكس قناعتنا بأنه لا يوجد حل واحد مثالي لما ينبغي تحسينه، إذ سيحتاج كل من الأنظمة التعليمية والمعلمين إلى القدرة على توجيه المفاضلات بما يتماشى مع أفضل الممارسات والمقاربات التربوية.

خطواتنا التالية

نعمل حاليًا على التحقق من صحة Learning Outcomes Measurement Suite (مجموعة أدوات قياس مخرجات التعلم) من خلال دراسات واسعة النطاق قبل إتاحته على نطاق أوسع. يجري تنفيذ هذا العمل بالتعاون مع جامعة تارتو ومبادرة Stanford’s SCALE Initiative عبر شركاء على مستوى الدول مثل أستونيا، حيث يجري بحث حزمة القياس مع ما يقرب من 20,000 طالب تتراوح أعمارهم بين 16-18 عامًا على مدى عدة أشهر. كما سيتم استخدام النظام من قبل الطلاب بالتعاون الوثيق مع قادة محليين، بما يضمن السلامة والمواءمة مع المناهج الدراسية المحلية.

"لطالما تعاملت إستونيا مع التعليم لا بوصفه نظامًا ثابتًا، بل بوصفه منظومة نواصل تحسينها باستمرار. ومع دخول الذكاء الاصطناعي إلى هذا المشهد، يصبح السؤال الكبير هو كيف نقيس أثره طويل الأمد في التعلّم. وهذا ما نعمل على استكشافه بالتعاون مع OpenAI. فالطلاب متحمسون للمشاركة في عملية التطوير، وكثير منهم يرغب في تعلّم كيفية دعم التعلّم باستخدام الذكاء الاصطناعي. ويبدو أن هذه لحظة تحوّل حقيقية، ونحن متحمسون للإسهام في تطوير أساليب يمكن لأنظمة تعليمية أخرى إعادة استخدامها والبناء عليها."
–جان آرو، جامعة تارتو

يستند هذا العمل إلى مجموعة أوسع من الأبحاث التعاونية الجارية. وإضافةً إلى أبحاث مخرجات التعلّم التي تُجرى عبر الشركاء المؤسسين في Learning Lab، تدعم OpenAI دراسات عند تقاطع التعلّم والعمل، تستكشف كيف يشكّل الذكاء الاصطناعي المسارات الأكاديمية للطلاب وقراراتهم المهنية، والطرق التي يمكن للمؤسسات من خلالها دعم تبنٍّ مسؤول لهذه التقنيات. ويجري هذا البحث في عدد من المؤسسات، منها جامعة بوكوني، ومدارس Innova، وكلية توك لإدارة الأعمال في جامعة دارتموث، وجامعة ولاية سان دييغو، وجامعة ستوني بروك، وغيرها.

ومع مواصلة الدراسات طويلة المدى حول كيفية تعلّم الطلاب على أفضل وجه باستخدام الذكاء الاصطناعي، نعتزم مشاركة النتائج والعمل جنبًا إلى جنب مع منظومة التعليم الأوسع لضمان أن تعود فوائد الذكاء الاصطناعي بالنفع على المتعلمين في كل مكان.

ويمكن للراغبين في تلقي تحديثات حول هذا العمل التسجيل هنا.