Instrumente noi pentru înțelegerea IA și a rezultatelor învățării
Îmbunătățirea modului în care impactul IA este măsurat în mediile de învățare
Educația este una dintre cele mai promițătoare frontiere IA. Cu instrumente precum ChatGPT, asistența personalizată pentru învățare poate fi disponibilă oricărui elev sau student, oriunde, oricând.
Însă sectorul educației este încă la început în ceea ce privește înțelegerea impactului IA asupra rezultatelor învățării. Anul trecut, echipa noastră și-a propus să studieze utilizarea unor instrumente precum Mod studiu și a descoperit îmbunătățiri promițătoare ale performanței elevilor și studenților. Însă cercetarea noastră a ridicat și o întrebare importantă: cum putem evalua modul în care IA influențează progresul unui cursant de-a lungul timpului, și nu doar la un examen final?
Aceasta este o provocare mai amplă a ecosistemului. Deocamdată, majoritatea metodelor de cercetare se concentrează pe semnale înguste de performanță — cum ar fi scorurile la teste — și nu au capacitatea de a evalua modul în care se învață efectiv cu IA în contexte reale și modul în care această utilizare afectează rezultatele de-a lungul timpului.
Pentru a aborda acest decalaj, am dezvoltat Suita de măsurare a rezultatelor învățării, un cadru creat împreună cu Universitatea din Tartu din Estonia și inițiativa SCALE de la Acceleratorul pentru învățare Stanford pentru a sprijini măsurarea longitudinală a rezultatelor învățării în diferite contexte educaționale.
O validare extinsă este în curs de desfășurare printr-un studiu clinic randomizat controlat, iar cercetări suplimentare sunt planificate cu organizațiile fondatoare din Learning Lab, ecosistemul de cercetare în domeniul învățării OpenAI, inclusiv cercetători de la Universitatea de Stat din Arizona, UCL Knowledge Lab și MIT Media Lab (pe baza unor studii colaborative anterioare).
Astăzi, îți prezentăm modul în care funcționează suita de măsurători și de ce este importantă. În timp, intenționăm să publicăm mai multe cercetări și să lansăm suita de măsurare ca resursă publică pentru școli, universități și sisteme de educație la nivel mondial.
„Această cercetare ne permite să învățăm rapid, punând totodată bazele pentru o înțelegere mai profundă a modului în care IA poate fi integrată cu atenție în școli, în moduri care contează cu adevărat. Ne dorim să înțelegem cum pot aceste instrumente să sprijine o învățare academică riguroasă, cultivând totodată gândirea de nivel superior, creativitatea, curiozitatea și încrederea studenților în ei înșiși ca persoane care învață.”
- Metodele actuale de cercetare privind impactul IA asupra învățării arată semnale promițătoare despre performanță, dar nu surprind imaginea completă a modului în care IA afectează rezultatele învățării în timp.
- Suita de măsurare a rezultatelor învățării va oferi, pentru prima dată, un cadru standard pentru studii longitudinale care să ajute cadrele didactice, cercetătorii și instituțiile să înțeleagă modul în care IA determină învățarea și rezultatele în diferite contexte.
- Learning Lab de la OpenAI este un nou ecosistem de cercetare axat pe sprijinirea acestui demers. OpenAI va publica rezultatele alături de o serie de parteneri, pe măsură ce domeniul continuă să se dezvolte.
Când elevii și studenții folosesc instrumente IA pentru a studia și învăța, acest lucru poate însemna multe lucruri diferite — de la a apela la IA pentru răspunsuri rapide până la a o folosi pentru a parcurge problemele pas cu pas, ca și sub îndrumarea unui meditator. Pentru a încuraja utilizatorii să interacționeze cu ChatGPT în moduri care sprijină o înțelegere mai profundă și dezvoltarea abilităților, OpenAI a lansatModul studiu anul trecut. În culise, Modul studiu este susținut de instrucțiuni de sistem personalizate pe care le-am scris în colaborare cu profesori, cercetători științifici și experți în pedagogie astfel încât să reflecte un set de comportamente esențiale care sprijină învățarea adevărată, nu doar răspunsurile, folosind structuri, verificări ale înțelegerii și exerciții ghidate.
Pentru a testa dacă acest tip de interacțiune cu IA aliniată pedagogic duce la rezultate de învățare mai bune, am realizat un studiu randomizat cu peste 300 de studenți care se pregăteau pentru examene de neuroștiință și microeconomie. Deși analiza este încă în curs de desfășurare, primele rezultate ne dau încrederea că un stil de interacțiune bazat pe IA, aliniat pedagogic, încurajat prin funcții precum Modul studiu, poate îmbunătăți rezultatele învățării. Însă această cercetare a scos la iveală și o realitate importantă: ceea ce contează cu adevărat este dacă câștigurile și comportamentele productive asociate rămân durabile în timp.
Designul studiului
Participanții au fost repartizați într-unul din trei grupuri: un grup de control, studiat folosind resurse online tradiționale, cum ar fi Căutarea Google și YouTube, cu funcțiile de prezentare generală generate de IA dezactivate, în timp ce două grupuri suplimentare au primit acces la una dintre cele două variante de mod de studiu concepute pentru a ghida studenții prin procesul de învățare în moduri ușor diferite. Chestionarele de evaluare inițială și sondajele de înscriere au fost colectate în avans pentru a ajusta diferențele legate de expunerea anterioară la cursuri, obiceiurile de studiu, încrederea academică și familiaritatea cu instrumentele IA. Studenții au finalizat sesiuni cronometrate în Modul studiu înainte de fiecare examen, cele două variante ale Modului studiu fiind echilibrate între discipline.
Această configurație a fost concepută pentru a reflecta condițiile de studiu din lumea reală, mai degrabă decât un mediu de laborator strict controlat. Participarea nu a fost legată de performanța la examene și nu toți studenții au folosit Modul studiu în aceeași măsură în timpul sesiunilor nominale de 40 de minute. Acest lucru ne-a permis să măsurăm și să raportăm efectele ITT (intention-to-treat), impactul accesului la instrument în condiții realiste de implementare — cu alte cuvinte, impactul cauzal al oferirii Modului studiu, recunoscând că implicarea poate varia în practică.
Constatări
Am măsurat performanța la fiecare examen separat. În studiul nostru randomizat, îmbunătățirile nu au fost uniforme pentru toate disciplinele, iar nivelurile de implicare în Modul studiu au variat de la un participant la altul.
- Neuroștiință (ITT primar): Am observat diferențe direcțional pozitive pentru Modul studiu față de grupul de control, dar rezultatele nu au fost distincte de cele ale studenților care învață cu resurse online tradiționale. Unele probleme tehnice și de integrare au afectat timpul petrecut pentru studiu de către studenții care utilizează Modul studiu.
- Microeconomie (ITT primar): Am observat creșteri semnificative ale performanței la examene în rândul studenților cărora li s-a atribuit acces la Modul studiu față de grupul de control fără IA, un scor relativ mai mare cu aproximativ 15%.
Efectul rămâne consecvent atunci când comparăm separat fiecare variantă de mod de studiu cu grupul de control.
Deși acest lucru reflectă variația din lumea reală, a evidențiat o limitare mai profundă în modul în care sunt măsurate de obicei rezultatele învățării.
Majoritatea abordărilor existente de evaluare se bazează pe intervenții fixe evaluate pe intervale scurte de timp, folosind rezultate precum scorurile la teste sau eseurile finale ca semnale principale. Aceste metode nu sunt concepute pentru a surprinde mecanismul de bază prin care IA afectează învățarea în practică: interacțiuni continue, personalizate, care evoluează odată cu propriile strategii, preferințe și obiceiuri de studiu ale cursantului. De asemenea, nu indică dacă îmbunătățirea unei capacități, cum ar fi memoria pe termen scurt, pot fi însoțite de compromisuri în alte domenii, cum ar fi perseverența, motivația autonomă sau rezolvarea creativă a problemelor. Ca urmare, omit efectele cognitive longitudinale care determină în ultimă instanță dacă IA îmbunătățește în mod semnificativ procesul de învățare.
Deoarece mediile de învățare diferă foarte mult de la o țară, de la o programă de învățământ la alta și de la o instituție la alta, rezultatele studiilor punctuale se generalizează rareori între diferite sisteme. Prin urmare, abordările de măsurare trebuie să fie suficient de flexibile pentru ca diferitele sisteme educaționale să definească ce înseamnă succesul în contextul lor, să evalueze IA în funcție de propriile standarde și să itereze în consecință.
Construirea unui sistem de măsurare mai bun
Pe baza concluziilor din cercetarea OpenAI privind Modul studiu, am construit un sistem structurat de măsurare pentru a evalua impactul IA asupra cursanților la scară largă și pentru a crea un mecanism de îmbunătățire a modelelor pe baza acestor rezultate. Se bazează pe trei semnale: cum se comportă modelul, cum răspund cursanții și ce rezultate cognitive măsurabile rezultă în timp. Include:
- Instrucțiuni de sistem pentru rafinarea comportamentului modelului: utilizarea limbajului natural pentru a modifica comportamentul implicit al modelului, astfel încât să fie mai bine aliniat la abordări pedagogice specifice.
- Clasificatori de interacțiune pentru învățare: detectează automat „momentele de învățare” în cadrul interacțiunilor reale, anonimizate, cursant–model și etichetează caracteristici relevante, precum implicarea și corectarea erorilor.
- Evaluatorii calității învățării: aceștia evaluează și notează fiecare dintre momentele de învățare în funcție de atingerea obiectivului de către cursant și de măsura în care interacțiunea a respectat principii pedagogice solide, inclusiv identificarea modurilor de eșec.
- Evaluatori ai învățării longitudinale: aceștia urmăresc schimbările în interacțiunile aceluiași cursant cu modelul de-a lungul timpului — inclusiv implicarea, perseverența și strategiile metacognitive — la nivel individual și de cohortă.
- Măsuri cognitive și metacognitive standardizate: acestea sunt instrumente validate de la terți, furnizate prin ChatGPT înainte/în timpul/după accesare, pentru a stabili valori de referință și a măsura schimbările în capacitățile fundamentale, cum ar fi gândirea critică, creativitatea și memoria.
Când sunt combinate, ne referim la acest sistem de măsurare ca Suita de măsurare a rezultatelor învățării.
Produce semnale importante pe care ecosistemul educațional le poate utiliza: vizualizări structurate ale momentelor de învățare, tablouri de bord care arată cum se schimbă rezultatele în timp în cadrul cohortelor, indicatori ai performanței modelului în raport cu rubricile de predare și meditații și măsuri de evaluare a rezultatelor aliniate la evaluări standardizate și chestionare scurte pentru cursanți. Dacă este posibil, poate include informații reale furnizate de parteneri, cum ar fi scoruri la examene, observații din sala de clasă sau prezența la ore.
Toate datele au fost anonimizate
De asemenea, le permite partenerilor noștri să înțeleagă impactul cognitiv mai profund al utilizării IA pentru învățare în timp, deoarece prin intermediul acestui sistem putem urmări impactul asupra unor capacități precum:
- Motivația autonomă: măsura în care cursanții își structurează propria învățare, față de a fi ghidați de model
- Implicare productivă: frecvența, varietatea și calitatea interacțiunilor pedagogice
- Perseverență în sarcini: măsura în care un cursant rămâne implicat și depășește provocările cognitive
- Metacogniția: frecvența și calitatea eforturilor cursanților de a-și planifica, evalua și monitoriza abordările privind studiul
- Reamintirea: acuratețea cu care un cursant își poate aminti conținutul din interacțiunile anterioare
Acest lucru reflectă eforturile noastre generale de a nu ne concentra pur și simplu pe definiții restrânse ale rezultatelor învățării (creșterea punctajelor la teste), ci pe capacitățile holistice care stau la baza învățării. De asemenea, reflectă convingerea noastră că nu există o soluție miraculoasă în ceea ce privește optimizarea: sistemele și cadrele didactice vor avea nevoie de competențe pentru a coordona compromisurile în conformitate cu cele mai bune practici și abordări pedagogice.
Încotro mergem de aici
Validăm Suita de măsurare a rezultatelor învățării prin studii la scară largă înainte de a o pune la dispoziție pe scară largă. Acest proiect este realizat în colaborare cu Universitatea din Tartu și inițiativa SCALE a Universității Stanford, cu parteneri la nivel național, precum Estonia, unde setul de instrumente de măsurare este studiat pe parcursul a câteva luni cu aproape 20.000 de elevi cu vârste cuprinse între 16 și 18 ani. Utilizarea de către studenți va avea loc în strânsă colaborare cu liderii locali, pentru a asigura siguranța și alinierea la programa locală.
„Estonia a abordat întotdeauna educația nu ca pe un sistem static, ci ca pe unul pe care îl îmbunătățim continuu. Odată cu integrarea inteligenței artificiale în acest context, o întrebare importantă este cum putem măsura impactul pe termen lung al IA asupra învățării. Asta încercăm să aflăm în colaborare cu OpenAI. Studenții sunt dornici să se implice în procesul de dezvoltare și mulți vor să învețe cum să sprijine învățarea cu ajutorul IA. Pare a fi un adevărat punct de cotitură și suntem încântați să contribuim cu metode pe care alte sisteme educaționale le pot reutiliza și dezvolta în continuare.”
Acest demers se bazează pe o serie mai amplă de cercetări colaborative aflate în curs de desfășurare. Pe lângă cercetările privind rezultatele efectuate prin intermediul partenerilor fondatori din cadrul Learning Lab, OpenAI sprijină cercetări la intersecția dintre învățare și muncă, examinând modul în care IA influențează parcursul academic al elevilor și studenților, deciziile lor profesionale și modurile în care instituțiunile pot sprijini adoptarea responsabilă a acesteia. Această cercetare se desfășoară la Universitatea Bocconi, Innova Schools și Tuck School of Business din Dartmouth, Universitatea de Stat din San Diego, Universitatea Stony Brook și altele.
Pe măsură ce realizăm studii pe termen lung privind modul în care elevii și studenții pot învăța optim cu ajutorul IA, intenționăm să împărtășim concluziile și să colaborăm cu ecosistemul educațional mai larg pentru a ne asigura că IA aduce beneficii tuturor elevilor și studenților de pretutindeni.
Cei interesați să primească actualizări despre acest proiect se pot înscrie aici.


