Salta al contingut principal
OpenAI

4 de març del 2026

Afers globals

Noves eines per comprendre la IA i els resultats d’aprenentatge

Impulsar la mesura de l’impacte de la IA en diversos entorns d’aprenentatge

L’educació és una de les fronteres més prometedores de la IA. Amb eines com ChatGPT, el suport d’aprenentatge personalitzat pot estar disponible per a qualsevol estudiant, a qualsevol lloc i en qualsevol moment. 

Però el sector educatiu encara es troba en una fase inicial de comprensió de l’impacte de la IA en els resultats d’aprenentatge. L’any passat, el nostre equip es va proposar estudiar l’ús d’eines com el mode d'estudi i va trobar millores prometedores en el rendiment dels estudiants. Però la nostra recerca també va plantejar una pregunta important: com podem avaluar com la IA influeix en el progrés d’un alumne al llarg del temps, i no només en un examen final?

Aquest és un repte més ampli de l’ecosistema. Fins ara, la majoria de mètodes de recerca se centren en senyals de rendiment limitats —com ara les puntuacions de proves— i no tenen la capacitat d’avaluar com aprenen realment els estudiants amb la IA en entorns reals, ni com aquest ús modela els resultats al llarg del temps. 

Per abordar aquesta mancança, hem desenvolupat la Learning Outcomes Measurement Suite, un marc creat amb la Universitat de Tartu d’Estònia i la iniciativa SCALE del Stanford Accelerator for Learning per donar suport a la mesura longitudinal dels resultats d’aprenentatge en diferents contextos educatius. 

S’està duent a terme una validació exhaustiva mitjançant un assaig controlat aleatoritzat, i hi ha prevista més recerca amb organitzacions fundadores del Learning Lab, l’ecosistema de recerca sobre aprenentatge d’OpenAI, inclosos investigadors de l’Arizona State University, UCL Knowledge Lab i MIT Media Lab (basant-se en estudis col·laboratius anteriors).

Avui compartim una visió general de com funciona la suite de mesura i per què és important. Amb el temps, tenim la intenció de publicar més recerca i oferir la suite de mesura com a recurs públic per a escoles, universitats i sistemes educatius d’arreu del món.

«Aquesta recerca ens permet aprendre ràpidament i, alhora, establir les bases per a una comprensió més profunda de com la IA es pot integrar de manera reflexiva a les escoles d’una manera que realment importi. Volem entendre com aquestes eines poden donar suport a un aprenentatge acadèmic rigorós i, al mateix temps, cultivar el pensament d’ordre superior, la creativitat, la curiositat i la confiança dels estudiants en si mateixos com a aprenents.»
–Susanna Loeb, professora d’Educació i directora acadèmica de la iniciativa SCALE a la Universitat de Stanford

Resum de les conclusions principals

  • Els mètodes de recerca actuals sobre l’impacte de la IA en l’aprenentatge mostren senyals prometedors sobre el rendiment, però no capten la imatge completa de com la IA afecta els resultats d’aprenentatge al llarg del temps.
  • La Learning Outcomes Measurement Suite proporcionarà, per primera vegada, un marc estàndard per a estudis longitudinals que ajudin educadors, investigadors i institucions a entendre com la IA modela l’aprenentatge i els resultats en diferents contextos.
  • El Learning Lab d’OpenAI és un nou ecosistema de recerca centrat a impulsar aquest treball. OpenAI publicarà resultats juntament amb una sèrie de socis a mesura que el camp continuï desenvolupant-se.

Orígens i recerca inicial

Quan els estudiants utilitzen eines d’IA per estudiar i aprendre, això pot significar moltes coses diferents: des d’acudir a la IA per obtenir respostes ràpides fins a fer-la servir per resoldre problemes pas a pas amb una orientació semblant a la d’un tutor. Per animar els usuaris a interactuar amb ChatGPT de maneres que afavoreixin una comprensió més profunda i el desenvolupament d’habilitats, OpenAI va presentar el mode d'estudi l’any passat.  Internament, el mode d'estudi funciona amb instruccions de sistema personalitzades que hem redactat en col·laboració amb professors, científics i experts en pedagogia per reflectir un conjunt bàsic de comportaments que afavoreixen un aprenentatge real, no només respostes, mitjançant bastides pedagògiques, comprovacions de comprensió i pràctica guiada.

Per comprovar si aquest tipus d’estil d’interacció amb IA alineat pedagògicament es tradueix en millors resultats d’aprenentatge, vam dur a terme un estudi aleatoritzat amb més de 300 estudiants universitaris que es preparaven per a exàmens de neurociència i microeconomia. Tot i que l’anàlisi encara continua, els primers resultats ens donen confiança que un estil d’interacció amb IA alineat pedagògicament, fomentat mitjançant funcionalitats com el mode d'estudi, pot millorar els resultats d’aprenentatge. Però aquesta recerca també va posar de manifest una realitat important: el que realment importa és si les millores i els comportaments productius associats es mantenen en el temps.

Disseny de l’estudi

Els participants van ser assignats a un de tres grups: un grup de control estudiava amb recursos en línia tradicionals com Google Search i YouTube, amb les funcions de resum generat per IA desactivades, mentre que a dos grups addicionals se’ls va donar accés a una de dues variants del mode d'estudi dissenyades per guiar els estudiants durant el procés d’aprenentatge de maneres lleugerament diferents. Es van recollir qüestionaris inicials i enquestes d’incorporació per ajustar les diferències en l’exposició prèvia a assignatures, hàbits d’estudi, confiança acadèmica i familiaritat amb eines d’IA. Els estudiants van completar sessions cronometrades de mode d'estudi abans de cada examen, amb les dues variants del mode d'estudi contrabalançades entre assignatures.

Aquesta configuració es va dissenyar per reflectir condicions d’estudi del món real, més que no pas un entorn de laboratori estretament controlat. La participació no estava vinculada al rendiment a l’examen, i no tots els estudiants van utilitzar el mode d'estudi en la mateixa mesura durant les sessions nominals de 40 minuts. Això ens va permetre mesurar i informar dels efectes d’intenció de tractar (ITT), és a dir, l’impacte de proporcionar accés a l’eina en condicions de desplegament realistes; en altres paraules, l’impacte causal d’oferir el mode d'estudi, reconeixent que, a la pràctica, el grau d’ús pot variar.

Resultats

Vam mesurar el rendiment a cada examen per separat. En el nostre estudi aleatoritzat, les millores no van ser uniformes entre assignatures, i els nivells d’ús del mode d'estudi van variar entre participants. 

  • Neurociència (ITT principal): vam observar diferències positives en la direcció del mode d'estudi respecte del control, però els resultats no es distingien dels dels estudiants que estudiaven amb recursos en línia tradicionals. Alguns problemes tècnics i d’incorporació van afectar el temps d’estudi dels estudiants que utilitzaven el mode d'estudi. 
  • Microeconomia (ITT principal): vam observar millores significatives en el rendiment a l’examen entre els estudiants amb accés assignat al mode d'estudi en comparació amb el grup de control sense IA: aproximadament una puntuació un 15% superior en termes relatius.

mode d'estudi (variants A i B) vs. control (grup sense IA): puntuacions mitjanes ajustades dels exàmens

L’efecte es manté constant quan comparem cada variant del mode d'estudi per separat amb el grup de control.

Tot i que això reflecteix la variació del món real, també va posar en relleu una limitació més profunda de com se solen mesurar els resultats d’aprenentatge.

La majoria dels enfocaments d’avaluació existents es basen en intervencions fixes avaluades durant períodes curts, amb resultats com les puntuacions de proves o els assajos finals com a senyals principals. Aquests mètodes no estan dissenyats per captar el mecanisme central mitjançant el qual la IA afecta l’aprenentatge a la pràctica: interaccions contínues i personalitzades que evolucionen juntament amb les estratègies, preferències i hàbits d’estudi del mateix alumne. Tampoc mostren si les millores en una capacitat, com ara el record a curt termini, poden anar acompanyades de compensacions en d’altres, com la persistència, la motivació autònoma o la resolució creativa de problemes. Com a resultat, no detecten els efectes cognitius longitudinals que, en última instància, determinen si la IA millora de manera significativa l’aprenentatge. 

Com que els entorns d’aprenentatge difereixen molt entre països, currículums i objectius institucionals, els resultats d’estudis puntuals poques vegades es poden generalitzar entre sistemes. Per tant, els enfocaments de mesura han de ser prou flexibles perquè diferents sistemes educatius puguin definir què significa l’èxit en el seu context, avaluar la IA segons els seus propis estàndards i iterar en conseqüència.

Construir un millor sistema de mesura 

Basant-nos en els aprenentatges de la recerca d’OpenAI sobre el mode d'estudi, hem estat construint un sistema de mesura estructurat per mesurar a escala l’impacte de la IA en els aprenents i crear un mecanisme per millorar els models a partir d’aquests resultats. Es fonamenta en tres senyals: com es comporta el model, com responen els aprenents i quins resultats cognitius mesurables es produeixen al llarg del temps. Inclou: 

  • Instruccions de sistema per perfeccionar el comportament del model: ús del llenguatge natural per canviar el comportament predeterminat del model i alinear-lo millor amb enfocaments pedagògics específics.
  • Classificadors d’interacció d’aprenentatge: aquests detecten automàticament «moments d’aprenentatge» dins d’interaccions reals i desidentificades entre aprenent i model, i n’etiqueten característiques rellevants com la implicació i la correcció d’errors.
  • Avaluadors de qualitat de l’aprenentatge: aquests avaluen i puntuen cadascun d’aquests moments d’aprenentatge segons si l’aprenent ha assolit el seu objectiu i fins a quin punt la interacció ha seguit principis pedagògics sòlids, inclosa la identificació de modes de fallada.
  • Avaluadors longitudinals de l’aprenentatge: aquests fan un seguiment dels canvis en les interaccions del mateix aprenent amb el model al llarg del temps —incloent-hi la implicació, la persistència i les estratègies metacognitives— tant a escala individual com de cohort.
  • Mesures cognitives i metacognitives estandarditzades: són instruments validats per tercers administrats mitjançant ChatGPT abans/durant/després de l’accés per establir línies de base i mesurar canvis en capacitats fonamentals com el pensament crític, la creativitat i la memòria.

Quan es combinen, ens referim a aquest sistema de mesura com la Learning Outcomes Measurement Suite. 

Produeix senyals importants que l’ecosistema educatiu pot utilitzar: visions estructurades dels moments d’aprenentatge, taulers que mostren com evolucionen els resultats al llarg del temps entre cohorts, indicadors del rendiment del model en relació amb rúbriques d’ensenyament i tutoria, i mesures de resultats alineades amb avaluacions estandarditzades i qüestionaris breus per a aprenents. Quan n’hi ha, pot incorporar dades de referència proporcionades pels socis, com ara puntuacions d’exàmens, observacions d’aula o assistència.

 Diagrama que il·lustra un flux de treball de mesura dels resultats d’aprenentatge en què la IA processa dades mitjançant passos d’anàlisi, avaluació i verificació abans d’oferir informació útil per donar suport a un alumne.

Totes les dades estan desidentificades

També permet als nostres socis entendre els impactes cognitius més profunds de l’ús de la IA per aprendre al llarg del temps, ja que, mitjançant aquest sistema, també podem fer un seguiment de l’impacte en capacitats com ara:

  • Motivació autònoma: el grau en què els aprenents orienten els seus propis estudis en lloc de ser dirigits pel model 
  • Implicació productiva: la freqüència, varietat i qualitat de les interaccions pedagògiques
  • Persistència en la tasca: el grau en què un aprenent s’atura en els reptes cognitius i persevera per superar-los
  • Metacognició: la freqüència i qualitat dels esforços de l’aprenent per planificar, reflexionar i supervisar les seves maneres d’estudiar
  • Record: la precisió amb què un aprenent pot recordar contingut d’interaccions anteriors

Això reflecteix els nostres esforços globals per no centrar-nos simplement en definicions restringides dels resultats d’aprenentatge (l’augment de les puntuacions en proves), sinó en les capacitats holístiques que sustenten l’aprenentatge. També reflecteix la nostra convicció que no hi haurà cap solució miraculosa pel que fa a allò que cal optimitzar: caldrà donar poder als sistemes i als educadors perquè orientin les compensacions d’acord amb les millors pràctiques i enfocaments pedagògics.

Cap a on anem a partir d’aquí

Estem validant la Learning Outcomes Measurement Suite mitjançant estudis a gran escala abans de posar-la àmpliament a disposició. Aquest treball està en marxa amb la Universitat de Tartu i la iniciativa SCALE de Stanford amb socis d’abast nacional com Estònia, on la suite de mesura s’està estudiant amb gairebé 20.000 estudiants de 16 a 18 anys durant diversos mesos. L’ús per part dels estudiants es farà en estreta col·laboració amb líders locals, per garantir la seguretat i l’alineament amb els currículums locals.

«Estònia sempre ha enfocat l’educació no com una cosa estàtica, sinó com un sistema que millorem contínuament. Amb la IA formant part d’aquest panorama, la gran pregunta és com mesurem l’impacte a llarg termini de la IA en l’aprenentatge. Això és el que estem esbrinant en col·laboració amb OpenAI. Els estudiants tenen moltes ganes d’implicar-se en el procés de desenvolupament, i molts volen aprendre com donar suport a l’aprenentatge amb IA. Sembla un autèntic punt d’inflexió, i ens entusiasma contribuir amb mètodes que altres sistemes educatius puguin reutilitzar i desenvolupar.»
–Jaan Aru, professor associat de l’Institut d’Informàtica de la Universitat de Tartu

Aquest treball se sustenta en un conjunt més ampli de recerca col·laborativa en curs. A més de la recerca sobre resultats que es duu a terme a través dels socis fundadors del Learning Lab, OpenAI dona suport a estudis a la intersecció entre aprenentatge i treball, examinant com la IA modela les trajectòries acadèmiques dels estudiants, les decisions professionals i les maneres en què les institucions poden donar suport a una adopció responsable. Aquesta recerca es duu a terme a la Universitat Bocconi, Innova Schools i la Tuck School of Business de Dartmouth, la San Diego State University, la Stony Brook University i altres institucions.

A mesura que duguem a terme estudis a més llarg termini sobre com aprenen millor els estudiants amb la IA, tenim la intenció de compartir-ne els resultats i de treballar amb el conjunt de l’ecosistema educatiu per garantir que la IA beneficiï els aprenents de tot arreu.

Les persones interessades a rebre actualitzacions sobre aquest treball es poden registrar aquí.