Nuevas herramientas para comprender la IA y los resultados del aprendizaje
Avanzamos en la forma de medir el impacto de la IA en los entornos de aprendizaje
La educación es una de las áreas más prometedoras para la IA. Gracias a herramientas como ChatGPT, cualquier estudiante puede recibir apoyo personalizado en su aprendizaje, en cualquier lugar y momento.
El sector educativo aún se encuentra en las primeras etapas de comprensión del impacto de la IA en los resultados de aprendizaje. El año pasado, nuestro equipo se propuso estudiar el uso de herramientas como Modo de estudio y encontró mejoras prometedoras en el rendimiento de los estudiantes. Sin embargo, nuestra investigación también planteó una pregunta importante: ¿cómo podemos evaluar la influencia de la IA en el progreso del estudiante a lo largo del tiempo, y no solo en un examen final?
Se trata de un desafío que se extiende a todo el ecosistema. Hasta ahora, la mayoría de los métodos de investigación se enfocan en señales de desempeño limitadas, como las calificaciones, y carecen de la capacidad para evaluar cómo los estudiantes realmente aprenden con la IA en entornos reales y cómo ese uso influye en los resultados a lo largo del tiempo.
Para abordar esta brecha, hemos desarrollado la Suite de medición de resultados de aprendizaje, un marco creado junto con la Universidad de Tartu en Estonia y la Iniciativa SCALE del Stanford Accelerator for Learning, diseñado para respaldar la medición longitudinal de los resultados de aprendizaje en diferentes contextos educativos.
Se está llevando a cabo una validación exhaustiva mediante un ensayo controlado aleatorizado, y se planean investigaciones adicionales con las organizaciones fundadoras en el Learning Lab, el ecosistema de investigación sobre aprendizaje de OpenAI, que incluye a investigadores de Arizona State University, UCL Knowledge Lab y MIT Media Lab (sobre la base de estudios colaborativos previos).
Hoy compartimos un panorama general de cómo funciona la suite para medir resultados de aprendizaje y por qué es importante. Con el tiempo, planeamos publicar más investigaciones y poner a disposición este conjunto de herramientas como un recurso público para escuelas, universidades y sistemas educativos de todo el mundo.
«Esta investigación nos permite aprender rápidamente y, al mismo tiempo, sentar las bases para comprender de manera más profunda cómo se puede integrar la IA en las escuelas de forma reflexiva y significativa. Queremos entender cómo estas herramientas pueden apoyar un aprendizaje académico riguroso, y al mismo tiempo, fomentar el pensamiento de orden superior, la creatividad, la curiosidad y la confianza de los estudiantes en sí mismos como aprendices».
- Los métodos de investigación actuales sobre el impacto de la IA en el aprendizaje muestran señales prometedoras sobre el rendimiento, pero no capturan el panorama completo de cómo la IA afecta los resultados de aprendizaje a lo largo del tiempo.
- La Suite de medición de resultados de aprendizaje proporcionará, por primera vez, un marco estándar para estudios longitudinales que ayuden a docentes, investigadores e instituciones a comprender cómo la IA influye en el aprendizaje y en los resultados en distintos contextos.
- El Learning Lab de OpenAI es un nuevo ecosistema de investigación centrado en impulsar este trabajo. OpenAI publicará los hallazgos junto con diversos socios a medida que el campo continúe desarrollándose.
Cuando los estudiantes usan herramientas de IA para estudiar y aprender, esto puede significar muchas cosas distintas: desde recurrir a la IA para obtener respuestas rápidas hasta usarla para resolver problemas paso a paso con una guía similar a la de un tutor. Para alentar a los usuarios a interactuar con ChatGPT de formas que promuevan una comprensión más profunda y el desarrollo de habilidades, OpenAI presentó Modo de estudio el año pasado. A nivel interno, funciona con instrucciones personalizadas del sistema que hemos redactado en colaboración con docentes, científicos y expertos en pedagogía, con el fin de reflejar un conjunto básico de prácticas que apoyan el aprendizaje real y no solo la obtención de respuestas, a través del andamiaje, las comprobaciones de comprensión y la práctica guiada.
Para comprobar si este tipo de estilo de interacción con IA, alineado con principios pedagógicos, se traduce en mejores resultados del aprendizaje, realizamos un estudio aleatorizado con más de 300 estudiantes universitarios que se preparaban para exámenes de neurociencia y microeconomía. Aunque el análisis aún está en curso, los resultados preliminares nos dan confianza en que un estilo de interacción con IA alineado con la pedagogía, como el que promueven funciones como Modo de estudio, puede mejorar los resultados de aprendizaje. Pero esta investigación también reveló una realidad importante: lo que verdaderamente importa es si las mejoras y los comportamientos productivos asociados se mantienen a lo largo del tiempo.
Diseño del estudio
Se asignó a los participantes a uno de tres grupos: un grupo de control que estudió con recursos en línea tradicionales, como Google Search y YouTube, con las funciones de resumen generadas por IA desactivadas; y dos grupos adicionales que tuvieron acceso a una de dos variantes de Modo de estudio, diseñadas para guiar a los estudiantes a lo largo del proceso de aprendizaje de formas ligeramente distintas. Los cuestionarios de referencia y las encuestas de incorporación se recopilaron con antelación para ajustar las diferencias en la exposición previa a cursos, los hábitos de estudio, la confianza académica y la familiaridad con herramientas de IA. Los estudiantes completaron sesiones cronometradas con Modo de estudio antes de cada examen, y ambas variantes se contrabalancearon entre asignaturas.
Este diseño se planteó para reflejar condiciones reales de estudio, en lugar de un entorno de laboratorio estrictamente controlado. La participación no se vinculó con el desempeño en el examen y no todos los estudiantes utilizaron Modo de estudio en la misma medida durante las sesiones programadas de 40 minutos. Esto permitió medir y reportar efectos mediante un análisis de intención por tratar (ITT): el impacto de proporcionar acceso a la herramienta en condiciones de implementación realistas; es decir, el efecto causal de ofrecer Modo de estudio, reconociendo que la participación puede variar en la práctica.
Hallazgos
Medimos el rendimiento en cada examen por separado. En nuestro estudio aleatorizado, las mejoras no fueron uniformes entre las asignaturas y los niveles de participación con Modo de estudio variaron entre los participantes.
- Neurociencia (ITT principal): observamos diferencias direccionalmente positivas en el grupo que usó Modo de estudio frente al control, pero los resultados no se distinguen de los observados en los participantes que estudiaron con recursos tradicionales en línea. Algunos problemas de incorporación y técnicos afectaron el tiempo de estudio de quienes utilizaron Modo de estudio.
- Microeconomía (ITT principal): observamos mejoras significativas en el rendimiento del examen entre los estudiantes con acceso a Modo de estudio frente al grupo de control sin IA, aproximadamente una puntuación 15 % superior en términos relativos.
El efecto se mantiene consistente al comparar cada variante del modo de estudio por separado con el grupo control.
Si bien esto refleja la variación del mundo real, puso de manifiesto una limitación más profunda en cómo suelen medirse los resultados de aprendizaje.
La mayoría de los enfoques de evaluación existentes se basan en intervenciones fijas evaluadas en ventanas de tiempo cortas, utilizando resultados como calificaciones de exámenes o ensayos finales como señales principales. Estos métodos no están diseñados para capturar el mecanismo central mediante el cual la IA afecta el aprendizaje en la práctica: interacciones continuas y personalizadas que evolucionan junto con las estrategias, preferencias y hábitos de estudio del estudiante. Tampoco permiten identificar si las mejoras en una capacidad, como la memoria a corto plazo, pueden acompañarse de efectos contrapuestos en otras, como la persistencia, la motivación autónoma o la resolución creativa de problemas. Como resultado, se pasan por alto los efectos cognitivos longitudinales que, en última instancia, determinan si la IA mejora significativamente el aprendizaje.
Dado que los entornos de aprendizaje varían ampliamente entre países, planes de estudio y objetivos institucionales, los resultados de estudios aislados rara vez se generalizan a otros sistemas. Por lo tanto, los enfoques de medición deben ser lo suficientemente flexibles para que cada sistema educativo pueda definir qué significa el éxito en su contexto, evaluar la IA según sus propios estándares y ajustar sus métodos en consecuencia.
Construir un mejor sistema de medición
A partir de los aprendizajes de la investigación sobre Modo de estudio de OpenAI, hemos desarrollado un sistema de medición estructurado para evaluar el impacto de la IA en los estudiantes a gran escala y crear un mecanismo que permita mejorar los modelos a partir de esos resultados. Se basa en tres señales: cómo se comporta el modelo, cómo responden los estudiantes y qué resultados cognitivos medibles se obtienen con el tiempo. Incluye lo siguiente:
- Instrucciones del sistema para refinar el comportamiento del modelo: uso de lenguaje natural para modificar el comportamiento predeterminado del modelo y alinearlo con enfoques pedagógicos específicos.
- Clasificadores de interacciones de aprendizaje: estos detectan automáticamente «momentos de aprendizaje» dentro de interacciones reales y desidentificadas entre el estudiante y el modelo, y etiquetan características relevantes como la participación y la corrección de errores.
- Evaluadores de calidad del aprendizaje: estos evalúan y puntúan cada uno de esos momentos de aprendizaje según si el estudiante logró su objetivo y el grado en que la interacción siguió principios pedagógicos sólidos, incluida la identificación de modos de fallo.
- Evaluadores de aprendizaje longitudinal: estos registran los cambios en las interacciones del mismo estudiante con el modelo a lo largo del tiempo, incluida la participación, la persistencia y las estrategias metacognitivas, tanto a nivel individual como de cohortes.
- Medidas cognitivas y metacognitivas estandarizadas: son instrumentos validados por terceros, aplicados a través de ChatGPT antes, durante y después del acceso, para establecer líneas base y medir cambios en capacidades fundamentales como el pensamiento crítico, la creatividad y la memoria.
Cuando se combinan, nos referimos a este sistema de medición como la Suite de medición de resultados de aprendizaje.
Genera señales importantes que el ecosistema educativo puede aprovechar: vistas estructuradas de momentos de aprendizaje, paneles que muestran cómo cambian los resultados a lo largo del tiempo en distintas cohortes, indicadores del desempeño del modelo frente a rúbricas de enseñanza y tutoría, y medidas de resultados alineadas con evaluaciones estandarizadas y cuestionarios breves para estudiantes. Cuando están disponibles, también puede incorporar datos de referencia proporcionada por socios, como puntajes de exámenes, observaciones en el aula o asistencia.
Todos los datos anonimizados
También permite que nuestros socios comprendan los impactos cognitivos más profundos del uso de la IA para el aprendizaje a lo largo del tiempo, ya que este sistema nos permite, además, hacer un seguimiento del impacto en capacidades como:
- Motivación autónoma: el grado en que los estudiantes dirigen su propio aprendizaje frente a ser guiados por el modelo.
- Compromiso productivo: la frecuencia, la variedad y la calidad de las interacciones pedagógicas.
- Persistencia en la tarea: el grado en que un estudiante se mantiene y supera los desafíos cognitivos.
- Metacognición: la frecuencia y la calidad de los esfuerzos del estudiante por planificar, reflexionar y monitorear sus métodos de estudio.
- Recuerdo: la precisión con la que un estudiante puede recordar contenido de interacciones previas.
Esto refleja nuestros esfuerzos generales por no centrarnos simplemente en definiciones limitadas de los resultados de aprendizaje (como el aumento de calificaciones), sino en las capacidades holísticas que sustentan el aprendizaje. También refleja nuestra convicción de que no existe una solución única en cuanto a qué optimizar: los sistemas y los educadores deberán estar capacitados para guiar los intercambios siguiendo las mejores prácticas y los enfoques pedagógicos.
Adónde nos lleva esto
Estamos validando la Suite de medición de resultados de aprendizaje mediante estudios a gran escala antes de ponerla a disposición general. Este trabajo se está realizando junto con la Universidad de Tartu y la Iniciativa SCALE de Stanford, en colaboración con socios a nivel nacional como Estonia, donde la suite de medición se estudia con casi 20 000 estudiantes de entre 16 y 18 años durante varios meses. El uso por parte de los estudiantes se llevará a cabo en estrecha colaboración con líderes locales, para garantizar la seguridad y la alineación con los planes de estudio locales.
«Estonia siempre ha abordado la educación no como algo estático, sino como un sistema que se mejora de manera continua. Con la IA formando parte de ese panorama, la gran pregunta es cómo medir su impacto a largo plazo en el aprendizaje. Es lo que estamos averiguando en colaboración con OpenAI. Los estudiantes tienen mucho interés en participar en el proceso de desarrollo, y muchos quieren aprender cómo apoyar el aprendizaje con IA. Parece un punto de inflexión real, y nos entusiasma contribuir con métodos que otros sistemas educativos puedan reutilizar y desarrollar».
Este trabajo se basa en un conjunto más amplio de investigación colaborativa en curso. Además de la investigación sobre resultados que se realiza a través de los socios fundadores en el Learning Lab, OpenAI está apoyando estudios en la intersección entre aprendizaje y trabajo, examinando cómo influye la IA en las trayectorias académicas de los estudiantes, en sus decisiones profesionales y en las formas en que las instituciones pueden favorecer una adopción responsable. Esta investigación está en curso en la Universidad Bocconi, Innova Schools y la Tuck School of Business en Dartmouth, San Diego State University, Stony Brook University y otras.
A medida que llevamos a cabo estudios a largo plazo sobre cómo los estudiantes aprenden mejor con IA, tenemos la intención de compartir los hallazgos y colaborar con el ecosistema educativo en general para garantizar que la IA beneficie al alumnado en todas partes.
Si te interesa recibir actualizaciones sobre este trabajo, puedes registrarte aquí.


