Saltar para o conteúdo principal
OpenAI

4 de março de 2026

Assuntos globais

Novas ferramentas para compreender a IA e os resultados de aprendizagem

Melhorar a forma como se mede o impacto da IA em ambientes de aprendizagem

A educação é uma das fronteiras mais promissoras da IA. Com ferramentas como o ChatGPT, o apoio à aprendizagem personalizada pode estar disponível para qualquer estudante, em qualquer lugar e a qualquer momento.

Mas o setor da educação ainda está numa fase inicial de compreensão do impacto da IA nos resultados de aprendizagem. No ano passado, a nossa equipa propôs-se estudar a utilização de ferramentas como o modo de estudo e encontrou ganhos promissores no desempenho dos alunos. Mas a nossa investigação também levantou uma questão importante: como podemos avaliar a forma como a IA influencia o progresso de um aluno ao longo do tempo, e não apenas num exame final?

Este é um desafio mais amplo do ecossistema. Até à data, a maioria dos métodos de investigação foca-se em sinais de desempenho restritos—como as notas—e não tem capacidade para avaliar como é que os alunos realmente aprendem com IA em contextos reais e como essa utilização molda os resultados ao longo do tempo. 

Para colmatar esta lacuna, desenvolvemos o Conjunto de Medição de Resultados de Aprendizagem, um enquadramento criado com a Universidade de Tartu, na Estónia, e a Iniciativa SCALE no Stanford Accelerator for Learning para apoiar a medição longitudinal dos resultados de aprendizagem em diferentes contextos educativos. 

Está em curso uma validação extensa através de um ensaio controlado aleatorizado, e estão planeadas mais investigações com organizações fundadoras no Learning Lab, o ecossistema de investigação em aprendizagem da OpenAI, incluindo investigadores da Arizona State University, do UCL Knowledge Lab e do MIT Media Lab (com base em estudos colaborativos anteriores).

Hoje, partilhamos uma visão geral de como funciona o conjunto de medição e por que motivo é importante. Ao longo do tempo, pretendemos publicar mais investigação e disponibilizar o conjunto de medição como um recurso público para escolas, universidades e sistemas educativos em todo o mundo.

«Esta investigação permite-nos aprender rapidamente e, ao mesmo tempo, lançar as bases para uma compreensão mais profunda de como a IA pode ser integrada de forma ponderada nas escolas, de maneiras que realmente importam. Queremos compreender como estas ferramentas podem apoiar uma aprendizagem académica rigorosa e, ao mesmo tempo, fomentar pensamento de nível superior, criatividade, curiosidade e a confiança dos alunos em si próprios como aprendizes.»
–Susanna Loeb, Professora de Educação e Diretora Académica, Iniciativa SCALE, Universidade de Stanford

Resumo das principais conclusões

  • Os métodos de investigação atuais sobre o impacto da IA na aprendizagem mostram sinais promissores em termos de desempenho, mas não captam a imagem completa de como a IA afeta os resultados de aprendizagem ao longo do tempo.
  • O Conjunto de Medição de Resultados de Aprendizagem irá, pela primeira vez, fornecer um enquadramento padrão para estudos longitudinais que ajudam educadores, investigadores e instituições a compreender como a IA molda a aprendizagem e os resultados em diferentes contextos.
  • O Learning Lab da OpenAI é um novo ecossistema de investigação focado em avançar este trabalho. A OpenAI irá publicar conclusões juntamente com uma variedade de parceiros à medida que a área continua a desenvolver-se.

Origens e investigação inicial

Quando os alunos usam ferramentas de IA para estudar e aprender, isso pode significar muitas coisas diferentes—desde recorrer à IA para obter respostas rápidas até utilizá-la para resolver problemas passo a passo com orientação semelhante à de um tutor. Para incentivar os utilizadores a interagir com o ChatGPT de formas que apoiem uma compreensão mais profunda e o desenvolvimento de competências, a OpenAI introduziu o modo de estudo no ano passado.  Nos bastidores, o modo de estudo é alimentado por instruções de sistema personalizadas que escrevemos em colaboração com professores, cientistas e especialistas em pedagogia para refletir um conjunto central de comportamentos que apoiam uma aprendizagem real, não apenas respostas—usando apoio gradual, verificações de compreensão e prática guiada.

Para testar se este tipo de estilo de interação de IA, alinhado com a pedagogia, se traduz em melhores resultados de aprendizagem, realizámos um estudo aleatorizado com mais de 300 estudantes universitários que se preparavam para exames de neurociência e microeconomia. Embora a análise ainda esteja a decorrer, os primeiros resultados dão-nos confiança de que um estilo de interação com IA alinhado com princípios pedagógicos, incentivado através de funcionalidades como o modo de estudo, pode melhorar os resultados de aprendizagem. Mas esta investigação também revelou uma realidade importante: o que realmente importa é saber se os ganhos e os comportamentos produtivos associados se mantêm duradouros ao longo do tempo.

Desenho do estudo

Os participantes foram atribuídos a um de três grupos: um grupo de controlo estudou usando recursos online tradicionais, como o Google Search e o YouTube, com as funcionalidades de visão geral geradas por IA desativadas, enquanto dois grupos adicionais tiveram acesso a uma de duas variantes do modo de estudo concebidas para orientar os estudantes no processo de aprendizagem de formas ligeiramente diferentes. Foram recolhidos, antecipadamente, testes de referência e inquéritos de integração (onboarding) para ajustar diferenças na exposição prévia a disciplinas, nos hábitos de estudo, na confiança académica e na familiaridade com ferramentas de IA. Os estudantes realizaram sessões cronometradas do modo de estudo antes de cada exame, com as duas variantes do modo de estudo contrabalançadas entre disciplinas.

Este desenho foi concebido para refletir condições reais de estudo, em vez de um ambiente laboratorial rigidamente controlado. A participação não estava associada ao desempenho no exame, e nem todos os estudantes utilizaram o modo de estudo na mesma medida durante as sessões nominalmente de 40 minutos. Isto permitiu-nos medir e reportar efeitos de intenção de tratar (ITT): o impacto de ter acesso à ferramenta em condições de implementação realistas — ou seja, o impacto causal de receber a oferta do modo de estudo, reconhecendo que o envolvimento pode variar na prática.

Resultados

Medimos o desempenho em cada exame separadamente. No nosso estudo aleatorizado, as melhorias não foram uniformes entre disciplinas, e os níveis de envolvimento com o modo de estudo variaram entre participantes. 

  • Neurociência (ITT principal): Observámos diferenças com tendência positiva do modo de estudo face ao controlo, mas os resultados não se distinguiram dos dos estudantes que estudaram com recursos online tradicionais. Alguns problemas de integração (onboarding) e técnicos afetaram o tempo de estudo dos estudantes que utilizaram o modo de estudo. 
  • Microeconomia (ITT principal): Observámos ganhos significativos no desempenho no exame entre os estudantes a quem foi atribuído acesso ao modo de estudo, face ao grupo de controlo sem IA — cerca de uma pontuação 15% superior, em termos relativos.

Modo de estudo (variantes A e B) vs Controlo (grupo sem IA): Pontuações médias ajustadas no exame

O efeito mantém-se consistente quando comparamos cada variante do modo de estudo separadamente com o controlo.

Embora isto reflita a variação do mundo real, evidenciou uma limitação mais profunda na forma como os resultados de aprendizagem são, em geral, medidos.

A maioria das abordagens de avaliação existentes assenta em intervenções fixas avaliadas em janelas de tempo curtas, usando resultados como notas de testes ou ensaios finais como principais indicadores. Estes métodos não foram concebidos para captar o mecanismo central pelo qual a IA afeta a aprendizagem na prática: interações contínuas e personalizadas que evoluem a par das estratégias, preferências e hábitos de estudo do próprio estudante. Também não revelam se melhorias numa capacidade, como a recordação a curto prazo, podem ocorrer com contrapartidas noutras, como a persistência, a motivação autónoma ou a resolução criativa de problemas. Como resultado, deixam de fora os efeitos cognitivos longitudinais que, em última análise, determinam se a IA melhora a aprendizagem de forma significativa.

Como os ambientes de aprendizagem variam muito entre países, currículos e objetivos institucionais, os resultados de estudos pontuais raramente se generalizam entre sistemas. As abordagens de medição devem, por isso, ser suficientemente flexíveis para que diferentes sistemas de ensino definam o que significa sucesso no seu contexto, avaliem a IA segundo os seus próprios padrões e iterem em conformidade.

Construir um melhor sistema de medição

Com base nas aprendizagens da investigação da OpenAI sobre o modo de estudo, temos vindo a construir um sistema de medição estruturado para medir, à escala, o impacto da IA nos estudantes e criar um mecanismo para melhorar os modelos com base nesses resultados. Assenta em três sinais — como o modelo se comporta, como os estudantes respondem e que resultados cognitivos mensuráveis surgem ao longo do tempo. Inclui:

  • Instruções de sistema para refinar o comportamento do modelo: uso de linguagem natural para alterar o comportamento predefinido do modelo, de modo a alinhar melhor com abordagens pedagógicas específicas.
  • Classificadores de interação de aprendizagem: detetam automaticamente «momentos de aprendizagem» em interações reais, desidentificadas, entre estudante e modelo, e etiquetam características salientes como o envolvimento e a correção de erros.
  • Avaliadores de qualidade da aprendizagem: avaliam e atribuem uma pontuação a cada um desses momentos de aprendizagem, consoante o estudante tenha atingido o seu objetivo e o grau em que a interação seguiu princípios pedagógicos sólidos, incluindo a identificação de modos de falha.
  • Avaliadores longitudinais de aprendizagem: acompanham, ao longo do tempo, mudanças nas interações do mesmo estudante com o modelo — incluindo envolvimento, persistência e estratégias metacognitivas — ao nível individual e de coorte.
  • Medidas cognitivas e metacognitivas padronizadas: são instrumentos validados por terceiros, aplicados via ChatGPT antes/durante/após o acesso, para estabelecer valores de referência e medir alterações em capacidades fundamentais como pensamento crítico, criatividade e memória.

Em conjunto, referimo-nos a este sistema de medição como a Suite de Medição de Resultados de Aprendizagem. 

Produz sinais importantes que o ecossistema educativo pode usar: visões estruturadas de momentos de aprendizagem, painéis que mostram como os resultados mudam ao longo do tempo entre coortes, indicadores do desempenho do modelo face a rubricas de ensino e tutoria e medidas de resultados alinhadas com avaliações padronizadas e questionários curtos aos estudantes. Quando disponível, pode incorporar dados de referência fornecidos por parceiros, como notas de exame, observações em sala de aula ou assiduidade.

 Diagrama que ilustra um fluxo de trabalho de medição de resultados de aprendizagem em que a IA processa dados através de etapas de análise, avaliação e verificação antes de fornecer conclusões para apoiar um aluno.

Todos os dados desidentificados

Permite também que os nossos parceiros compreendam os impactos cognitivos mais profundos do uso de IA para aprender ao longo do tempo, uma vez que este sistema também nos permite acompanhar o impacto em capacidades como:

  • Motivação autónoma: o grau em que os estudantes conduzem os próprios estudos vs serem orientados pelo modelo 
  • Envolvimento produtivo: a frequência, variedade e qualidade das interações pedagógicas
  • Persistência na tarefa: o grau em que o estudante se mantém e supera desafios cognitivos
  • Metacognição: a frequência e qualidade dos esforços do estudante para planear, refletir e monitorizar as suas abordagens ao estudo
  • Recordação: a precisão com que o estudante se recorda de conteúdos de interações anteriores

Isto reflete o nosso esforço global para não nos focarmos apenas em definições estreitas de resultados de aprendizagem (subida das notas), mas nas capacidades holísticas que sustentam a aprendizagem. Reflete também a nossa convicção de que não existe uma solução milagrosa sobre o que otimizar: os sistemas e os educadores terão de estar capacitados para orientar as compensações necessárias, de acordo com as melhores práticas e abordagens pedagógicas.

Para onde vamos a partir daqui

Estamos a validar a Suite de Medição de Resultados de Aprendizagem através de estudos em larga escala antes de a disponibilizarmos amplamente. Este trabalho está em curso com a Universidade de Tartu e a iniciativa SCALE de Stanford, junto de parceiros à escala nacional, como a Estónia, onde a suite de medição está a ser estudada com quase 20 000 estudantes entre os 16 e os 18 anos ao longo de vários meses. A utilização por estudantes acontecerá em estreita colaboração com líderes locais, para garantir segurança e alinhamento com os currículos locais.

«A Estónia sempre abordou a educação não como algo estático, mas como um sistema que melhoramos continuamente. Com a IA a tornar-se parte desse panorama, a grande questão é como medimos o impacto da IA na aprendizagem a longo prazo. É isso que estamos a descobrir em colaboração com a OpenAI. Os alunos estão empenhados em participar no processo de desenvolvimento, e muitos querem aprender a apoiar a aprendizagem com IA. Parece um verdadeiro ponto de viragem, e estamos entusiasmados por contribuir com métodos que outros sistemas educativos possam reutilizar e desenvolver.»
–Jaan Aru, Universidade de Tartu

Este trabalho baseia-se num conjunto mais amplo de investigação colaborativa em curso. Para além da investigação sobre resultados conduzida com parceiros fundadores no Learning Lab, a OpenAI está a apoiar estudos na interseção entre aprendizagem e trabalho — examinando como a IA molda os percursos académicos dos estudantes, as decisões de carreira e as formas como as instituições podem apoiar uma adoção responsável. Esta investigação está a decorrer na Universidade Bocconi, na Innova Schools, na Tuck School of Business at Dartmouth, na San Diego State University, na Stony Brook University e noutras instituições.

À medida que realizamos estudos de mais longo prazo sobre como os estudantes aprendem melhor com IA, pretendemos partilhar conclusões e trabalhar com o ecossistema educativo em geral para garantir que a IA beneficia estudantes em todo o lado.

Quem tiver interesse em receber atualizações sobre este trabalho pode inscrever-se aqui.