4. März 2026

Neue Tools zum Verständnis von KI und Lernergebnissen

Die Messung der Auswirkungen von KI in Lernumgebungen weiterentwickeln

Bildung ist einer der vielversprechendsten Frontier-Bereiche für KI. Mit Tools wie ChatGPT kann personalisierte Lernunterstützung für jede:n Lernende:n überall und jederzeit verfügbar sein.

Doch der Bildungssektor hat noch einen weiten Weg vor sich, um die Auswirkungen von KI auf Lernergebnisse zu verstehen. Letztes Jahr hat unser Team begonnen, den Einsatz von Tools wie Lernmodus⁠ zu untersuchen und vielversprechende Leistungssteigerungen bei den Lernenden festgestellt. Unsere Forschung hat aber auch eine wichtige Frage aufgeworfen: Wie können wir bewerten, wie KI den Lernfortschritt einer lernenden Person im Laufe der Zeit beeinflusst, nicht nur in einer Abschlussprüfung?

Dies ist eine Herausforderung für das breitere Ökosystem. Bis heute konzentrieren sich die meisten Forschungsmethoden auf eng gefasste Leistungssignale – wie etwa Testergebnisse – und verfügen nicht über die Fähigkeit zu bewerten, wie Lernende tatsächlich mit KI in realen Umgebungen lernen und wie diese Nutzung die Ergebnisse im Laufe der Zeit prägt.

Um diese Lücke zu schließen, haben wir die Learning Outcomes Measurement Suite, ein gemeinsam mit der Universität Tartu in Estland und der SCALE Initiative am Stanford Accelerator for Learning erstelltes Framework, entwickelt, um die langfristige Messung von Lernergebnissen in unterschiedlichen Bildungskontexten zu unterstützen.

Eine umfassende Validierung läuft derzeit im Rahmen einer randomisierten kontrollierten Studie, und weitere Forschung ist mit Gründungsorganisationen im Learning Lab, dem Lernforschungs-Ökosystem von OpenAI, geplant, darunter Forschende von der Arizona State University, vom UCL Knowledge Lab und vom MIT Media Lab (aufbauend auf früheren gemeinsamen Studien⁠).

Heute geben wir einen Überblick darüber, wie die Mess-Suite funktioniert und warum sie wichtig ist. Im Laufe der Zeit planen wir, weitere Forschungsergebnisse zu veröffentlichen und die Mess-Suite als öffentliche Ressource für Schulen, Universitäten und Bildungssysteme weltweit bereitzustellen.

„Diese Forschung ermöglicht es uns, schnell zu lernen und gleichzeitig die Grundlage für ein tieferes Verständnis davon zu schaffen, wie KI auf durchdachte Weise in Schulen integriert werden kann – auf eine Weise, die wirklich zählt. Wir möchten verstehen, wie diese Tools ein rigoroses akademisches Lernen unterstützen und gleichzeitig höheres Denken, Kreativität, Neugier und das Vertrauen der Schüler:innen in sich selbst als Lernende fördern können.”

–Susanna Loeb, Professor of Education and Faculty Director, SCALE Initiative an der Stanford University

Zusammenfassung der wichtigsten Punkte

Die heutigen Forschungsmethoden zu den Auswirkungen von KI auf das Lernen zeigen vielversprechende Signale hinsichtlich der Leistung, erfassen jedoch nicht das vollständige Bild davon, wie KI die Lernergebnisse im Laufe der Zeit beeinflusst.
Die Learning Outcomes Measurement Suite wird erstmals einen Standardrahmen für longitudinale Studien bereitstellen, die Lehrkräften, Forschenden und Institutionen helfen zu verstehen, wie KI das Lernen und die Lernergebnisse in unterschiedlichen Kontexten prägt.
OpenAIs Lernlabor ist ein neues Forschungsökosystem, das sich darauf konzentriert, diese Arbeit voranzutreiben. OpenAI wird Erkenntnisse gemeinsam mit einer Reihe von Partnern veröffentlichen, während sich das Feld weiterentwickelt.

Ursprünge und frühe Forschung

Wenn Lernende KI-Tools zum Lernen und Studieren nutzen, kann das vieles bedeuten – von der Nutzung von KI für schnelle Antworten bis hin zur schrittweisen Bearbeitung von Problemen mit einer Tutor-ähnlichen Anleitung. Um Nutzer:innen dazu zu ermutigen, sich mit ChatGPT auf eine Weise zu beschäftigen, die ein tieferes Verständnis und den Aufbau von Fähigkeiten unterstützt, hat OpenAI letztes Jahr den Lernmodus⁠ eingeführt. Im Hintergrund stützt sich der Lernmodus auf maßgeschneiderte Systemanweisungen, die wir in Zusammenarbeit mit Lehrkräften, Wissenschaftler:innen und Pädagogikfachleuten verfasst haben, um eine Reihe von Kernverhaltensweisen abzubilden, die echtes Lernen unterstützen, nicht nur Antworten – durch Scaffolding, Verständnisprüfungen und angeleitetes Üben.

Um zu testen, ob diese Art der pädagogisch ausgerichteten KI-Interaktion zu besseren Lernergebnissen führt, haben wir eine randomisierte Studie mit über 300 College-Studierenden durchgeführt, die sich auf Prüfungen in Neurowissenschaften und Mikroökonomie vorbereiteten. Während die Analyse noch läuft, geben uns erste Ergebnisse die Zuversicht, dass ein pädagogisch abgestimmter KI-Interaktionsstil, der durch Funktionen wie den Lernmodus gefördert wird, Lernergebnisse verbessern kann. Doch diese Forschung brachte auch eine wichtige Realität ans Licht: Entscheidend ist, ob die Zugewinne und die damit verbundenen produktiven Verhaltensweisen langfristig Bestand haben.

Studienkonzept

Die Teilnehmenden wurden einer von drei Gruppen zugewiesen: Eine Kontrollgruppe lernte mithilfe traditioneller Online-Ressourcen wie Google Search und YouTube, wobei KI-generierte Übersichtsfunktionen deaktiviert waren, während zwei weitere Gruppen Zugang zu einer von zwei Lernmodus-Varianten erhielten, die darauf ausgelegt waren, Studierende auf leicht unterschiedliche Weise durch den Lernprozess zu führen. Vorab wurden Baseline-Quizze und Onboarding-Umfragen durchgeführt, um Unterschiede hinsichtlich der bisherigen Kurserfahrung, der Lerngewohnheiten, des akademischen Selbstvertrauens und der Vertrautheit mit KI-Tools auszugleichen. Die Studierenden absolvierten vor jeder Prüfung zeitlich begrenzte Sitzungen im Lernmodus, wobei die beiden Lernmodus-Varianten über die Fächer hinweg ausgeglichen waren.

Diese Konfiguration wurde so konzipiert, dass sie reale Studienbedingungen widerspiegelt und nicht eine streng kontrollierte Laborumgebung. Die Teilnahme war nicht an die Prüfungsleistung gekoppelt, und nicht alle Studierenden nutzten den Lernmodus während der nominalen 40-minütigen Sitzungen im gleichen Umfang. Dadurch konnten wir Intention-to-treat-Effekte (ITT) messen und dokumentieren, also die Auswirkungen des Zugangs zu dem Tool unter realistischen Einführungsbedingungen – mit anderen Worten: die kausalen Auswirkungen des Angebots des Lernmodus, wobei wir berücksichtigen, dass die tatsächliche Nutzung in der Praxis variieren kann.

Ergebnisse

Wir haben die Leistung bei jeder Prüfung separat gemessen. In unserer randomisierten Studie waren die Verbesserungen nicht bei allen Proband:innen einheitlich, und der Grad der Nutzung des Lernmodus variierte zwischen den Teilnehmenden.

Neurowissenschaften (primäre ITT): Wir beobachteten tendenziell positive Unterschiede für den Lernmodus im Vergleich zur Kontrollgruppe, aber die Ergebnisse unterschieden sich nicht von denen der Studierenden, die mit traditionellen Online-Ressourcen lernten. Einige Onboarding- und technische Probleme beeinträchtigten die Lernzeit von Studierenden, die den Lernmodus nutzten.
Mikroökonomie (primäre ITT): Wir beobachteten deutliche Verbesserungen der Prüfungsergebnisse bei Studierenden, denen der Zugang zum Lernmodus zugewiesen wurde, im Vergleich zur Kontrollgruppe ohne KI – relativ gesehen um etwa 15 % höhere Punktzahlen.

Lernmodus (Varianten A und B) vs Kontrollgruppe (Gruppe ohne KI): Adjustierte durchschnittliche Prüfungsergebnisse

Der Effekt bleibt konsistent, wenn wir jede Lernmodus-Variante separat mit der Kontrollgruppe vergleichen.

Dies spiegelt zwar reale Unterschiede wider, verdeutlichte jedoch eine tiefgreifendere Einschränkung hinsichtlich der Art und Weise, wie Lernergebnisse in der Regel gemessen werden.

Die meisten bestehenden Evaluierungsansätze stützen sich auf feste Interventionen, die über kurze Zeitfenster hinweg bewertet werden, wobei Ergebnisse wie Testergebnisse oder Abschlussaufsätze als primäre Signale dienen. Diese Methoden sind nicht darauf ausgelegt, den Kernmechanismus zu erfassen, durch den KI das Lernen in der Praxis beeinflusst: fortlaufende, personalisierte Interaktionen, die sich parallel zu den eigenen Strategien, Präferenzen und Lerngewohnheiten der Lernenden weiterentwickeln. Ebenso wenig zeigen sie auf, ob Verbesserungen in einer Fähigkeit, etwa im Kurzzeitgedächtnis, mit Einbußen in anderen Bereichen, wie beispielsweise Ausdauer, autonomer Motivation oder kreativer Problemlösung, einhergehen können. Infolgedessen übersehen sie die langfristigen kognitiven Effekte, die letztlich darüber entscheiden, ob KI das Lernen sinnvoll verbessert.

Da Lernumgebungen sich je nach Land, Lehrplänen und institutionellen Zielen stark unterscheiden, lassen sich Ergebnisse aus einmaligen Studien selten auf andere Systeme übertragen. Messansätze müssen daher flexibel genug sein, damit verschiedene Bildungssysteme in ihrem jeweiligen Kontext definieren können, wie Erfolg aussieht, KI anhand ihrer eigenen Standards bewerten und entsprechend iterieren können.

Entwicklung eines besseren Messsystems

Basierend auf den Erkenntnissen aus der Lernmodus-Forschung von OpenAI haben wir ein strukturiertes Messsystem aufgebaut, um die Auswirkungen von KI auf Lernende im großen Maßstab zu messen und einen Mechanismus zu schaffen, um Modelle auf Grundlage dieser Ergebnisse zu verbessern. Es basiert auf drei Signalen: dem Verhalten des Modells, den Reaktionen der Lernenden und den messbaren kognitiven Ergebnissen, die sich im Laufe der Zeit zeigen. Dazu gehören:

Systemanweisungen zur Verfeinerung des Modellverhaltens: Verwendung natürlicher Sprache, um das Standardverhalten des Modells zu ändern, damit es besser auf spezifische pädagogische Ansätze abgestimmt ist.
Klassifikatoren für Lerninteraktionen: Diese erkennen automatisch „Lernmomente“ innerhalb realer, anonymisierter Interaktionen zwischen dem/der Lernenden und dem Modell und kennzeichnen relevante Merkmale wie Engagement und Fehlerkorrektur.
Grader für Lernqualität: Diese bewerten und benoten jeden dieser Lernmomente danach, ob der/die Lernende sein/ihr Ziel erreicht hat und inwieweit die Interaktion starken pädagogischen Prinzipien gefolgt ist, einschließlich der Identifikation von Fehlermodi.
Grader für longitudinales Lernen: Diese verfolgen im Laufe der Zeit Veränderungen in den Interaktionen derselben lernenden Person mit dem Modell – einschließlich Engagement, Ausdauer und metakognitiver Strategien – auf individueller und Kohortenebene.
Standardisierte kognitive und metakognitive Messungen: Dies sind validierte Instrumente von Drittanbietern, die über ChatGPT vor/während/nach dem Zugriff bereitgestellt werden, um Baselines festzulegen und Veränderungen in grundlegenden Fähigkeiten wie kritischem Denken, Kreativität und Gedächtnis zu messen.

In seiner Gesamtheit bezeichnen wir dieses Messsystem als Learning Outcomes Measurement Suite.

Es erzeugt wichtige Signale, die das Bildungsökosystem nutzen kann: strukturierte Ansichten von Lernmomenten; Dashboards, die zeigen, wie sich Ergebnisse im Laufe der Zeit über Kohorten hinweg verändern, Indikatoren für die Modellleistung anhand von Lehr- und Nachhilfe-Rubriken sowie Ergebnismaße, die auf standardisierte Bewertungen und kurze Lernenden-Fragebögen abgestimmt sind. Sofern verfügbar, kann es von Partnern bereitgestellte Referenzdaten wie Prüfungsergebnisse, Unterrichtsbeobachtungen oder Anwesenheitsdaten einbeziehen.

Diagramm, das einen Workflow zur Messung von Lernergebnissen veranschaulicht, bei dem KI Daten durch Analyse-, Bewertungs- und Verifizierungsschritte verarbeitet, bevor sie Erkenntnisse liefert, um eine:n Lernende:n zu unterstützen.

Alle Daten wurden anonymisiert

Außerdem ermöglicht es unseren Partner:innen, die tieferen kognitiven Auswirkungen der Nutzung von KI für das Lernen im Laufe der Zeit zu verstehen, da wir durch dieses System auch in der Lage sind, die Auswirkungen auf Fähigkeiten wie die folgenden zu verfolgen:

Autonome Motivation: der Grad, in dem Lernende ihr eigenes Lernen gestalten, statt vom Modell angeleitet zu werden
Produktives Engagement: die Häufigkeit, Vielfalt und Qualität pädagogischer Interaktionen
Ausdauer bei Aufgaben: das Ausmaß, in dem Lernende bei kognitiven Herausforderungen dranbleiben und sich durcharbeiten
Metakognition: die Häufigkeit und Qualität der Bemühungen der Lernenden, ihre Lernansätze zu planen, zu reflektieren und zu überwachen
Erinnerungsvermögen: die Genauigkeit, mit der Lernende sich an Inhalte aus früheren Interaktionen erinnern können

Dies spiegelt unsere allgemeinen Bemühungen wider, uns nicht einfach auf enge Definitionen von Lernergebnissen (steigende Testergebnisse) zu konzentrieren, sondern auf die ganzheitlichen Fähigkeiten, die dem Lernen zugrunde liegen. Es spiegelt außerdem unsere Überzeugung wider, dass es keine Patentlösung dafür geben wird, worauf optimiert werden sollte: Systeme und Pädagogen müssen befähigt werden, Abwägungen im Einklang mit bewährter pädagogischer Praxis und Ansätzen zu steuern.

Wie es von hier aus weitergeht

Wir validieren die Learning Outcomes Measurement Suite durch groß angelegte Studien, bevor wir sie allgemein verfügbar machen. Diese Arbeit wird gemeinsam mit der Universität Tartu und der SCALE Initiative der Stanford University mit Partnern auf nationaler Ebene wie Estland durchgeführt, wo die Measurement Suite über mehrere Monate hinweg mit fast 20.000 Schüler:innen im Alter von 16 bis 18 Jahren untersucht wird. Die Nutzung durch Schüler:innen wird in enger Zusammenarbeit mit lokalen Verantwortlichen erfolgen, um die Sicherheit und die Übereinstimmung mit lokalen Lehrplänen zu gewährleisten.

“Estland hat Bildung schon immer nicht als etwas Statisches betrachtet, sondern als ein System, das wir kontinuierlich verbessern. Nun, da KI Teil dieses Bildes wird, lautet die große Frage, wie wir die langfristigen Auswirkungen von KI auf das Lernen messen. Und genau das finden wir in Zusammenarbeit mit OpenAI heraus. Die Schüler:innen sind sehr daran interessiert, in den Entwicklungsprozess eingebunden zu werden, und viele möchten lernen, wie sich das Lernen mit KI unterstützen lässt. Es fühlt sich wie ein echter Wendepunkt an, und wir freuen uns darauf, Methoden beizutragen, die andere Bildungssysteme wiederverwenden und weiterentwickeln können.”

–Jaan Aru, Universität Tartu

Diese Arbeit baut auf einem breiteren Korpus kollaborativer Forschung auf, die derzeit im Gange ist. Zusätzlich zu den Wirkungsstudien, die über Gründungspartner im Learning Lab durchgeführt werden, unterstützt OpenAI Studien an der Schnittstelle von Lernen und Arbeitswelt, in denen untersucht wird, wie KI die akademischen Bildungswege von Studierenden, ihre Karriereentscheidungen und die Möglichkeiten von Institutionen prägt, eine verantwortungsvolle Einführung zu unterstützen. Diese Forschung findet an der Bocconi University, Innova Schools und der Tuck School of Business at Dartmouth, der San Diego State University, der Stony Brook University und weiteren statt.

Im Rahmen unserer längerfristigen Studien darüber, wie Schüler:innen und Studierende am besten mit KI lernen, möchten wir unsere Erkenntnisse teilen und mit dem gesamten Bildungsökosystem zusammenarbeiten, um sicherzustellen, dass KI Lernenden überall zugute kommt.

Wer daran interessiert ist, Updates zu dieser Arbeit zu erhalten, kann sich hier⁠ registrieren.

Autor

OpenAI

Mehr lesen

Alles anzeigen

KI-Infrastruktur mit Effingham County aufbauen

Globale Angelegenheiten22. Juli 2026

Advancing the next era of national science card image

Die nächste Ära nationaler Forschung voranbringen

Globale Angelegenheiten22. Juli 2026

Helping build shared standards for advanced AI - card image

Die USA treiben KI-Sicherheit durch Maßnahmen der Bundesstaaten und des Bundes voran

Globale Angelegenheiten15. Juli 2026