19. November 2025

Wie Evals das nächste Kapitel der KI für Unternehmen vorantreiben

Diese Einführung vermittelt Führungskräften, wie Evaluierungs-Frameworks („Evals“) Geschäftsziele in konsistente Ergebnisse übersetzen.

Laden …

Weltweit nutzen über eine Million Unternehmen⁠ KI, um größere Effizienz und Wertschöpfung zu erzielen. Einige Organisationen haben jedoch Schwierigkeiten, die von ihnen erwarteten Ergebnisse zu erzielen. Was ist der Grund für diese Diskrepanz?

Bei OpenAI nutzen wir KI intern, um unsere ehrgeizigen Ziele zu erreichen. Zu den wichtigsten Tools, die wir verwenden, gehören Evals, Methoden zur Messung und Verbesserung der Fähigkeit eines KI-Systems, Erwartungen zu erfüllen.

Ähnlich wie Produktanforderungsdokumente machen Evals vage Ziele und abstrakte Ideen spezifisch und explizit. Der strategische Einsatz von Evals kann ein kundenorientiertes Produkt oder ein internes Tool skalierbar zuverlässiger machen, schwerwiegende Fehler reduzieren, vor Abwärtsrisiken schützen und einem Unternehmen einen messbaren Weg zu einem höheren ROI bieten.

Bei OpenAI sind unsere Modelle unsere Produkte, daher verwenden unsere Forschenden strenge Frontier-Evals⁠(wird in einem neuen Fenster geöffnet) ¹, um zu messen, wie gut die Modelle in verschiedenen Bereichen funktionieren. Auch wenn Frontier-Evals uns helfen, bessere Modelle schneller auszuliefern, können sie nicht alle Nuancen aufzeigen, die notwendig sind, um sicherzustellen, dass ein Modell in einem bestimmten Workflow und Geschäftsumfeld zuverlässig funktioniert. Aus diesem Grund haben interne Teams zudem Dutzende von kontextuellen Evals entwickelt, mit denen die Leistung innerhalb eines bestimmten Produkts oder internen Workflows bewertet werden soll. Es ist auch der Grund, warum Führungskräfte lernen sollten, wie sie kontextuelle Evals erstellen können, die speziell auf die Bedürfnisse und das Betriebsumfeld ihres Unternehmens zugeschnitten sind.

Dies ist eine Einführung für Führungskräfte, die Evals in ihren Unternehmen einsetzen möchten. Kontextuelle Evals, die jeweils für den Workflow oder das Produkt einer bestimmten Organisation entwickelt werden, sind ein aktives Entwicklungsfeld, und endgültige Prozesse haben sich bislang jedoch noch nicht herausgebildet. Infolgedessen stellt dieser Artikel ein breites Framework vor, das sich in zahlreichen Situationen bewährt hat. Wir gehen davon aus, dass sich dieser Bereich weiterentwickeln wird und dass weitere Frameworks entstehen werden, die auf spezifische Geschäftskontexte und -ziele zugeschnitten sind. Beispielsweise erfordert eine hervorragende Eval für ein innovatives, KI-gestütztes Verbraucherprodukt möglicherweise einen anderen Prozess als eine Eval für eine interne Automatisierung, die auf einem Standardarbeitsverfahren basiert. Wir sind überzeugt, dass das nachfolgend vorgestellte Framework in beiden Fällen als Sammlung von Best Practices dienen und zugleich ein hilfreicher Leitfaden bei der Entwicklung von Evals sein wird, die auf die Bedürfnisse Ihres Unternehmens zugeschnitten sind.

So funktionieren Evals: Festlegen → Messen → Verbessern

Diagramm mit dem Titel „Eval-Blog“, das einen Fluss von Evaluierungskomponenten und -prozessen zeigt, auf einem hellen Hintergrund mit farbigen Blöcken und Pfeilen, die die Logik der Modellbewertung darstellen.

1. Festlegen: Definieren, was „großartig“ bedeutet

Beginne mit einem kleinen, kompetenten Team, das den Zweck deines KI-Systems in einfachen Worten formulieren kann, zum Beispiel: „Qualifizierte eingehende E-Mails in geplante Demos konvertieren und dabei die Markenidentität wahren.“

Dieses Team sollte aus Personen mit technischer und fachlicher Expertise bestehen (im genannten Beispiel sollten Vertriebsfachleute Teil des Teams sein). Sie sollten in der Lage sein, die wichtigsten zu messenden Ergebnisse zu benennen, den gesamten Arbeitsablauf zu skizzieren und jeden wichtigen Entscheidungspunkt zu identifizieren, dem Ihr KI-System begegnen wird. Für jeden Schritt in diesem Arbeitsablauf sollte das Team definieren, wie Erfolg aussieht und was vermieden werden sollte. Dieser Prozess erstellt eine Zuordnung von Dutzenden von Beispieleingaben (z. B. eingehende E-Mails) zu den Ausgaben, die das System produzieren soll. Der resultierende Goldstandard-Datensatz („golden set“) von Beispielen sollte eine lebendige, maßgebliche Referenz für das Urteilsvermögen und den Geschmack deiner erfahrensten Expert:innen dahingehend sein, was „großartig“ ausmacht.

Lass dich nicht von einem Kaltstart überwältigen und versuche nicht, alles auf einmal zu lösen. Der Prozess ist iterativ und chaotisch. Frühes Prototyping kann immens helfen. Die Überprüfung von 50 bis 100 Ausgaben einer frühen Version des Systems wird aufdecken, wie und wann dein System versagt. Diese „Fehleranalyse“ wird zu einer Taxonomie verschiedener Fehler (und ihrer Häufigkeiten) führen, die du im Zuge der Systemverbesserung verfolgen kannst.

Dieser Prozess ist nicht rein technisch – er ist funktionsübergreifend und konzentriert sich auf die Definition von Geschäftszielen und gewünschten Prozessen. Technische Teams sollten nicht isoliert dazu aufgefordert werden, zu beurteilen, was den Kund:innen am besten dient oder die Anforderungen anderer Teams wie Produkt, Vertrieb oder HR erfüllt. Folglich sollten Fachexpert:innen, technische Leads und andere zentrale Stakeholder die Verantwortung gemeinsam tragen.“

2. Messen: Unter realen Bedingungen testen

Der nächste Schritt ist das Messen. Das Ziel der Messung besteht darin, konkrete Beispiele dafür zu finden, wie und wann das System versagt. Dazu solltest du eine spezielle Testumgebung erstellen, die die realen Bedingungen möglichst genau widerspiegelt – nicht nur eine Demo oder einen Prompt Playground. Bewerte die Leistung anhand deines Goldstandard-Datensatzes und führe eine Fehleranalyse unter denselben Belastungen und Randfällen durch, denen dein System tatsächlich ausgesetzt sein wird.

Rubriken können dabei helfen, die Bewertung der Systemausgaben greifbarer zu machen – aber es ist möglich, oberflächliche Aspekte zu stark zu betonen und dabei deine übergeordneten Ziele aus den Augen zu verlieren. Außerdem sind einige Qualitäten schwer oder unmöglich zu messen. In einigen Fällen werden traditionelle Geschäftskennzahlen wichtig sein. In anderen musst du neue Kennzahlen erfinden. Halte deine Fachexpert:innen während des gesamten Prozesses auf dem Laufenden und stimme die Vorgehensweise eng mit deinen Kernzielen ab.

Um das System tatsächlich zu testen, solltest du nach Möglichkeit Beispiele aus realen Situationen verwenden – und Randfälle einbeziehen oder erfinden, die selten sind, aber hohe Kosten verursachen können, wenn sie falsch behandelt werden.

Manche Evals können durch den Einsatz eines LLM-Graders skaliert werden, eines KI-Modells, das Ausgaben genau so bewertet wie ein:e Expert:in es tun würde; dennoch ist es wichtig, dass ein Mensch in den Prozess eingebunden bleibt. Dein:e Fachexpert:in muss die LLM-Grader regelmäßig auf Genauigkeit prüfen und sollte auch direkt die Protokolle des Systemverhaltens überprüfen.

Evals können dir helfen zu entscheiden, wann ein System bereit für die Einführung ist – aber sie enden nicht damit. Du solltest kontinuierlich die Qualität der realen Ausgaben deines Systems messen, die aus realen Eingaben generiert werden. Wie bei jedem Produkt sind Signale von deinen Endnutzer:innen (ob extern oder intern) besonders wichtig und sollten in deine Eval einbezogen werden.

3. Verbessern: Aus Fehlern lernen

Der letzte Schritt besteht darin, einen Prozess zur kontinuierlichen Verbesserung einzurichten. Die Behebung von Problemen, die im Rahmen deiner Eval aufgedeckt wurden, kann viele Formen annehmen: Verfeinerung von Prompts, Anpassung des Datenzugriffs, Aktualisierung der Eval selbst, um deine Ziele besser widerzuspiegeln, und so weiter. Wenn du neue Fehlertypen entdeckst, füge sie deiner Fehleranalyse hinzu und behebe sie. Jede Iteration baut auf der vorherigen auf: Neue Kriterien und klarere Erwartungen an das Systemverhalten helfen, neue Randfälle und subtile, hartnäckige Probleme zu erkennen und zu beheben.

Um diese Iteration zu unterstützen, baue ein Daten-Flywheel auf Protokolliere Eingaben, Outputs und Ergebnisse; werte diese Protokolle nach einem Zeitplan stichprobenartig aus und leite unklare oder kostspielige Fälle automatisch zur Überprüfung durch Expert:innen weiter. Füge diese Expertenurteile zu deiner Eval und Fehleranalyse hinzu und nutze sie dann, um Prompts, Tools oder Modelle zu aktualisieren. Durch diesen Kreislauf wirst du deine Erwartungen an das System klarer definieren, es enger an diese Erwartungen anpassen und zusätzliche relevante Ausgaben und Ergebnisse identifizieren, die es zu verfolgen gilt. Wenn du diesen Prozess im großen Maßstab einsetzt, entsteht ein umfangreicher, differenzierter und kontextspezifischer Datensatz, der schwer zu kopieren ist – ein wertvoller Vorteil, den deine Organisation nutzen kann, um das beste Produkt oder den besten Prozess in deinem Markt zu entwickeln.

Während Evals eine systematische Methode zur Verbesserung deines KI-Systems darstellen, können auch neue Fehlermodi auftreten. In der Praxis müssen Evals ebenso wie Modelle, Daten und Geschäftsziele kontinuierlich gepflegt, erweitert und Stresstests unterzogen werden.

Für externe Bereitstellungen ersetzen Evals nicht die traditionellen A/B-Tests und Produktexperimente. Sie ergänzen traditionelle Experimente, können sich gegenseitig unterstützen und bieten Einblick darin, wie sich die von dir vorgenommenen Änderungen auf die Leistung in der Praxis auswirken.

Was Evals für Führungskräfte bedeuten

Jeder große technologische Wandel definiert betriebliche Exzellenz und Wettbewerbsvorteile neu. Frameworks wie OKRs und KPIs haben Unternehmen dabei geholfen, sich im Zeitalter der Big-Data-Analytics darauf zu konzentrieren, das zu messen, worauf es für ihr Geschäft wirklich ankommt. Evals sind die natürliche Erweiterung der Messung im Zeitalter der KI.

Die Arbeit mit probabilistischen Systemen erfordert neue Arten von Messungen und eine gründlichere Abwägung von Kompromissen. Führungskräfte müssen entscheiden, wann Präzision unerlässlich ist, wann sie flexibler sein können und wie sie Geschwindigkeit und Zuverlässigkeit ausbalancieren.

Die Implementierung von Evals ist aus dem gleichen Grund schwierig wie die Entwicklung großartiger Produkte: Sie erfordern Genauigkeit, Weitblick und Geschmack. Wenn sie gut gemacht sind, werden Evals zu einzigartigen Differenzierungsmerkmalen. In einer Welt, in der Informationen weltweit frei verfügbar sind und Expertise demokratisiert ist, hängt dein Vorteil davon ab, wie gut deine Systeme in deinem Kontext funktionieren. Fundierte Evals schaffen mit der Verbesserung deiner Systeme kumulative Vorteile und institutionelles Know-how.

Im Kern geht es bei Evals um ein tiefes Verständnis des geschäftlichen Kontexts und der Geschäftsziele. Wenn du nicht definieren kannst, was genau „großartig“ für deinen Anwendungsfall bedeutet, wirst du es wahrscheinlich auch nicht erreichen. In diesem Sinne verdeutlichen Evals eine wichtige Lektion des KI-Zeitalters: Managementfähigkeiten sind KI-Fähigkeiten. Klare Ziele, direktes Feedback, umsichtiges Urteilsvermögen und ein klares Verständnis deines Wertversprechens, deiner Strategie und deiner Prozesse sind nach wie vor wichtig – vielleicht sogar wichtiger denn je.

Sobald weitere Best Practices und Frameworks aufkommen, werden wir sie mit unseren Nutzer:innen teilen. In der Zwischenzeit ermutigen wir dich, mit Evals zu experimentieren und herauszufinden, welche Prozesse für deine Anforderungen am besten funktionieren. Um loszulegen, identifiziere das zu lösende Problem und deine:n Fachexpert:in, stelle dein kleines Team zusammen und, falls du auf unserer API aufbaust, erkunde unsere Plattform-Dokumentation⁠(wird in einem neuen Fenster geöffnet).

Hoffe nicht auf „Großartiges“. Definiere es, miss es und arbeite mit kontinuierlichen Verbesserungen darauf hin.

2025

Autor

OpenAI

Fußnoten

1
Wenn du unsere Arbeit zur Entwicklung der nächsten Generation von KI-Modellen unterstützen möchtest, laden wir dich ein, einen Beitrag zu GDPVal⁠ zu leisten, unserem neuesten Benchmark zur Leistungsfähigkeit von KI-Modellen bei realen Aufgaben. Wenn du Branchenexpert:in bist und Interesse hast, zu GDPval beizutragen, kannst du dein Interesse hier bekunden⁠. Wenn du Kund:in von OpenAI bist und an einer zukünftigen Runde von GDPval mitwirken möchtest, kannst du dein Interesse hier bekunden⁠.

Mehr lesen

Alles anzeigen

Signal und Rauschen bei Code-Bewertungen trennen

Forschung8. Juli 2026

Einführung von GeneBench-Pro

Forschung30. Juni 2026

A near-autonomous AI chemist improves a challenging reaction

Ein nahezu autonomer KI-Chemiker verbessert eine anspruchsvolle Reaktion in der medizinischen Chemie

Forschung17. Juni 2026