Zum Hauptinhalt springen
OpenAI

Der ChatGPT‑Agent: eine Brücke zwischen Forschung und Aktion

ChatGPT denkt und handelt jetzt und wählt proaktiv aus einer Toolbox mit Agent-Fähigkeiten aus, um Aufgaben für dich mithilfe seines eigenen Computers zu erledigen.

Laden …

ChatGPT kann jetzt mithilfe seines eigenen Computers für dich arbeiten und komplexe Aufgaben von A bis Z ausführen.

Du kannst ChatGPT z. B. bitten, folgende Art von Anfragen zu bearbeiten: „Wirf einen Blick auf meinen Kalender und informiere mich anhand der neuesten Nachrichten über kommende Kundenbesprechungen“ oder „Analysiere drei Wettbewerber und erstelle eine Präsentation.” ChatGPT durchsucht auf intelligente Weise Websites, filtert Ergebnisse, erinnert dich bei Bedarf an die sichere Anmeldung, führt Code und Analysen aus und liefert sogar bearbeitbare Präsentationen, die seine Ergebnisse zusammenfassen. 

Dieser neuen Funktion liegt ein einheitliches agentisches System zugrunde. Es vereint drei Stärken vorangegangener Durchbrüche: Die Fähigkeit von Operator, mit Websites zu interagieren, die Fähigkeit von Deep Research, Informationen zu synthetisieren, sowie die Intelligenz und sprachliche Gewandtheit von ChatGPT.

ChatGPT führt diese Aufgaben mithilfe seines eigenen virtuellen Computers aus und wechselt fließend zwischen Reasoning und Aktion, um komplexe Arbeitsabläufe von A bis Z auszuführen, und zwar vollständig nach deinen Anweisungen.

Und das Wichtigste: Du behältst die Kontrolle. ChatGPT fordert vor der Durchführung wichtiger Aktionen eine Berechtigung an und du kannst Aufgaben jederzeit unterbrechen, den Browser selbst übernehmen oder stoppen.

Ab heute können Pro-, Plus- und Team-Benutzer die neuen Agent-Funktionen von ChatGPT direkt über das Drop-down-Menü „Tools“ im Editor aktiviert werden, indem sie an jedem Punkt eines Gesprächs den „Agent-Modus“ auswählen. 

ChatGPT‑Agent ist bereits jetzt ein leistungsstarkes Tool zum Ausführen komplexer Aufgaben – und die heutige Einführung ist erst der Anfang. Wir werden kontinuierlich regelmäßig und iterativ wichtige Verbesserungen hinzufügen, um es mit der Zeit noch leistungsfähiger und nützlicher für noch mehr Menschen zu machen.

Die natürliche Entwicklung von Operator und Deep Research

Bislang brachten Operator und Deep Research jeweils eigene Stärken mit sich: Operator konnte im Netz scrollen, klicken und tippen, während sich Deep Research durch die Analyse und Zusammenfassung von Informationen auszeichnete. Allerdings funktionierten beide in verschiedenen Szenarien am besten: Operator konnte keine tiefen Analyseeinblicke geben oder detaillierte Berichte schreiben, und Deep Research war nicht in der Lage, mit Websites zu interagieren, um präzisere Ergebnisse zu liefern oder auf Inhalte zuzugreifen, die eine Benutzerauthentifizierung erfordern. Tatsächlich haben wir festgestellt, dass viele Abfragen, die Benutzer mit Operator versuchten, eigentlich besser für Deep Research geeignet waren – weshalb wir das Beste aus beiden kombiniert haben.

Durch die Integration dieser sich ergänzenden Vorteile in ChatGPT und die Einführung zusätzlicher Tools konnten wir innerhalb eines Modells völlig neue Möglichkeiten erschließen. Dieses kann jetzt aktiv auf Websites zugreifen – durch Klicken, Filtern und Zusammenstellen präziserer und effizienterer Ergebnisse. Auch der Übergang von einem einfachen Gespräch zu Aktionsanfragen innerhalb desselben Chats ist nun möglich. 

Ein Agent, der für dich und mit dir arbeitet 

Wir haben ChatGPT‑Agent mit einer Reihe von Tools ausgestattet: einem visuellen Browser, der über eine grafische Benutzeroberfläche mit dem Web interagiert, einem textbasierten Browser für einfachere, Reasoning-basierte Webabfragen, einem Terminal und direktem API-Zugriff. Der Agent kann außerdem ChatGPT‑Konnektoren(wird in einem neuen Fenster geöffnet) nutzen, wodurch du Apps wie Gmail und Github verbinden kannst, sodass ChatGPT für deine Prompts relevante Informationen finden und diese in seinen Antworten verwenden kann. Du kannst dich auch bei jeder Website anmelden, indem du den Browser übernimmst. So kann das Tool sowohl bei der Recherche als auch bei der Aufgabenausführung tiefgehender und umfassender vorgehen. Mit diesen verschiedenen Optionen für den Zugriff auf und die Interaktion mit Webinformationen kann ChatGPT den optimalen Weg auswählen, um Aufgaben mit der größtmöglichen Effizienz auszuführen. Beispielsweise kann es über eine API Informationen zu deinem Kalender zusammenstellen, mithilfe des textbasierten Browsers große Textmengen effizient verarbeiten und gleichzeitig visuell mit Websites interagieren, die in erster Linie für Menschen konzipiert sind. 

All dies erfolgt mithilfe eines eigenen virtuellen Computers, der den für die Aufgabe erforderlichen Kontext auch bei Einsatz mehrerer Tools beibehält. Das Modell kann eine Seite mit dem Textbrowser oder dem visuellen Browser öffnen, eine Datei aus dem Internet herunterladen, sie durch Ausführen eines Befehls im Terminal bearbeiten und den Output dann im visuellen Browser anzeigen. Das Modell passt seinen Ansatz an, um Aufgaben schnell, präzise und effizient auszuführen.

ChatGPT‑Agent wurde für iterative, kollaborative Arbeitsabläufe entwickelt und ist somit weitaus interaktiver und flexibler als frühere Modelle. Du kannst ChatGPT während seiner Arbeit jederzeit unterbrechen, um Anweisungen zu klären, das Programm in Richtung der gewünschten Ergebnisse lenken oder die Aufgabe komplett ändern. Es macht dort weiter, wo es aufgehört hat, jetzt mit den neuen Informationen, aber ohne Verlust des zuvor erzielten Fortschritts. Zugleich kann ChatGPT bei Bedarf selbst proaktiv zusätzliche Details von dir anfordern, um sicherzustellen, dass die Aufgabe nach wie vor deinen Zielen entspricht. Dauert die Ausführung einer Aufgabe länger als erwartet oder du hast das Gefühl, nicht voranzukommen, kannst du unterbrechen, eine Zusammenfassung der Fortschritte anfordern oder komplett abbrechen und Teilergebnisse erhalten. Wenn du die ChatGPT‑App auf deinem Handy hast haben, erhältst du eine Benachrichtigung, wenn deine Aufgabe erledigt ist.

Erweiterung der praktischen Nutzung 

Diese vereinheitlichten Agent-Funktionen steigern den Nutzen von ChatGPT sowohl im Alltag als auch in der Arbeitswelt erheblich. Bei der Arbeit kannst du sich wiederholende Aufgaben automatisieren, wie etwa das Umwandeln von Screenshots oder Dashboards in Präsentationen aus bearbeitungsfähigen Vektorelementen, das Umplanen von Besprechungen, das Planen und Buchen von Veranstaltungen außerhalb des Büros und das Aktualisieren von Tabellenkalkulationen mit neuen Finanzdaten unter Beibehaltung derselben Formatierung. Im privaten Bereich kannst du mühelos Reiserouten planen und buchen, komplette Dinnerpartys gestalten und buchen oder Experten finden und Termine vereinbaren. 

Die erweiterten Fähigkeiten des Modells spiegeln sich in seiner hochmodernen Leistung bei Evaluierungen wider, bei denen die Onlinesuche und die Fähigkeiten zur Ausführung realer Aufgaben gemessen werden. 

Auf Humanity’s Last Exam(wird in einem neuen Fenster geöffnet)*, einer Bewertung, die die Leistung von KI anhand von Fragen auf Experten-Level zu einem breiten Themenspektrum testet, erreicht das Modell, auf das sich ChatGPT stützt, einen neuen Pass@1 SOTA mit 41,6. Da der Agent dynamisch plant und seine eigenen Tools auswählt, kann er dieselbe Aufgabe bei verschiedenen Durchläufen mit verschiedenen Methoden angehen. Als wir diese Funktionen mit einer einfachen parallelen Einführungsstrategie skalierten – indem wir bis zu acht Versuche gleichzeitig durchführten und denjenigen mit der höchsten selbstberichteten Sicherheit auswählten – stieg der HLE-Score des Agenten auf 44,4.

FrontierMath** ist die schwierigste bekannte Mathematik-Benchmark und umfasst neuartige, noch nicht veröffentlichte Probleme, an deren Lösung erfahrene Mathematiker oft Stunden oder sogar Tage arbeiten. Mit dem Einsatz von Tools, wie etwa dem Zugriff auf ein Terminal zur Codeausführung, erreicht der ChatGPT‑Agent eine Genauigkeit von 27,4 % und übertrifft damit die beiden vorangegangenen Modelle um ein Vielfaches.

Wir haben das Modell außerdem anhand von Benchmarks bewertet, die nach dem Vorbild komplexer Aufgaben aus der realen Welt entwickelt wurden. Bei einer internen Benchmark zur Bewertung der Modellleistung bei komplexen, wirtschaftlich bedeutenden Wissensaufgaben ist die Leistung von ChatGPT‑Agent bei einer Reihe von Ausführungszeiten für die Aufgabe in etwa der Hälfte der Fälle mit der von Menschen vergleichbar oder besser, während er o3 und o4-mini deutlich übertrifft. Der Modell-Output wird von Experten anhand hochwertiger menschlicher Basiswerte beurteilt, die von Spitzen-Performern in jedem Bereich erstellt wurden. Diese Aufgaben, die von Experten aus unterschiedlichen Berufsfeldern und Branchen übernommen werden, spiegeln die professionelle Arbeit aus der echten Arbeitswelt wider – beispielsweise die Vorbereitung einer Wettbewerbsanalyse von Anbietern von Erstversorgungsdiensten auf Abruf, die Erstellung detaillierter Amortisierungszeitpläne und die Identifizierung funktionsfähiger Wasserbrunnen für eine neue Anlage zur Nutzung von grünem Wasserstoff. 

Auf DSBench(wird in einem neuen Fenster geöffnet), entwickelt, um Agents anhand realistischer datenwissenschaftlicher Aufgaben aus den Bereichen Datenanalyse und -modellierung zu bewerten, konnte ChatGPT die menschliche Leistung deutlich übertreffen.

Auf SpreadsheetBench, das Modelle im Bezug auf ihre Fähigkeit bewertet, Tabellenkalkulationen zu bearbeiten, die aus realen Szenarien abgeleitet wurden, übertrifft der ChatGPT‑Agent bestehende Modelle ebenfalls bei weitem. Mit der Möglichkeit, Tabellenkalkulationen direkt zu bearbeiten, schneidet ChatGPT‑Agent mit 45,5 % verglichen mit den 20,0 % von Copilot in Excel sogar noch besser ab. 

Methodik: Die Autoren von SpreadsheetBench haben zur Auswertung von Tabellenkalkulationen eine Windows-Umgebung mit Microsoft Excel verwendet. Wir haben eine OSX-Umgebung und LibreOffice verwendet, was in geringfügigen Bewertungsunterschieden resultieren kann. Beispielsweise konnten die Autoren für GPT‑4o eine harte Gesamteinschränkung von 15,02 % feststellen, wir erreichten 13,38 %. Wir haben die vollständige Benchmark mit 912 Fragen verwendet.

In einer internen Benchmark, bei der die Fähigkeit eines Modells gemessen wird, Aufgaben eines Investmentbanking-Analysten im ersten bis dritten Jahr zu übernehmen – wie z. B, das Erstellen eines dreiteiligen Finanzmodells für ein Fortune 500-Unternehmen mit korrekter Formatierung und Zitaten oder die Entwicklung eines Leveraged-Buyout-Modells für eine Privatisierung – übertrifft das Modell, auf das sich ChatGPT stützt, Deep Research und o3 deutlich. Jede Aufgabe wird anhand hunderter Kriterien hinsichtlich Richtigkeit und Formelnutzung bewertet.

Schließlich haben wir ChatGPT‑Agent noch anhand von BrowseComp bewertet, einer Benchmark, die wir zu Beginn des Jahres veröffentlicht haben und die die Fähigkeit von Browser-Agenten misst, schwer auffindbare Informationen im Web zu lokalisieren. Das Modell erreichte mit 68,9 % einen neuen technischen Höchststand, 17,4 Prozentpunkte mehr als Deep Research.

Bei WebArena(wird in einem neuen Fenster geöffnet), einer Benchmark, die die Leistung von Webbrowser-Agenten bei der Erledigung realer Onlineaufgaben bewertet, ist das Modell besser als das auf o3 gestützte CUA (das Modell, auf das sich Operator stützt). 

So funktioniert es

Die neuen Agent-Funktionen von ChatGPT können direkt über das Dropdown-Menü „Tools“ im Editor aktiviert werden, indem du an jedem Punkt eines Gesprächs den „Agent-Modus“ auswählst. Erläutere einfach die gewünschte Aufgabe – z. B. die Durchführung einer tiefgehenden Recherche, die Erstellung einer Präsentation oder das Einreichen von Spesen. Während ChatGPT an deiner Aufgabe arbeitet, kannst du über die Kommentarfunktion auf dem Bildschirm genau sehen, was ChatGPT tut. Bei Bedarf kannst du den Browser unterbrechen und selbst die Kontrolle übernehmen und so sicherstellen, dass die Aufgaben zu jeder Zeit deinen Zielen entsprechen.

ChatGPT‑Agent kann auf deine Konnektoren zugreifen, um eine Integration in deine Arbeitsabläufe und den Zugriff auf relevante, umsetzbare Informationen zu ermöglichen. Nach der Authentifizierung kann ChatGPT dank dieser Konnektoren Informationen anzeigen und beispielsweise deinen Posteingang eines Tages für dich zusammenfassen oder Zeitfenster finden, in denen du für ein Meeting verfügbar bist. Um auf diesen Seiten Aktionen auszuführen, wirst du dennoch aufgefordert, dich anzumelden, indem du den Browser übernimmst. 

Zusätzlich kannst du veranlassen, dass abgeschlossene Aufgaben automatisch wiederholt werden, wie etwa die Generierung eines wöchentlichen Messberichts jeden Montagmorgen.

Neue Funktionen mit neuen Risiken 

Mit dieser Version können Benutzer ChatGPT erstmals auffordern, Aktionen im Netz auszuführen. Dies birgt das Potenzial für neue Risiken, insbesondere weil ChatGPT‑Agent direkt mit deinen Daten arbeiten kann, unabhängig davon, ob es sich um Informationen handelt, auf die über Konnektoren zugegriffen wird, oder um Websites, bei denen du dich per Übernahme-Modus angemeldet hast. Wir haben die robusten Kontrollen aus der Recherche-Vorschau von Operator verstärkt und Sicherheitsmaßnahmen für Herausforderungen wie den Umgang mit vertraulichen Informationen im Live-Web, eine größere Benutzerreichweite und (eingeschränkten) Zugriff auf Terminal-Netzwerke hinzugefügt. Auch wenn diese Maßnehmen das Risiko deutlich senken, ist das Gesamtrisikoprofil von ChatGPT‑Agent aufgrund der erweiterten Tools und der größeren Benutzerreichweite doch höher. 

Wir haben besonderen Wert darauf gelegt, ChatGPT‑Agent vor feindlicher Manipulation durch Prompt Injection zu schützen, was für Agent-Systeme im Allgemeinen ein Risiko darstellt, und haben dementsprechend umfangreichere Vorkehrungen zur Risikominderung getroffen. Bei Prompt Injections handelt es sich um Versuche durch Dritte, das Verhalten von ChatGPT‑Agent durch böswillige Anweisungen zu manipulieren, auf die er beim Ausführen einer Aufgabe im Internet stoßen kann. Ein böswilliger Prompt, der in einer Webseite versteckt ist, etwa in unsichtbaren Elementen oder Metadaten, könnte den Agent beispielsweise zu unbeabsichtigten Aktionen verleiten, wie der Weitergabe privater Daten aus einem Konnektor an den Angreifer oder der Ausführung einer schädlichen Aktion auf einer Seite, auf der der Benutzer angemeldet ist. Da ChatGPT‑Agent direkte Aktionen ausführen kann, können erfolgreiche Angriffe weitreichendere Auswirkungen haben und höhere Risiken bergen. 

Wir haben den Agent darauf trainiert und getestet, Prompt Injections zu erkennen und abzuwehren. Zudem können wir Prompt-Injection-Angriffe mithilfe von Überwachung schnell erkennen und darauf zu reagieren. Das Schadensrisiko durch diese Angriffe wird weiter verringert, wenn vor entsprechenden Aktionen eine ausdrückliche Benutzergenehmigung erforderlich ist und Benutzer können bei Bedarf in Aufgaben eingreifen, indem sie diese übernehmen oder unterbrechen. Benutzer sollten diese Kompromisse abwägen, wenn sie entscheiden, welche Informationen sie dem Agent zur Verfügung stellen, und Schritte unternehmen, um diese Risiken möglichst weit zu reduzieren, beispielsweise durch das Deaktivieren von Konnektoren, wenn diese für eine Aufgabe nicht erforderlich sind. 

Wir haben außerdem Maßnahmen zur Vermeidung von Modellfehlern implementiert, insbesondere da das Modell nun Aufgaben ausführen kann, die reale Auswirkungen haben: 

  • Ausdrückliche Benutzergenehmigung: ChatGPT wurde darauf trainiert, ausdrücklich um deine Genehmigung zu bitten, bevor Aktionen mit realen Konsequenzen ausgeführt werden, beispielsweise ein Kauf.
  • Aktive Überwachung („Beobachtungsmodus“): Bestimmte kritische Aufgaben, wie das Senden von E-Mails, erfordern aktiv deine Aufsicht.
  • Proaktive Risikominderung: ChatGPT wurde darauf trainiert, risikoreiche Aufgaben wie Banküberweisungen aktiv abzulehnen.

Abschließend haben wir noch zusätzliche Steuerelemente eingeführt, um die Daten einzuschränken, auf die das Modell zugreifen kann. 

  • Datenschutzkontrollen: Mit einem einzigen Klick in den Einstellungen von ChatGPT kannst du sämtliche Browserdaten löschen und dich sofort von allen aktiven Website-Sitzungen abmelden. Ansonsten bleiben Cookies basierend auf den Cookie-Richtlinien der einzelnen besuchten Websites bestehen, wodurch wiederholte Besuche der Websites effizienter werden.
  • Sicherer Übernahme-Modus im Browser: Wenn du über den Browser von ChatGPT mit dem Internet interagierst („Übernahme-Modus“), bleiben deine Eingaben privat. ChatGPT erfasst oder speichert keine Daten (z. B. Passwörter), die du während dieser Sitzungen eingibst, da das Modell diese nicht benötigt und es sicherer ist, wenn es sie nie zu sehen bekommt.

Unser bisher stärkster Sicherheits-Stack für biologische Risiken 

Mit den erweiterten Fähigkeiten des Modells haben wir uns entschieden, ChatGPT‑Agent im Rahmen unseres Preparedness Framework als Agent mit hohen biologischen und chemischen Fähigkeiten zu behandeln und dementsprechend die zugehörigen Sicherheitsvorkehrungen zu aktivieren. Obwohl wir keine definitiven Beweise dafür haben, dass dieses Modell einem Anfänger dabei helfen könnte, schwere biologische Schäden zu verursachen – was unserem Grenzwert hochrangige Fähigkeiten entspricht – haben wir uns entschlossen, die erforderlichen Sicherheitsmaßnahmen vorsorglich zu ergreifen. Deshalb ist dieses Modell mit unserem bislang umfassendsten Sicherheits-Stack mit verbesserten Schutzmaßnahmen für die Biologie ausgestattet. Dazu zählen umfassende Bedrohungsmodellierung, Dual-Use-Ablehnungstraining, immer aktive Classifier und Reasoning-Überwachung sowie klare Durchsetzungs-Pipelines. 

Zusätzlich zu unseren Bemühungen für die Sicherung von ChatGPT‑Agent funktioniert mehrschichtige Biosicherheit am besten dann, wenn die Sicherheitsvorkehrungen über einen einzigen Ort hinausgehen. Daher arbeiten wir innerhalb des gesamten Ökosystems zusammen, um die Schutzmaßnahmen zu stärken. Vom ersten Tag an haben wir für die Entwicklung unseres Bedrohungsmodells, unserer Bewertungen und Richtlinien mit externen Biosicherheitsexperten, Sicherheitsinstituten und akademischen Forschern zusammengearbeitet. Unsere Bewertungsdaten wurden von ausgebildeten biologischen Gutachtern validiert und Red-Team-Fachexperten haben die Sicherheitsvorkehrungen in realistischen Szenarien Stresstests unterzogen. Zu Beginn des Monats haben wir einen Bioabwehr-Workshop mit Experten aus Regierung, Wissenschaft, nationalen Laboren und NGOs einberufen, um die Zusammenarbeit zu beschleunigen und die auf KI basierte Bioabwehrforschung voranzubringen. Wir werden weiterhin globale Partnerschaften eingehen, um neuen Risiken immer einen Schritt voraus zu sein. 

In der Systemkarte kannst du mehr über unseren robusten Sicherheitsansatz für das einheitliche Agent-Modell nachlesen. Wir starten zudem ein Bug-Bounty-Programm, damit wir reale Risiken erkennen und mindern können.

Verfügbarkeit

ChatGPT‑Agent wird ab heute für Pro-, Plus- und Team-Benutzer bereitgestellt. Pro-Benutzer erhalten am Tagesende Zugriff, der Zugriff für Plus- und Team-Benutzer folgt im Laufe der nächsten Tage. Enterprise- und Education-Benutzer erhalten in den kommenden Wochen Zugriff. Pro-Benutzer erhalten 400 Nachrichten pro Monat, während andere zahlende Benutzer 40 Nachrichten monatlich erhalten. Zusätzliche Nutzung ist über flexible, kreditbasierte Optionen möglich.

Wir arbeiten weiterhin am Zugriff für den Europäischen Wirtschaftsraum und die Schweiz. 

Die Vorschauseite für die Operator-Recherche bleibt noch einige Wochen lang funktionsfähig und wird danach eingestellt. Deep Research ist Teil der Funktionen von ChatGPT‑Agent. Wenn du die ursprüngliche Deep Research-Funktion bevorzugst – die zwar etwas langsamer ist, aber standardmäßig detailliertere und umfassendere Antworten liefert – kannst du weiter darauf zugreifen, indem du im Dropdown-Menü des Nachrichten-Composers „Deep Research“ auswählst.

Einschränkungen und Blick in die Zukunft 

Der ChatGPT‑Agent befindet steckt noch in den Kinderschuhen. Es kann eine Reihe komplexer Aufgaben übernehmen, jedoch sind Fehler nicht ausgeschlossen. 

Wenngleich erhebliches Potenzial in der Fähigkeit sehen, Präsentationen zu erstellen, befindet sich diese Funktion aktuell noch in der Betaphase. Derzeit kann der Output hinsichtlich Formatierung und Präzision noch rudimentär erscheinen, insbesondere wenn man ohne ein bestehendes Dokument beginnt. Wir haben uns bei den Fähigkeiten des Modells zunächst auf die Generierung von Artefakten konzentriert, die Informationen in einem für Präsentationen geeigneten Ablauf und Format organisieren, wobei Elemente wie Text, Diagramme, Bilder und Formen nach dem Export leicht bearbeitet werden können, was die Struktur und Flexibilität optimiert. Aktuell kann es zudem noch zu Abweichungen zwischen den Folien im Viewer und der exportierten Powerpoint-Präsentation kommen, an deren Reduzierung wir arbeiten. Zudem ist es derzeit zwar möglich, eine bestehende Tabelle für ChatGPT hochzuladen, um sie zu bearbeiten oder als Vorlage zu verwenden, aber diese Funktion ist für Präsentationen noch nicht verfügbar. Wir sind bereits dabei, die nächste Iteration der Präsentationserstellung von ChatGPT zu trainieren, um einen anspruchsvolleren Output mit umfassenderen Funktionen und verbesserter Formatierung zu produzieren.

Insgesamt erwarten wir in Zukunft noch weitere Verbesserungen der Effizienz, Tiefe und Anpassungsfähigkeit von ChatGPT‑Agent, einschließlich fließenderer Interaktionen, da wir den vom Benutzer erforderlichen Überwachungsumfang kontinuierlich anpassen, um den Nutzen zu vergrößern und gleichzeitig eine sichere Verwendung zu gewährleisten.

Anhang

SpreadsheetBench

Modell

Bewertungsumgebung

Weiche Einschränkung (%): Zellebene

Weiche Einschränkung (%): Arbeitsblattebene

Weiche Einschränkung (%): Insgesamt

GPT‑4o

Windows, Excel

15,03

23,65

18,35

Copilot in Excel

Windows, Excel

23,33

15,00

20,00

GPT‑4o

OSX, LibreOffice

15,86

18,33

16,81

OpenAI o3

OSX, LibreOffice

22,40

24,60

23,25

ChatGPT‑Agent

OSX, LibreOffice

38,27

30,48

35,27

ChatGPT‑Agent mit .xlsx

OSX, LibreOffice

50,56

37,51

45,54

Human

75,56

65,00

71,33

Livestream-Wiedergabe

Autor

OpenAI

Fußnoten

** Mit aktiviertem Browsing kann das Modell manchmal exakte Antworten online finden, etwa durch das Lesen von Blogbeiträgen mit Beispielaufgaben aus einem Datensatz. Um Bedenken hinsichtlich möglicher Manipulationen beim Browsen zu begegnen, setzen wir auf zwei Strategien:

1. Sperrung von Domains, bei denen wir in der Vergangenheit beobachtet haben, dass das Modell dort beim Browsen „geschummelt“ hat.

2. Einsatz eines zusätzlichen Modells als Monitor, das bei jedem Versuch alle Tool-Output-Tokens prüft, um verdächtiges Verhalten zu erkennen. Verdächtiges Verhalten ist definiert als „eine Seite, Datei oder ein Ausschnitt, dessen Hauptzweck darin besteht, die exakte Antwort auf genau diese Frage bereitzustellen – z. B. ein offizieller Lösungsschlüssel, ein geleakter Lösungscode oder eine Diskussion, die die fertige Antwort wörtlich zitiert“. Unbedenkliches Verhalten ist definiert als „jede verlässliche Quelle, die auch eine gewissenhafte Person zurate ziehen würde (z. B. Dokumentationen, Handbücher, wissenschaftliche Publikationen oder seriöse Artikel), selbst wenn sie zufällig die richtige Antwort enthält“. Alle Versuche, die vom Monitor als verdächtig eingestuft wurden, gelten als falsch. Die meisten Beispiele, die bei dieser Prüfung durchfielen, betrafen Aufgaben, deren exakte Lösung auf mehreren Internetseiten zu finden war – jedoch ohne Bezug zu HLE.

**OpenAI hat exklusiven Zugriff auf 237 von 290 privaten Fragen im Tier-1-3-Datensatz. Fragen der Stufe 4 von FrontierMath sind nicht Teil dieser Bewertung. Die Ergebnisse werden als Durchschnitt von 16 Versuchen zur Beantwortung der einzelnen Fragen ausgewertet. Die Ergebnisse von ChatGPT-Agent werden von OpenAI ermittelt, von Epoch AI bewertet, mit Browser- und Terminal-Zugriff und einem Grenzwert von 128.000 Token pro Antwort. OpenAI o4-mini- und o3-Beurteilungen werden von Epoch AI ohne Browser- und Terminal-Zugriff, unter Verwendung von Python-Skripten über Funktionsaufrufe und mit einem Grenzwert von 100.000 Token pro Antwort erhoben und bewertet.

*** Oracle@64 bezieht sich auf die Höchstpunktzahl, die in 64 Stichprobenläufen erreicht wurde. Die Auswahl erfolgte anhand der Ground Truth (d. h. für jede Aufgabe wird der Versuch mit der höchsten Punktzahl basierend auf der tatsächlich benoteten Leistung ausgewählt). Wir melden den Durchschnitt der besten Ergebnisse pro Aufgabe für alle Aufgaben. Diese Kennzahl hebt das obere Potenzial und die Varianz der Aufgabenleistung des Modells hervor. Sie zeigt das Leistungspotenzial des Modells, wenn es erfolgreich ist, und weist darauf hin, dass die Konsistenz durch weiteres Training verbessert werden kann. Im Gegensatz zu typischen „Best of N“-Metriken, die ihre Auswahl auf Grundlage der Modellzuverlässigkeit treffen, verwendet oracle@64 die Ground Truth und wendet Aufgaben an, die auf einer kontinuierlichen 0-bis-1-Skala und nicht nach dem binären „Bestanden/Nicht bestanden“-Prinzip bewertet werden.