23. Januar 2025

Computer-Using Agent

Powering Operator mit Computer-Using Agent, einer universellen Oberfläche für KI zum Interagieren mit der digitalen Welt.

Zu Operator

Laden …

Heute haben wir eine Research-Preview von Operator⁠(wird in einem neuen Fenster geöffnet) eingeführt – einen Agenten, der eigenständig im Web agiert, um Aufgaben für dich zu übernehmen. Powering Operator ist ein Computer-Using Agent (CUA), ein Modell, das die Sichtfähigkeiten von GPT‑4o mit fortgeschrittenem Reasoning durch Reinforcement Learning kombiniert. CUA ist darauf trainiert, mit grafischen Benutzeroberflächen (GUIs) – den Schaltflächen, Menüs und Textfeldern, die Menschen auf einem Bildschirm sehen – so zu interagieren, wie Menschen es tun. So kann er flexibel digitale Aufgaben ausführen, ohne betriebssystem- oder webspezifische APIs zu verwenden.

CUA baut auf jahrelanger Grundlagenforschung an der Schnittstelle zwischen multimodalem Verständnis und Denken auf. Durch Kombinieren einer erweiterten GUI-Wahrnehmung mit strukturierter Problemlösung werden Aufgaben in mehrstufige Pläne aufgeteilt und bei auftretenden Herausforderungen erfolgt eine adaptive Eigenkorrektur. Diese Fähigkeit stellt den nächsten Schritt in der KI-Entwicklung dar. Sie ermöglicht es Modellen, dieselben Tools zu verwenden, auf die sich Menschen täglich verlassen, und öffnet die Tür zu einer Vielzahl neuer Anwendungen.

Auch wenn CUA noch in den Kinderschuhen steckt und Einschränkungen aufweist, setzt er neue, hochmoderne Benchmark-Ergebnisse und erreicht eine Erfolgsquote von 38,1 % bei OSWorld für Aufgaben, die den gesamten Computer nutzen, und 58,1 % bei WebArena und 87 % bei WebVoyager für webbasierte Aufgaben. Diese Ergebnisse heben die Fähigkeit von CUA hervor, mithilfe eines einzigen allgemeinen Aktionsraums in unterschiedlichen Umgebungen zu navigieren und zu agieren.

Bei der Entwicklung von CUA stand die Sicherheit an erster Stelle, um den Herausforderungen zu begegnen, die sich aus dem Zugriff eines Agenten auf die digitale Welt ergeben. Dies wird detailliert in unserer Operator System Card beschrieben. In Übereinstimmung mit unserer iterativen Bereitstellungsstrategie veröffentlichen wir CUA zunächst über eine Research-Vorschau von Operator unter operator.chatgpt.com⁠(wird in einem neuen Fenster geöffnet) für Pro⁠(wird in einem neuen Fenster geöffnet)-Benutzer in den USA. Durch Einholen von Feedback aus der Praxis können wir die Sicherheitsmaßnahmen präzisieren und kontinuierlich verbessern, während wir uns auf eine Zukunft mit zunehmender Nutzung digitaler Agenten vorbereiten.

Funktionsweise

Ein Flussdiagramm, das den Prozess eines CUA-Systems zeigt, das Eingaben als Text oder Screenshots interpretiert, Aktionen generiert und Befehle auf eine virtuelle Maschine anwendet.

CUA verarbeitet Pixelrohdaten, um zu verstehen, was auf dem Bildschirm passiert, und verwendet eine virtuelle Maus und Tastatur, um Aktionen auszuführen. Er kann mehrstufige Aufgaben bearbeiten, Fehler verarbeiten und sich an unerwartete Änderungen anpassen. So kann CUA innerhalb einer Vielzahl digitaler Umgebungen agieren und Aufgaben wie das Ausfüllen von Formularen und die Navigation auf Websites ausführen, ohne dass dafür spezielle APIs erforderlich sind.

Auf Grundlage von Benutzeranweisungen arbeitet CUA in einer iterativen Schleife, die Wahrnehmung, Reasoning und Aktion integriert:

Wahrnehmung: Screenshots vom Computer werden zum Kontext des Modells hinzugefügt und bieten eine visuelle Momentaufnahme des aktuellen Status des Computers.
Reasoning: CUA denkt mithilfe einer Gedankenreihe über die nächsten Schritte nach und berücksichtigt dabei aktuelle und vergangene Screenshots und Aktionen. Dieser innere Monolog verbessert die Aufgaben-Performance, indem er es dem Modell ermöglicht, seine Beobachtungen auszuwerten, Zwischenschritte zu verfolgen und sich dynamisch anzupassen.
Aktion: Es führt die Aktionen (Klicken, Scrollen oder Tippen) aus, bis es entscheidet, dass die Aufgabe abgeschlossen oder eine Benutzereingabe erforderlich ist. Während die meisten Schritte automatisch ausgeführt werden, verlangt CUA für vertrauliche Aktionen, wie etwa die Eingabe von Anmeldedaten oder das Beantworten von CAPTCHA-Formularen, eine Benutzerbestätigung.

Bewertungen

CUA setzt sowohl bei der Computer- als auch bei der Browsernutzung neue Maßstäbe, indem es die gleiche universelle Oberfläche für Bildschirm, Maus und Tastatur verwendet.

Benchmark-Typ	Benchmark	Computernutzung (universelle Schnittstelle)		Agenten zum Surfen im Web	Human
		OpenAI CUA	Vorherige SOTA	Vorherige SOTA
Computer nutzen	OSWorld	38,1 %	22,0 %	-	72,4 %
Browser-Nutzung	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Browser-Nutzung	WebVoyager	87,0 %	56,0 %	87,0 %	-

Details zur Beurteilung findest du hier

Browser-Nutzung

WebArena⁠(wird in einem neuen Fenster geöffnet) und WebVoyager⁠(wird in einem neuen Fenster geöffnet) wurden entwickelt, um die Leistung von Webbrowser-Agenten bei der Ausführung realer Aufgaben mithilfe von Browsern zu bewerten. WebArena nutzt selbst gehostete Open-Source-Websites offline, um reale Szenarien im E-Commerce, im Online-Shop-Content-Management (CMS), auf Social-Forum-Plattformen und mehr zu simulieren. WebVoyager testet die Leistung des Modells auf Online-Live-Websites wie Amazon, GitHub und Google Maps.

Bei diesen Benchmarks setzt CUA einen neuen Standard, indem er dieselbe universelle Schnittstelle verwendet, die den Browserbildschirm als Pixel wahrnimmt und Aktionen über Maus und Tastatur ausführt. CUA konnte bei webbasierten Aufgaben eine Erfolgsquote von 58,1 % auf WebArena und 87 % auf WebVoyager erzielen. Während CUA bei WebVoyager, wo die meisten Aufgaben relativ einfach sind, eine hohe Erfolgsquote erzielt, besteht Verbesserungsbedarf bei komplexeren Benchmarks wie WebArena, um die Lücke zwischen CUA und menschlicher Leistung zu schließen.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Computer nutzen

OSWorld⁠(wird in einem neuen Fenster geöffnet) ist eine Benchmark, die die Fähigkeit von Modellen bewertet, vollständige Betriebssysteme wie Ubuntu, Windows und macOS zu steuern. In dieser Benchmark erzielt CUA eine Erfolgsquote von 38,1 %. Wir konnten eine Skalierung der Testzeit beobachtet, was bedeutet, dass sich die Leistung von CUA verbessert, wenn mehr Schritte zulässig sind. Die Abbildung unten vergleicht die Leistung von CUA mit dem bisherigen Technikstand bei unterschiedlichen maximal zulässigen Schritten. Die menschliche Leistung liegt bei dieser Benchmark bei 72,4 %, es besteht also noch erhebliches Verbesserungspotenzial.

Alt-Text: „Liniendiagramm mit dem Titel ‚OSWorld‘, das Erfolgsquoten (%) im Vergleich zu den maximal zulässigen Schritten auf einer logarithmischen Skala zeigt. Die blaue Linie stellt OpenAI CUA dar und die orangefarbenen Punkte zeigen Claude 3.5 Sonett – Computernutzung mit Anmerkungen zu Erfolgszahlen.

Die folgenden Visualisierungen zeigen Beispiele für die Navigation von CUA durch eine Vielzahl standardisierter OSWorld-Aufgaben.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA in Operator

Wir stellen CUA über eine Research-Preview von Operator bereit – einen Agenten, der eigenständig im Web agiert, um Aufgaben für dich zu übernehmen. Operator ist für Pro⁠(wird in einem neuen Fenster geöffnet)-Benutzer in den USA unter operator.chatgpt.com⁠(wird in einem neuen Fenster geöffnet) verfügbar. Diese Research-Preview hilft uns, aus der Nutzung und dem Feedback der Community zu lernen – und Operator Schritt für Schritt weiterzuentwickeln. Wie bei jeder Technologie im Frühstadium erwarten wir nicht, dass CUA bereits jetzt in allen Szenarien zuverlässig funktioniert. Er hat sich jedoch bereits in zahlreichen Fällen als nützlich erwiesen und unser Ziel ist es, diese Verlässlichkeit auf ein breiteres Aufgabenspektrum auszudehnen. Durch die Veröffentlichung von CUA in Operator hoffen wir, wertvolle Einblicke von unseren Benutzern zu sammeln, die uns bei der Präzisierung seiner Fähigkeiten und der Erweiterung seiner Anwendungen helfen werden.

In der nachfolgenden Tabelle präsentieren wir die Leistung von CUA im Operator anhand einer Handvoll Tests, um die bekannten Stärken und Schwächen zu veranschaulichen.

Kategorie	Prompt	Erfolg / Versuche	Hinweis
Mit verschiedenen UI-Komponenten interagieren, um Aufgaben zu erledigen	Runde 1: Schau mal bei Britannica nach einer detaillierten Karte mit den Lebensräumen von Bären Runde 2: Großartig! Bitte sieh dir jetzt die Links zu Schwarzbären, Braunbären und Eisbären an und gib einen kurzen allgemeinen Überblick über deren körperliche Merkmale – insbesondere ihre Unterschiede. Ach ja, und speichere die Links bitte für mich, damit ich schnell darauf zugreifen kann.	10 / 10	CUA kann mit verschiedenen UI-Komponenten interagieren, um Ergebnisse zu suchen, zu sortieren und sie zu filtern und so die von Benutzern gewünschten Informationen zu finden. Die Zuverlässigkeit ist bei verschiedenen Websites und Benutzeroberflächen unterschiedlich.
	Ich will so ein Zielangebot. Kannst du nachsehen, ob es ein Angebot für Poppi Prebiotic Sodas gibt? Wenn ja, möchte ich die Geschmacksrichtung Wassermelone in der 355-ml-Dose. Hole mir die Art des Angebots dazu und prüfe, ob es glutenfrei ist.	9 / 10
	Ich plane, nach Seattle zu ziehen. Suche bei Redfin nach einem Reihenhaus mit mindestens drei Schlafzimmern, zwei Badezimmern und einem energieeffizienten Design (z. B. Solarpanels oder LEED-Zertifizierung). Mein Budget liegt zwischen 535.000 € und 714.000 €, und die Wohnfläche sollte idealerweise bei etwa 150 m² liegen.	3 / 10
Aufgaben, die durch einfache, wiederholte Interaktionen mit der Benutzeroberfläche erledigt werden können	Erstelle ein neues Projekt in Todoist mit dem Titel „Wochenend-Lebensmitteleinkauf“. Füge die folgende Einkaufsliste mit Produkten hinzu: Bananen (6 Stück) Avocados (2 reife) Babyspinat (1 Beutel) Vollmilch (ca. 3,8 Liter) Cheddar-Käse (1 Block, 227 g) Kartoffelchips (gesalzen, Familienpackung) Zartbitterschokolade (70 % Kakao, 2 Tafeln)	10 / 10	CUA kann einfache UI-Interaktionen zuverlässig mehrfach wiederholen, um einfache, aber mühsame Aufgaben für Benutzer zu automatisieren.
	Durchsuche Spotify nach den beliebtesten Songs in den USA aus den 1990er-Jahren und erstelle eine Playlist mit mindestens zehn Titeln.	10 / 10
Aufgaben, bei denen CUA nur dann gut klappt, wenn die Aufforderung detaillierte Hinweise zur Nutzung der Website enthält.	Besuche einfach tagvenue.com und suche nach einem Konzertsaal in London, der Platz für 150 Leute hat. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.	8 / 10	Selbst bei derselben Aufgabe kann die Zuverlässigkeit der CUA variieren, je nachdem, wie wir die Aufgabe anfordern. In diesem Fall können wir die Zuverlässigkeit verbessern, indem wir genauere Angaben zum Datum machen (z. B. „9 bis 12 Uhr“ statt „ganzer Tag ab 9 Uhr“) und Hinweise geben, wo man die Ergebnisse finden kann (z. B. „schau mal im Filterbereich …“)
	Besuche einfach tagvenue.com und suche nach einem Konzertsaal in London, der Platz für 150 Leute hat. Ich benötige es am 22. Februar 2025 für den gesamten Tag ab 9:00 Uhr. Bitte achte darauf, dass der Preis unter 90 £ pro Stunde liegt. Stelle außerdem sicher, dass Parkplätze vorhanden sind und die gesamte Einrichtung barrierefrei ist.	3 / 10
Probleme mit der ungewohnten Benutzeroberfläche und der Textbearbeitung	Nimm den HTML5-Editor und tippe den folgenden Text auf der linken Seite ein, bearbeite ihn dann nach meinen Anweisungen und schick mir einen Screenshot von allem, wenn du fertig bist. Der Text lautet: Hallo Welt! Das ist mein erster Text. Ich muss erst mal sehen, wie das mit HTML programmiert aussieht. Einige Teile sollten rot sein. Einige fettgedruckt. Einige kursiv. Einige unterstrichen. Bis mein Unterricht fertig ist und wir auf die andere Seite wechseln. ... Hallo Welt! Sollte mit Überschrift 2 versehen sein Der folgende Satz sollte ein normaler Fließtext sein. Der Satz, in dem „rot“ vorkommt, sollte normaler Text und rot sein. Der fettgedruckte Satz sollte normaler Text in Fettschrift sein Sätze, in denen kursiv Geschriebenes erwähnt wird, sollten kursiv geschrieben werden Der letzte Satz sollte rechts statt links ausgerichtet sein.	4 / 10	Wenn CUA mit Benutzeroberflächen interagieren muss, mit denen es während des Trainings nur wenig Kontakt hatte, fällt es ihm schwer, die bereitgestellte Benutzeroberfläche korrekt zu nutzen. Das führt häufig zu vielen Versuchen und Fehlern sowie zu ineffizienten Aktionen. CUA ist zudem beim Bearbeiten von Texten nicht präzise. Dabei passieren häufig viele Fehler, oder die Ausgaben enthalten Fehler.

Sicherheit

Da CUA eines unserer ersten Agentenprodukte ist, das Aktionen direkt in einem Browser ausführen kann, birgt er neue Risiken und Herausforderungen, die es zu bewältigen gilt. Während unserer Vorbereitungen für die Bereitstellung von Operator haben wir umfassende Sicherheitstests durchgeführt und Maßnahmen zur Risikominderung für drei Hauptkategorien von Sicherheitsrisiken implementiert: Missbrauch, Modellfehler und Grenzrisiken. Wir glauben, dass ein mehrstufiger Sicherheitsansatz wichtig ist. Daher haben wir Sicherheitsvorkehrungen im gesamten Bereitstellungskontext implementiert: im CUA-Modell selbst, im Operatorsystem und in den Verfahren nach der Bereitstellung. Das Ziel besteht darin, über stapelbare Schutzmaßnahmen zu verfügen, wobei jede Ebene das Risikoprofil schrittweise reduziert.

Die erste Risikokategorie ist Missbrauch. Zusätzlich zur Verpflichtung der Benutzer, unsere Nutzungsrichtlinien einzuhalten, haben wir aufbauend auf unseren Sicherheitsbemühungen für GPT‑4o die folgenden Schutzmaßnahmen entwickelt, um das Schadensrisiko für Operator durch Missbrauch zu verringern:

Ablehnungen: Das CUA-Modell ist darauf trainiert, viele schädliche Aufgaben und illegale oder regulierte Aktivitäten abzulehnen.
Blockliste: Operator hat keinen Zugriff auf Websites, die wir vorsorglich blockiert haben, wie beispielsweise viele Glücksspielseiten, Websites für Erwachsenenunterhaltung sowie Drogen- oder Waffenverkauf.
Moderation: Benutzerinteraktionen werden in Echtzeit von automatisierten Sicherheitsprüfern überwacht, die die Einhaltung der Nutzungsrichtlinien sicherstellen und bei verbotenen Aktivitäten Warnungen ausgeben oder Sperren verhängen können.
Offline-Erkennung: Darüber hinaus haben wir automatisierte Erkennungs- und menschliche Überprüfungspipelines entwickelt, um verbotene Nutzung in wichtigen Richtlinienbereichen, einschließlich Kindersicherheit und betrügerischen Aktivitäten, zu identifizieren und so unsere Nutzungsrichtlinien durchzusetzen.

Die zweite Risikokategorie sind Modellfehler, bei denen das CUA-Modell versehentlich eine vom Benutzer nicht beabsichtigte Aktion ausführt, wodurch wiederum dem Benutzer oder anderen Schaden entsteht. Hypothetische Fehler können unterschiedlich schwerwiegend sein und Tippfehler in einer E-Mail, den Kauf eines falschen Artikels oder die dauerhafte Löschung eines wichtigen Dokuments umfassen. Um den potenziellen Schaden zu reduzieren, haben wir folgende Abhilfemaßnahmen entwickelt:

Bestätigungen durch Benutzer*innen: Das CUA-Modell ist darauf trainiert, vor der Fertigstellung von Aufgaben mit externen Nebeneffekten (z. B. vor dem Absenden einer Bestellung, dem Senden einer E-Mail usw.) eine Benutzerbestätigung anzufordern, damit der Benutzer die Arbeit des Modells überprüfen kann, bevor sie endgültig wird.
Einschränkungen bei Aufgaben: Bei bestimmten Aufgaben mit höherem Risiko, wie etwa Bankgeschäften und Aufgaben, die sensible Entscheidungen erfordern, wird das CUA-Modell Hilfeanfragen vorerst ablehnen.
Beobachtungsmodus: Auf besonders sensiblen Websites, wie z. B. E-Mail, erfordert Operator eine aktive Benutzerüberwachung, um sicherzustellen, dass Benutzer mögliche Fehler des Modells direkt erkennen und beheben können.

Eine besonders wichtige Kategorie von Modellfehlern sind Angriffe auf Websites, die durch Prompt Injections, Jailbreaks und Phishing-Versuche dazu führen, dass das CUA-Modell unbeabsichtigte Aktionen ausführt. Zusätzlich zu den bereits erwähnten Schutzmaßnahmen bei Modellfehlern haben wir mehrere zusätzliche Verteidigungsschichten zum Schutz vor diesen Risiken entwickelt:

Vorsichtige Navigation: Das CUA-Modell ist darauf ausgelegt, Prompt Injections auf Websites zu erkennen und zu ignorieren und alle Fälle bis auf einen aus einer frühen internen Red Team-Sitzung zu erkennen.
Überwachung: Wir haben ein zusätzliches Modell in Operator implementiert, um die Ausführung zu überwachen und anzuhalten, wenn verdächtige Inhalte auf dem Bildschirm erkannt werden.
Erkennungssystem: Wir wenden sowohl automatisierte Erkennungs- als auch menschliche Überprüfungspipelines an, um verdächtige Zugriffsmuster zu identifizieren, die markiert und schnell (innerhalb von Stunden) zum Bildschirm hinzugefügt werden können.

Abschließend haben wir das CUA-Modell in Hinsicht auf die in unserem Preparedness Framework⁠(wird in einem neuen Fenster geöffnet) beschriebenen Grenzrisiken bewertet, darunter Szenarien mit autonomer Replikation und Biorisiko-Tools. Diese Bewertungen zeigten, dass neben GPT‑4o kein Zusatzrisiko besteht.

Bei Interesse an den Bewertungen und Sicherheitsvorkehrungen im Detail empfehlen wir eine Lektüre der Operator System Card. Dies ist ein lebendiges Dokument, das Transparenz in Bezug auf unseren Sicherheitsansatz und unsere laufenden Verbesserungen bietet.

Angesichts der zahlreichen neuen Funktionen von Operator haben wir zudem neue Ansätze zur Risikominderung implementiert. Auch wenn wir uns um hochmoderne, vielschichtige und einander ergänzende Risikominderungsmaßnahmen bemühen, gehen wir davon aus, dass sich diese Risiken und unser Ansatz mit zunehmender Kenntnis unserer Erkenntnisse weiterentwickeln werden. Wir planen, die Research-Preview als Gelegenheit zu nutzen, um Benutzerfeedback zu sammeln, unsere Sicherheitsvorkehrungen zu präzisieren und die Sicherheit der Agenten zu verbessern.

Fazit

CUA basiert auf jahrelangen Recherchefortschritten in den Bereichen Multimodalität, Reasoning und Sicherheit. Wir konnten bedeutende Fortschritte beim Deep Reasoning durch die O-Modellreihe, bei den Sichtbarkeitsfunktionen durch GPT‑4o und bei neuen Techniken zur Verbesserung der Robustheit durch Reinforcement Learning und Anweisungshierarchie erzielen. Die nächsten Herausforderungen erwarten uns im Bereich der Erweiterung des Aktionsraums von Agenten. Die Flexibilität einer universellen Oberfläche begegnet dieser Herausforderung und ermöglicht einem Agenten, jedes für Menschen entwickelte Softwaretool zu navigieren. CUA geht über spezialisierte agentenfreundliche APIs hinaus und kann sich so an jede verfügbare Computerumgebung anpassen und so wirklich den „Long Tail“ digitaler Anwendungsfälle angehen, der für die meisten KI-Modelle unerreichbar bleibt.

Wir arbeiten außerdem daran, CUA in der API⁠(wird in einem neuen Fenster geöffnet) bereitzustellen, sodass Entwickler damit ihre eigenen Computer-Agenten erstellen können. Während wir CUA weiter entwickeln, freuen wir uns auf die verschiedenen Anwendungsfälle der Community. Anhand des praktischen Feedbacks aus dieser frühen Preview werden wir die Fähigkeiten und Sicherheitsmaßnahmen von CUA kontinuierlich weiterentwickeln und so unsere Mission, die Vorteile der KI für alle zugänglich zu machen, sicher voranbringen.

Autoren

OpenAI

Referenzen

Einführung in die Computernutzung, ein neues Claude 3.5 Sonett und Claude 3.5 Haiku⁠(wird in einem neuen Fenster geöffnet)

Nachtrag zur Modellkarte: Claude 3.5 Haiku und Upgraded Claude 3.5 Sonnet⁠(wird in einem neuen Fenster geöffnet)

Kura WebVoyager-Benchmark⁠(wird in einem neuen Fenster geöffnet)

Google Project Mariner⁠(wird in einem neuen Fenster geöffnet)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(wird in einem neuen Fenster geöffnet)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(wird in einem neuen Fenster geöffnet)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(wird in einem neuen Fenster geöffnet)

Quellenangaben

Bitte gib OpenAI an und verwende zum Zitieren das folgende BibTeX: http://cdn.openai.com/cua/cua2025.bib⁠(wird in einem neuen Fenster geöffnet)