Zum Hauptinhalt springen
OpenAI

23. Januar 2025

Produkt

Neu: Operator

Ein früher Einblick in einen Agenten, der über einen eigenen Browser Aufgaben für dich übernimmt. Verfügbar für Pro-Benutzer*innen in den USA.

Auf dem Bild ist eine Nutzeranfrage zu sehen: Gesucht wird die bestbewertete Tagestour in Rom auf TripAdvisor–inklusive Buchung. Zu sehen sind eine Übersicht der Suchergebnisse und eine TripAdvisor-Seite mit einer Tour, die als „Best Seller“ markiert ist. „Rom: Kolosseum, Forum Romanum und Palatin.“
Laden …

Update vom 17. Juli 2025: Operator ist jetzt als ChatGPT‑Agent vollständig in ChatGPT integriert. Um diese neuen Funktionen zu nutzen, wähle einfach im Composer im Dropdown-Menü „Agent“ aus und gib deine Anfrage direkt in ChatGPT ein. Daraufhin wird die eigenständige Operator-Site (operator.chatgpt.com) in den kommenden Wochen eingestellt.


Heute veröffentlichen wir Operator(wird in einem neuen Fenster geöffnet) – einen Agenten, der eigenständig im Web agiert, um Aufgaben für dich zu übernehmen. Er kann Webseiten selbstständig öffnen und bedienen – durch Tippen, Klicken und Scrollen. Aktuell handelt es sich um eine Forschungs-Vorschau mit Einschränkungen, die sich auf Basis des Benutzer-Feedbacks weiterentwickeln wird. Operator ist einer unserer ersten Agenten, der als KI Aufgaben eigenständig für dich erledigen kann: Du gibst ihm ein Ziel vor, und er setzt es um.

Operator übernimmt verschiedenste Routineaufgaben im Browser – vom Ausfüllen von Formularen über das Bestellen von Lebensmitteln bis hin zum Erstellen von Memes. KI wird vielseitiger, wenn sie dieselben Oberflächen und Tools nutzt wie wir im Alltag – sie spart Zeit bei Routineaufgaben und eröffnet Unternehmen neue Möglichkeiten zur Interaktion.

Für einen sicheren und schrittweisen Start beginnen wir im kleinen Rahmen. Ab heute gibt es Operator für Pro(wird in einem neuen Fenster geöffnet)-Benutzer*innen in den USA unter operator.chatgpt.com(wird in einem neuen Fenster geöffnet). Diese Forschungs-Vorschau hilft uns, aus der Nutzung und dem Feedback der Community zu lernen – und Operator Schritt für Schritt weiterzuentwickeln. Unser Ziel ist es, Operator künftig auch für Plus-, Team- und Enterprise-Benutzer*innen bereitzustellen und die Funktionen direkt in ChatGPT zu integrieren.

So funktioniert Operator

Operator basiert auf einem neuen Modell namens Computer-Using Agent (CUA). CUA wurde darauf trainiert, mit grafischen Benutzeroberflächen (GUIs) zu interagieren – also mit den Schaltflächen, Menüs und Texteingabefeldern, die Menschen auf dem Bildschirm sehen. Dabei kombiniert es die visuellen Fähigkeiten von GPT‑4o mit fortgeschrittenem logischen Denken durch Reinforcement Learning.

Operator kann Webseiten „sehen“ (über Screenshots) und „bedienen“ (mithilfe aller Maus- und Tastatureingaben) – und so direkt im Browser handeln, ganz ohne speziell angepasste API-Integrationen.

Wenn Operator auf Probleme stößt oder Fehler macht, nutzt es seine logischen Fähigkeiten, um sich selbst zu korrigieren. Wenn Operator nicht weiterkommt und Unterstützung braucht, übergibt es die Steuerung einfach an dich – für ein reibungsloses, gemeinsames Nutzererlebnis.

CUA steckt zwar noch in den Anfängen und hat Einschränkungen, setzt aber bereits neue Bestmarken in den wichtigen Browser-Benchmarks WebArena und WebVoyager. Mehr über die Evals und die Forschung hinter Operator findest du in unserem Research-Blogpost..

So funktioniert es

Um loszulegen, beschreibe einfach die Aufgabe – Operator übernimmt den Rest. Du kannst jederzeit die Kontrolle über den Remote-Browser übernehmen. Operator wurde so trainiert, dass es dich aktiv darum bittet, wenn Aufgaben wie Logins, Zahlungsdaten oder CAPTCHA-Lösungen anstehen.

In Operator kannst du deine Workflows individuell anpassen – mit eigenen Anweisungen für alle oder einzelne Webseiten, zum Beispiel um bevorzugte Fluggesellschaften auf Booking.com festzulegen. Mit Operator kannst du Eingabeaufforderungen auf der Startseite speichern – ideal für wiederkehrende Aufgaben wie das Nachbestellen von Lebensmitteln auf Instacart. Wie bei mehreren Tabs im Browser kannst du mit Operator parallel mehrere Aufgaben starten – zum Beispiel eine personalisierte Emaille-Tasse auf Etsy bestellen und gleichzeitig einen Zeltplatz bei Hipcamp buchen.

Ökosystem und Benutzer*innen

Operator(wird in einem neuen Fenster geöffnet) macht aus KI ein aktives Mitglied im digitalen Ökosystem – statt nur ein passives Werkzeug zu sein. Operator vereinfacht Abläufe für Benutzer*innen und bringt Unternehmen den Nutzen von Agenten – für innovative Kundenerlebnisse und höhere Conversion-Raten. Wir kooperieren mit Unternehmen wie DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber und anderen, damit Operator reale Bedürfnisse erfüllt und etablierte Standards einhält. Neben diesen Kooperationen sehen wir großes Potenzial, die Zugänglichkeit und Effizienz bestimmter Arbeitsabläufe zu verbessern , insbesondere bei Anwendungen im öffentlichen Sektor. Um diese Anwendungsfälle weiter zu erforschen, kooperieren wir mit Organisationen wie der Stadt Stockton(wird in einem neuen Fenster geöffnet) – zum Beispiel, um die Anmeldung für städtische Dienste und Programme zu vereinfachen.

„Je mehr wir in der Forschungsphase über Operator lernen, desto besser können wir erkennen, wie KI das bürgerschaftliche Engagement für unsere Einwohner*innen noch einfacher machen kann.“
Jamil Niazi, Leiter der IT-Abteilung der Stadt Stockton

Indem wir Operator zunächst nur einem begrenzten Publikum zugänglich machen, wollen wir schnell lernen und die Funktionen anhand realer Rückmeldungen weiterentwickeln – mit dem Ziel, Innovation mit Vertrauen und Sicherheit in Einklang zu bringen. Dieser kollaborative Ansatz sorgt dafür, dass Operator Benutzer*innen, Creator*innen, Unternehmen und Organisationen des öffentlichen Sektors gleichermaßen echten Mehrwert bietet.

„Operator von OpenAI ist ein technologischer Durchbruch, der Prozesse wie das Bestellen von Lebensmitteln unglaublich vereinfacht.“
Daniel Danker, Chief Product Officer bei Instacart

Sicherheit und Datenschutz

Die Sicherheit von Operator hat höchste Priorität. Drei Schutzebenen sorgen dafür, dass Missbrauch verhindert wird und Benutzer*innen jederzeit die volle Kontrolle behalten. 

Zunächst wurde Operator so trainiert, dass stets die Nutzer*innen die Kontrolle behalten. Insbesondere an entscheidenden Stellen wird aktiv ihre Eingabe abgefragt.

  • Übernahmemodus: Operator bittet die Benutzer*innen, die Kontrolle zu übernehmen, wenn sensible Daten wie Anmeldedaten oder Zahlungsinformationen im Browser eingegeben werden. Im Übernahmemodus erfasst Operator keine Eingaben der Benutzer*innen und erstellt auch keine Screenshots davon. 
  • Bestätigungen durch Benutzer*innen: Bevor Operator eine wichtige Aktion abschließt – etwa eine Bestellung aufgibt oder eine E-Mail versendet –, holt er die Zustimmung ein.
  • Aufgabenbeschränkungen: Operator wurde darauf trainiert, bestimmte sensible Aufgaben abzulehnen, wie etwa Banktransaktionen oder Entscheidungen mit weitreichenden Folgen, zum Beispiel die Auswahl bei einer Bewerbung.
  • Beobachtungsmodus: Auf besonders sensiblen Webseiten, etwa bei E-Mail-Diensten oder Finanzservices, arbeitet Operator im Beobachtungsmodus. Alle Aktionen erfolgen unter genauer Aufsicht der Benutzer*innen, sodass diese mögliche Fehler sofort erkennen und korrigieren können.

Mit Operator lässt sich der Datenschutz unkompliziert verwalten. 

  • Deaktivierung für Trainingszwecke: Wenn in den ChatGPT‑Einstellungen die Option „Modell für alle verbessern“ deaktiviert ist, werden auch die Daten aus Operator nicht zum Training unserer Modelle verwendet. 
  • Transparente Datenverwaltung: Unter dem Bereich „Datenschutz“ in den Operator-Einstellungen können Benutzer*innen mit einem Klick alle Browserdaten löschen und sich von allen Websites abmelden. Auch frühere Unterhaltungen in Operator lassen sich mit einem Klick löschen.

Und schließlich haben wir Schutzmechanismen entwickelt, um Operator vor manipulativ gestalteten Websites zu schützen, etwa durch versteckte Prompts, schadhaften Code oder Phishing-Versuche:

  • Vorsichtige Navigation: Operator ist so konzipiert, dass er Prompt Injections erkennt und ignoriert.
  • Überwachung: Ein spezielles „Überwachungsmodell“ erkennt verdächtiges Verhalten und kann die Aufgabe pausieren, wenn etwas ungewöhnlich erscheint.
  • Erkennungssystem: Automatisierte und manuelle Prüfprozesse erkennen kontinuierlich neue Bedrohungen und aktualisieren die Schutzmechanismen schnellstmöglich.

Uns ist bewusst, dass manche versuchen könnten, diese Technologie missbräuchlich zu nutzen. Deshalb haben wir Operator so entwickelt, dass er schädliche Anfragen ablehnt und unzulässige Inhalte blockiert. Unsere Moderationssysteme können bei wiederholten Verstößen Verwarnungen aussprechen oder den Zugriff entziehen. Zusätzlich haben wir Prüfprozesse integriert, um Missbrauch frühzeitig zu erkennen und gezielt dagegen vorzugehen. Wir geben außerdem klare Hinweise dazu, wie Operator im Einklang mit unseren Nutzungsrichtlinien verwendet werden kann.

Auch wenn Operator mit umfangreichen Schutzmechanismen entwickelt wurde, ist kein System vollkommen – und Operator befindet sich noch in einer Research-Preview. Deshalb setzen wir auf kontinuierliche Verbesserung durch Rückmeldungen aus der Praxis und umfassende Tests. Mehr zu unserem Ansatz findest du im Sicherheitsbereich des Operator-Forschungsblogs.

Einschränkungen

Operator befindet sich derzeit in einer frühen Research-Preview. Obwohl er bereits viele Aufgaben souverän bewältigt, lernt und entwickelt er sich noch weiter – und kann dabei auch Fehler machen. So hat Operator derzeit noch Schwierigkeiten mit komplexen Benutzeroberflächen, etwa beim Erstellen von Präsentationen oder Verwalten von Kalendern. Frühes Feedback von Benutzer*innen ist entscheidend, um die Genauigkeit, Zuverlässigkeit und Sicherheit von Operator weiter zu verbessern und ihn für alle noch hilfreicher zu machen.

So geht es weiter

CUA in der API: Wir planen, CUA, das Modell hinter Operator, bald über die API bereitzustellen, damit Entwickler*innen damit eigene Computer-Agents erstellen können. 

Erweiterte Funktionen: Wir arbeiten kontinuierlich daran, Operator für längere und komplexere Arbeitsabläufe fit zu machen.

Breiterer Zugriff: Sobald wir von der Sicherheit und Skalierbarkeit überzeugt sind, wollen wir Operator(wird in einem neuen Fenster geöffnet) für Plus-, Team- und Enterprise-Benutzer*innen öffnen und seine Funktionen direkt in ChatGPT integrieren – für eine nahtlose Ausführung von Aufgaben in Echtzeit und im Hintergrund.

Autoren

OpenAI

Beitragende zur Grundlagenforschung

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Hauptmitarbeitende

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

XFN-Beitragende

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Führungskräfte

Aaron Schlesinger (Infrastruktur), Casey Chu (Sicherheit und Modellbereitschaft), David Medina (Forschungsinfrastruktur), Hyeonwoo Noh (Forschung insgesamt), Reiichiro Nakano (Forschung insgesamt), Yash Kumar

Beitragende

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Geschäftsleitung

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba