23 januari 2025

Computer-Using Agent

Operator voorzien van Computer-Using Agent, een universele interface voor AI voor interactie met de digitale wereld.

Bezig met laden...

Vandaag hebben we een onderzoeksversie van Operator⁠(opent in een nieuw venster) geïntroduceerd, een agent die het internet op kan gaan om taken voor je uit te voeren. Operator wordt aangestuurd door Computer-Using Agent (CUA), een model dat de visuele capaciteiten van GPT‑4o combineert met geavanceerd redeneren door middel van versterkend leren. CUA is getraind om te communiceren met grafische gebruikersinterfaces (GUI's): de knoppen, menu's en tekstvelden die mensen op een scherm zien, net zoals mensen dat doen. Dit geeft het de flexibiliteit om digitale taken uit te voeren zonder gebruik te maken van OS- of webspecifieke API's.

CUA bouwt voort op jarenlang fundamenteel onderzoek op het snijvlak van multimodaal begrijpen en redeneren. Door geavanceerde GUI-perceptie te combineren met gestructureerde probleemoplossing kan het taken opsplitsen in meerstappenplannen en zichzelf aanpassen en corrigeren wanneer er zich uitdagingen voordoen. Dit vermogen markeert de volgende stap in de ontwikkeling van AI: modellen die gebruik kunnen maken van dezelfde gereedschappen als waar mensen dagelijks op vertrouwen, waarmee de deur wordt opengezet voor een enorm scala aan nieuwe toepassingen.

Hoewel CUA nog in de kinderschoenen staat en beperkingen heeft, zet het nieuwe toonaangevende benchmarkresultaten neer, met een succespercentage van 38,1% op OSWorld voor volledige computertaken, en 58,1% op WebArena en 87% op WebVoyager voor webgebaseerde taken. Deze resultaten geven een duidelijke indruk van het vermogen van CUA om te navigeren en te werken in verschillende omgevingen met behulp van een enkele algemene actieruimte.

We hebben CUA ontwikkeld met veiligheid als topprioriteit om de uitdagingen van een agent die toegang heeft tot de digitale wereld aan te pakken, zoals beschreven in onze Operator-systeemkaart. In lijn met onze iteratieve implementatiestrategie, brengen we CUA uit via een onderzoeksversie van Operator op operator.chatgpt.com, om te beginnen⁠(opent in een nieuw venster) voor Pro⁠(opent in een nieuw venster) Tier-gebruikers in de VS. Door feedback uit de praktijk te verzamelen, kunnen we veiligheidsmaatregelen verfijnen en continu verbeteren bij de voorbereiding op een toekomst met een toenemend gebruik van digitale agenten.

Hoe het werkt

Een flowchart die laat zien hoe een CUA-systeem invoer als tekst of als schermafbeeldingen interpreteert, acties genereert en opdrachten toepast op een virtuele machine.

CUA verwerkt ruwe pixelgegevens om inzicht te krijgen in wat er op het scherm gebeurt en gebruikt een virtuele muis en toetsenbord om acties uit te voeren. Het kan door taken met meerdere stappen navigeren, fouten afhandelen en zich aanpassen aan onverwachte veranderingen. Hierdoor kan CUA in een groot aantal digitale omgevingen werken en taken uitvoeren zoals het invullen van formulieren en het navigeren door websites zonder dat daar gespecialiseerde API's voor nodig zijn.

Volgens de instructies van een gebruiker werkt CUA via een terugkoppelingslus die percipiëren, redeneren en handelen integreert:

Percipiëren: Schermafbeeldingen van de computer worden toegevoegd aan de context van het model en geven een visuele momentopname van de huidige toestand van de computer.
Redeneren: CUA redeneert door de volgende stappen met behulp van Chain-of-Thought, rekening houdend met huidige en eerdere schermafbeeldingen en acties. Deze innerlijke monoloog verbetert de taakprestaties doordat het model de eigen waarnemingen kan evalueren, tussenstappen kan volgen en zich dynamisch kan aanpassen.
Handelen: Het voert de handelingen uit (klikken, scrollen of typen), totdat het besluit dat de taak is voltooid of invoer van de gebruiker nodig is. Hoewel de meeste stappen automatisch worden uitgevoerd, vraagt CUA om bevestiging van de gebruiker voor gevoelige handelingen, zoals het invoeren van inloggegevens of het reageren op CAPTCHA-formulieren.

Evaluaties

CUA creëert een nieuwe state-of-the-art in zowel benchmarks voor computergebruik als browsergebruik door gebruik te maken van dezelfde universele interface van scherm, muis en toetsenbord.

Benchmarktype	Benchmark	Computergebruik (universele interface)		Webbrowser-assistenten	Mens
		OpenAI CUA	Vorige SOTA	Vorige SOTA
Computergebruik	OSWorld	38,1%	22,0%	-	72,4%
Browsergebruik	WebArena	58,1%	36,2%	57,1%	78,2%
Browsergebruik	WebVoyager	87,0%	56,0%	87,0%	-

Evaluatiedetails worden hierbeschreven

Browsergebruik

WebArena⁠(opent in een nieuw venster) en WebVoyager⁠(opent in een nieuw venster) zijn ontworpen om de prestaties van internetbrowsers te evalueren bij het voltooien van praktijktaken met behulp van browsers. WebArena gebruikt zelf-gehoste opensource websites offline om echte situaties na te bootsen in e-commerce, contentmanagement voor online opslag (CMS), platforms voor sociale forums en nog veel meer. WebVoyager test de prestaties van het model op online live websites zoals Amazon, GitHub en Google Maps.

In deze benchmarks zorgt CUA voor een nieuwe standaard door gebruik te maken van dezelfde universele interface die het browserscherm waarneemt als pixels en actie onderneemt via muis en toetsenbord. CUA behaalde een succespercentage van 58,1% op WebArena en een succespercentage van 87% op WebVoyager voor webgebaseerde taken. Hoewel CUA een hoog slagingspercentage behaalt op WebVoyager, waar de meeste taken relatief eenvoudig zijn, moet CUA nog verder worden verbeterd om de kloof met menselijke prestaties op complexere benchmarks zoals WebArena te dichten.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Computergebruik

OSWorld⁠(opent in een nieuw venster) is een benchmark die het vermogen van modellen evalueert om complete besturingssystemen zoals Ubuntu, Windows en macOS aan te sturen. In deze benchmark behaalt CUA een succespercentage van 38,1%. We hebben een opschaling van testtijd waargenomen, wat betekent dat de prestaties van CUA verbeteren naarmate er meer stappen worden toegestaan. De onderstaande figuur vergelijkt de prestaties van CUA met eerdere geavanceerde agents met een uiteenlopend maximaal toegestane stappen. De menselijke prestaties op deze benchmark zijn 72,4%, dus er is nog veel ruimte voor verbetering.

Alt-tekst: 'Lijngrafiek met de titel '"OSWorld" toont succespercentages (%) versus maximaal toegestane stappen op een logaritmische schaal. De blauwe lijn is de CUA van OpenAI en de oranje punten zijn voor Claude 3.5 Sonnet-computergebruik, met vermeldingen over de slagingspercentages.

De volgende visualisaties tonen voorbeelden van CUA bij het navigeren door een verscheidenheid aan gestandaardiseerde OSWorld-taken.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA in Operator

We maken CUA beschikbaar via een onderzoeksversie van Operator, een agent die naar het web kan gaan om taken voor je uit te voeren. Operator is op operator.chatgpt.com⁠(opent in een nieuw venster) beschikbaar voor Pro-⁠(opent in een nieuw venster)gebruikers in de VS. Deze onderzoeksversie een kans om te leren van onze gebruikers en het bredere ecosysteem en om Operator iteratief te verfijnen en te verbeteren. Zoals met elke technologie in een vroeg stadium, verwachten we niet dat CUA al in alle scenario's betrouwbaar zal presteren. Het is echter in verschillende gevallen al nuttig gebleken en we streven ernaar om die betrouwbaarheid uit te breiden naar een breder scala aan taken. Door CUA in Operator uit te brengen hopen we waardevolle inzichten van onze gebruikers te verzamelen, die ons zullen helpen bij het verfijnen van de mogelijkheden en het uitbreiden van de toepassingen.

In de onderstaande tabel presenteren we de prestaties van CUA in Operator bij een handvol proeven met een prompt om een beeld te geven van de bekende sterke en zwakke punten.

Categorie	Prompt	Geslaagd / pogingen	Opmerking
Interactie met verschillende UI-componenten om taken uit te voeren	Ronde 1: Zoek in Britannica voor een gedetailleerde kaart van de leefgebieden van beren. Ronde 2: Geweldig! Bekijk nu de links naar de zwarte, bruine en ijsbeer en geef een beknopt algemeen overzicht van hun fysieke kenmerken, met name hun verschillen. Oh, en sla de links voor mij op, zodat ik snel toegang kan krijgen.	10 / 10	CUA kan samenwerken met verschillende UI-componenten om resultaten te zoeken, sorteren en filteren om de informatie te vinden die gebruikers willen. De betrouwbaarheid varieert voor verschillende websites en UI's.
	Ik wil een van die doelgerichte deals. Kun je controleren of ze een aanbieding hebben voor poppi prebiotische frisdrank? Als ze het hebben, wil ik de watermeloensmaak in het blikje van 350 ml. Geef me het type deal dat hierbij hoort en controleer of het glutenvrij is.	9 / 10
	Ik ben van plan om naar Seattle te verhuizen en ik wil dat je op Redfin zoekt naar een herenhuis met minstens 3 slaapkamers, 2 badkamers en een energiezuinig ontwerp (bijv. zonnepanelen of LEED-gecertificeerd). Mijn budget ligt tussen de 600.000 en 800.000 USD en het zou bij voorkeur rond de 140 m² groot moeten zijn.	3 / 10
Taken die kunnen worden uitgevoerd door herhaalde eenvoudige UI-interacties	Maak een nieuw project aan in Todoist met de titel 'Weekend boodschappen doen'. Voeg de volgende boodschappenlijst met producten toe: Bananen (6 stuks) Avocado's (2 rijpe) Babyspinazie (1 zak) Volle melk (4 liter) Cheddar-kaas (ca. 250 g) Aardappelchips (gezouten, familiepak) Pure chocolade (70% cacao, 2 repen)	10 / 10	CUA kan eenvoudige UI-interacties betrouwbaar meerdere keren herhalen om eenvoudige, maar vervelende taken van gebruikers te automatiseren.
	Zoek op Spotify naar de populairste nummers van de VS voor de jaren negentig en maak een afspeellijst met minstens 10 nummers.	10 / 10
Taken waarbij CUA alleen een hoog succespercentage laat zien als de prompts gedetailleerde hints bevatten over het gebruik van de website.	Bezoek tagvenue.com en zoek een concertzaal met 150 zitplaatsen in Londen. Ik heb het nodig op 22 februari 2025 voor de hele dag van 9.00 tot 12.00 uur, zorg ervoor dat het minder dan £90 per uur kost. Kun je in het filtergedeelte kijken of er geschikte filters zijn en controleren of er parkeergelegenheid is en of het hele complex voor rolstoelen toegankelijk is?	8 / 10	Zelfs voor dezelfde taak kan de betrouwbaarheid van CUA's wijzigen, al naar gelang hoe we de taak als prompt aangeven. In dit geval kunnen we de betrouwbaarheid verbeteren door specifieke gegevens over de datum te geven (bijvoorbeeld van 9.00 tot 12.00 uur in plaats van de hele dag vanaf 9.00 uur) en door hints te geven over welke UI moet worden gebruikt om resultaten te vinden (bijvoorbeeld: kijk in het filtergedeelte ...)
	Bezoek tagvenue.com en zoek een concertzaal met 150 zitplaatsen in Londen. Ik heb het nodig op 22 februari 2025 voor de hele dag vanaf 9.00 uur, zorg ervoor dat het minder dan £90 per uur kost. En controleer of er parkeergelegenheid is en dat het hele complex voor rolstoelen toegankelijk is.	3 / 10
Moeite met het gebruik van een onbekende gebruikersinterface en tekstbewerking	Gebruik een html5-editor en voer de volgende tekst in aan de linkerkant, bewerk deze vervolgens naar mijn instructies en stuur me een screenshot van het geheel op het moment dat je klaar bent. De tekst is: Hallo wereld! Dit is mijn eerste tekst. Ik moet zien hoe het eruit ziet als het is geprogrammeerd met HTML. Sommige delen moeten rood zijn. Sommige vetgedrukt. Sommige cursief. Sommige onderstreept. Tot mijn les voltooid is en we naar de andere zijde gaan. ... Op Hallo wereld! moet header 2 worden toegepast De zin eronder moet een gewone paragraaftekst zijn. De zin die rood wordt genoemd moet in normale tekst zijn en rood De vetgedrukte zin moet in normale vetgedrukte tekst zijn. Zin die cursief is moet cursief zijn De laatste zin moet naar rechts worden uitgelijnd in plaats van naar links	4 / 10	Als CUA moet werken met UI's waar het tijdens de training niet veel mee heeft gewerkt, heeft het moeite om uit te vinden hoe de aangeboden UI op de juiste manier moet worden gebruikt. Het leidt meestal tot veel 'trial-and-errors' en inefficiënte acties. CUA is niet precies in het bewerken van tekst. Het maakt vaak veel fouten in het proces of geeft een foutieve uitvoer.

Veiligheid

Omdat CUA een van onze eerste agent-producten is dat rechtstreeks in een browser kan werken, brengt het nieuwe risico's en uitdagingen met zich mee. Bij de voorbereiding op het inzetten van Operator hebben we uitgebreide veiligheidstests uitgevoerd en risicobeperkende maatregelen geïmplementeerd voor drie grote groepen veiligheidsrisico's: misbruik, modelfouten en grensrisico's. We geloven dat het belangrijk is om een gelaagde benadering van veiligheid te hanteren, dus we hebben veiligheidsmaatregelen aangebracht in de hele implementatiecontext: het CUA-model zelf, het Operator-systeem en de processen na de implementatie. Het doel is om risicobeperkende maatregelen toe te passen die bij elkaar opgeteld kunnen worden, waarbij elke laag het risicoprofiel stapsgewijs vermindert.

De eerste risicocategorie is misbruik. Naast de eis dat gebruikers zich houden aan ons Gebruiksbeleid, hebben we de volgende risicobeperkende maatregelen genomen om het risico op schade door misbruik bij Operator te verminderen,waarbij we voort hebben gebouwd op ons veiligheidswerk voor GPT‑4o:

Weigeringen: Het CUA-model wordt getraind om veel schadelijke taken en illegale of gereguleerde activiteiten te weigeren.
Blokkeerlijst: Operator heeft geen toegang tot websites die we preventief hebben geblokkeerd, zoals veel goksites, erotische sites en drugs- of wapenwinkels.
Moderatie: Gebruikersinteracties worden in realtime door geautomatiseerde veiligheidscontroles gecontroleerd op naleving van het Gebruiksbeleid. Deze kunnen waarschuwingen of blokkades opwerpen voor verboden activiteiten.
Offline-detectie: We hebben ook geautomatiseerde detectie- en menselijke controlepijplijnen ontwikkeld om verboden gebruik op te sporen in gebieden met hoge prioriteit, zoals de veiligheid van kinderen en misleidende activiteiten. Daarmee kunnen we ons Gebruiksbeleid uitvoeren.

De tweede risicocategorie bestaat uit modelfouten, waarbij het CUA-model per ongeluk een handeling uitvoert die niet de bedoeling was van de gebruiker, wat vervolgens schade toebrengt aan de gebruiker of anderen. Hypothetische fouten kunnen variëren in ernst, van een typefout in een e-mail tot het kopen van het verkeerde artikel tot het permanent verwijderen van een belangrijk document. Om mogelijke schade te beperken, hebben we de volgende maatregelen genomen:

Bevestigingen van gebruikers: Het CUA-model wordt getraind om bevestiging van de gebruiker te vragen voordat taken met externe neveneffecten worden afgerond, bijvoorbeeld voordat een bestelling wordt geplaatst, een e-mail wordt verstuurd. Zo kan de gebruiker het werk van het model controleren voordat het niet meer ongedaan kan worden gemaakt.
Beperkingen van taken: Voorlopig zal het CUA-model weigeren om te helpen bij bepaalde taken met een hoog risico, zoals banktransacties en taken waarvoor gevoelige beslissingen nodig zijn.
Kijkmodus: Op bijzonder gevoelige websites, zoals e-mail, vereist Operator actief toezicht van de gebruiker, zodat gebruikers eventuele fouten van het model direct kunnen opmerken en aanpakken.

Een bijzonder belangrijke categorie van modelfouten zijn vijandige aanvallen op websites die er door middel van promptinjecties, jailbreaks en phishingpogingen voor zorgen dat het CUA-model onbedoelde acties onderneemt. Naast de eerder genoemde maatregelen tegen modelfouten, hebben we verschillende extra verdedigingslagen ontwikkeld om ons tegen deze risico's te beschermen:

Voorzichtige navigatie: Het CUA-model is ontworpen om promptinjecties op websites op te merken en te negeren en herkende op één na alle gevallen van een vroege interne red-teaming sessie.
Bewaking: In Operator hebben we een extra model geïmplementeerd om de uitvoering te controleren en te pauzeren als het verdachte inhoud op het scherm detecteert.
Detectiepijplijn: We passen zowel geautomatiseerde detectie als menselijke controlepijplijnen toe om verdachte toegangspatronen op te sporen die kunnen worden gemarkeerd en snel aan de monitor kunnen worden toegevoegd (binnen enkele uren).

Tot slot hebben we het CUA-model geëvalueerd op basis van grensrisico's die in ons Preparedness Framework⁠(opent in een nieuw venster) zijn beschreven, waaronder scenario's met autonome replicatie en biorisicotooling. Deze beoordelingen toonden geen bijkomend risico bovenop GPT‑4o.

Aan degenen die de evaluaties en veiligheidsmaatregelen nader willen verkennen, raden we aan de Systeemkaart Operator te bekijken, een levend document dat een helder inzicht geeft in onze veiligheidsaanpak en voortdurende verbeteringen.

Omdat veel van de mogelijkheden van Operator nieuw zijn, zijn ook de risico's en risicobeperkende benaderingen die we hebben geïmplementeerd nieuw. Hoewel we hebben gestreefd naar geavanceerde, diverse en complementaire risicobeperkende maatregelen, verwachten we dat deze risico's en onze aanpak zullen evolueren hoe meer we te weten komen. We kijken ernaar uit om de onderzoeksversie te gebruiken als een kans om feedback van gebruikers te verzamelen, onze beveiligingen te verfijnen en de veiligheid van agenten te verbeteren.

Conclusie

CUA bouwt voort op jaren van onderzoek naar multimodaliteit, redeneren en veiligheid. We hebben aanzienlijke vooruitgang geboekt op het gebied van diep redeneren door middel van de o-modelreeks, visuele capaciteiten via GPT‑4o en nieuwe technieken om robuustheid te verbeteren door middel van versterkend leren en instructiehiërarchie. De volgende uitdaging die we willen verkennen is de uitbreiding van de handelingsruimte van agenten. De flexibiliteit die een universele interface biedt, gaat deze uitdaging aan en maakt een agent mogelijk die kan navigeren door elk softwareprogramma dat voor mensen is ontworpen. Door verder te kijken dan gespecialiseerde agent-vriendelijke API's kan CUA zich aanpassen aan elke computeromgeving die beschikbaar is, echt een oplossing voor de 'lange staart' van digitale gebruikssituaties die buiten bereik blijven van de meeste AI-modellen.

We werken er ook aan om CUA beschikbaar te maken in de API⁠(opent in een nieuw venster), zodat ontwikkelaars het kunnen gebruiken om hun eigen computergebruikende agenten te bouwen. Bij de verdere ontwikkeling van CUA, kijken we uit naar de verschillende gebruiksmogelijkheden die de community zal ontdekken. We zijn van plan om de feedback uit de praktijk die we verzamelen uit deze eerste versie te gebruiken om de mogelijkheden en veiligheidsmaatregelen van CUA voortdurend te verfijnen om onze missie, het verspreiden van de voordelen van AI onder iedereen, op een veilige manier waar te maken.

Auteurs

OpenAI

Literatuur

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(opent in een nieuw venster)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(opent in een nieuw venster)

Kura WebVoyager benchmark⁠(opent in een nieuw venster)

Google project mariner⁠(opent in een nieuw venster)

OSWorld Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(opent in een nieuw venster)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(opent in een nieuw venster)

Aangehaalde literatuur

Vermeld OpenAI en gebruik de volgende BibTeX voor citaten: http://cdn.openai.com/cua/cua2025.bib⁠(opent in een nieuw venster)