23. januar 2025

Computer-Using Agent

Operator drives af en agent med computeradgang (Computer-Using Agent) – en universel brugerflade, der gør det muligt for AI at interagere med den digitale verden.

Gå til Operator

Indlæser ...

I dag implementerede vi en forskningsversion af Operator⁠(åbner i et nyt vindue), en agent, der kan gå på nettet og udføre opgaver for dig. Bag Operator er vores agent med computeradgang (Computer-Using Agent), en model, der kombinerer GPT‑4o’s synsevner med avanceret tænkning gennem forstærkningslæring. Vores Computer-Using Agent (CUA) er trænet til at interagere med grafiske brugerflader (GUI'er) – de knapper, menuer og tekstfelter, vi ser på en skærm – præcis som et menneske ville gøre. Det giver agenten fleksibilitet til at løse digitale opgaver uden at skulle bruge OS- eller webspecifikke API’er.

Computer-Using Agent (CUA) bygger videre på flere års grundforskning i krydsfeltet mellem multimodal forståelse og avanceret tænkning. Ved at kombinere avanceret grafisk brugerflade-perception med struktureret problemløsning kan agenten opdele opgaver i flere trin og løbende rette sig selv, når der opstår udfordringer. Denne evne markerer et nyt skridt i AI’s udvikling – modeller kan nu bruge de samme værktøjer, som mennesker benytter i hverdagen, hvilket åbner døren til en lang række nye anvendelsesmuligheder.

Selvom Computer-Using Agent (CUA) stadig er i sin tidlige fase og har sine begrænsninger, sætter den nye standarder med sine resultater – en succesrate på 38, 1% på OSWorld for opgaver med fuld computerbrug og 58,1% på WebArena og 87 % på WebVoyager for webbaserede opgaver. Resultaterne viser Computer-Using Agents (CUA) evne til at navigere og agere i forskellige miljøer via én samlet handlingsramme.

Vi har udviklet Computer-Using Agent (CUA) med sikkerhed som højeste prioritet, for at imødegå de udfordringer, der følger med, når en agent får adgang til den digitale verden – som beskrevet i vores Systemkort for Operator. I tråd med vores gradvise lanceringsstrategi udgiver vi nu som første skridt vores Computer-Using Agent (CUA) i en forskningsversion af Operator på operator.chatgpt.com⁠(åbner i et nyt vindue) for Pro⁠(åbner i et nyt vindue)-brugere i USA. Ved at indsamle feedback fra brug i virkelige scenarier kan vi finjustere sikkerhedsforanstaltningerne og løbende lave forbedringer, mens vi forbereder os på en fremtid med øget brug af digitale agent-systemer.

Sådan fungerer det

Et flowdiagram, der viser processen, hvor et Computer-Using Agent-system (CUA) fortolker input som tekst eller skærmbilleder, genererer handlinger og anvender kommandoer i en virtuel maskine.

Computer-Using Agent (CUA) behandler rå pixeldata for at forstå, hvad der sker på skærmen, og anvender en virtuel mus og et virtuelt tastatur til at udføre handlinger. Den kan navigere gennem flertrins-opgaver, håndtere fejl og tilpasse sig uforudsete ændringer. Det gør Computer-Using Agent (CUA) i stand til at agere i en lang række digitale miljøer og udføre opgaver som at udfylde formularer og navigere på websites – uden behov for specialiserede API’er.

Når brugeren giver en instruktion, arbejder den i et gradvist loop, der integrerer perception, avanceret tænkning og handling:

Perception: Skærmbilleder fra computeren tilføjes til modellens kontekst og giver et visuelt øjebliksbillede af computerens aktuelle tilstand.
Avanceret tænkning: Computer-Using Agent (CUA) ræsonnerer sig gennem de næste trin ved hjælp af tankekæder og tager hensyn til aktuelle og tidligere skærmbilleder og handlinger. Denne indre monolog forbedrer opgaveløsningen ved at gøre det muligt for modellen at evaluere sine observationer, spore mellemliggende trin og tilpasse sig dynamisk.
Handling: Den udfører handlingerne – klikker, scroller eller skriver – indtil den vurderer, at opgaven er fuldført, eller at der er behov for brugerinput. Mens det håndterer de fleste trin automatisk, søger Computer-Using Agent (CUA) brugerbekræftelse for følsomme handlinger, såsom at indtaste login-oplysninger eller svare på CAPTCHA-formularer.

Evalueringer

Computer-Using Agent (CUA) sætter en ny standard i benchmarks for både computer- og browserbrug ved at bruge den samme universelle brugerflade bestående af skærm, mus og tastatur.

Benchmarktype	Benchmark	Computerbrug (universel grænseflade)		Agenter til internetsøgning	Menneske
		OpenAI CUA	Forrige SOTA	Forrige SOTA
Computerbrug	OSWorld	38,1 %	22,0 %	-	72,4 %
Brug af browser	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Brug af browser	WebVoyager	87,0 %	56,0 %	87,0 %	-

Evalueringsoplysninger er beskrevet her

Brug af browser

WebArena⁠(åbner i et nyt vindue) og WebVoyager⁠(åbner i et nyt vindue)⁠ er udviklet til at evaluere web-browsende agenters evne til at løse opgaver i virkelige scenarier ved hjælp af en browser. WebArena anvender selvhostede open source-hjemmesider offline for at efterligne realistiske situationer inden for blandt andet e-handel, indholdsstyring (CMS) for netbutikker og sociale fora. WebVoyager tester modellens ydeevne på online live websites som Amazon, GitHub og Google Maps.

I disse benchmarks sætter Computer-Using Agent (CUA) en ny standard ved at benytte den samme universelle brugerflade, der opfatter browserskærmen som pixeldata og handler via mus og tastatur. Computer-Using Agent (CUA) opnåede en succesrate på 58,1 % i WebArena og 87 % i WebVoyager for webbaserede opgaver. Selvom den opnår en høj succesrate i WebVoyager, hvor de fleste opgaver er relativt enkle, har den stadig brug for flere forbedringer for at mindske forskellen mellem menneskelig præstation, når det kommer til mere komplekse benchmarks som WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Brug af computer

OSWorld⁠(åbner i et nyt vindue)⁠ er et benchmark, der evaluerer modellers evne til at styre komplette styresystemer som Ubuntu, Windows og macOS. I dette benchmark opnår Computer-Using Agent (CUA) en succesrate på 38,1 %. Vi observerede testtids-skalering, hvilket betyder, at dens ydeevne forbedres, når modellen får lov til at foretage flere trin. Figuren nedenfor sammenligner Computer-Using Agents (CUA) præstation med tidligere førende modeller ved forskellige maksimalt tilladte trin. Den menneskelige ydeevne i dette benchmark ligger på 72,4 %, så der er stadig stor plads til forbedring.

Alt tekst: "Linjediagram med titlen 'OSWorld', der viser succesrater (%) i forhold til maksimalt tilladte trin på en logaritmisk skala. Den blå linje repræsenterer OpenAI's Computer-Using Agent (CUA), og de orange punkter viser Claude 3.5 Sonnet – Computerbrug, med anmærkninger for succesrater.

De følgende visualiseringer viser eksempler på, hvordan Computer-Using Agent (CUA) navigerer i en række standardiserede OSWorld-opgaver.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Computer-Using Agent (CUA) i Operator

Vi gør Computer-Using Agent (CUA) tilgængelig gennem en forskningsmæssig forhåndsvisning af Operator, en agent, der kan gå på nettet og udføre opgaver for dig. Operator er tilgængelig for Pro⁠(åbner i et nyt vindue)-brugere i USA på operator.chatgpt.com⁠(åbner i et nyt vindue). Denne forhåndsvisning til research giver os mulighed for at lære af vores brugere og det bredere økosystem, så vi gradvist kan finjustere og forbedre Operator. Som med al teknologi i tidlige stadier forventer vi ikke, at Computer-Using Agent (CUA) fungerer pålideligt i alle scenarier endnu. Det har dog allerede vist sig at være nyttigt i en række tilfælde, og vi sigter mod at udvide denne pålidelighed til en bredere vifte af opgaver. Ved at frigive Computer-Using Agent (CUA) i Operator håber vi at få værdifuld indsigt fra vores brugere, så vi kan forbedre dens funktioner og udvide dens anvendelsesmuligheder.

I tabellen nedenfor præsenterer vi Computer-Using Agents (CUA) ydeevne i Operator i en håndfuld forsøg med en forespørgsel for at illustrere dens styrker og svagheder.

Kategori	Forespørgsel	Succes / forsøg	Note
Interaktion med forskellige komponenter i brugergrænsefladen for at udføre opgaver	Turn 1: Search Britannica for a detailed map view of bear habitats Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.	10 / 10	CUA kan interagere med forskellige komponenter i brugergrænsefladen til at søge efter, sortere og filtrere resultater og dermed finde de oplysninger, som brugere ønsker. Pålidelighed varierer for forskellige websites og brugergrænseflader.
	I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Opgaver, der kan udføres gennem gentagne, simple interaktioner i brugergrænsefladen	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	CUA kan på pålidelig vis gentage simpel interaktioner i brugergrænsefladen flere gange for at automatisere simple, men kedelige, opgaver for brugerne.
	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
Opgaver, hvor CUA kun viser en stor succesrate, hvis forespørgsler inkluderer detaljerede hints til, hvordan vi bruger websitet.	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.	8 / 10	Selv for den samme opgave kan CUA's pålidelighed ændres alt efter, hvordan vi opgaven formuleres. I dette tilfælde kan vi forbedre pålideligheden ved at angive specifikke oplysninger om datoen (f.eks. 09:00 til 12:00 i stedet for hele dagen fra kl. 09:00) og ved at give hints til, hvilken brugergrænseflade der skal bruges til at finde resultater (f.eks. se filterafsnittet ...)
	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible.	3 / 10
Har svært ved at bruge ukendt brugergrænseflade og tekstredigering	Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left	4 / 10	Når CUA skal interagere med brugergrænseflader, den ikke har interageret meget med under træning, har den problemer med at finde ud af, hvordan den angivne brugergrænseflade skal anvendes korrekt. Det resulterer ofte i mange forsøg og fejl og ineffektive handlinger. CUA er ikke præcis, når det kommer til tekstredigering. Den laver ofte mange fejl i processen eller leverer output med fejl.

Sikkerhed

Fordi Computer-Using Agent (CUA) er et af vores første produkter, der kan agere og udføre handlinger direkte i en browser, medfører det også nye risici og udfordringer, der skal håndteres. I forbindelse med lanceringen af Operator har vi gennemført omfattende sikkerhedstest og implementeret foranstaltninger, der adresserer tre overordnede kategorier af sikkerhedsrisici: misbrug, modelfejl og frontier-risici. Vi vurderer, at det er vigtigt at anvende en sikkerhedstilgang med flere lag. Derfor har vi indført sikkerhedsforanstaltninger på tværs af hele konteksten for implementeringen – selve modellen, Operator-systemet og de processer, der træder i kraft efter implementeringen. Målet er her at skabe et samlet system af afbødninger, hvor hvert lag gradvist reducerer den samlede risikoprofil.

Den første risikokategori er misbrug. Ud over at kræve, at brugerne overholder vores Retningslinjer for brug, har vi udviklet følgende foranstaltninger for at reducere Operator’s risiko for skade på grund af misbrug, idet vi bygger videre på vores sikkerhedsarbejde for GPT‑4o:

Nægtelser: Computer-Using Agent-modellen (CUA) er trænet til at afvise mange skadelige opgaver samt ulovlige eller regulerede aktiviteter.
Blokeringsliste: Operatøren kan ikke tilgå hjemmesider, som vi har blokeret som en forebyggende foranstaltning. Det omfatter f.eks. mange spillesider, voksenunderholdning og forhandlere af stoffer eller våben.
Moderation: Brugerinteraktioner gennemgås i realtid af automatiserede sikkerhedstjek, som er udviklet til at sikre overholdelse af retningslinjerne for brug og har evnen til at udstede advarsler eller blokeringer ved forbudte aktiviteter.
Offline opsporing: Vi har også udviklet automatiseret opsporing og menneskelige gennemgangsprocesser til at identificere forbudt brug inden for prioriterede områder, herunder børnesikkerhed og vildledende aktiviteter, hvilket gør det muligt for os at håndhæve vores retningslinjer for brug.

Den anden risikokategori er modelfejl, hvor Computer-Using Agent-modellen (CUA) ved en fejl udfører en handling, som brugeren ikke havde til hensigt, og som dermed kan forvolde skade på brugeren eller andre. Hypotetiske fejl kan variere i sværhedsgrad, fra en lave en slåfejl i en e-mail, til at købe den forkerte vare, til permanent at slette et vigtigt dokument. For at minimere potentielle skader har vi udviklet følgende foranstaltninger:

Brugerbekræftelser: Computer-Using Agent-modellen (CUA) er trænet til at bede om brugerens bekræftelse, før den afslutter opgaver med eksterne bivirkninger, som f.eks. før en ordre eller e-mail afsendes, så brugeren kan dobbelttjekke modellens arbejde, før det bliver permanent.
Begrænsninger på opgaver: Indtil videre vil Computer-Using Agent-modellen (CUA) sige nej til at hjælpe med visse højrisiko-opgaver, som f.eks. banktransaktioner eller opgaver, der kræver følsomme beslutninger.
Bevågenhedsfunktion: På særligt følsomme websteder, såsom e-mail, kræver Operator aktivt brugertilsyn, så brugerne direkte kan opdage og rette eventuelle fejl, modellen eventuelt måtte lave.

En særligt vigtig kategori af modelfejl er konfliktfyldte angreb på hjemmesider, som får Computer-Using Agent-modellen (CUA) til at udføre utilsigtede handlinger gennem indskudte forespørgsler, jailbreaks eller phishingforsøg. Ud over de førnævnte foranstaltninger for at mindske modelfejl har vi udviklet yderligere lag for at beskytte mod disse risici:

Varsom navigation: Computer-Using Agent-modellen (CUA) er udviklet til at identificere og ignorere indskudte forespørgsler fra websteder og genkender alle på nær ét tilfælde fra en tidlig intern red teaming-session.
Monitorering: I Operator har vi implementeret en ekstra model til at monitorere og sætte udførslen på pause, hvis den opdager mistænkeligt indhold på skærmen.
Opsporings-pipeline: Vi anvender både automatiseret opsporing og menneskelig gennemgang til at identificere mistænkelige adgangsmønstre, som kan markeres og hurtigt føjes til monitoren (i løbet af få timer).

Endelig evaluerede vi Computer-Using Agent-modellen (CUA) i forhold til frontier-risici, som er beskrevet i vores Beredskabsramme⁠(åbner i et nyt vindue), herunder scenarier med autonom replikation og værktøjer til biorisici. Disse vurderinger viste ingen øget risiko ud over GPT‑4o.

For dem, der er interesserede i at undersøge vurderingerne og sikkerhedsforanstaltningerne mere i detaljer, opfordrer vi til at læse Systemkortet for Operator, et dokument i udvikling, som giver løbende indsigt i vores sikkerhedstilgang og gradvise forbedringer.

Operators mange muligheder er nye, og det samme er de medfølgende risici og de afhjælpende tiltag, vi implementerer. Selvom vi har tilstræbt avancerede, forskelligartede og komplementære afværgeforanstaltninger, forventer vi, at disse risici og vores tilgang vil udvikle sig, efterhånden som vi lærer mere. Vi ser frem til at bruge den kommende forskningsperiode på at indsamle brugerfeedback, finjustere vores sikkerhedsforanstaltninger og forbedre sikkerheden.

Konklusion

Brugen af en Computer-Using Agent (CUA) bygger på mange års forskningsfremskridt inden for multimodalitet, ræsonnering og sikkerhed. Vi har gjort markante fremskridt inden for grundig ræsonnering gennem o-modelserien, synsevner gennem GPT‑4o og nye teknikker til at forbedre robustheden gennem forstærkningslæring og hierarkisk instruktion. Den næste udfordring, vi planlægger at udforske, er at udvide agenternes handlingsrum. Den fleksibilitet, en universel brugerflade gør mulig, løser denne udfordring og gør det muligt for en agent at navigere i ethvert softwareværktøj, der er designet til mennesker. Ved at bevæge sig ud over specialiserede agentvenlige API'er kan en Computer-Using Agent (CUA) tilpasse sig ethvert tilgængeligt computermiljø – og virkelig adressere “den lange hale” af digitale use cases, der fortsat er uden for rækkevidde for de fleste AI-modeller.

Vi arbejder også på at gøre Computer-Using Agent (CUA) tilgængelig i API'en⁠(åbner i et nyt vindue), så udviklere kan bruge den til at bygge deres egne Computer-Using Agent (CUA). Mens vi fortsætter udviklingsarbejdet, ser vi frem til at opleve de forskellige use cases, som fællesskabet vil afdække. Vi planlægger at bruge den praktiske feedback, vi indsamler fra forskningsversionen, til løbende at finjustere Computer-Using Agents (CUA) funktioner og sikkerhedsforanstaltninger, så vi sikkert kan fremme vores mission om at gøre fordelene ved AI tilgængelige for alle.

Skrevet af

OpenAI

Litteraturhenvisninger

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(åbner i et nyt vindue)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(åbner i et nyt vindue)

Kura WebVoyager benchmark⁠(åbner i et nyt vindue)

Google project mariner⁠(åbner i et nyt vindue)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(åbner i et nyt vindue)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(åbner i et nyt vindue)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(åbner i et nyt vindue)

Citering

Citer venligst OpenAI og brug følgende BibTeX til citering: http://cdn.openai.com/cua/cua2025.bib⁠(åbner i et nyt vindue)