23. tammikuuta 2025

Tietokonetta käyttävä agentti

Operatorin voimanlähteenä tietokonetta käyttävä agentti, tekoälyn universaali käyttöliittymä vuorovaikutukseen digitaalisen maailman kanssa.

Siirry Operatoriin

Ladataan...

Tänään esittelimme esikatseluversion Operator⁠(avautuu uudessa ikkunassa)-agentista, joka voi suorittaa verkossa tehtäviä puolestasi. Powering Operator on tietokonetta käyttävä agentti (CUA), malli, joka yhdistää GPT‑4o:n näköominaisuudet edistyneeseen päättelyyn vahvistusoppimisen avulla. CUA on koulutettu toimimaan graafisten käyttöliittymien (GUI) – näytöllä näkyvien painikkeiden, valikoiden ja tekstikenttien – kanssa aivan kuten ihmisetkin. Se antaa sille joustavuutta suorittaa digitaalisia tehtäviä ilman käyttöjärjestelmä- tai verkkokohtaisia API-rajapintoja.

CUA rakentuu vuosien perustutkimukselle multimodaalisen ymmärryksen ja päättelyn risteyskohdassa. Yhdistämällä edistyneen graafisen käyttöliittymän havainnoinnin strukturoituun ongelmanratkaisuun se voi jakaa tehtävät monivaiheisiin suunnitelmiin ja korjata ne mukautuvasti, kun haasteita ilmenee. Tämä ominaisuus on seuraava askel tekoälyn kehityksessä, sillä se antaa mallien käyttää samoja työkaluja, joihin ihmiset luottavat päivittäin, ja siten avaa mahdollisuuksia laajalle valikoimalle uusia sovelluksia.

Vaikka CUA on vielä alkuvaiheessa ja siinä on rajoituksia, se asettaa uusia huippuluokan vertailutuloksia ja saavuttaa 38,1 %:n onnistumisen OSWorldissa tietokoneen täysimittaisissa tehtävissä, 58,1 % WebArenassa ja 87 % WebVoyagerissa verkkopohjaisissa tehtävissä. Nämä tulokset korostavat CUA:n kykyä navigoida ja toimia erilaisissa ympäristöissä käyttämällä yhtä yleistä toimintatilaa.

Olemme kehittäneet CUA:n turvallisuus etusijalla vastataksemme digitaaliseen maailmaan pääsyn aiheuttamiin haasteisiin, kuten Operatorin järjestelmäkortissamme on yksityiskohtaisesti kuvattu. Iteratiivisen käyttöönottostrategiamme mukaisesti julkaisemme CUA:n aluksi Operatorin esikatseluversiona osoitteessa operator.chatgpt.com⁠(avautuu uudessa ikkunassa) Pro⁠(avautuu uudessa ikkunassa)-tason käyttäjille Yhdysvalloissa. Keräämällä reaalimaailman palautetta voimme tarkentaa turvallisuustoimenpiteitä ja parantaa niitä jatkuvasti valmistautuessamme tulevaisuuteen, jossa digitaalisten agenttien käyttö lisääntyy.

Miten se toimii

Vuokaavio, joka näyttää, kuinka CUA-järjestelmä tulkitsee syötteen tekstiksi tai kuvakaappauksiksi, luo toimintoja ja soveltaa komentoja virtuaalikoneeseen.

CUA käsittelee raakapikselidataa ymmärtääkseen, mitä näytöllä tapahtuu, ja käyttää virtuaalista hiirtä ja näppäimistöä toimintojen suorittamiseen. Se pystyy navigoimaan monivaiheisissa tehtävissä, käsittelemään virheitä ja sopeutumaan odottamattomiin muutoksiin. Se mahdollistaa CUA:n toiminnan monenlaisissa digitaalisissa ympäristöissä ja suorittaa tehtäviä, kuten lomakkeiden täyttämistä ja verkkosivustoilla navigointia, ilman erikoistuneita API-rajapintoja.

Käyttäjän ohjeiden mukaisesti CUA toimii iteratiivisen silmukan kautta, joka yhdistää havainnoinnin, päättelyn ja toiminnan:

Havainnointi: Tietokoneen näyttökuvat lisätään mallin kontekstiin, jolloin saadaan visuaalinen tilannekuva tietokoneen nykytilasta.
Päättely: CUA pohtii seuraavia vaiheita ajatusketjua käyttäen ja ottaa huomioon nykyiset ja aiemmat kuvakaappaukset ja toiminnot. Tämä sisäinen monologi parantaa suoriutumista tehtävistä mahdollistamalla mallille havaintojensa arvioinnin, välivaiheiden seuraamisen ja dynaamisen sopeutumisen.
Toiminta: Se suorittaa toiminnot – napsauttamisen, vierittämisen tai kirjoittamisen – kunnes se päättää, että tehtävä on suoritettu tai käyttäjän syötettä tarvitaan. Vaikka CUA käsittelee useimmat vaiheet automaattisesti, se pyytää käyttäjän vahvistusta arkaluontoisille toimille, kuten kirjautumistietojen syöttämiselle tai CAPTCHA-lomakkeisiin vastaamiselle.

Arvioinnit:

CUA luo uuden huippuluokan sekä tietokoneen että selaimen käytön vertailuarvoissa käyttämällä samaa universaalia käyttöliittymää, joka koostuu näytöstä, hiirestä ja näppäimistöstä.

Vertailuarvon tyyppi	Vertailuarvo	Tietokoneen käyttö (universaali käyttöliittymä)		Verkkoselailuagentit	Human
		OpenAI CUA	Edellinen SOTA	Edellinen SOTA
Tietokoneen käyttö	OSWorld	38,1 %	22,0 %	-	72,4 %
Selaimen käyttö	WebArena	58,1 %	36,2 %	57,1 %	78,2 %
Selaimen käyttö	WebVoyager	87,0 %	56,0 %	87,0 %	-

Arvioinnin yksityiskohdat on kuvattu tässä

Selaimen käyttö

WebArena⁠(avautuu uudessa ikkunassa) ja WebVoyager⁠(avautuu uudessa ikkunassa) on suunniteltu arvioimaan verkkoselailuagenttien suorituskykyä reaalimaailman tehtävien suorittamisessa selaimia käyttäen. WebArena hyödyntää itse isännöityjä avoimen lähdekoodin verkkosivustoja offline-tilassa jäljitelläkseen tosielämän skenaarioita verkkokaupassa, verkkokauppojen sisällönhallintajärjestelmissä (CMS), sosiaalisen median alustoilla ja muissa palveluissa. WebVoyager testaa mallin suorituskykyä verkkosivustoilla, kuten Amazon, GitHub ja Google Maps.

Näissä vertailuissa CUA asettaa uuden standardin käyttämällä samaa universaalia käyttöliittymää, joka havaitsee selainnäytön pikseleinä ja suorittaa toimintoja hiiren ja näppäimistön avulla. CUA saavutti 58,1 %:n onnistumisen WebArenassa ja 87 %:n onnistumisen WebVoyagerissa verkkopohjaisissa tehtävissä. Vaikka CUA saavuttaa korkean onnistumisprosentin WebVoyagerissa, jossa useimmat tehtävät ovat suhteellisen yksinkertaisia, CUA tarvitsee vielä parannuksia kuroakseen umpeen kuilua ihmisen suorituskykyyn verrattuna monimutkaisemmissa vertailuissa, kuten WebArenassa.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Tietokoneen käyttö

OSWorld⁠(avautuu uudessa ikkunassa) on vertailuarvo, joka arvioi mallien kykyä hallita kokonaisia käyttöjärjestelmiä, kuten Ubuntua, Windowsia ja macOS:ää. Tässä vertailuarvossa CUA saavuttaa 38,1 %:n onnistumisen. Havaitsimme testiajan skaalautumisen, mikä tarkoittaa, että CUA:n suorituskyky paranee, kun sallitaan enemmän vaiheita. Alla oleva kuva vertaa CUA:n suorituskykyä aiempiin huippuratkaisuihin vaihtelevilla sallituilla suurimmilla vaihemäärillä. Ihmisen suorituskyky tässä vertailuarvossa on 72,4 %, joten parantamisen varaa on vielä huomattavasti.

Vaihtoehtoinen teksti: Viivakaavio nimeltä 'OSWorld', joka näyttää onnistumisprosentit (%) suhteessa sallittujen vaiheiden enimmäismäärään logaritmisella asteikolla. Sininen viiva edustaa OpenAI CUA:ta ja oranssit pisteet Claude 3.5 Sonnet - Tietokoneen käyttö onnistumisprosenttien merkintöineen.

Seuraavat visualisoinnit näyttävät esimerkkejä CUA:n navigoinnista erilaisissa standardoiduissa OSWorld-tehtävissä.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA Operatorissa

Tarjoamme CUA:n Operator-agentin esikatseluversion kautta. Operator voi suorittaa tehtäviä puolestasi verkossa. Operator on saatavilla Pro⁠(avautuu uudessa ikkunassa)-käyttäjille Yhdysvalloissa osoitteessa operator.chatgpt.com⁠(avautuu uudessa ikkunassa). Tämä esikatseluversio tarjoaa tilaisuuden oppia käyttäjiltämme ja laajemmalta ekosysteemiltä sekä hioa ja parantaa Operatoria iteratiivisesti. Kuten minkä tahansa varhaisen vaiheen teknologian kohdalla, emme vielä odota CUA:n toimivan luotettavasti kaikissa tilanteissa. Se on kuitenkin jo osoittautunut hyödylliseksi useissa tapauksissa, ja pyrimme laajentamaan tätä luotettavuutta laajempaan tehtävävalikoimaan. Julkaisemalla CUA:n Operator-versiossa toivomme keräävämme käyttäjiltämme arvokasta tietoa, joka auttaa meitä parantamaan sen ominaisuuksia ja laajentamaan sen käyttösovelluksia.

Alla olevassa taulukossa esittelemme CUA:n suorituskyvyn Operator-versiossa muutamissa kokeiluissa, joissa on annettu kehote havainnollistaa sen tunnettuja vahvuuksia ja heikkouksia.

Luokka	Kehote	Onnistuminen / yritykset	Kommentti
Vuorovaikutus käyttöliittymän eri osien kanssa tehtävien suorittamiseksi	Turn 1: Search Britannica for a detailed map view of bear habitats Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.	10 / 10	CUA pystyy käyttämään käyttöliittymän eri osia tulosten hakemiseen, lajitteluun ja suodattamiseen käyttäjien haluaman tiedon löytämiseksi. Luotettavuus vaihtelee eri verkkosivustojen ja käyttöliittymien välillä.
	I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
Tehtävät, jotka voi suorittaa toistuvilla yksinkertaisilla käyttöliittymätoiminnoilla	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	CUA voi toistaa yksinkertaisia käyttöliittymätoimintoja luotettavasti useita kertoja automatisoidakseen yksinkertaisia mutta työläitä käyttäjien tehtäviä.
	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
Ne CUA:n tehtävät, joissa onnistumisprosentti on korkea vain, jos kehotteet sisältävät tarkat vihjeet sivuston käytöstä.	Käy osoitteessa tagvenue.com ja etsi 150-paikkainen konserttisali Lontoossa. Tarvitsen sen 22. helmikuuta 2025 koko päiväksi klo 9.00–12.00. Varmista, että se maksaa alle 90 £ tunnilta. Voisitko tarkistaa suodattimien osiosta sopivat suodattimet ja huolehtia siitä, että siellä on pysäköintitilaa, ja että kaikkialle pääsee pyörätuolilla.	8 / 10	CUA:n luotettavuus saattaa muuttua samassakin tehtävässä sen mukaan, miten kehotamme suorittamaan sen. Tässä tapauksessa voimme parantaa luotettavuutta ajan tarkennuksilla (esim. klo 9.00-12.00 vs. koko päivä klo 9.00 alkaen) ja antamalla vihjeitä siitä, mitä käyttöliittymää tulisi käyttää tulosten etsimiseen (esim. tarkista suodattimien osio...)
	Käy osoitteessa tagvenue.com ja etsi 150-paikkainen konserttisali Lontoossa. Tarvitsen sitä 22. helmikuuta 2025 koko päiväksi klo 9.00 alkaen. Varmista, että se maksaa alle 90 £ tunnilta. Ja huolehdi siitä, että siellä on pysäköintitilaa ja että kaikkialle pääsee pyörätuolilla.	3 / 10
Vaikeuksia vieraan käyttöliittymän käytössä ja tekstin muokkauksessa	Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left	4 / 10	CUA:lla on vaikeuksia käyttää harvoin kohtaamiaan käyttöliittymiä oikein, koska sillä ei ole ollut niistä paljon kokemusta koulutuksen aikana. Se johtaa usein moniin kokeiluihin ja virheisiin sekä tehottomiin toimintoihin. CUA ei ole tarkka tekstinmuokkauksessa. Se tekee usein paljon virheitä prosessissa tai tuottaa virheellisiä tuloksia.

Turvallisuus

Koska CUA on yksi ensimmäisistä agenttituotteistamme, joka pystyy suorittamaan toimintoja suoraan selaimessa, se tuo mukanaan uusia riskejä ja haasteita, jotka on otettava huomioon. Valmistautuessamme Operatorin käyttöönottoon teimme laajoja turvallisuustestejä ja toteutimme lieventäviä toimenpiteitä kolmessa pääasiallisessa turvallisuusriskiluokassa: väärinkäyttö, mallinnusvirheet ja tuntemattomat todennäköisyys- ja vaikutusriskit. Uskomme, että on tärkeää soveltaa kerroksellista lähestymistapaa turvallisuuteen, joten otimme käyttöön suojatoimia koko käyttöönoton kontekstissa: itse CUA-mallissa, Operator-järjestelmässä ja käyttöönoton jälkeisissä prosesseissa. Tavoitteena on, että lievennykset ovat päällekkäisiä ja jokainen kerros pienentää riskiprofiilia asteittain.

Ensimmäinen riskiluokka on väärinkäyttö. Sen lisäksi, että vaadimme käyttäjiltä käyttöehtojemme noudattamista, olemme suunnitelleet seuraavat lieventävät toimenpiteet vähentääksemme Operatorin väärinkäytöstä johtuvaa vahinkoriskiä GPT‑4o:n turvallisuustyömme pohjalta:

Kieltäytymiset: CUA-malli on koulutettu kieltäytymään monista haitallisista tehtävistä ja laittomista tai säännellyistä toiminnoista.
Estoluettelo: Operator ei voi käyttää verkkosivustoja, jotka olemme ennaltaehkäisevästi estäneet, kuten monia uhkapelisivustoja, aikuisviihdettä ja huume- tai asekauppoja.
Moderointi: Käyttäjien vuorovaikutusta tarkastellaan reaaliajassa automaattisilla turvatarkastuksilla, jotka on suunniteltu varmistamaan käyttöehtojen noudattaminen ja joilla on mahdollisuus antaa varoituksia tai estää kiellettyjä toimintoja.
Offline-tunnistus: Olemme myös kehittäneet automaattisia tunnistus- ja ihmisen suorittamia tarkastusprosesseja, joiden avulla voimme tunnistaa kielletyn käytön prioriteettialueilla, mukaan lukien lasten turvallisuus ja harhaanjohtava toiminta, mikä mahdollistaa käyttökäytäntöjemme täytäntöönpanon.

Toinen riskiluokka on mallivirheet, joissa CUA-malli vahingossa tekee toiminnon, jota käyttäjä ei tarkoittanut, mikä puolestaan aiheuttaa vahinkoa käyttäjälle tai muille. Hypoteettiset virheet voivat vaihdella vakavuusasteeltaan sähköpostin kirjoitusvirheestä väärän tuotteen ostamiseen tai tärkeän asiakirjan pysyvään poistamiseen. Mahdollisten haittojen minimoimiseksi olemme kehittäneet seuraavat lieventämistoimenpiteet:

Käyttäjän vahvistukset: CUA-malli on koulutettu pyytämään käyttäjältä vahvistusta ennen ulkoisia sivuvaikutuksia sisältävien tehtävien viimeistelyä, esimerkiksi ennen tilauksen lähettämistä tai sähköpostin lähettämistä, jotta käyttäjä voi tarkastaa mallin työn ennen kuin siitä tulee pysyvä.
Tehtävien rajoitukset: Toistaiseksi CUA-malli ei auta tietyissä riskialttiimmissa tehtävissä, kuten pankkitapahtumissa ja arkaluontoista päätöksentekoa vaativissa tehtävissä.
Valvontatila: Erityisen arkaluontoisilla verkkosivustoilla, kuten sähköpostissa, Operator vaatii aktiivista käyttäjän valvontaa varmistaen, että käyttäjät voivat suoraan havaita ja korjata mallin mahdolliset virheet.

Yksi erityisen tärkeä mallivirheiden luokka on verkkosivustoihin kohdistuvat hyökkäykset, jotka saavat CUA-mallin suorittamaan tahattomia toimia esimerkiksi kehotteiden syöttämisen, suojausmurtojen ja tietojenkalasteluyritysten avulla. Edellä mainittujen mallivirheitä ehkäisevien lieventävien toimenpiteiden lisäksi kehitimme useita lisäpuolustuskerroksia suojautuaksemme näiltä riskeiltä:

Varovainen navigointi: CUA-malli on suunniteltu tunnistamaan ja jättämään huomiotta verkkosivustoilla tehdyt kehotteiden syöttämiset, ja se tunnistaa kaikki paitsi yhden tapauksen varhaisesta sisäisestä red teaming -istunnosta.
Seuranta: Operatorissa olemme ottaneet käyttöön lisämallin, joka valvoo ja keskeyttää suorituksen, jos se havaitsee näytöllä epäilyttävää sisältöä.
Havaitsemisprosessi: Käytämme sekä automaattista tunnistusjärjestelmää että ihmisen suorittamia tarkastuksia epäilyttävien käyttötapausten tunnistamiseksi. Nämä mallit voidaan merkitä ja lisätä nopeasti valvontaan (muutamassa tunnissa).

Lopuksi arvioimme CUA-mallia valmiusviitekehyksessämme esitettyjen tuntemattomien todennäköisyys- ja vaikutusriskien⁠(avautuu uudessa ikkunassa) varalta, mukaan lukien skenaariot, joissa käytettiin autonomista replikointia ja bioriskityökaluja. Nämä arvioinnit eivät osoittaneet lisäriskiä GPT‑4o:n lisäksi.

Niitä, jotka ovat kiinnostuneita tutustumaan arviointeihin ja suojatoimiin tarkemmin, kehotamme tutustumaan Operatorin järjestelmäkorttiin, joka on jatkuvasti päivittyvä asiakirja ja tarjoaa läpinäkyvyyttä lähestymistapaamme turvallisuuteen ja jatkuviin parannuksiin.

Koska monet Operatorin ominaisuuksista ovat uusia, niin ovat myös käyttöön ottamamme riskit ja niiden lieventämismenetelmät. Vaikka olemme pyrkineet huippuluokan, monipuolisiin ja toisiaan täydentäviin riskienhallinnan keinoihin, odotamme näiden riskien ja lähestymistapamme kehittyvän oppiessamme lisää. Odotamme innolla, että voimme käyttää tutkimuksen esikatselujakson tilaisuutena kerätä käyttäjäpalautetta, hioa suojatoimiamme ja parantaa agenttien turvallisuutta.

Johtopäätökset

CUA hyödyntää vuosien tutkimustyötä multimodaalisuuden, päättelyn ja turvallisuuden saralla. Olemme edistyneet merkittävästi syväpäättelyssä o-mallisarjan avulla, näkökyvyssä GPT‑4o:n avulla ja uusissa tekniikoissa, joilla parannetaan luotettavuutta vahvistusoppimisen ja käskyhierarkian avulla. Seuraava haastealue, jota aiomme tutkia, on agenttien toiminta-alueen laajentaminen. Universaalin käyttöliittymän tarjoama joustavuus vastaa tähän haasteeseen mahdollistamalla agentin, joka pystyy navigoimaan missä tahansa ihmisille suunnitellussa ohjelmistotyökalussa. Siirtymällä erikoistuneiden agenttiystävällisten API-rajapintojen ulkopuolelle CUA voi mukautua mihin tahansa käytettävissä olevaan tietokoneympäristöön. Se todella ratkaisee digitaalisten käyttötapausten nk. pitkän hännän, joka on useimpien tekoälymallien ulottumattomissa.

Työskentelemme myös sen eteen, että CUA olisi saatavilla API⁠(avautuu uudessa ikkunassa)-rajapinnassa, jotta kehittäjät voivat käyttää sitä omien tietokonetta käyttävien agenttiensa rakentamiseen. Jatkaessamme CUA:n kehittämistä odotamme innolla, mitä erilaisia käyttötapauksia yhteisö tulee löytämään. Aiomme käyttää tästä varhaisesta esikatselusta keräämäämme reaalimaailman palautetta CUA:n ominaisuuksien ja turvatoimenpiteiden jatkuvaan parantamiseen, jotta voimme edistää turvallisesti tehtäväämme jakaa tekoälyn hyötyjä kaikille.

Tekijät

OpenAI

Viitteet

Tietokoneen käytön esittely, uusi Claude 3.5 Sonet ja Claude 3.5 Haiku⁠(avautuu uudessa ikkunassa)

Mallikortin liite: Claude 3.5 Haiku ja päivitetty Claude 3.5 Sonnet⁠(avautuu uudessa ikkunassa)

Kura WebVoyager -vertailuarvo⁠(avautuu uudessa ikkunassa)

Google-projekti Mariner⁠(avautuu uudessa ikkunassa)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(avautuu uudessa ikkunassa)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(avautuu uudessa ikkunassa)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(avautuu uudessa ikkunassa)

Sitaatit

Viittaa OpenAI:hin ja käytä viittaukseen seuraavaa BibTeX'iä: http://cdn.openai.com/cua/cua2025.bib⁠(avautuu uudessa ikkunassa)