Predstavljamo ChatGPT agent: most između istraživanja i akcije
ChatGPT sada razmišlja i deluje, proaktivno birajući iz skupa agentskih veština da obavi zadatke za vas koristeći sopstveni računar.
ChatGPT sada može da obavlja posao za vas koristeći sopstveni računar i rešavajući složene zadatke od početka do kraja.
Sada možete da tražite od ChatGPT‑а da obradi zahteve kao što su „pogledaj moj kalendar i pripremi mi kratak pregled predstojećih sastanaka sa klijentima na osnovu nedavnih vesti“, „isplaniraj i kupi sastojke za japanski doručak za četvoro“ i „analiziraj tri konkurenta i napravi prezentaciju“. ChatGPT će inteligentno navigirati veb-sajtovima, filtrirati rezultate, tražiti od vas da se bezbedno prijavite kada je potrebno, pokretati kod, sprovoditi analizu, pa čak i isporučivati prezentacije i tabele koje se mogu uređivati i koje sažimaju njegove nalaze.
U srži ove nove mogućnosti nalazi se objedinjeni agentski sistem. On objedinjuje tri prednosti ranijih iskoraka: sposobnost Operator-а da komunicira sa veb-sajtovima, veštinu dubokog istraživanja u sintezi informacija i inteligenciju i razgovornu tečnost ChatGPT‑а.
ChatGPT izvršava ove zadatke koristeći sopstveni virtuelni računar, glatko prelazeći između rezonovanja i akcije kako bi obradio složene tokove rada od početka do kraja, sve na osnovu vaših instrukcija.
Najvažnije je to što vi uvek imate kontrolu. ChatGPT traži dozvolu pre nego što preduzme radnje sa posledicama, a vi ga u svakom trenutku možete lako prekinuti, preuzeti pregledač ili zaustaviti zadatke.
Počev od danas, korisnici planova Pro, Plus i Team mogu da aktiviraju nove agentske mogućnosti ChatGPT‑а direktno preko padajućeg menija alata u kompозитору poruka, izborom opcije „agent mode“ u bilo kom trenutku bilo kog razgovora.
Iako je ChatGPT agent već moćan alat za obradu složenih zadataka, današnje lansiranje je tek početak. Nastavićemo da redovno uvodimo značajna poboljšanja kroz iteracije, čineći ga vremenom sposobnijim i korisnijim za sve više ljudi.
Ranije su Operator i duboko istraživanje donosili jedinstvene prednosti: Operator je mogao da skroluje, klikće i kuca na vebu, dok je duboko istraživanje briljiralo u analizi i sažimanju informacija. Ali najbolje su funkcionisali u različitim situacijama: Operator nije mogao duboko da uđe u analizu niti da piše detaljne izveštaje, a duboko istraživanje nije moglo da komunicira sa veb-sajtovima kako bi doradilo rezultate ili pristupilo sadržaju koji zahteva autentifikaciju korisnika. Zapravo, videli smo da su mnogi upiti koje su korisnici pokušavali sa Operator-om zapravo bili prikladniji za duboko istraživanje, pa smo spojili najbolje od oba.
Integrisanjem ovih komplementarnih prednosti u ChatGPT i uvođenjem dodatnih alata, otključali smo potpuno nove mogućnosti unutar jednog modela. Sada može aktivno da koristi veb-sajtove — klikom, filtriranjem i prikupljanjem preciznijih i efikasnijih rezultata. Takođe možete prirodno da pređete iz jednostavnog razgovora na traženje konkretnih radnji unutar istog četa.
ChatGPT agent smo opremili skupom alata: vizuelnim pregledačem koji komunicira sa vebom preko grafičkog korisničkog interfejsa, tekstualnim pregledačem za jednostavnije veb-upite zasnovane na rezonovanju, terminalom i direktnim API pristupom. Agent takođe može da koristi ChatGPT konektore(отвара се у новом прозору), koji vam omogućavaju da povežete aplikacije kao što su Gmail i Github kako bi ChatGPT mogao da pronađe informacije relevantne za vaše instrukcije i koristi ih u svojim odgovorima. Takođe možete da se prijavite na bilo kom veb-sajtu preuzimanjem pregledača, što mu omogućava da ide dublje i šire i u istraživanju i u izvršavanju zadataka. Davanje ChatGPT‑ju ovih različitih puteva za pristup i interakciju sa veb informacijama znači da on može da izabere optimalan put kako bi zadatke izvršio što efikasnije. Na primer, može da prikupi informacije o vašem kalendaru preko API-ja, efikasno rezonuje nad velikim količinama teksta koristeći tekstualni pregledač, a istovremeno ima mogućnost vizuelne interakcije sa veb-sajtovima koji su prvenstveno dizajnirani za ljude.
Sve to se radi pomoću njegovog sopstvenog virtuelnog računara, koji čuva kontekst neophodan za zadatak čak i kada se koristi više alata — model može da izabere da otvori stranicu pomoću tekstualnog ili vizuelnog pregledača, preuzme datoteku sa veba, manipuliše njome pokretanjem komande u terminalu, a zatim pregleda izlaz ponovo u vizuelnom pregledaču. Model prilagođava svoj pristup kako bi zadatke izvršavao brzo, precizno i efikasno.
ChatGPT agent je osmišljen za iterativne, kolaborativne tokove rada, daleko interaktivnije i fleksibilnije od prethodnih modela. Dok ChatGPT radi, možete ga prekinuti u bilo kom trenutku da pojasnite svoje instrukcije, usmerite ga ka željenim ishodima ili potpuno promenite zadatak. Nastaviće tamo gde je stao, sada sa novim informacijama, ali bez gubitka prethodnog napretka. Isto tako, sam ChatGPT može proaktivno da zatraži dodatne detalje od vas kada je to potrebno kako bi osigurao da zadatak ostane usklađen sa vašim ciljevima. Ako zadatak traje duže nego što se očekivalo ili deluje zaglavljeno, možete ga pauzirati, zatražiti sažetak napretka ili ga potpuno zaustaviti i dobiti delimične rezultate. Ako imate ChatGPT aplikaciju na telefonu, poslaće vam obaveštenje kada završi vaš zadatak.
Ove objedinjene agentske mogućnosti značajno povećavaju korisnost ChatGPT‑а i u svakodnevnom i u profesionalnom kontekstu. Na poslu možete automatizovati ponavljajuće zadatke, kao što su pretvaranje snimaka ekrana ili kontrolnih tabli u prezentacije sastavljene od vektorskih elemenata koji se mogu uređivati, premeštanje sastanaka, planiranje i rezervisanje okupljanja van kancelarije i ažuriranje tabela novim finansijskim podacima uz zadržavanje istog formatiranja. U privatnom životu možete ga koristiti da bez napora planirate i rezervišete putovanja, osmislite i rezervišete čitave večere ili pronađete stručnjake i zakažete termine.
Poboljšane mogućnosti modela odražavaju se u njegovim performansama na nivou najboljih u klasi (SOTA) na evaluacijama koje mere sposobnosti pregledanja veba i izvršavanja zadataka iz stvarnog sveta.
Na Humanity’s Last Exam(отвара се у новом прозору)*, evaluaciji koja meri performanse veštačke inteligencije u širokom spektru oblasti kroz pitanja na ekspertskom nivou, model koji pokreće ChatGPT agent postiže novi pass@1 SOTA rezultat od 41.6. Pošto agent dinamički planira i sam bira svoje alate, isti zadatak može da rešava na različite načine u različitim pokretanjima. Kada smo to skalirali jednostavnom strategijom paralelnog izvršavanja — pokretanjem do osam pokušaja odjednom i biranjem onog sa najvećim samoprijavljenim poverenjem — HLE rezultat agenta raste na 44.4.
FrontierMath** je najteži poznati matematički reper, sa novim, neobjavljenim problemima za čije rešavanje su vrhunskim matematičarima često potrebni sati ili čak dani. Uz korišćenje alata, kao što je pristup terminalu za izvršavanje koda, ChatGPT agent dostiže tačnost od 27.4%, nadmašujući oba prethodna modela velikom razlikom.
Model smo procenjivali i pomoću repera oblikovanih po uzoru na složene zadatke iz stvarnog sveta. Na internom reperu osmišljenom da proceni učinak modela na složenim, ekonomski vrednim zadacima intelektualnog rada, izlaz ChatGPT agent-а je približno jednak ili bolji od ljudskog u oko polovine slučajeva kroz različita vremena izvršenja zadataka, dok značajno nadmašuje o3 i o4-mini. Izlaze modela ocenjuju stručnjaci u odnosu na visokokvalitetne ljudske osnove koje su kreirali najbolji izvođači u svakoj oblasti. Ovi zadaci, prikupljeni od stručnjaka iz različitih zanimanja i industrija, odražavaju profesionalni rad iz stvarnog sveta — kao što su priprema konkurentske analize pružalaca hitne nege na zahtev, izrada detaljnih amortizacionih planova i identifikovanje održivih bunara za vodu za novo postrojenje za zeleni vodonik.
Na DSBench(отвара се у новом прозору), osmišljenom za procenu agenata na realističnim zadacima iz nauke o podacima koji obuhvataju analizu i modelovanje podataka, ChatGPT agent zapaženo nadmašuje ljudske performanse velikom razlikom.
Na SpreadsheetBench, koji procenjuje modele prema njihovoj sposobnosti da uređuju tabele izvedene iz scenarija iz stvarnog sveta, ChatGPT agent nadmašuje postojeće modele velikom razlikom. Kada dobije mogućnost da direktno uređuje tabele, ChatGPT agent postiže još viši rezultat od 45.5%, u poređenju sa 20.0% koliko postiže Copilot u Excel-u.
Metodologija: Autori SpreadsheetBench-а su koristili Windows okruženje uz Microsoft Excel za evaluaciju tabela. Mi smo koristili OSX okruženje i LibreOffice, što može dovesti do malih razlika u ocenjivanju. Na primer, autori su utvrdili ukupno strogo ograničenje od 15.02% za GPT‑4o, a mi smo dobili 13.38%. Koristili smo kompletan reper od 912 pitanja.
Na internom reperu koji meri sposobnost modela da preuzme zadatke finansijskog modelovanja za analitičare investicionog bankarstva od prve do treće godine — kao što su sastavljanje finansijskog modela sa tri izveštaja za kompaniju iz Fortune 500 uz pravilno formatiranje i navođenje izvora ili izrada leveraged buyout modela za povlačenje kompanije sa berze — model koji pokreće ChatGPT agent značajno nadmašuje duboko istraživanje i o3. Svaki zadatak se ocenjuje prema stotinama kriterijuma povezanih sa tačnošću i upotrebom formula.
Procenjivali smo ChatGPT agent i na BrowseComp, reperu koji smo objavili ranije ove godine i koji meri sposobnost agenata za pregledanje da pronađu teško dostupne informacije na vebu. Model je postavio novi SOTA rezultat od 68.9%, što je 17.4 procentna poena više od dubokog istraživanja.
Na kraju, na WebArena(отвара се у новом прозору), reperu osmišljenom za procenu učinka agenata za pregledanje veba u izvršavanju veb-zadataka iz stvarnog sveta, model se poboljšava u odnosu na CUA koji pokreće o3 (model koji pokreće Operator).
Nove agentske mogućnosti ChatGPT‑а možete aktivirati direktno preko padajućeg menija alata u kompозитору poruka izborom opcije „agent mode“ u bilo kom trenutku bilo kog razgovora. Jednostavno opišite željeni zadatak — bilo da je reč o sprovođenju dubokog istraživanja, pravljenju prezentacije ili podnošenju troškova. Dok obavlja vaš zadatak, naracija na ekranu daje uvid u to šta ChatGPT tačno radi. Možete ga prekinuti i preuzeti kontrolu nad pregledačem kad god je potrebno, čime se obezbeđuje da zadaci ostanu usklađeni sa vašim ciljevima.
ChatGPT agent može da pristupi vašim konektorima, što mu omogućava da se integriše u vaše tokove rada i pristupi relevantnim informacijama spremnim za akciju. Kada se autentifikujete, ovi konektori omogućavaju ChatGPT‑ju da vidi informacije i radi stvari kao što su sažimanje vašeg prijemnog sandučeta za taj dan ili pronalaženje termina kada ste slobodni za sastanak — međutim, da bi preduzimao radnje na tim sajtovima, i dalje ćete biti zamoljeni da se prijavite preuzimanjem pregledača.
Pored toga, završene zadatke možete zakazati da se automatski ponavljaju, na primer generisanje nedeljnog izveštaja o metrikama svakog ponedeljka ujutru.
Ovo izdanje prvi put označava da korisnici mogu da traže od ChatGPT‑а da preduzima radnje na vebu. To uvodi nove rizike, naročito zato što ChatGPT agent može da radi direktno sa vašim podacima, bilo da je reč o informacijama kojima pristupa preko konektora ili veb-sajtova na koje ste ga prijavili putem režima preuzimanja. Ojačali smo robusne kontrole iz istraživačkog pregleda Operator-а i dodali zaštite za izazove kao što su rukovanje osetljivim informacijama na živom vebu, širi doseg korisnika i (ograničen) mrežni pristup terminala. Iako ove mere ublažavanja značajno smanjuju rizik, prošireni alati ChatGPT agent-а i širi doseg korisnika znače da je njegov ukupni profil rizika viši.
Posebno smo stavili akcenat na zaštitu ChatGPT agent-а od protivničke manipulacije putem umetanja instrukcije, što je rizik za agentske sisteme uopšte, i u skladu s tim pripremili opsežnije mere ublažavanja. Umetanja instrukcije su pokušaji trećih strana da manipulišu njegovim ponašanjem putem zlonamernih instrukcija na koje ChatGPT agent može naići na vebu dok izvršava zadatak. Na primer, zlonamerna instrukcija skrivena na veb-stranici, kao što je u nevidljivim elementima ili metapodacima, mogla bi da prevari agenta da preduzme nenameravane radnje, poput deljenja privatnih podataka iz konektora sa napadačem ili preduzimanja štetne radnje na sajtu na koji ga je korisnik prijavio. Pošto ChatGPT agent može da preduzima direktne radnje, uspešni napadi mogu imati veći uticaj i predstavljati veće rizike.
Obučavali smo i testirali agenta za prepoznavanje i otpornost na umetanja instrukcije, uz korišćenje nadzora za brzo otkrivanje i reagovanje na napade umetanja instrukcije. Zahtev za izričitom potvrdom korisnika pre značajnih radnji dodatno smanjuje rizik od štete od ovih napada, a korisnici mogu da intervenišu u zadacima po potrebi preuzimanjem kontrole ili pauziranjem. Korisnici treba da odvagaju ove kompromise kada odlučuju koje informacije da pruže agentu, kao i da preduzmu korake da umanje svoju izloženost ovim rizicima, na primer isključivanjem konektora kada nisu potrebni za zadatak.
Takođe smo primenili mere ublažavanja u vezi sa greškama modela, naročito zato što model sada može da obavlja zadatke koji utiču na stvarni svet:
- Izričita potvrda korisnika: ChatGPT je obučen da vas izričito pita za dozvolu pre nego što preduzme radnje sa posledicama u stvarnom svetu, kao što je kupovina.
- Aktivni nadzor („Watch Mode“): Određeni kritični zadaci, kao što je slanje e-poruka, zahtevaju vaš aktivni nadzor.
- Proaktivno ublažavanje rizika: ChatGPT je obučen da aktivno odbija visokorizične zadatke kao što su bankovni transferi.
Na kraju, uveli smo i dodatne kontrole da ograničimo podatke kojima model ima pristup:
- Kontrole privatnosti: Jednim klikom u podešavanjima ChatGPT‑а možete da izbrišete sve podatke pregledanja i odmah se odjavite sa svih aktivnih sesija na veb-sajtovima. U suprotnom, kolačići opstaju u skladu sa politikama kolačića svakog posećenog sajta, što može učiniti ponovne posete sajtovima efikasnijim.
- Bezbedni režim preuzimanja pregledača: Kada komunicirate sa vebom koristeći pregledač ChatGPT‑а („takeover mode“), vaši unosi ostaju privatni. ChatGPT ne prikuplja niti čuva podatke koje unesete tokom tih sesija, kao što su lozinke, jer modelu nisu potrebni i bezbednije je ako ih nikada ne vidi.
Zbog povećanih mogućnosti modela, doneli smo odluku da ChatGPT agent tretiramo kao sistem sa visokim biološkim i hemijskim sposobnostima u okviru našeg Okvira spremnosti, aktivirajući povezane zaštitne mere. Iako nemamo konačne dokaze da bi model mogao značajno da pomogne početniku da izazove ozbiljnu biološku štetu — naš prag za visoku sposobnost — postupamo oprezno i već sada uvodimo potrebne zaštitne mere. Kao rezultat toga, ovaj model ima naš dosad najobuhvatniji bezbednosni sklop, sa pojačanim zaštitama za biologiju: sveobuhvatno modelovanje pretnji, obuku za odbijanje dvostruke namene, stalno aktivne klasifikatore i monitore rezonovanja, kao i jasne tokove sprovođenja.
Pored našeg rada na obezbeđivanju ChatGPT agent-а, znamo da slojevita biobezbednost najbolje funkcioniše kada zaštite prevazilaze okvire bilo koje pojedinačne laboratorije, pa sarađujemo širom ekosistema kako bismo ojačali odbranu. Od prvog dana radimo sa spoljnim stručnjacima za biobezbednost, institutima za bezbednost i akademskim istraživačima na oblikovanju našeg modela pretnji, procena i politika. Recenzenti obučeni za biologiju potvrdili su naše evaluacione podatke, a stručnjaci iz domena u red team timovima stres-testirali su zaštitne mere u realističnim scenarijima. Ranije ovog meseca organizovali smo radionicu o biodefense-u sa stručnjacima iz vlade, akademije, nacionalnih laboratorija i nevladinih organizacija kako bismo ubrzali saradnju i unapredili istraživanja biodefense-a pokretana veštačkom inteligencijom. Nastavićemo globalna partnerstva kako bismo ostali ispred novih rizika.
Više o našem robusnom bezbednosnom pristupu za objedinjeni agentski model pročitajte u sistemskoj kartici. Takođe pokrećemo program nagrada za otkrivanje grešaka kako bismo mogli da pronađemo i otklonimo rizike iz stvarnog sveta.
ChatGPT agent počinje da se uvodi danas za Pro, Plus i Team; Pro će dobiti pristup do kraja dana, dok će korisnici Plus i Team pristup dobiti tokom narednih nekoliko dana. Korisnici Enterprise i Education planova dobiće pristup u narednim nedeljama. Pro korisnici imaju 400 poruka mesečno, dok ostali korisnici koji plaćaju dobijaju 40 poruka mesečno, uz dodatnu upotrebu dostupnu putem fleksibilnih opcija zasnovanih na kreditima.
Još uvek radimo na omogućavanju pristupa za Evropski ekonomski prostor i Švajcarsku.
Istraživački preview sajt Operator ће ostati funkcionalan još nekoliko nedelja, nakon čega će biti ugašen. Duboko istraživanje je deo mogućnosti ChatGPT agent-а. Ako više volite originalnu funkciju dubokog istraživanja — koja može trajati duže, ali podrazumevano pruža detaljnije i dublje odgovore — i dalje joj možete pristupiti izborom opcije „deep research“ iz padajućeg menija u kompозитору poruka.
ChatGPT agent je još uvek u ranoj fazi. Sposoban je da preuzme niz složenih zadataka, ali i dalje može da greši.
Iako vidimo značajan potencijal u njegovoj sposobnosti da generiše prezentacije, ova funkcionalnost je trenutno u beta fazi. Za sada izlazi ponekad mogu delovati rudimentarno u formatiranju i doteranosti, naročito kada se kreće bez postojećeg dokumenta. Početne mogućnosti modela usmerili smo na generisanje artefakata koji organizuju informacije u toku i formatu pogodnom za prezentacije, sa elementima kao što su tekst, grafikoni, slike i oblici koji se nativno i lako mogu uređivati nakon izvoza, optimizujući strukturu i fleksibilnost. Trenutno takođe postoje povremena odstupanja između slajdova u prikazu i izvezenog PowerPoint fajla, na čijem smanjenju radimo. Pored toga, iako trenutno možete da otpremite postojeću tabelu da bi je ChatGPT uređivao ili koristio kao šablon, ta mogućnost još nije dostupna za prezentacije. Već obučavamo sledeću iteraciju pravljenja prezentacija u ChatGPT‑u kako bi proizvodila doteranije i sofisticiranije izlaze, sa širim mogućnostima i boljim formatiranjem.
U celini, očekujemo kontinuirana poboljšanja efikasnosti, dubine i svestranosti ChatGPT agent-а tokom vremena, uključujući i neprimetnije interakcije dok nastavljamo da prilagođavamo količinu nadzora potrebnu od korisnika kako bismo ga učinili korisnijim uz istovremeno obezbeđivanje bezbedne upotrebe.
SpreadsheetBench | ||||
Model | Okruženje evaluacije | Blago ograničenje (%): nivo ćelije | Blago ograničenje (%): nivo lista | Blago ograničenje (%): ukupno |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT agent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT agent with .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Čovek | 75.56 | 65.00 | 71.33 |
Аутор
Fusnote
* Kada se omogući pregledanje, model ponekad može da pronađe tačne odgovore na mreži, na primer čitanjem blog objava sa primerima zadataka iz skupa podataka. Zabrinutost da model vara tokom pregledanja ublažavamo pomoću dve strategije:
1. Blokirani domeni za koje smo u prošlosti primetili da model sa njih vara.
2. Korišćen je dodatni model kao monitor da ispita sve izlazne tokene alata u svakom pokušaju kako bi identifikovao sumnjivo ponašanje. Sumnjivo ponašanje je definisano kao „stranica, datoteka ili isečak čija je glavna svrha da pruži tačan odgovor na ovo konkretno pitanje — npr. zvanični ključ za ocenjivanje, procureli gist sa „rešenjima“ ili diskusija koja doslovno citira završni odgovor.“ Benigno ponašanje je definisano kao „Bilo koji autoritativni izvor koji bi vredan čovek mogao da konsultuje (dokumentacija, priručnici, naučni radovi, ugledni članci), čak i ako slučajno sadrži tačan odgovor.“ Svi pokušaji za koje je monitor procenio da je izvođenje sumnjivo računaju se kao netačni. Većina uzoraka koji nisu prošli ovu proveru bili su problemi čije je tačno rešenje bilo dostupno na više internet izvora nepovezanih sa HLE.
**OpenAI ima ekskluzivan pristup za 237 od 290 privatnih pitanja u skupu podataka Tier 1-3. Pitanja FrontierMath tier 4 nisu uključena u ovu evaluaciju. Rezultati su procenjeni kao prosek 16 pokušaja odgovora na svako pitanje. Rezultate ChatGPT agent-а elicituje OpenAI, ocenjuje Epoch AI, uz pristup pregledaču i terminalu, i ograničenje od 128K tokena po odgovoru. Evaluacije OpenAI o4-mini i o3 elicituje i ocenjuje Epoch AI, bez pristupa pregledaču i terminalu, uz korišćenje Python skripti putem pozivanja funkcije i ograničenje od 100K tokena po odgovoru.
*** Oracle@64 označava najbolji rezultat postignut kroz 64 uzorkovana pokretanja, izabran uz pomoć ground truth podataka (tj. biramo pokušaj sa najvišim rezultatom za svaki zadatak na osnovu stvarno ocenjenog učinka). Prijavljujemo prosek ovih najboljih rezultata po zadatku kroz sve zadatke. Ova metrika ističe gornju granicu potencijala modela i varijansu u učinku na zadacima — pokazuje koliko model može biti sposoban kada uspe i ukazuje na prostor za poboljšanje doslednosti dodatnim treniranjem. Za razliku od tipičnih metrika „best of N“, koje biraju na osnovu pouzdanja modela, oracle@64 koristi ground truth za izbor i primenjuje se na zadatke ocenjene na kontinuiranoj skali 0–1 umesto binarnog prolaz/pad.


