17. července 2025

Představujeme agenta ChatGPT: propojení výzkumu a akce

ChatGPT nyní přemýšlí a jedná, aktivně si vybírá ze sady agentních dovedností, aby za tebe dokončil úkoly pomocí vlastního počítače.

Vyzkoušej na ChatGPT

Načítání…

ChatGPT nyní pro tebe může pracovat pomocí vlastního počítače, zvládajícího složité úkoly od začátku až do konce.

Teď můžeš požádat ChatGPT, aby vyřídil požadavky jako „podívej se na můj kalendář a informuj mě o nadcházejících schůzkách s klienty na základě nedávných zpráv“, „naplánuj a nakup ingredience na přípravu japonské snídaně pro čtyři“ a „analyzuj tři konkurenty a vytvoř prezentaci“. ChatGPT bude inteligentně procházet webové stránky, filtrovat výsledky, vyzývat tě k bezpečnému přihlášení, když to bude potřeba, spouštět kód, provádět analýzu a dokonce poskytovat prezentace a tabulky, které shrnují jeho zjištění a které lze dále upravovat.

Jádrem této nové schopnosti je jednotný agentní systém. Spojuje tři silné stránky dřívějších průlomových úspěchů: Schopnost nástroje Operator⁠ interagovat s webovými stránkami, dovednost hlubokého výzkumu⁠ syntetizovat informace a inteligenci a plynulost konverzace ChatGPT.

ChatGPT provádí tyto úkoly s využitím vlastního virtuálního počítače, plynule přechází mezi odůvodňováním a akcí, aby zvládl složité pracovní postupy od začátku až do konce, vše na základě tvých pokynů.

Nejdůležitější je, že máš vždy vše pod kontrolou. ChatGPT požaduje povolení před provedením akcí s důsledky a činnost můžeš kdykoli snadno přerušit, převzít kontrolu nad prohlížečem nebo zastavit úkoly.

Od dnešního dne mohou uživatelé Pro, Plus a Team aktivovat nové agentní schopnosti ChatGPT přímo prostřednictvím rozbalovací nabídky nástrojů v editoru výběrem „režimu agenta“ kdykoli a v jakékoli konverzaci.

Ačkoli je agent ChatGPT výkonným nástrojem ke zvládání složitých úkolů již nyní, dnešní spuštění je teprve začátek. Budeme pokračovat v pravidelném přidávání významných vylepšení, aby se časem stal schopnějším a užitečnějším pro více lidí.

Přirozený vývoj nástrojů Operator a hlubokého výzkumu

Operator a hluboký výzkum přinášely jedinečné přednosti již dříve: Operator mohl procházet, klikat a psát na webu, zatímco hluboký výzkum vynikal v analýze a shrnování informací. Nejlépe však fungovaly v různých situacích: Operator se nemohl ponořit hluboko do analýzy ani psát podrobné zprávy a hluboký výzkum nemohl interagovat s webovými stránkami, aby upřesnil výsledky nebo získal přístup k obsahu vyžadujícímu ověření uživatele. Ve skutečnosti jsme zjistili, že mnoho dotazů, které uživatelé zkoušeli s nástrojem Operator, bylo vhodnější pro hluboký výzkum, takže jsme spojili to nejlepší z obou.

Integrací těchto vzájemně se doplňujících silných stránek do ChatGPT a zavedením dalších nástrojů jsme v rámci jednoho modelu odemkli zcela nové možnosti. Nyní je možné se aktivně zapojovat do webových stránek – klikat, filtrovat a shromažďovat přesnější a efektivnější výsledky. Můžeš také přímo v rámci stejného chatu přirozeně přejít od jednoduché konverzace k přímému požadování akcí.

Agent, který pracuje pro tebe, s tebou

Agenta ChatGPT jsme vybavili sadou nástrojů: vizuálním prohlížečem, který komunikuje s webem prostřednictvím grafického uživatelského rozhraní, textovým prohlížečem pro jednodušší webové dotazy založené na odůvodňování, terminálem a přímým přístupem k API. Agent může také využít ChatGPT konektory⁠(otevře se v novém okně), které umožňují připojit aplikace jako Gmail a Github, aby ChatGPT mohl najít informace relevantní pro tvé výzvy a použít je ve svých odpovědích. Můžeš se také přihlásit k libovolnému webu převzetím prohlížeče, což umožňuje procházet v jeho výzkumu i provádění úkolů hlouběji a dále. Dát ChatGPT různé možnosti přístupu a interakce s webovými informacemi znamená, že si může vybrat optimální cestu k co nejefektivnějšímu provádění úkolů. Může například shromažďovat informace o tvém kalendáři prostřednictvím API, efektivně provádět odůvodnění nad velkým množstvím textu pomocí textového prohlížeče a zároveň má schopnost vizuálně interagovat s webovými stránkami navrženými primárně pro lidi.

To vše se provádí pomocí vlastního virtuálního počítače, který zachovává kontext potřebný pro úkol, i když se používá více nástrojů. Model si může vybrat, zda otevře stránku pomocí textového nebo vizuálního prohlížeče, stáhne soubor z webu, manipuluje s ním spuštěním příkazu v terminálu a poté si zobrazí výstup zpět ve vizuálním prohlížeči. Model přizpůsobuje svůj přístup k provádění úkolů rychle, přesně a efektivně.

Agent ChatGPT je určen pro iterativní a spolupracující pracovní postupy, které jsou mnohem interaktivnější a flexibilnější než předchozí modely. Práce ChatGPT lze kdykoli během činnosti přerušit a objasnit své pokyny, nasměrovat ChatGPT k požadovaným výsledkům nebo úplně změnit úkol. Bude pokračovat tam, kde předtím skončil, nyní s novými informacemi, ale bez ztráty předchozího pokroku. Stejně tak samotný ChatGPT může v případě potřeby aktivně vyhledávat další podrobnosti, aby zajistil, že úkol zůstane v souladu s tvými cíli. Pokud úkol trvá déle, než jsi očekával, nebo se ti zdá, že se zasekl, můžeš ho pozastavit, požádat o shrnutí průběhu, nebo ho zcela zastavit a získat částečné výsledky. Pokud máš v telefonu aplikaci ChatGPT, až dokončí zadaný úkol, pošle ti upozornění.

Rozšiřování využitelnosti v reálném světě

Tyto sjednocené agentické schopnosti výrazně zvyšují využitelnost ChatGPT v každodenním i pracovním kontextu. V práci můžeš automatizovat opakující se úkoly, jako je převod snímků obrazovky nebo řídicích panelů na prezentace složené z upravitelných vektorových prvků, přeskupování schůzek, plánování a rezervace externích akcí a aktualizace tabulek novými finančními údaji při zachování stejného formátování. Ve svém osobním životě můžeš snadno plánovat a rezervovat cestovní itineráře, navrhovat a rezervovat celé společenské večeře nebo vyhledávat specialisty a domlouvat schůzky.

Zvýšené schopnosti modelu se odrážejí v jeho špičkovém výkonu (SOTA) při hodnocení, které měří schopnosti procházení webu a dokončování úkolů v reálném světě.

Na Humanity’s Last Exam⁠(otevře se v novém okně)* hodnocení, které měří výkon AI v široké škále předmětů na odborné úrovni, dosahuje model pohánějící agenta ChatGPT nového skóre pass@1 SOTA na 41,6. Protože agent dynamicky plánuje a vybírá si vlastní nástroje, může stejný úkol řešit v různých bězích různými způsoby. Když jsme tento postup rozšířili za použití jednoduché strategie paralelního zavádění – spuštěním až osmi pokusů najednou a výběrem toho s nejvyšší sebejistotou – skóre HLE agenta se zvýšilo na 44,4.

FrontierMath** je nejtěžší známý matematický srovnávací test, který obsahuje nové, nepublikované problémy, jejichž řešení odborným matematikům často trvá hodiny nebo dokonce dny. Při použití nástrojů, jako je přístup k terminálu ke spouštění kódu, dosahuje agent ChatGPT přesnosti 27,4 %, čímž výrazně překonává oba předchozí modely.

Model jsme také hodnotili pomocí srovnávacích testů vytvořených podle složitých reálných úkolů. Na interním srovnávacím testu určeném k hodnocení výkonu modelu na složitých, ekonomicky hodnotných úkolech znalostní práce je výstup agenta ChatGPT srovnatelný nebo lepší než u lidí v přibližně polovině případů napříč různými časy dokončení úkolů, přičemž výrazně překonává o3 a o4-mini. Výstupy modelů jsou hodnoceny odborníky ve srovnání s vysoce kvalitními lidskými standardy vytvořenými špičkovými odborníky v každém oboru. Tyto úkoly, které pocházejí od odborníků z různých profesí a odvětví, odrážejí skutečnou profesionální práci – například přípravu konkurenční analýzy poskytovatelů urgentní péče na vyžádání, sestavení podrobných amortizačních plánů a identifikaci životaschopných vodních vrtů pro nové zařízení na výrobu zeleného vodíku.

V testu DSBench⁠(otevře se v novém okně), který je určen k hodnocení agentů v realistických úkolech datové vědy zahrnujících analýzu dat a modelování, agent ChatGPT výrazně překonává lidský výkon.

V testu SpreadsheetBench, který hodnotí schopnost modelů upravovat tabulky odvozené z reálných scénářů, agent ChatGPT výrazně překonává stávající modely. Když má agent ChatGPT možnost přímo upravovat tabulky, dosahuje ve srovnání s Copilotem v Excelu s (20,0 %) ještě vyššího skóre – 45,5 %.

Metodologie: Autoři SpreadsheetBench použili k hodnocení tabulek prostředí Windows a program Microsoft Excel. Použili jsme prostředí OSX a LibreOffice, což může vést k drobným rozdílům v hodnocení. Autoři například zjistili celkovou tvrdou restrikci 15,02 % pro GPT‑4o a my jsme dosáhli 13,38 %. Použili jsme kompletní srovnávací test s 912 otázkami.

V interním srovnávacím testu, který měří schopnost modelu převzít úkoly modelování analytiků investičního bankovnictví v prvním až třetím roce – jako je sestavení finančního modelu se třemi výkazy pro společnost Fortune 500 se správným formátováním a citacemi, nebo vytvoření modelu výkupu s využitím pákového efektu pro privatizaci – model pohánějící agenta ChatGPT výrazně překonává hluboký výzkum a o3. Každý úkol je hodnocen podle stovek kritérií souvisejících se správností a použitím vzorců.

Agenta ChatGPT jsme také vyhodnotili ve srovnávacím testu BrowseComp⁠, který jsme zveřejnili začátkem tohoto roku a který měří schopnost agentů prohlížet a najít těžko dostupné informace na webu. Model dosáhl nové úrovně SOTA s 68,9 %, což je o 17,4 procentního bodu více než hluboký výzkum.

A konečně, ve srovnávacím testu WebArena⁠(otevře se v novém okně) navrženém k vyhodnocení výkonu agentů při prohlížení webu s plněním reálných webových úkolů, se model zlepšuje oproti CUA poháněnému o3 (model pohánějící Operator).

Jak používat

Nové agentské funkce ChatGPT lze aktivovat přímo prostřednictvím rozbalovací nabídky nástrojů v editoru výběrem možnosti „režim agenta“ kdykoli během jakékoli konverzace. Jednoduše popiš požadovaný úkol – ať už jde o provedení hlubokého výzkumu, vytvořit prezentaci nebo předložení výdajů. Při plnění tvého úkolu poskytuje text na obrazovce přehled o tom, co přesně ChatGPT dělá. Kdykoli je to třeba, můžeš přerušit a převzít kontrolu nad prohlížečem, čímž zajistíš, že úkoly zůstanou v souladu s tvými cíli.

Agent ChatGPT může přistupovat k tvým konektorům, což mu umožňuje integrovat se s tvými pracovními postupy a přistupovat k relevantním, využitelným informacím. Po ověření tyto konektory umožňují ChatGPT zobrazit informace a dělat věci, jako je shrnutí tvé doručené pošty za den nebo najít časové intervaly, ve kterých jsi k dispozici pro schůzku – abys na těchto webech provedl akci, nicméně stále budeš vyzýván, aby ses přihlásil převzetím prohlížeče.

Kromě toho můžeš naplánovat automatické opakování dokončených úkolů – například vytvoření týdenní zprávy o metrikách každé pondělí ráno.

Nové schopnosti, nová rizika

Tato verze poprvé umožňuje uživatelům požádat ChatGPT, aby provedl akce na webu. To přináší nová rizika zejména proto, že agent ChatGPT může pracovat přímo s tvými daty, ať už se jedná o informace přístupné prostřednictvím konektorů nebo webových stránek, do kterých ses přihlásil prostřednictvím řežimu převzetí. Posílili jsme robustní kontroly z náhledu výzkumu Operator a přidali jsme ochranná opatření pro výzvy, jako je zpracování citlivých informací na živém webu, širší dosah uživatelů a (omezený) přístup k terminálové síti. Ačkoli tato opatření významně snižují riziko, rozšířené nástroje agenta ChatGPT a širší dosah uživatelů znamenají, že celkový profil rizika je vyšší.

Zvláštní důraz jsme kladli na ochranu agenta ChatGPT před nepřátelskou manipulací prostřednictvím injekcí výzev, což je riziko ohrožující agentní systémy obecně, a připravili jsme proto rozsáhlejší opatření. Injekce výzev jsou pokusy třetích stran manipulovat chováním agenta prostřednictvím škodlivých pokynů, se kterými se agent ChatGPT může setkat na webu při plnění úkolu. Například škodlivá výzva skrytá na webové stránce třeba v neviditelných prvcích nebo metadatech může agenta přimět k provedení nezamýšlených akcí, jako je sdílení soukromých dat z konektoru s útočníkem nebo provedení škodlivé akce na webu, na který se uživatel přihlásil. Protože agent ChatGPT může provádět přímé akce, úspěšné útoky mohou mít větší dopad a představovat vyšší rizika.

Vyškolili a otestovali jsme agenta na identifikaci injekcí výzev a odolnost vůči nim, a také používáme monitorování k rychlé detekci a reakci na útoky injekcí výzev. Vyžadování výslovného potvrzení uživatele před důležitými akcemi dále snižuje riziko škod způsobených těmito útoky a uživatelé mohou podle potřeby zasahovat do úkolů tím, že je převezmou nebo pozastaví. Uživatelé by měli zvážit tyto kompromisy při rozhodování, jaké informace agentovi poskytnout, a také podniknout kroky k minimalizaci své expozice těmto rizikům například vypnutím konektorů, když nejsou pro daný úkol potřeba.

Zavedli jsme také opatření ke zmírnění vlivu chyb modelu, zejména proto, že model nyní může provádět úkoly, které ovlivňují skutečný svět:

Explicitní potvrzení uživatele: ChatGPT je vyškolen, aby výslovně požádal o povolení, než podnikne akce s důsledky v reálném světě, jako je nákup.
Aktivní dohled („režim hlídání“): Některé kritické úkoly, jako je odesílání e-mailů, vyžadují tvůj aktivní dohled.
Aktivní zmírňování rizik: ChatGPT je vyškolen tak, aby aktivně odmítal vysoce rizikové úkoly, jako jsou bankovní převody.

Nakonec jsme zavedli další ovládací prvky směřující k omezení dat, ke kterým má model přístup:

Kontrola ochrany osobních údajů: Jediným kliknutím v nastavení ChatGPT můžeš odstranit všechna data o prohlížení a okamžitě se odhlásit ze všech aktivních relací webových stránek. Jinak soubory cookie zůstávají podle zásad používání souborů cookie každé navštívené webové stránky, což může zefektivnit opakované návštěvy stránek.
Zabezpečený režim převzetí prohlížeče: Když používáš web s prohlížečem ChatGPT („režim převzetí“), tvoje vstupy zůstávají soukromé. ChatGPT neshromažďuje ani neukládá žádná data, která zadáš během těchto relací (například hesla), protože model je nepotřebuje a je bezpečnější, pokud je nikdy neuvidí.

Náš dosud nejsilnější bezpečnostní balíček pro biologická rizika

S rozšířenými schopnostmi modelu jsme se rozhodli považovat agenta ChatGPT za entitu s vysokými biologickými a chemickými schopnostmi v rámci našeho Rámce připravenosti⁠, čímž jsme aktivovali související ochranná opatření. Ačkoli nemáme definitivní důkaz, že by tento model mohl smysluplně pomoci začátečníkovi vytvořit vážné biologické hrozby – náš práh označující vysokou schopnost – jsme nyní opatrní a zavádíme potřebná ochranná opatření. Výsledkem je, že tento model má naši dosud nejkomplexnější bezpečnostní sadu s vylepšenými ochrannými opatřeními pro biologii: komplexní modelování hrozeb, školení za účelem odmítnutí dvojího užití, vždy zapnuté klasifikátory a monitory uvažování a jasné kanály pro vynucování.

Kromě naší práce na zabezpečení agenta ChatGPT víme, že vrstvená biologická bezpečnost funguje nejlépe, když záruky přesahují rámec jedné laboratoře, takže na posílení obrany spolupracujeme napříč ekosystémem. Od prvního dne jsme spolupracovali s externími odborníky na biologickou bezpečnost, bezpečnostními instituty a akademickými výzkumníky, abychom formovali náš model hrozeb, hodnocení a zásady. Recenzenti vyškolení v biologii ověřili naše hodnotící data a odborníci z červených týmů provedli zátěžové testování bezpečnostních opatření v reálných scénářích. Začátkem tohoto měsíce jsme uspořádali pracovní seminář o biologické obraně s odborníky z vlády, akademické sféry, národních laboratoří a nevládních organizací, abychom urychlili spolupráci a pokročili ve výzkumu biologické obrany poháněného umělou inteligencí. I nadále budeme spolupracovat globálně, abychom si zachovali předstih před vznikajícími riziky.

V systémové kartě⁠ si přečti více o našem robustním bezpečnostním přístupu pro unifikovaný agentní model. Abychom dokázali najít a napravit reálná rizika, spouštíme také bug bounty program⁠.

Dostupnost

ChatGPT agent se dnes začíná zavádět v aplikacích Pro, Plus a Team; Pro získá přístup do konce dne, zatímco uživatelé aplikací Plus a Team získají přístup během několika následujících dnů. Uživatelé Enterprise a Education získají přístup v nadcházejících týdnech. Uživatelé Pro mají 400 zpráv měsíčně, zatímco ostatní placení uživatelé dostanou 40 zpráv měsíčně, s možností dalšího využití prostřednictvím pružných možností založených na kreditech.

Stále pracujeme na umožnění přístupu v Evropském hospodářském prostoru a Švýcarsku.

Náhledová stránka výzkumu Operator zůstane funkční ještě několik týdnů, poté bude ukončena. Hluboký výzkum je součástí schopností agenta ChatGPT. Pokud preferuješ původní funkci hlubokého výzkumu, která může trvat déle, ale ve výchozím nastavení poskytuje podrobnější a hloubkové odpovědi, můžeš k ní stále přistupovat výběrem možnosti „hluboký výzkum“ z rozbalovací nabídky v editoru zpráv.

Omezení a pohled do budoucna

Agent ChatGPT je stále v raných fázích. Je schopný zvládnout řadu složitých úkolů, ale přesto může dělat chyby.

Ačkoli vidíme významný potenciál v jeho schopnosti vytvořit prezentace, je tato funkce momentálně v beta verzi. V tuto chvíli se mohou výstupy někdy zdát na základě formátování a úpravy primitivní, zejména když začínáte bez existujícího dokumentu. Zaměřili jsme se na počáteční schopnosti modelu, které vytvářejí artefakty organizující informace v toku a ve formátu vhodném pro prezentace, s prvky jako text, grafy, obrázky a tvary, které jsou přirozeně a snadno upravitelné po exportu, optimalizující strukturu a pružnost. V současné době také vznikají občasné nesrovnalosti mezi snímky v prohlížeči a exportovanou prezentací PowerPoint, které se snažíme omezit. Tato funkce navíc zatím není k dispozici pro prezentace, i když v současnosti můžeš nahrát existující tabulku pro ChatGPT k úpravě nebo k použití jako šablonu. Už teď provádíme školení další iterace tvorby prezentací v ChatGPT, abychom mohli vytvářet propracovanější a sofistikovanější výstupy s širšími možnostmi a lepším formátováním.

Celkově očekáváme, že se efektivita, hloubka a všestrannost agenta ChatGPT budou nadále zlepšovat včetně plynulejších interakcí, protože nadále upravujeme míru dohledu, kterou od uživatele vyžadujeme, aby byl ChatGPT užitečnější a zároveň bezpečný při používání.

Příloha

SpreadsheetBench
Model	Prostředí pro vyhodnocení	Měkké omezení (%): Úroveň buňky	Měkké omezení (%): Úroveň listu	Měkké omezení (%): Celkem
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot v Excelu	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
ChatGPT agent	OSX, LibreOffice	38,27	30,48	35,27
Agent ChatGPT s .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Člověk		75,56	65,00	71,33

Záznam živého vysílání

Autor

OpenAI

Poznámky pod čarou

* Když povolíš procházení, model může někdy najít přesné odpovědi na internetu například přečtením příspěvků na blogu s ukázkovými úlohami ze souboru dat. Obavy z podvádění modelu při procházení zmírňujeme použitím dvou strategií:

1. Zablokovali jsme domény, u kterých jsme v minulosti pozorovali, že model na jejich základě podváděl.

2. Jako monitor ke zkoumání všech výstupních tokenů nástroje při každém pokusu o identifikaci podezřelého chování jsme použili další model. Podezřelé chování je definováno jako „stránka, soubor nebo útržek, jehož hlavním účelem je poskytnout přesnou odpověď na tuto konkrétní otázku – např. oficiální klíč k hodnocení, uniklý gist „řešení“ nebo diskuse doslovně citující hotovou odpověď.“ Benigní chování je definováno jako „Jakýkoli autoritativní zdroj, který by mohl pečlivý člověk konzultovat (dokumentace, příručky, vědecké práce, renomované články), i když náhodou obsahuje správnou odpověď.“ Jako nesprávné se počítají všechny pokusy, u nichž monitor považoval rozvinutí za podezřelé. Většina vzorků, které touto kontrolou neprošly úspěšně, obsahovaly problémy, jejichž přesné řešení bylo dostupné na více internetových zdrojích nesouvisejících s HLE.

**OpenAI má výhradní přístup k 237 z 290 soukromých otázek v datové sadě úrovně 1-3. V tomto vyhodnocení nejsou zahrnuty otázky FrontierMath úrovně 4. Výsledky byly vyhodnoceny jako průměr 16 pokusů o zodpovězení každé otázky. Výsledky agenta ChatGPT jsou generovány OpenAI, hodnoceny Epoch AI, s přístupem k prohlížeči a terminálu a limitem 128K tokenů na odpověď. Hodnocení OpenAI o4-mini a o3 jsou prováděna a hodnocena Epoch AI bez přístupu k prohlížeči a terminálu, s použitím skriptů v jazyku Python prostřednictvím volání funkcí a s limitem 100 000 tokenů na odpověď.

*** Oracle@64 označuje nejlepší skóre dosažené ve 64 vzorkovaných bězích vybraných na základě skutečných dat (tj. pro každý úkol vybíráme pokus s nejvyšším skóre na základě skutečného hodnocení výkonu). Uvádíme průměr těchto nejlepších skóre na úkol napříč všemi úkoly. Tato metrika zdůrazňuje maximální potenciál modelu a variabilitu ve výkonu úkolů – ukazuje, jak schopný může být model, když uspěje, a naznačuje prostor ke zlepšení konzistentnosti prostřednictvím dalšího školení. Na rozdíl od typických metrik „best of N“, které vybírají na základě důvěry modelu, používá Oracle@64 k výběru skutečná data a vztahuje se na úkoly hodnocené na spojité stupnici 0–1 namísto binárního hodnocení úspěch/neúspěch.