Predstavujeme ChatGPT agenta: prepájanie výskumu a akcie
ChatGPT teraz premýšľa a koná, proaktívne si vyberá z množiny agentských nástrojov, aby pre vás plnil úlohy pomocou vlastného počítača.
ChatGPT teraz môže vykonávať prácu za vás pomocou vlastného počítača, pričom zvládne komplexné úlohy od začiatku až do konca.
Teraz môžete požiadať ChatGPT, aby vybavil požiadavky ako: „pozri sa do môjho kalendára a zhrň mi nadchádzajúce stretnutia s klientmi na základe najnovších správ“, „naplánuj a nakúp suroviny na prípravu japonských raňajok pre štyroch“ a „zanalyzuj troch konkurentov a vytvor prezentáciu." ChatGPT bude inteligentne prechádzať webové stránky, filtrovať výsledky, pri potrebe vás bezpečne vyzve na prihlásenie, spúšťať kód, vykonávať analýzu a dokonca doručí aj upraviteľné prezentácie a tabuľky, ktoré zhrnú jeho zistenia.
V jadre tejto novej schopnosti sa nachádza jednotný agentský systém. Spája tri silné stránky predchádzajúcich prelomových technológií: Schopnosť operátora interagovať s webstránkami, zručnosť podrobného vyhľadávania v syntéze informácií a inteligenciu a konverzačnú plynulosť ChatGPT.
ChatGPT vykonáva tieto úlohy pomocou svojho vlastného virtuálneho počítača, plynule prechádza medzi myslením a konaním, aby zvládol komplexné pracovné postupy od začiatku až do konca, a to všetko na základe vašich pokynov.
Najdôležitejšie je, že to máte vždy pod kontrolou. ChatGPT si pred vykonaním významných akcií vyžiada povolenie a vy môžete kedykoľvek jednoducho prerušiť jeho činnosť, prevziať ovládanie prehliadača alebo zastaviť vykonávané úlohy.
Od dnešného dňa si používatelia Pro, Plus a Team môžu aktivovať nové agentské schopnosti ChatGPT priamo cez ponuku nástrojov v editore tým, že kedykoľvek v konverzácii vyberú možnosť „agent mode“.
Hoci je agent ChatGPT už teraz mocným nástrojom na riešenie komplexných úloh, dnešné uvedenie je len začiatok. Budeme aj naďalej postupne pridávať významné zlepšenia, čím sa časom stane ešte schopnejším a užitočnejším pre čoraz viac ľudí.
Predtým prinášali Operator a podrobné vyhľadávanie svoje jedinečné silné stránky osobitne: Operátor vedel posúvať stránku, klikať a písať na webe, zatiaľ čo podrobné vyhľadávanie vynikal v analýze a sumarizácii informácií. No najlepšie fungovali v odlišných situáciách: Operátor nedokázal ísť do hĺbky analýzy ani písať podrobné správy a podrobné vyhľadávanie zasa nedokázalo interagovať s webstránkami na spresnenie výsledkov alebo pristupovať k obsahu vyžadujúcemu prihlásenie používateľa. V skutočnosti sme zistili, že mnohé požiadavky, ktoré sa používatelia pokúšali riešiť pomocou Operátora, boli v skutočnosti vhodnejšie pre podrobné vyhľadávanie, a preto sme spojili to najlepšie z oboch.
Integráciou týchto doplnkových silných stránok do ChatGPT a pridaním ďalších nástrojov sme v rámci jedného modelu odomkli úplne nové schopnosti. Teraz môže aktívne pracovať s webstránkami—klikať, filtrovať a zhromažďovať presnejšie a efektívnejšie výsledky. Z jednoduchej konverzácie môžete prirodzene prejsť aj na požadovanie akcií priamo v rámci toho istého chatu.
Agenta ChatGPT sme vybavili súpravou nástrojov: vizuálnym prehliadačom, ktorý interaguje s webom cez grafické používateľské rozhranie, textovým prehliadačom na jednoduchšie dotazy založené na uvažovaní, terminálom a priamym prístupom k rozhraniu API. Agent môže tiež využiť ChatGPT connectors(otvorí sa v novom okne), ktoré vám umožňujú pripojiť aplikácie ako Gmail a Github, aby ChatGPT mohol nájsť informácie relevantné pre vaše príkazy a použiť ich vo svojich odpovediach. Môžete sa tiež prihlásiť na akejkoľvek webovej stránke prevzatím ovládania prehliadača, čo mu umožní ísť vo svojom výskume aj plnení úloh ešte hlbšie a širšie. Tým, že sme ChatGPT poskytli rôzne spôsoby prístupu k webovým informáciám a interakcie s nimi, môže si vybrať optimálnu cestu na čo najefektívnejšie vykonanie úloh. Napríklad môže získať informácie z vášho kalendára cez API, efektívne pracovať s veľkým množstvom textu pomocou textového prehliadača a zároveň má schopnosť vizuálne interagovať s webstránkami navrhnutými predovšetkým pre ľudí.
Toto všetko prebieha na jeho vlastnom virtuálnom počítači, ktorý zachováva potrebný kontext úlohy aj pri použití viacerých nástrojov—model môže otvoriť stránku v textovom alebo vizuálnom prehliadači, stiahnuť súbor z webu, upraviť ho spustením príkazu v termináli a následne si výsledok zobraziť späť vo vizuálnom prehliadači. Model prispôsobuje svoj prístup na vykonávanie úloh s rýchlosťou, presnosťou a efektívnosťou.
Agent ChatGPT je navrhnutý pre iteratívne, kolaboratívne pracovné postupy, ktoré sú omnoho interaktívnejšie a flexibilnejšie než pri predchádzajúcich modeloch. Počas práce ChatGPT môžete kedykoľvek prerušiť jeho činnosť, spresniť svoje pokyny, nasmerovať ho k požadovaným výsledkom alebo úplne zmeniť úlohu. Bude pokračovať tam, kde prestal, už s novými informáciami, ale bez straty doterajšieho postupu. Rovnako môže ChatGPT sám proaktívne vyhľadávať doplňujúce informácie od vás vždy, keď je to potrebné na to, aby úloha zostala v súlade s vašimi cieľmi. Ak úloha trvá dlhšie, než sa očakávalo, alebo sa zdá, že uviazla, môžete ju pozastaviť, požiadať o súhrn priebehu alebo ju úplne zastaviť a získať čiastkové výsledky. Ak máte vo svojom telefóne aplikáciu ChatGPT, pošle vám upozornenie, keď úlohu dokončí.
Tieto jednotné agentové schopnosti výrazne zvyšujú užitočnosť ChatGPT v každodennom aj profesionálnom kontexte. V práci môžete automatizovať opakujúce sa úlohy, ako je konvertovanie snímok obrazovky alebo hlavných panelov na prezentácie zložené z upraviteľných vektorových prvkov, presúvanie stretnutí, plánovanie a rezervovanie tímových výjazdov či aktualizovanie tabuliek novými finančnými údajmi pri zachovaní rovnakého formátovania. Vo vašom osobnom živote ho môžete využiť na bez námahy plánovanie a rezervovanie cestovných itinerárov, navrhovanie a organizovanie celých večerí alebo na vyhľadanie odborníkov a dohodnutie termínov stretnutí.
Zvýšené schopnosti modelu sa odrážajú v jeho špičkovom (SOTA) výkone v hodnoteniach merajúcich prehliadanie webu a schopnosť plniť úlohy z reálneho sveta.
V teste Humanity’s Last Exam(otvorí sa v novom okne)*, hodnotení, ktoré meria výkon AI v širokej škále odborných tém na úrovni expertných otázok, dosahuje model poháňajúci Agenta ChatGPT nové špičkové skóre pass@1 s hodnotou 41,6.* Keďže agent plánuje dynamicky a sám si vyberá svoje nástroje, môže tú istú úlohu riešiť pri rôznych spusteniach rôznymi spôsobmi. Keď sme toto správanie rozšírili jednoduchou stratégiou paralelného zavádzania–teda spustením až ôsmich pokusov naraz a výberom toho s najvyššou vlastnou udávanou istotou–skóre agenta v HLE stúplo na 44,4.
FrontierMath** je najnáročnejší známy matematický benchmark, obsahujúci nové, nepublikované úlohy, ktoré často trvajú odborným matematikom hodiny alebo dokonca dni vyriešiť. Pri použití nástrojov, napríklad prístupu k terminálu na spúšťanie kódu, dosahuje Agent ChatGPT presnosť 27,4 %, čím výrazne prekonáva oba predchádzajúce modely.
Model sme takisto hodnotili pomocou benchmarkov navrhnutých podľa zložitých úloh z reálneho sveta. V internom bench marku navrhnutom na hodnotenie výkonu modelu prikomplexných, ekonomicky hodnotných znalostných úlohách je výstup Agenta ChatGPT porovnateľný alebo dokonca lepší než výstup človeka približne v polovici prípadov naprieč rôznymi časmi dokončenia úloh, pričom výrazne prekonáva modely o3 a o4-mini. Výstupy modelov posudzujú odborníci v porovnaní s vysokokvalitnými ľudskými referenciami, ktoré vytvorili špičkoví odborníci v jednotlivých oblastiach. Tieto úlohy, získané od odborníkov z rôznych profesií a odvetví, odrážajú skutočnú profesionálnu prax—napríklad prípravu konkurenčnej analýzy poskytovateľov urgentnej starostlivosti na požiadanie, zostavenie podrobných amortizačných plánov či identifikáciu vhodných vodných vrtov pre nové zariadenie na výrobu zeleného vodíka.
V DSBench(otvorí sa v novom okne), ktorý je navrhnutý na hodnotenie agentov pri realistických dátovo-vedeckých úlohách zahŕňajúcich analýzu a modelovanie dát, Agent ChatGPT výrazne prekonáva ľudský výkon.
V SpreadsheetBench, ktorý hodnotí schopnosť modelov upravovať tabuľky pochádzajúce zo scenárov z reálneho sveta, Agent ChatGPT výrazne prekonáva existujúce modely. Keď má ChatGPT agent možnosť upravovať tabuľky priamo, dosahuje ešte vyššie skóre — 45,5 % v porovnaní s 20,0 % pri Copilotovi v Exceli.
Metodológia: Autori SpreadsheetBench používali prostredie Windows s Microsoft Excelom na hodnotenie tabuliek. Použili sme prostredie OSX a LibreOffice, čo môže spôsobiť malé rozdiely v hodnotení. Napríklad autori zistili celkové obmedzenie „Overall Hard“ na úrovni 15,02 % pre GPT‑4o, zatiaľ čo my sme dosiahli 13,38 %. Použili sme kompletný benchmark s 912 otázkami.
V internom benchmarku, ktorý meria schopnosť modelu zvládať úlohy modelovania analytikov prvého až tretieho ročníka investičného bankovníctva—ako napríklad zostavenie trojvýkazového finančného modelu pre spoločnosť z rebríčka Fortune 500 so správnym formátovaním a citáciami alebo vytvorenie modelu pákového odkúpenia (LBO) pri stiahnutí firmy z burzy—Agent ChatGPT poháňajúci modelom výrazne prekonáva podrobné vyhľadávanie aj o3. Každá úloha je hodnotená podľa stovák kritérií týkajúcich sa správnosti a použitia vzorcov.
Taktiež sme hodnotili agenta ChatGPT v BrowseComp, benchmarku, ktorý sme zverejnili začiatkom tohto roka a ktorý meria schopnosť agentov vyhľadávania nájsť ťažko dostupné informácie na webe. Model dosiahol novú SOTA s 68,9 %, čo je o 17,4 percentuálnych bodov viac ako podrobné vyhľadávanie.
V neposlednom rade, v WebArena(otvorí sa v novom okne), benchmarku určenom na vyhodnotenie výkonnosti agentov prehliadania webu pri plnení webových úloh v reálnom svete, sa model zlepšuje oproti CUA poháňanému o3 (model, ktorý poháňa Operator).
Nové agentné schopnosti ChatGPT môžete aktivovať priamo cez rozbaľovaciu ponuku nástrojov v editore výberom možnosti „režim agenta“ (agent mode) kedykoľvek v akejkoľvek konverzácii. Jednoducho opíšte požadovanú úlohu–či už ide o vykonanie podrobného vyhľadávania, vytvorenie prezentácie alebo predloženie výdavkov. Počas vykonávania vašej úlohy poskytuje komentár na obrazovke prehľad o tom, čo presne ChatGPT robí. Môžete prerušiť a prevziať kontrolu nad prehliadačom, kedykoľvek je to potrebné, čím zaistíte, že úlohy zostanú v súlade s vašimi cieľmi.
Agent ChatGPT má prístup k vašim konektorom, čo mu umožňuje integrovať sa s vašimi pracovnými postupmi a pristupovať k relevantným, použiteľným informáciám. Po overení umožňujú tieto konektory ChatGPT vidieť informácie a robiť veci ako zhrnutie vašej emailovej schránky za daný deň alebo nájsť časové úseky, počas ktorých ste k dispozícii na stretnutie–na vykonanie akcií na týchto stránkach však budete musieť stále prevziať ovládanie prehliadača a prihlásiť sa.
Navyše, môžete naplánovať automatické opakovanie dokončených úloh, ako je napríklad generovanie týždennej správy o metrikách každé pondelkové ráno.
Toto vydanie predstavuje prvýkrát, keď môžu používatelia požiadať ChatGPT, aby vykonával akcie na webe. Prináša to nové riziká, najmä preto, že Agent ChatGPT môže pracovať priamo s vašimi údajmi—či už ide o informácie získané prostredníctvom konektorov, alebo o údaje z webstránok, na ktoré ste ho prihlásili pomocou režimu prevzatia ovládania. Posilnili sme robustné kontroly z výskumnej verzie Operatora a pridali sme nové ochranné mechanizmy pre výzvy, ako je spracovanie citlivých informácií na aktívnom internete, širší dosah používateľov a (obmedzený) sieťový prístup terminálu. Hoci tieto zmierňujúce opatrenia výrazne znižujú riziko, rozšírené nástroje Agenta ChatGPT a jeho širší dosah medzi používateľmi znamenajú, že jeho celkový rizikový profil je vyšší.
Osobitný dôraz sme kládli na ochranu ChatGPT agenta pred adversariálnou manipuláciou prostredníctvom prompt injekcie, ktorá predstavuje riziko pre systémy agentov všeobecne, a zodpovedajúc tomu sme pripravili rozsiahlejšie zmierňujúce opatrenia. Prompt injekcie sú pokusy tretích strán manipulovať jeho správanie pomocou škodlivých inštrukcií, s ktorými sa môže Agent ChatGPT stretnúť na webe počas plnenia úlohy. Napríklad škodlivý prompt skrytý na webstránke vo forme neviditeľných prvkov alebo metadát by mohol oklamať agenta, aby vykonal neúmyselné akcie, ako je zdieľanie súkromných údajov z konektora s útočníkom alebo vykonanie škodlivej akcie na stránke, na ktorú je používateľ prihlásený. Keďže ChatGPT agent môže vykonávať priame akcie, úspešné útoky môžu mať väčší dosah a predstavovať vyššie riziká.
Agenta sme trénovali a testovali na identifikáciu a odolávanie prompt injekciám a zároveň používame monitorovanie na rýchlu detekciu a reakciu na útoky tohto typu. Vyžadovanie výslovného potvrdenia používateľa pred vykonaním dôležitých akcií ešte viac znižuje riziko škôd z takýchto útokov a používatelia môžu podľa potreby zasiahnuť do úloh prevzatím kontroly alebo ich pozastavením. Používatelia by mali zvážiť tieto kompromisy pri rozhodovaní, aké informácie agentovi poskytnú, a zároveň podniknúť kroky na minimalizáciu vystavenia sa týmto rizikám, napríklad zakázať konektory, keď nie sú potrebné na danú úlohu.
Taktiež sme implementovali opatrenia na zmiernenie chýb modelu, najmä preto, že model teraz môže vykonávať úlohy, ktoré ovplyvňujú reálny svet:
- Výslovné potvrdenie používateľa: ChatGPT je trénovaný tak, aby si od vás pred vykonaním akcií s reálnymi následkami, napríklad pri uskutočnení nákupu, výslovne vyžiadal povolenie.
- Aktívny dohľad („Režim sledovania“): Niektoré kritické úlohy, ako napríklad odosielanie emailov, vyžadujú váš aktívny dohľad.
- Proaktívne zmierňovanie rizík: ChatGPT je trénovaný aktívne odmietať vysoko rizikové úlohy, ako sú bankové prevody.
Nakoniec sme zaviedli ďalšie kontrolné mechanizmy na obmedzenie údajov, ku ktorým má model prístup:
- Ovládanie súkromia: Jediným kliknutím v nastaveniach ChatGPT môžete vymazať všetky údaje z prehliadania a okamžite sa odhlásiť zo všetkých aktívnych relácií na webových stránkach. V opačnom prípade sú cookies zachované podľa zásad jednotlivých navštívených webových stránok, čo môže zefektívniť opakované návštevy týchto stránok.
- Režim bezpečného prevzatia prehliadača: eď interagujete s webom pomocou prehliadača ChatGPT („Režim prevzatia“), vaše vstupy zostávajú súkromné. ChatGPT nezhromažďuje ani neukladá žiadne údaje, ktoré počas týchto relácií zadáte, napríklad heslá, pretože ich model nepotrebuje, a je bezpečnejšie, ak ich vôbec nevidí.
Vzhľadom na zvýšené schopnosti modelu sme sa rozhodli zaradiť Agenta ChatGPT do kategórie vysokých biologických a chemických schopností podľa nášho Preparedness Framework a aktivovať s tým súvisiace bezpečnostné opatrenia. Aj keď nemáme definitívne dôkazy o tom, že by tento model mohol zmysluplne pomôcť nováčikovi vytvoriť vážnu biologickú škodu – náš prah pre vysokú schopnosť – postupujeme opatrne a implementujeme potrebné záruky už teraz. Výsledkom je, že tento model má doteraz najkomplexnejší bezpečnostný balík so zvýšenými ochrannými opatreniami pre biológiu: komplexné modelovanie hrozieb, tréning na odmietnutie dvojitého použitia, vždy aktívne klasifikátory a monitory uvažovania a jasné kanály presadzovania.
Okrem našej práce na zabezpečení Agenta ChatGPT vieme, že viacvrstvová biologická bezpečnosť funguje najlepšie vtedy, keď ochranné opatrenia presahujú rámec jedného laboratória, a preto spolupracujeme v rámci celého ekosystému na posilnení ochrany. Od prvého dňa spolupracujeme s externými odborníkmi na biozabezpečenie, bezpečnostnými inštitútmi a akademickými výskumníkmi, aby sme formovali náš model hrozieb, hodnotenia a politiky. Recenzenti vyškolení v oblasti biológie overili naše hodnotiace dáta a odborníci z červených tímov z daných oblastí dôkladne otestovali ochranné opatrenia v realistických scenároch. Začiatkom tohto mesiaca sme zorganizovali workshop o biologickej obrane (Biodefense workshop) s odborníkmi z vládnych inštitúcií, akademickej sféry, národných laboratórií a mimovládnych organizácií, aby sme urýchlili spoluprácu a posunuli výskum biologickej obrany založený na AI. Budeme naďalej spolupracovať na globálnej úrovni, aby sme zostali o krok pred vznikajúcimi rizikami.
Prečítajte si viac o našom robustnom bezpečnostnom prístupe pre jednotný model agenta v systémovej karte. Taktiež spúšťame program bug bounty, aby sme mohli odhaliť a odstrániť riziká z reálneho sveta.
Agent ChatGPT sa začína sprístupňovať od dnešného dňa pre používateľov Pro, Plus a Team; Pro používatelia získajú prístup do konca tohto dňa, zatiaľ čo používatelia Plus a Team ho dostanú počas nasledujúcich dní. Používatelia Enterprise a Education získajú prístup v nasledujúcich týždňoch. Používatelia Pro majú k dispozícii 400 správ mesačne, zatiaľ čo ostatní platiaci používatelia dostávajú 40 správ mesačne, pričom ďalšie využitie je dostupné prostredníctvom flexibilných možností založených na kreditoch.
Stále pracujeme na umožnení prístupu pre Európsky hospodársky priestor a Švajčiarsko.
Stránka s výskumnou ukážkou Operátora zostane funkčná ešte niekoľko týždňov, po ktorých bude ukončená. Podrobné vyhľadávanie je súčasťou schopností Agenta ChatGPT. Ak uprednostňujete pôvodnú funkciu podrobného vyhľadávania—ktorá môže trvať dlhšie, ale v predvolenom nastavení poskytuje podrobnejšie a hlbšie odpovede—stále k nej môžete pristupovať výberom možnosti „podrobné vyhľadávanie“ v rozbaľovacej ponuke editora správ.
Agent ChatGPT je stále v počiatočnej fáze. Je schopný zvládnuť širokú škálu komplexných úloh, no stále môže robiť chyby.
Hoci vidíme veľký potenciál v jeho schopnosti vytvárať prezentácie, táto funkcia je momentálne v beta verzii. V súčasnosti môžu výstupy niekedy pôsobiť jednoduchšie z hľadiska formátovania a finálneho spracovania, najmä keď sa začína bez existujúceho dokumentu. Počiatočné schopnosti modelu sme zamerali na vytváranie výstupov, ktoré usporadúvajú informácie do logického toku a formátu vhodného na prezentácie, s prvkami ako text, grafy, obrázky a tvary, ktoré sú po exporte natívne a jednoducho upraviteľné, s optimalizáciou na štruktúru a flexibilitu. V súčasnosti sa občas vyskytujú aj rozdiely medzi snímkami v zobrazovači a exportovanou prezentáciou PowerPoint, ktoré sa snažíme znižovať. Okrem toho, hoci môžete momentálne nahrať existujúcu tabuľku, aby ju ChatGPT upravil alebo použil ako šablónu, táto možnosť zatiaľ nie je dostupná pre prezentácie. Už prebieha aj tréning ďalšej iterácie tvorby prezentácií v ChatGPT, aby prinášala uhladenejšie a sofistikovanejšie výstupy so širšími možnosťami a lepším formátovaním.
Celkovo očakávame, že sa efektivita, hĺbka a všestrannosť Agenta ChatGPT bude časom naďalej zlepšovať, vrátane plynulejších interakcií, keď budeme ďalej upravovať mieru dohľadu, ktorú musí používateľ poskytovať tak, aby bol agent užitočnejší, no zároveň bezpečný na používanie.
SpreadsheetBench | ||||
Model | Hodnotiace prostredie | Mierne obmedzenie (%): Na úrovni buniek | Mierne obmedzenie (%): Na úrovni hárka | Mierne obmedzenie (%): Celkovo |
GPT‑4o | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot v Exceli | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
Agent ChatGPT | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
Agent ChatGPT s .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Človek | 75,56 | 65,00 | 71,33 |
Autor
Poznámky pod čiarou
* Pri povolení prehliadania môže model niekedy nájsť presné odpovede online, napríklad prečítaním blogových príspevkov s ukážkovými úlohami z daného datasetu. Obavy z toho, že model pri prehliadaní „podvádza“, zmierňujeme dvomi stratégiami:
1. Blokované domény, z ktorých sme v minulosti pozorovali, že model podvádza.
2. Použili sme dodatočný model ako monitor na kontrolu všetkých výstupných tokenov nástrojov pri každom pokuse s cieľom identifikovať podozrivé správanie. Podozrivé správanie je definované ako „stránka, súbor alebo úryvok, ktorého hlavným účelom je poskytnúť presnú odpoveď na túto konkrétnu otázku — napríklad oficiálny kľúč na hodnotenie, uniknuté riešenia alebo diskusia citujúca hotovú odpoveď doslova." Neškodné správanie je definované ako „akýkoľvek autoritatívny zdroj, ktorý by si usilovný človek mohol vyhľadať (dokumentácia, príručky, odborné články, renomované publikácie), aj keď náhodne obsahuje správnu odpoveď.“ Akékoľvek pokusy, pri ktorých monitor vyhodnotil priebeh ako podozrivý, sa počítajú ako nesprávne. Väčšina vzoriek, ktoré týmto kontrolným mechanizmom neprešli, boli úlohy, ktorých presné riešenie bolo dostupné na viacerých internetových zdrojoch nesúvisiacich s HLE.
**OpenAI má exkluzívny prístup k 237 z 290 súkromných otázok v datasete úrovne 1–3. Otázky FrontierMath úrovne 4 nie sú zahrnuté v tomto hodnotení. Výsledky sú vyhodnocované ako priemer zo 16 pokusov o zodpovedanie každej otázky. Výsledky Agenta ChatGPT sú získané spoločnosťou OpenAI, ohodnotené organizáciou Epoch AI, s prístupom k prehliadaču a terminálu a s limitom 128 000 tokenov na jednu odpoveď. Hodnotenia modelov OpenAI o4-mini a o3 sú získané a hodnotené organizáciou Epoch AI, bez prístupu k prehliadaču a terminálu, s použitím python skriptov cez function calling a s limitom 100 000 tokenov na jednu odpoveď.
*** Oracle@64 označuje najlepší výsledok dosiahnutý naprieč 64 náhodne vzorkovanými behmi, vybraný na základe skutočnej správnosti (t. j. pri každej úlohe vyberieme najúspešnejší pokus podľa reálneho hodnotenia). Uvádzame priemer týchto najlepších výsledkov pre jednotlivé úlohy naprieč celým súborom úloh. Táto metrika zvýrazňuje horný limit potenciálu modelu a variabilitu jeho výkonu pri úlohách—ukazuje, aký schopný dokáže model byť v najlepšom prípade, a zároveň naznačuje priestor na zlepšenie konzistentnosti prostredníctvom ďalšieho trénovania. Na rozdiel od bežných metrík typu „best of N“, ktoré vyberajú výsledok na základe sebahodnotenia modelu (confidence), oracle@64 používa na výber správnu odpoveď podľa overenej pravdy a uplatňuje sa na úlohy hodnotené na kontinuálnej škále 0–1, nie na binárnom princípe splnené/nesplnené.


