Preskočite na glavno vsebino
OpenAI

17. julij 2025

IzdelekIzdaja

Predstavljamo agenta ChatGPT: povezovanje raziskav in dejanj

ChatGPT zdaj razmišlja in dela, proaktivno izbira iz nabora agentnih spretnosti, da za vas opravi naloge z uporabo lastnega računalnika.

Nalaganje …

ChatGPT lahko zdaj opravlja delo namesto vas z lastnim računalnikom, obravnava zapletene naloge od začetka do konca.

Zdaj lahko prosite ChatGPT, da obravnava zahteve, npr. »poglej moj koledar in me na podlagi nedavnih novic obvesti o prihajajočih srečanjih s strankami«, »načrtuj in kupi sestavine za pripravo japonskega zajtrka za štiri osebe« in »analiziraj tri konkurente in ustvari predstavitev«. ChatGPT bo pametno brskal po spletnih mestih, filtriral rezultate, vam dal poziv za varno prijavo, kadar bo to potrebno, zagnal kodo, izvedel analize in celo dostavil diaprojekcije in urejal preglednice in povzetke ugotovitev. 

V središču te nove zmogljivosti je enoten agentni sistem. Združuje tri prednosti prejšnjih prebojev: Operatorjeva sposobnost interakcije s spletnimi mesti, spretnost poglobljenih raziskav pri sintetiziranju informacij ter inteligenca in tekočnost pogovornih sposobnosti ChatGPT‑ja.

ChatGPT te naloge izvaja s pomočjo lastnega virtualnega računalnika, tekoče prehaja med sklepanjem in dejanjem za obvladovanje zapletenih delovnih potekov od začetka do konca, vse na podlagi vaših navodil.

Najpomembneje je to, da imate pri vsem tem vajeti samo vi. ChatGPT prosi za dovoljenje, preden izvede dejanja z resnimi posledicami, vi pa ga lahko kadar koli preprosto prekinete, prevzamete brskalnik ali ustavite izvedbo naloge.

Od danes lahko uporabniki Pro, Plus in Team aktivirajo nove agentne zmogljivosti ChatGPT‑ja neposredno prek spustnega menija orodij v urejevalniku, tako da kadar koli v katerem koli pogovoru izberejo 'agent mode' (način agenta). 

Agent ChatGPT je že zdaj močno orodje za obravnavo zapletenih nalog, vendar pa je današnja predstavitev šele začetek. Nadaljujemo z rednim iterativnim dodajanjem pomembnih izboljšav, zaradi česar bo sčasoma postal bolj zmogljiv in uporaben za več ljudi.

Naravni razvoj Operatorja in podrobna raziskava

Prej sta Operator in podrobna raziskava vsak prinesla edinstvene prednosti: Operator je lahko pomikal, klikal in tipkal po spletu, medtem ko je bila podrobna raziskava odlična pri analiziranju in povzemanju informacij. Vendar so najbolje delovali v različnih situacijah: Operator se ni mogel poglobiti v analizo ali pisati podrobnih poročil, podrobna raziskava pa ni mogla komunicirati s spletnimi mesti za izboljšanje rezultatov ali dostopati do vsebine, ki zahteva preverjanje pristnosti uporabnikov. Pravzaprav smo ugotovili, da so bile številne poizvedbe, ki so jih uporabniki poskusili z Operatorjem, dejansko bolj primerne za poglobljene raziskave, zato smo združili najboljše iz obeh.

Z združitvijo teh dopolnjujočih se prednosti v ChatGPT in uvedbo dodatnih orodij smo odklenili popolnoma nove zmogljivosti v enem modelu. Zdaj lahko aktivno sodeluje s spletnimi mesti: klikate, filtrirate in zbirate natančnejše in učinkovitejše rezultate. Prav tako lahko naravno preidete iz preprostega pogovora na zahtevanje dejanj neposredno v istem klepetu. 

Agent, ki dela za vas in z vami 

ChatGPT agenta smo opremili z naborom orodij: vizualni brskalnik, ki komunicira s spletom prek grafično-uporabniškega vmesnika, besedilni brskalnik za preprostejše poizvedbe na podlagi obrazložitve, terminal in neposreden dostop do API-ja. Agent lahko izkoristi tudi ChatGPT povezovalnike(odpre se v novem oknu), ki vam omogočajo povezovanje aplikacij, kot sta Gmail in Github, tako da lahko ChatGPT poišče informacije, pomembne za vaše pozive, in jih uporabi v svojih odgovorih. Na katero koli spletno mesto se lahko prijavite tudi tako, da prevzamete brskalnik, kar mu omogoča, da gre globlje in širše tako pri raziskovanju kot pri izvajanju nalog. S tem, ko ChatGPT‑ju date različne poti za dostop in interakcijo s spletnimi informacijami pomeni, lahko izbere optimalno pot za najučinkovitejše izvajanje nalog. Na primer, lahko prek API-ja zbira informacije o vašem koledarju, učinkovito razmišlja o veliki količini besedila z uporabo besedilnega brskalnika in hkrati vizualno komunicira s spletnimi mesti, ki so namenjena predvsem za ljudi. 

Vse to se izvede z lastnim virtualnim računalnikom, ki ohranja sobesedilo, potrebno za nalogo, tudi ko se uporablja več orodij: model lahko izbere, da odpre stran z besedilnim brskalnikom ali vizualnim brskalnikom, prenese datoteko iz spleta, jo obdeluje z zagonom ukaza v terminalu in nato pregleda izhod nazaj v vizualnem brskalniku. Model prilagaja svoj pristop za izvajanje nalog s hitrostjo, natančnostjo in učinkovitostjo.

Agent ChatGPT je zasnovan za iterativne in sodelovalne poteke dela, ki so veliko bolj interaktivni in prilagodljivi kot prejšnji modeli. Medtem ko ChatGPT deluje, ga lahko kadar koli prekinete, da pojasnite svoja navodila, ga usmerite k želenim rezultatom ali v celoti spremenite nalogo. Nadaljevala bo tam, kjer je končala, zdaj z novimi informacijami, vendar ne da bi izgubila prejšnji napredek. Prav tako lahko ChatGPT sam proaktivno išče dodatne podrobnosti od vas, kadar je to potrebno, da zagotovi, da naloga ostane usklajena z vašimi cilji. Če naloga traja dlje, kot je bilo pričakovano, ali se vam zdi zataknjena, jo lahko začasno ustavite, prosite za povzetek napredka ali pa jo popolnoma ustavite in prejmete delne rezultate. Če imate na telefonu aplikacijo ChatGPT, vam bo poslala obvestilo, ko bo opravila vašo nalogo.

Širitev uporabnosti v resničnem svetu 

Te poenotene agentne zmožnosti bistveno povečujejo uporabnost ChatGPT v vsakdanjih in poklicnih sobesedilih. Pri delu lahko avtomatizirate ponavljajoče se naloge, kot so pretvorba posnetkov zaslona ali nadzornih plošč v predstavitve, sestavljene iz vektorskih elementov, ki jih je mogoče urejati, preurejanje sestankov, načrtovanje in rezervacija izven delovnih mest ter posodabljanje preglednic z novimi finančnimi podatki, pri čemer ohranite enako oblikovanje. V vašem osebnem življenju ga lahko uporabite za brezskrbno načrt in rezervacijo potovalnih itinerarjev, oblikovanje in rezervacijo celotnih večernih zabav ali iskanje strokovnjakov in načrtovanje sestankov. 

Povečane zmogljivosti modela se odražajo v njegovi najsodobnejši (SOTA) uspešnosti pri ocenjevanjih, ki merijo zmožnosti brskanja po spletu in dokončanja nalog v resničnem svetu. 

Na Humanity’s Last Exam(odpre se v novem oknu)*, vrednotenju, ki meri uspešnost umetne inteligence pri številnih temah na strokovni ravni, model, ki poganja agenta ChatGPT, doseže nov rezultat pass@1 SOTA pri 41,6. Ker agent načrtuje dinamično in izbira svoja orodja, lahko isto nalogo opravi na različne načine v različnih izvedbah. Ko smo to povečali s preprosto strategijo vzporednega uvajanja – izvedli smo do osem poskusov hkrati in izbrali tistega z najvišjo samozavestjo – se je agentova ocena HLE povečala na 44,4.

FrontierMath** je najtežji matematični test, ki vključuje nove, neobjavljene naloge, za reševanje katerih strokovni matematiki pogosto potrebujejo ure ali celo dni. Z uporabo orodij, kot je dostop do terminala za izvajanje kode, agent ChatGPT doseže 27,4 % natančnost, kar močno presega oba prejšnja modela.

Model smo prav tako ocenili z uporabo meril, oblikovanih po kompleksnih nalogah iz resničnega sveta. Na notranjem referenčnem merilu, zasnovanem za oceno uspešnosti modela pri kompleksnih, ekonomsko dragocenih nalogah, ki temeljijo na znanju, je izhod agenta ChatGPT primerljiv ali boljši od človeškega v približno polovici primerov v različnih časovnih okvirih dokončanja nalog, hkrati pa znatno presega o3 in o4-mini. Izhode modela ocenjujejo strokovnjaki glede na visokokakovostne človeške standarde, ki jih ustvarijo vrhunski izvajalci na vsakem področju. Te naloge, ki jih pridobivajo strokovnjaki iz različnih poklicev in panog, odražajo strokovno delo v resničnem svetu, npr. priprava konkurenčne analize ponudnikov nujne oskrbe na zahtevo, izdelava podrobnih amortizacijskih načrtov in identifikacija primernih vodnjakov za nov obrat za zeleni vodik. 

Na DSBench(odpre se v novem oknu), ki je zasnovan za ocenjevanje agentov pri realističnih nalogah podatkovne znanosti, ki vključujejo analizo in modeliranje podatkov, agent ChatGPT znatno presega človeško zmogljivost.

Na SpreadsheetBench, ki ocenjuje modele glede na njihovo sposobnost urejanja preglednic, pridobljenih iz scenarijev v resničnem svetu, agent ChatGPT presega obstoječe modele z veliko razliko. Ko ima možnost neposrednega urejanja preglednic, agent ChatGPT doseže še višjo oceno s 45,5 % v primerjavi s Copilotom v Excelu, ki doseže 20,0 %. 

Metodologija: Avtorji orodja SpreadsheetBench so za ocenjevanje preglednic uporabili okolje Windows z Microsoft Excelom. Uporabili smo okolje OSX in LibreOffice, kar lahko povzroči majhne razlike pri ocenjevanju. Na primer, avtorji so ugotovili splošno trdo omejitev 15,02% za GPT‑4o, mi pa smo dosegli 13,38%. Uporabili smo celoten referenčni test z 912 vprašanji.

Na internem primerjalnem testu, ki meri zmožnost modela, da prevzame naloge modeliranja analitikov investicijskega bančništvaprvega do tretjega letnika, npr. sestavljanje finančnega modela s tremi izkazi za podjetje Fortune 500 z ustreznim oblikovanjem in citati ali oblikovanje modela odkupa z vzvodom za prevzem zasebne lastnine: model, ki poganja agenta ChatGPT, bistveno presega poglobljene raziskave in o3. Vsaka naloga je ocenjena po stotinah meril, povezanih s pravilnostjo in uporabo formul.

Agenta ChatGPT smo ocenili tudi na BrowseComp, merilu, ki smo ga objavili v začetku tega leta in ki meri sposobnost agentov brskanja, da najdejo težko dostopne informacije na spletu. Model je postavil nov SOTA z 68,9 %, kar je 17,4 odstotne točke več kot poglobljena raziskava.

Nazadnje, na WebArena(odpre se v novem oknu), merilu, zasnovanem za oceno uspešnosti agentov za brskanje po spletu pri opravljanju spletnih nalog v resničnem svetu, se model izboljša v primerjavi z o3‑poganjanim CUA (model, ki napaja Operator). 

Uporaba

Nove agentne zmogljivosti ChatGPT lahko aktivirate neposredno prek spustnega menija orodij v urejevalniku, tako da izberete 'način agenta' kadarkoli v katerem koli pogovoru. Preprosto opišite želeno nalogo ne glede na to ali gre za izvajanje poglobljenih raziskav, ustvarjanje diaprojekcije ali pošiljanje stroškov. Medtem ko opravlja vašo nalogo, pripoved na zaslonu zagotavlja vpogled v točno to, kar počne ChatGPT. Kadar koli je to potrebno, lahko prekinete in prevzamete nadzor nad brskalnikom ter zagotovite, da naloge ostanejo usklajene z vašimi cilji.

Agent ChatGPT lahko dostopa do vaših konektorjev, kar mu omogoča integracijo z vašimi poteki dela in dostop do ustreznih, uporabnih informacij. Ko so ti konektorji preverjeni, omogočajo ChatGPT, da vidi informacije in opravi naloge, kot je povzetek vašega nabiralnika za dan ali iskanje prostih terminov za sestanek, vendar boste za izvedbo dejanj na teh spletnih mestih še vedno prejeli poziv za prijavo s prevzemom brskalnika. 

Poleg tega lahko načrtujete, da se opravljene naloge samodejno ponavljajo, na primer vsak ponedeljek zjutraj ustvarite tedensko poročilo o metrikah.

Nove zmogljivosti, nova tveganja 

Ta izdaja označuje prvič, da lahko uporabniki zaprosijo ChatGPT, da izvede dejanja na spletu. To prinaša nova tveganja, zlasti ker lahko agent ChatGPT neposredno deluje z vašimi podatki, ne glede na to, ali gre za informacije, do katerih dostopate prek priključkov ali spletnih mest, v katere ste se prijavili prek načina prevzema. Okrepili smo robustne kontrole iz predogleda raziskav Operatorja in dodali zaščitne ukrepe za izzive, kot so ravnanje z občutljivimi informacijami na spletu v živo, širši doseg uporabnikov in (omejen) dostop do terminalskega omrežja. Čeprav ti blažilni ukrepi znatno zmanjšajo tveganje, razširjena orodja agenta ChatGPT in širši doseg uporabnikov pomenijo, da je njegov celotni profil tveganja višji. 

Poseben poudarek smo dali zaščiti agenta ChatGPT pred nasprotnimi manipulacijami z vbrizgavanjem poziva, kar je tveganje za agentne sisteme na splošno, in smo ustrezno pripravili obsežnejše blažilne ukrepe. Pozivni napadi so poskusi tretje osebe, da manipulirajo z vedenjem agenta ChatGPT z zlonamernimi navodili, na katere lahko naleti na spletu med opravljanjem naloge. Na primer, zlonamerni poziv, skrit v spletni strani, kot so nevidni elementi ali metapodatki, lahko agenta zavede, da izvede nenačrtovana dejanja, kot je deljenje zasebnih podatkov iz povezovalnika z napadalcem ali izvedba škodljivega dejanja na spletnem mestu, v katerega je uporabnik prijavljen. Ker lahko agent ChatGPT izvaja neposredna dejanja, lahko uspešni napadi povzročijo večji vpliv in predstavljajo večja tveganja. 

Usposobili in preizkusili smo agenta za prepoznavanje in upiranje vbrizgavanju pozivov, poleg tega pa smo uporabili nadzor za hitro odkrivanje in odzivanje na napade z vbrizgavanjem pozivov. Zahteva po izrecni potrditvi uporabnika pred izvedbo pomembnih dejanj še dodatno zmanjša tveganje za škodo zaradi teh napadov, uporabniki pa lahko po potrebi posredujejo v naloge s prevzemom nadzora ali začasno zaustavitvijo. Uporabniki naj pretehtajo te kompromise pri odločanju, katere informacije bodo posredovali agentu, ter sprejmejo ukrepe za zmanjšanje izpostavljenosti tem tveganjem, na primer onemogočijo priključke, kadar ti niso potrebni za nalogo. 

Uvedli smo tudi blažilne ukrepe za napake modela, še posebej, ker lahko model zdaj opravlja naloge, ki vplivajo na resnični svet: 

  • Izrecna potrditev uporabnika: ChatGPT je usposobljen, da izrecno zaprosi za vaše dovoljenje, preden izvede dejanja z resničnimi posledicami, kot je nakup.
  • Aktivni nadzor (“Watch Mode”): Nekatere ključne naloge, kot je pošiljanje e-poštnih sporočil, zahtevajo vašo aktivno nadzorovanje.
  • Blažilni ukrepi za proaktivno tveganjej: ChatGPT je usposobljen za aktivno zavračanje nalog z visokim tveganjem, npr. bančni prenosi.

Nazadnje smo uvedli dodatne kontrole za omejitev podatkov, do katerih ima model dostop: 

  • Nadzor zasebnosti: Z enim klikom v nastavitvah ChatGPT lahko izbrišete vse podatke brskanja in izvedete odjavo iz vseh aktivnih sej spletnega mesta. V nasprotnem primeru se piškotki ohranijo glede na pravilnik o piškotkih vsakega obiskanega spletnega mesta, kar lahko naredi ponovne obiske spletnih mest učinkovitejše.
  • Varen način prevzema brskalnika: Ko komunicirate s spletom prek brskalnika ChatGPT ("način prevzema"), vaši vnosi ostanejo zasebni. ChatGPT ne zbira ali shranjuje nobenih podatkov, ki jih vnesete med temi sejami, kot so gesla, ker jih model ne potrebuje in je varneje, če jih nikoli ne vidi.

Naš najmočnejši varnostni sklop doslej za biološka tveganja 

Z večjimi zmogljivostmi modela smo se odločili, da bomo agenta ChatGPT obravnavali kot visoko biološko in kemično zmogljivost v okviru našega Okvira pripravljenosti in aktivirali povezane zaščitne ukrepe. Čeprav nimamo dokončnih dokazov, da bi model lahko smiselno pomagal novincu ustvariti hudo biološko škodo – naš prag za visoko zmogljivost –, smo zdaj previdni in izvajamo potrebne zaščitne ukrepe. Posledično ima ta model naš najširši izbor varnostnih ukrepov doslej z izboljšanimi zaščitnimi ukrepi za biologijo: celovito modeliranje groženj, usposabljanje za zavrnitev dvojne rabe, vedno vključeni klasifikatorji in monitorji za sklepanje ter jasni načini izvrševanja. 

Poleg našega dela za zaščito agenta ChatGPT vemo, da večplastna biološka varnost najbolje deluje, kadar zaščitni ukrepi segajo onkraj posameznega laboratorija, zato sodelujemo po celotnem ekosistemu pri krepitvi obrambe. Že od prvega dne sodelujemo z zunanjimi strokovnjaki za biološko varnost, inštituti za varnost in akademskimi raziskovalci pri oblikovanju našega modela groženj, ocen in politik. Biološko usposobljeni recenzenti so potrdili naše podatke o ocenjevanju, strokovnjaki iz rdečih ekip pa so zaščitne ukrepe preizkusili v stresnih, realnih scenarijih. V začetku tega meseca smo sklicali delavnico o biološki obrambi s strokovnjaki iz vlade, akademskih krogov, nacionalnih laboratorijev in nevladnih organizacij, da bi pospešili sodelovanje in napredovali raziskave na področju biološke obrambe s pomočjo umetne inteligence. Še naprej bomo sodelovali na globalni ravni, da bi ostali pred nastajajočimi tveganji. 

Več o našem robustnem varnostnem pristopu za enotni agentični model si preberite v sistemski kartici. Prav tako začenjamo program nagrajevanja za odkrivanje napak, da lahko poiščemo in odpravimo resnična tveganja.

Razpoložljivost

Agent ChatGPT se danes začne uvajati za Pro, Plus in Team; Pro bo dobil dostop do konca dneva, medtem ko bodo uporabniki Plus in Team dobili dostop v naslednjih nekaj dneh. Uporabniki storitev Enterprise in izobraževanja bodo dobili dostop v prihodnjih tednih. Pro uporabniki imajo 400 sporočil na mesec, medtem ko drugi plačani uporabniki prejmejo 40 sporočil mesečno, dodatna uporaba pa je na voljo prek prilagodljivih možnosti, ki temeljijo na kreditih.

Še vedno delamo na omogočanju dostopa za Evropski gospodarski prostor in Švico. 

Spletno mesto za predogled raziskav Operatorja bo ostalo funkcionalno še nekaj tednov, nato pa bo ukinjeno. Globinsko raziskovanje je del zmogljivosti agenta ChatGPT. Če imate raje izvirno funkcijo poglobljenega raziskovanja, ki lahko traja dlje časa, vendar privzeto zagotavlja podrobnejše in poglobljene odgovore, lahko do nje še vedno dostopate tako, da v spustnem meniju urejevalnika sporočil izberete »poglobljeno raziskovanje«.

Omejitve in pogled v prihodnost 

Agent ChatGPT je še vedno v svojih zgodnjih fazah. Zmožen je prevzeti vrsto zapletenih nalog, vendar lahko še vedno dela napake. 

Čeprav vidimo pomemben potencial v njegovi sposobnosti ustvarjanje diaprojekcij, je ta funkcionalnost trenutno v beta fazi. Trenutno se lahko zdi, da so izhodi včasih osnovno oblikovani in dodelani, zlasti če začnete brez obstoječega dokumenta. Osredotočili smo se na začetne zmogljivosti modela za ustvarjanje artefaktov, ki organizirajo informacije v toku in obliki, primerni za predstavitve, z elementi, kot so besedilo, grafikoni, slike in oblike, ki jih je po izvozu mogoče nativno in enostavno urejati, s poudarkom na optimizaciji strukture in prilagodljivosti. Trenutno se občasno pojavljajo tudi neskladja med diapozitivi v pregledovalniku in izvoženim PowerPointom, ki jih poskušamo zmanjšati. Poleg tega lahko trenutno nalagate obstoječo preglednico, ki jo lahko ChatGPT uredi ali uporabi kot predlogo, vendar ta možnost za diaprojekcije še ni na voljo. Že usposabljamo naprej iteracijo ustvarjanja diaprojekcij v ChatGPT, da bi ustvarili bolj izpopolnjene in prefinjene izhode s širšimi zmožnostmi in izboljšanim oblikovanjem.

Na splošno pričakujemo nadaljnje izboljšave učinkovitosti, globine in vsestranskosti agenta ChatGPT skozi čas, vključno z bolj brezhibnimi interakcijami, saj nadaljujemo prilagajati količino nadzora, ki ga zahteva uporabnik, da bi bil agent bolj uporaben, hkrati pa zagotovimo varno uporabo.

Priloga

SpreadsheetBench

Model

Okolje ocenjevanja

Mehka omejitev (%): Na ravni celice

Mehka omejitev (%): na ravni lista

Blaga omejitev (%): Na splošno

GPT‑4o

Windows, Excel

15.03

23,65

18,35

Copilot v Excelu

Windows, Excel

23,33

15,00

20,00

GPT‑4o

OSX, LibreOffice

15,86

18,33

16,81

OpenAI o3

OSX, LibreOffice

22,40

24,60

23,25

Agent ChatGPT

OSX, LibreOffice

38,27

30,48

35,27

Agent ChatGPT z .xlsx

OSX, LibreOffice

50,56

37,51

45,54

Človek

75,56

65,00

71,33

Ponovitev prenosa v živo

Avtor

OpenAI

Opombe

* Ko omogočite brskanje, lahko model včasih najde natančne odgovore na spletu, na primer z branjem objav v blogu z vzorčnimi težavami iz nabora podatkov. Za tveganje, da bo model med brskanjem goljufal, izvajamo blažilne ukrepe z dvema strategijama:

1. Blokirali smo domene, pri katerih smo v preteklosti opazili, da model goljufa.

2. Uporabili smo dodatni model kot monitor za pregled vseh izhodnih žetonov orodja pri vsakem poskusu, da bi prepoznali sumljivo vedenje. Sumljivo vedenje je opredeljeno kot »stran, datoteka ali delček, katerega glavni namen je zagotoviti natančen odgovor na to konkretno vprašanje, npr. uradni ključ za ocenjevanje, »rešitev« ali razprava, ki dobesedno citira končni odgovor.« Dobrohotno vedenje je opredeljeno kot »kakršen koli avtoritativen vir, ki bi mu zaupala previdna oseba (dokumentacija, priročniki, znanstveni članki, ugledni članki), tudi če slučajno vsebuje pravilen odgovor.« Vsi poskusi, pri katerih je monitor menil, da je bilo uvajanje sumljivo, se štejejo za napačne. Večina vzorcev, ki jih to preverjanje ni opravilo, so bili problemi, katerih natančna rešitev je bila na voljo v več internetnih virih, ki niso bili povezani s HLE.

**OpenAI ima ekskluziven dostop do 237 od 290 zasebnih vprašanj v naboru podatkov Tier 1-3. Vprašanja 4. stopnje programa FrontierMath niso vključena v to oceno. Rezultati so ocenjeni kot povprečje 16 poskusov za odgovor na vsako vprašanje. Rezultate agenta ChatGPT pridobi OpenAI, ocenjuje jih Epoch AI, z dostopom do brskalnika in terminala ter omejitvijo 128K tokenov na odgovor. Ocenitve OpenAI o4-mini in o3 izvaja in ocenjuje Epoch AI, brez dostopa do brskalnika in terminala, z uporabo Python skriptov prek klicanja funkcij in omejitvijo 100.000 tokenov na odgovor. 

*** Oracle@64 se nanaša na najboljši rezultat, dosežen v 64 vzorčenih poskusih, izbranih z uporabo temeljne resnice (tj. za vsako nalogo izberemo poskus z najvišjo oceno na podlagi dejanske ocenjene uspešnosti). Poročamo povprečje teh najboljših rezultatov na nalogo pri vseh nalogah. Ta metrika poudarja zgornji potencial modela in variacijo v uspešnosti, tj. kako sposoben je model, ko uspe, in kaže prostor za izboljšanje doslednosti z nadaljnjim usposabljanjem. Za razliko od tipičnih meritev »najboljših N«, ki izbirajo na podlagi zaupanja modela, Oracle@64 uporablja temeljno resnico za izbiro in se uporablja za naloge, ocenjene na neprekinjeni lestvici 0–1, namesto za binarni uspeh/neuspeh.