17. srpnja 2025.

Predstavljamo agenta ChatGPT: povezuje istraživanje i djelovanje

ChatGPT sad razmišlja i djeluje, proaktivno birajući iz skupa sposobnosti agenta kako bi izvršio zadatke umjesto vas, koristeći vlastito računalo.

Isprobajte ChatGPT

Učitavanje…

ChatGPT sad može obavljati posao umjesto vas koristeći vlastito računalo i rješavati složene zadatke od početka do kraja.

Sad od ChatGPT‑a možete tražiti da obradi zahtjeve poput: „pogledaj moj kalendar i pripremi pregled nadolazećih sastanaka s klijentima na temelju najnovijih vijesti“, „isplaniraj i kupi sastojke za japanski doručak za četiri osobe“ ili „analiziraj tri konkurenta i izradi prezentaciju“. ChatGPT će inteligentno pregledavati web-stranice, filtrirati rezultate, po potrebi od vas zatražiti sigurnu prijavu, pokretati kȏd, provoditi analize i prezentacije te proračunske tablice koje možete uređivati, a koje sažimaju njegove nalaze.

U središtu ove nove mogućnosti nalazi se ujedinjeni sustav rada u načinu agenta. Objedinjuje tri snage naših ranijih iskoraka: Operatorovu⁠ sposobnost rada s web-stranicama, vještine dubinskog istraživanja⁠ u sintetiziranju informacija i ChatGPT‑jevu inteligenciju te fluentnost u razgovoru.

ChatGPT izvršava ove zadatke koristeći vlastito virtualno računalo, glatko se prebacujući između prosuđivanja i radnje kako bi upravljao složenim tijekovima rada od početka do kraja, sve na temelju vaših uputa.

Najvažnije od svega jest to da uvijek vi imate kontrolu. ChatGPT prije svake važnije radnje traži vašu dozvolu, a vi ga u svakom trenutku možete prekinuti, preuzeti kontrolu nad preglednikom ili zaustaviti zadatak.

Od danas pretplatnici planova Pro, Plus i Team mogu uključiti nove mogućnosti načina rada agenta ChatGPT iz padajućeg izbornika s priborom, jednostavnim odabirom načina rada agenta u bilo kojem razgovoru.

Iako agent ChatGPT već jest moćan alat za obavljanje složenih zadataka, današnje predstavljanje tek je početak. Nastavit ćemo redovito uvoditi značajna poboljšanja kako bi s vremenom postao još sposobniji i korisniji još većem broju ljudi.

Prirodna evolucija Operatora i dubinsko istraživanje

Prije su Operator i dubinsko istraživanje imali različite prednosti: Operator je mogao skrolati, klikati i tipkati na web stranicama, dok je dubinsko istraživanje briljiralo u analizi i sažimanju informacija. No, najbolje su radili u različitim situacijama: Operator nije mogao dubinski analizirati ili pisati opsežna izvješća, a dubinsko istraživanje nije moglo stupati u interakciju s web-stranicama kako bi doradilo rezultate ili pristupilo sadržaju koji zahtijeva prijavu korisnika. Zapravo, primijetili smo da je mnogo upita koje su korisnici pokušavali riješiti pomoću Operatora zapravo bilo bolje rješivo pomoću dubinskog istraživanja, pa smo zato spojili najbolje od oba svijeta.

Integriranjem ovih komplementarnih prednosti u ChatGPT i uvođenjem dodatnih alata, otključali smo potpuno nove mogućnosti unutar jednog modela. Sad može aktivno komunicirati s web-stranicama – klikati, filtrirati i prikupljati preciznije i učinkovitije rezultate. Također možete prirodno prijeći s jednostavnog razgovora na traženje radnji izravno unutar istog razgovora.

Agent koji radi za vas, s vama

Opremili smo agent ChatGPT skupom pribora: vizualnim preglednikom koji komunicira s webom putem grafičkog korisničkog sučelja, tekstnim preglednikom za jednostavnije upite koji se oslanjaju na rasuđivanje, terminalom i izravnim pristupom API-ju. Agent može koristiti i ChatGPT poveznike⁠(otvara se u novom prozoru), što vam omogućuje povezivanje aplikacija poput Gmaila i GitHuba kako bi ChatGPT mogao pronaći informacije relevantne za vaše upite i koristiti ih u svojim odgovorima. Možete se i prijaviti na bilo koju web-stranicu tako da preuzmete kontrolu nad preglednikom, čime agentu omogućujete dublje i šire istraživanje te preciznije izvršavanje zadataka. Dajući ChatGPT‑u više različitih načina pristupa i interakcije s informacijama na webu, omogućujemo mu da sam odabere optimalni način za najbrže i najučinkovitije obavljanje zadataka. Primjerice, može dohvatiti informacije iz vašeg kalendara putem API-ja, učinkovito obraditi velike količine teksta pomoću tekstnog preglednika, a istodobno može i vizualno stupati u interakciju s web-stranicama koje su prvenstveno dizajnirane za ljude.

Sve to obavlja pomoću vlastitog virtualnog računala, koje čuva kontekst potreban za zadatak, čak i kad se koristi više alata – model može odabrati otvaranje stranice pomoću tekstnog ili vizualnog preglednika, preuzeti datoteku s weba, manipulirati njome pokretanjem naredbe u terminalu i zatim pogledati rezultat u vizualnom pregledniku. Model prilagođava svoj pristup kako bi obavljao zadatke brzo, točno i efikasno.

Agent ChatGPT dizajniran je za iterativne, suradničke tijekove rada, znatno interaktivnije i fleksibilnije od prijašnjih modela. Dok ChatGPT radi, možete ga prekinuti u bilo kojem trenutku kako biste pojasnili svoje upute, usmjerili ga prema željenim ishodima ili potpuno promijenili zadatak. Nastavit će tamo gdje je stao, sad s novim informacijama, ali bez gubitka prethodnog napretka. Isto tako, onda kad je potrebno, ChatGPT može proaktivno zatražiti dodatne detalje od vas kako bi zadatak ostao usklađen s vašim ciljevima. Ako zadatak traje duže od očekivanog ili se čini zaglavljenim, možete ga pauzirati, zatražiti sažetak napretka ili ga potpuno zaustaviti i dobiti djelomične rezultate. Ako na svom telefonu imate aplikaciju ChatGPT, poslat će vam obavijest kad završi s vašim zadatkom.

Širenje stvarne primjenjivosti

Ove objedinjene mogućnosti agenta ChatGPT znatno proširuju njegovu korisnost u svakodnevnim i profesionalnim situacijama. Na poslu možete automatizirati ponavljajuće zadatke, kao što su pretvaranje snimaka zaslona ili nadzornih ploča u prezentaciju sastavljenu od vektorskih elemenata koji se mogu uređivati, prerasporediti sastanke, planirati i rezervirati timske događaje izvan ureda te ažurirati proračunske tablice novim financijskim podacima uz zadržavanje postojećeg formata. U privatnom životu agent ChatGPT može vam pomoći jednostavno isplanirati i rezervirati putovanja, osmisliti i organizirati cijelu večeru ili pronaći stručnjake i dogovoriti termine.

Poboljšane sposobnosti modela odražavaju se u njegovim najsuvremenijim performansama (SOTA) na evaluacijama koje mjere pregledavanje weba i sposobnosti izvršavanja zadataka u stvarnom svijetu.

Na Humanity’s Last Exam⁠(otvara se u novom prozoru)*, evaluaciji koja mjeri izvedbu umjetne inteligencije na ekspertnoj razini kroz širok raspon područja – model koji pokreće agent ChatGPT postiže novi rezultat SOTA pass@1 od 41,6. Budući da agent dinamično planira i sam bira koje će alate koristiti, može pristupiti istom zadatku na različite načine u svakom pokušaju. Kad smo to proširili jednostavnom strategijom paralelnih izvođenja – pokretanjem do osam pokušaja istodobno i odabirom onoga s najvišom samoprijavljenom razinom pouzdanosti – agentov HLE rezultat raste na 44,4.

FrontierMath** je najteži poznati matematički referentni test, s novim i neobjavljenim zadacima za čije rješavanje stručni matematičari često trebaju više sati ili čak dana. Uz korištenje alata poput pristupa terminalu za izvršavanje koda, agent ChatGPT postiže točnost od 27,4 %, nadmašujući prethodne modele s velikom razlikom.

Također smo procijenili model pomoću referentnih testova oblikovanih prema složenim zadacima iz stvarnog svijeta. Na internom referentnom testu osmišljenom za procjenu izvedbe modela u složenim, ekonomski vrijednim zadacima znanja, rezultat agenta ChatGPT je u otprilike polovici slučajeva usporediv s ljudskim ili bolji pri različitim vremenima dovršavanja zadataka dok značajno nadmašuje o3 i o4-mini. Izlaz modela ocjenjuju stručnjaci, uspoređujući ga s visokokvalitetnim ljudskim rješenjima koja su izradili najbolji stručnjaci u pojedinom području. Ti zadaci, prikupljeni od stručnjaka iz različitih profesionalnih područja i sektora, odražavaju stvarni profesionalni rad — poput pripreme konkurentske analize pružatelja usluga hitne zdravstvene skrbi na zahtjev, izrade detaljnih amortizacijskih rasporeda te prepoznavanja pogodnih lokacija za vodoskopske bušotine za novo postrojenje za zeleni vodik.

Na DSBenchu⁠(otvara se u novom prozoru), referentnom testu osmišljenom za procjenu agenata na realističnim zadacima iz podatkovne znanosti koji obuhvaćaju analizu podataka i modeliranje, agent ChatGPT značajno nadmašuje ljudsku izvedbu.

Na SpreadsheetBenchu, koji procjenjuje modele prema njihovoj sposobnosti uređivanja proračunskih tablica temeljenih na stvarnim scenarijima, agent ChatGPT uvelike nadmašuje postojeće modele. Kad mu se omogući izravno uređivanje proračunskih tablica, agent ChatGPT postiže još bolji rezultat – 45,5 %, u usporedbi s 20 % u alatu Copilot for Excel.

Metodologija: Autori referentnog testa SpreadsheetBench koristili su okruženje Windows okruženje s Microsoft Excelom za evaluaciju proračunskih tablica. Mi smo koristili okruženje OSX i LibreOffice, što može dovesti do manjih razlika u ocjenjivanju. Primjerice, autori su za GPT‑4o utvrdili ukupno teško ograničenje od 15,02 %, dok smo mi dobili 13,38 %. Koristili smo kompletan referentni test od 912 pitanja.

Na internom referentnom testu koji mjeri sposobnost modela da izvrši zadatke modeliranja kakve obavljaju analitičari investicijskog bankarstva od prve do treće godine – od prve do treće godine – poput izrade trodijelnog financijskog modela za tvrtku iz Fortune 500 uz ispravno formatiranje i navođenje izvora ili izrade modela otkupa uz zaduženje (leveraged buyout) za povlačenje tvrtke s burze – model koji pokreće agent ChatGPT značajno nadmašuje dubinsko istraživanje i o3. Svaki se zadatak ocjenjuje prema stotinama kriterija koji se odnose na točnost i upotrebu formula.

Također smo procijenili agenta ChatGPT na BrowseCompu⁠, referentnom okviru koji smo objavili početkom ove godine i koji mjeri sposobnost agenata pregledavanja da pronađu teško dostupne informacije na webu. Model je postavio novi SOTA s 68,9 %, što je 17,4 postotna boda više od dubokog istraživanja.

Na kraju, na WebAreni⁠(otvara se u novom prozoru), referentnom testu osmišljenom za procjenu učinkovitosti agenata za pregledavanje weba u izvršavanju stvarnih zadataka na webu, model ostvaruje bolje rezultate od CUA-a temeljenog na o3 (modela koji pokreće Operator).

Kako koristiti

Možete aktivirati novu funkciju agenta ChatGPT izravno putem padajućeg izbornika alata u okviru za pisanje, tako da u bilo kojem trenutku u bilo kojem razgovoru odaberete Agent Mode (način rada agenta ChatGPT). Jednostavno opišite željeni zadatak – bilo da je riječ o provođenju dubinskog istraživanja, izradi prezentacije ili predaji troškova. Dok način rada agenta ChatGPT izvršava zadatak, prikaz radnji na zaslonu pruža jasan uvid u to što ChatGPT točno radi. Možete prekinuti i preuzeti kontrolu nad preglednikom kad god je to potrebno tako da zadaci ostanu usklađeni s vašim ciljevima.

Agent ChatGPT može pristupiti vašim poveznicima, omogućujući mu integraciju s vašim tijekovima rada i pristup relevantnim, primjenjivim informacijama. Nakon autentifikacije, ovi poveznici omogućuju ChatGPT‑u da vidi informacije i obavlja zadatke poput sažimanja vaše pristigle pošte za taj dan ili pronalaženja slobodnih termina za sastanak, no za poduzimanje radnji na tim web-mjestima, i dalje ćete se morati prijaviti preuzimanjem kontrole nad preglednikom.

Dodatno, možete zakazati da se dovršeni zadaci automatski ponavljaju – primjerice, da se svakog ponedjeljka ujutro generira tjedno izvješće s pokazateljima.

Nove mogućnosti, novi rizici

Ovo izdanje prvi put donosi mogućnost da zatražite od ChatGPT‑a da poduzima radnje na webu. To uvodi nove rizike, osobito zato što način rada agenta ChatGPT može izravno raditi s vašim podacima – bilo kroz informacije kojima pristupa putem poveznika ili web-stranica na koje ste ga prijavili kroz način rada preuzimanja. Ojačali smo postojeće kontrole razvijene u istraživačkoj verziji Operatora i dodali zaštitne mehanizme za izazove poput rukovanja osjetljivim informacijama na aktivnom webu, šireg dosega korisnika i (ograničenog) mrežnog pristupa putem terminala. Iako te mjere značajno smanjuju rizik, prošireni skup alata načina rada agenta ChatGPT i veći doseg korisnika znače da je njegov ukupni sigurnosni profil jači.

Posebno smo se usredotočili na zaštitu načina rada agenta ChatGPT od zlonamjernih manipulacija putem napada prompt injection, što je opći rizik za sustave agenata, te smo u skladu s tim pripremili opsežnije mjere ublažavanja rizika. Prompt injection predstavlja pokušaj trećih strana da manipuliraju ponašanjem sustava putem zlonamjernih uputa na koje način rada agenta ChatGPT može naići na webu dok izvršava zadatak. Primjerice, zlonamjerni upit skriven na web-mjestu – u nevidljivim elementima ili metapodacima – može navesti agenta na neželjene radnje, poput dijeljenja privatnih podataka iz poveznika s napadačem ili poduzimanja štetne radnje na web-mjestu na koje se korisnik prijavio. Budući da način rada agenta ChatGPT može poduzimati izravne radnje, uspješni napadi mogu imati veći učinak i predstavljati veće rizike.

Obučili smo i testirali način rada agenta ChatGPT da prepoznaje i odbija prompt injection napade, uz dodatno praćenje koje omogućuje brzo otkrivanje i reagiranje na takve pokušaje. Zahtijevanje izričite potvrde korisnika prije svake radnje koja može imati posljedice dodatno smanjuje rizik od štete, a korisnici u svakom trenutku mogu intervenirati u izvršavanje zadatka tako da preuzmu kontrolu ili ga pauziraju. Korisnici bi trebali uzeti u obzir ove kompromise kad odlučuju koje će informacije pružiti načinu rada agenta te poduzeti korake kako bi smanjili izloženost rizicima – primjerice, tako da onemoguće poveznike kad im nisu potrebni za određeni zadatak.

Uveli smo i dodatne mjere za ublažavanje pogrešaka modela, osobito zato što model sada može izvršavati zadatke koji imaju stvarne posljedice:

Izričita potvrda korisnika: ChatGPT je uvježban da izričito zatraži vaše dopuštenje prije poduzimanja radnji koje imaju posljedice u stvarnom svijetu, poput kupnje.
Aktivan nadzor („Watch Mode”): Određeni ključni zadaci, poput slanja e-pošte, zahtijevaju vašu aktivnu kontrolu.
Proaktivno ublažavanje rizika: ChatGPT je uvježban da automatski odbije visokorizične zadatke, primjerice bankovne prijenose.

Konačno, uveli smo dodatne kontrole kako bismo ograničili podatke kojima model ima pristup:

Kontrole privatnosti: Jednim klikom u postavkama ChatGPT‑a možete izbrisati sve podatke pregledavanja i odmah se odjaviti sa svih aktivnih sesija web-stranica. Inače, kolačići se zadržavaju u skladu s pravilima o kolačićima svake posjećene web-stranice, što može učiniti ponovne posjete tim stranicama učinkovitijima.
Siguran način preuzimanja kontrole nad preglednikom: Kad komunicirate s webom koristeći ChatGPT‑ov preglednik („način preuzimanja kontrole nad preglednikom", odnosno „takeover mode”), sve što upisujete ostaje privatno. ChatGPT ne prikuplja niti pohranjuje nikakve podatke koje unesete tijekom ovih sesija, poput lozinki, jer modelu to nije potrebno, a sigurnije je ako ih nikad ne vidi.

Naš dosad najsnažniji sigurnosni sustav za biološke rizike

S obzirom na povećane mogućnosti modela, odlučili smo u okviru našeg Okvira pripravnosti⁠ tretirati funkciju agenta ChatGPT kao sustav s visokim biološkim i kemijskim mogućnostima te aktivirati odgovarajuće zaštitne mjere. Iako nemamo konačne dokaze da bi model mogao značajno pomoći početniku u stvaranju ozbiljne biološke štete – što je naš prag za visoku razinu mogućnosti – primjenjujemo načelo opreza i unaprijed uvodimo potrebne mjere zaštite. Zato ovaj model ima naš dosad najopsežniji sigurnosni sustav, s dodatno pojačanim zaštitama za područje biologije: sveobuhvatno modeliranje prijetnji, obuku za odbijanje sadržaja s dvojnom namjenom, stalno aktivne klasifikatore i nadzore rezoniranja te jasne procese provedbe.

Uz naš rad na zaštiti funkcije agenta ChatGPT, svjesni smo da slojevita biološka sigurnost najbolje funkcionira kad se zaštitne mjere protežu izvan pojedinog laboratorija, pa surađujemo u cijelom ekosustavu kako bismo ojačali obrambene mehanizme. Od samog početka radimo s vanjskim stručnjacima za biološku obranu, sigurnosnim institutima i akademskim istraživačima kako bismo oblikovali svoj model prijetnji, procjene i politike. Stručni recenzenti iz područja biologije potvrdili su naše evaluacijske podatke, a stručni red-team testeri (testeri simuliranih sigurnosnih napada) provjerili su zaštitne mjere u realističnim scenarijima. Početkom ovog mjeseca organizirali smo radionicu o biološkoj obrani sa stručnjacima iz državnih tijela, akademske zajednice, nacionalnih laboratorija i nevladinih organizacija, kako bismo ubrzali suradnju i unaprijedili istraživanje biološke obrane potpomognuto umjetnom inteligencijom. Nastavit ćemo surađivati na globalnoj razini kako bismo uvijek bili korak ispred novih rizika.

Pročitajte više o našem snažnom sigurnosnom pristupu za objedinjeni model agenta u dokumentu o sustavu⁠. Također pokrećemo program nagrada za prijavu pogrešaka bug bounty program⁠ kako bismo mogli otkriti i ukloniti rizike u stvarnom okruženju.

Dostupnost

Funkcija agenta ChatGPT počinje se uvoditi danas za planove Pro, Plus i Team. Korisnici plana Pro verzije dobit će pristup do kraja dana, dok će korisnici planova Plus i Team pristup dobivati tijekom sljedećih nekoliko dana. Korisnici planova Enterprise i Education paketa dobit će pristup u idućim tjednima. Korisnici plana Pro imaju 400 poruka mjesečno, dok ostali korisnici s plaćenim paketima imaju 40 poruka mjesečno, uz dodatnu potrošnju dostupnu kroz fleksibilne opcije temeljene na kreditima.

Još radimo na omogućavanju pristupa za Europski gospodarski prostor i Švicarsku.

Stranica istraživačke probne verzije Operatora ostat će funkcionalna još nekoliko tjedana, nakon čega će biti ukinuta. Dubinsko istraživanje dio je mogućnosti funkcije agenta ChatGPT. Ako vam više odgovara izvorna značajka dubinskog istraživanja – kojoj možda treba više vremena za rad ali u pravilu daje detaljnije i temeljitije odgovore – i dalje joj možete pristupiti tako da u padajućem izborniku u sastavljaču poruke odaberete „dubinsko istraživanje“.

Ograničenja i pogled u budućnost

Agent ChatGPT je još uvijek u ranoj fazi. Sposoban je preuzeti niz složenih zadataka, ali još uvijek može griješiti.

Iako vidimo velik potencijal u njegovoj mogućnosti izrade prezentacija, ta je funkcionalnost trenutačno u beta-fazi. Trenutačno rezultati ponekad mogu djelovati skromnije po pitanju formatiranja i završne dorade, osobito kad se počinje bez postojećeg dokumenta. Početne mogućnosti modela usmjerili smo na generiranje sadržaja koji organizira informacije u tijek i oblik primjeren za prezentacije, s elementima poput teksta, grafikona, slika i oblika koji se nakon izvoza mogu jednostavno uređivati, uz optimizaciju za strukturu i fleksibilnost. Trenutačno se povremeno javljaju i razlike između slajdova prikazanih u pregledniku i izvezenog PowerPointa, na čijem smanjenju radimo. Osim toga, iako trenutačno možete prenijeti postojeću proračunsku tablicu kako bi je ChatGPT uredio ili koristio kao predložak, ta mogućnost još nije dostupna za prezentacije. Već treniramo sljedeću verziju mogućnosti izrade prezentacija u ChatGPT‑u, kako bi rezultati bili dorađeniji, napredniji, s većim mogućnostima i poboljšanim formatiranjem.

U cjelini, očekujemo daljnja poboljšanja učinkovitosti, razine detalja i svestranosti funkcije agenta ChatGPT kroz vrijeme, uključujući i prirodniju interakciju kako budemo prilagođavali potrebnu razinu sudjelovanja korisnika kako bi alat bio što korisniji, a istodobno siguran za uporabu.

Dodatak

SpreadsheetBench
Model	Okruženje za evaluaciju	Blaga ograničenja (%): na razini ćelije	Blago ograničenje (%): na razini radnog lista	Blago ograničenje (%): ukupno
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot u Excelu	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
Agent ChatGPT	OSX, LibreOffice	38,27	30,48	35,27
Agent ChatGPT s .xlsx datotekom	OSX, LibreOffice	50,56	37,51	45,54
Čovjek		75,56	65,00	71,33

Repriza prijenosa uživo

Autor

OpenAI

Bilješke

* Kad se omogući pregledavanje, model ponekad može pronaći točne odgovore na internetu, primjerice čitanjem objava na blogovima sa zadacima koji sadrže uzorke iz određenog skupa podataka. Rizik od varanja modela tijekom pregledavanja ublažavamo dvjema strategijama:

1. Blokirali smo domene s kojih je model u prošlosti pokušavao doći do rješenja nedopuštenim prečacem.

2. Koristili smo dodatni model kao nadzorni mehanizam koji je u svakom pokušaju analizirao sve izlazne tokene alata kako bi identificirao sumnjivo ponašanje. Sumnjivim se smatraju „stranica, datoteka ili isječak čija je glavna svrha pružiti točan odgovor na konkretno pitanje – npr. službeni ključ za ocjenjivanje, procurjeli isječak s rješenjima („solutions gist”) ili rasprava u kojoj se doslovno citira gotov odgovor”. Benigno ponašanje definira se kao „bilo koji relevantan izvor kojim bi se poslužio savjestan korisnik (dokumentacija, priručnici, znanstveni radovi, relevantni članci), čak i ako slučajno sadrži točan odgovor”. Svi pokušaji koje je nadzorni model označio kao sumnjive računaju se kao netočni. Većina uzoraka koji su pali na ovoj provjeri bili su zadaci čija su se gotova rješenja nalazila na nekoliko internetskih izvora nepovezanih s HLE-om (HLE: Holistic LLM Evaluation, odnosno cjelovita procjena velikih jezičnih modela).

**OpenAI ima ekskluzivan pristup za 237 od ukupno 290 privatnih pitanja u skupu podataka za razine 1–3. Pitanja četvrte razine iz FrontierMatha nisu uključena u ovu evaluaciju. Rezultati su procijenjeni kao prosjek od 16 pokušaja odgovaranja na svako pitanje. Rezultate agenta ChatGPT generira OpenAI, ocjenjuje ih Epoch AI, s pristupom pregledniku i terminalu te ograničenjem od 128K tokena po odgovoru. OpenAI o4-mini i o3 evaluacije provodi i ocjenjuje Epoch AI, bez pristupa pregledniku i terminalu, uz korištenje Python skripti putem poziva funkcija i s ograničenjem od 100 000 tokena po odgovoru.

*** Oracle@64 odnosi se na najbolji rezultat postignut među 64 uzorka izvođenja, pri čemu se odabir temelji na stvarnoj točnosti (tj. za svaki zadatak uzima se pokušaj s najvišom ocjenom prema stvarnom, ručno utvrđenom rezultatu). Prikazujemo prosjek tih najboljih rezultata po zadatku kroz sve zadatke. Ova metrika ističe gornju granicu mogućnosti modela i varijabilnost u obavljanju zadataka – pokazuje koliko model može biti uspješan kad „pogodi”, ali i gdje postoji prostor za poboljšanje dosljednosti kroz dodatnu obuku. Za razliku od uobičajenih metrika „best of N”, koje odabir temelje na pouzdanosti modela, oracle@64 koristi stvarne rezultate kao kriterij odabira i primjenjuje se na zadatke ocjenjivane na kontinuiranoj ljestvici od 0 do 1, a ne na binarnom principu prolaz/neuspjeh.