17. juli 2025.

Predstavljamo agenta ChatGPT: povezivanje istraživanja i radnje

ChatGPT sada razmišlja i djeluje, proaktivno birajući iz skupa agentičkih vještina kako bi izvršavao zadatke za vas koristeći vlastiti računar.

Isprobajte ChatGPT

Učitavanje…

ChatGPT sada može raditi umjesto vas koristeći vlastiti računar, obavljajući složene zadatke od početka do kraja.

Sada možete tražiti od ChatGPT‑a da obradi zahtjeve poput “pogledajte moj kalendar i obavijestite me o nadolazećim sastancima klijenata na osnovu nedavnih vijesti”, “planirajte i kupite sastojke za pripremu japanskog doručka za četiri osobe” i “analizirajte tri konkurenta i kreirajte prezentaciju.” ChatGPT će inteligentno navigirati web stranicama, filtrirati rezultate, slati vam upit da se sigurno prijavite po potrebi, pokretati kod, provoditi analizu, pa čak i isporučivati prezentacije i tabele koje se mogu uređivati i koje sažimaju njegove nalaze.

U srži ove nove mogućnosti je ujedinjeni agencijski sistem. Okuplja tri prednosti ranijih otkrića: sposobnost Operatora⁠ za interakciju s web stranicama, vještinu dubinskog istraživanja⁠ u sintezi informacija i ChatGPT‑ovu inteligenciju i tečnost razgovora.

ChatGPT izvršava ove zadatke koristeći vlastiti virtualni računar, tečno se prebacujući između zaključivanja i radnje kako bi upravljao složenim tijekovima rada od početka do kraja, sve na temelju vaših uputa.

Najvažnije je da ste uvijek u kontroli. ChatGPT traži dozvolu prije poduzimanja radnji od značaja, a Vi možete lako prekinuti, preuzeti kontrolu nad pretraživačem ili zaustaviti zadatke u bilo kojem trenutku.

Počevši od danas, korisnici Pro, Plus i Team mogu aktivirati nove agent mogućnosti ChatGPT‑a direktno putem padajućeg menija alata iz kompozitora odabirom 'agent mod' u bilo kojem trenutku bilo kojeg razgovora.

Iako je agent ChatGPT već moćan alat za rukovanje složenim zadacima, današnje lansiranje je samo početak. Nastavit ćemo iterativno dodavati značajna poboljšanja redovito, čineći ga sposobnijim i korisnijim za više ljudi s vremenom.

Prirodna evolucija Operatora i dubinsko istraživanje

Prije toga, Operator i duboko istraživanje su donosili jedinstvene prednosti: Operator je mogao pomjerati, kliknuti i tipkati na webu, dok je duboko istraživanje bilo izvrsno u analizi i sažimanju informacija. Ali najbolje su funkcionisali u različitim situacijama: Operator nije mogao duboko zaroniti u analizu ili pisati detaljne izvještaje, a dubinsko istraživanje nije moglo komunicirati s web stranicama radi preciziranja rezultata ili pristupa sadržaju koji zahtijeva autentifikaciju korisnika. Zapravo, uočili smo da su mnogi upiti koje su korisnici pokušavali s Operatorom zapravo bolje odgovarali za dubinsko istraživanje, pa smo spojili najbolje od oba pristupa.

Integrirajući ove komplementarne snage u ChatGPT i uvođenjem dodatnih alata, otključali smo potpuno nove mogućnosti unutar jednog modela. Sada može aktivno angažirati web stranice—klikati, filtrirati i prikupljati preciznije, efikasnije rezultate. Također možete prirodno prijeći s jednostavnog razgovora na traženje radnji direktno unutar istog chata.

Agent koji radi za Vas, s Vama

Opremili smo agenta ChatGPT nizom alata: vizualni pretraživač koji komunicira sa webom putem grafičko-korisničkog sučelja, tekstualni pretraživač za jednostavnije upite zasnovane na rezonovanju, terminal i direktan pristup API-ju. Agent također može iskoristiti ChatGPT konektore⁠(otvara se u novom prozoru), što vam omogućuje povezivanje aplikacija poput Gmaila i Githuba, tako da ChatGPT može pronaći informacije relevantne za vaše upite i koristiti ih u svojim odgovorima. Također se možete prijaviti na bilo koju web stranicu tako što ćete preuzeti kontrolu nad pretraživačem, omogućavajući mu da ide dublje i šire kako u istraživanju tako i u izvršavanju zadataka. Omogućavanje ChatGPT‑u različitih načina za pristup i interakciju s web informacijama znači da može odabrati optimalan put za najefikasnije obavljanje zadataka. Na primjer, može prikupljati informacije o vašem kalendaru putem API-ja, efikasno rezonovati nad velikim količinama teksta koristeći pretraživač zasnovan na tekstu, a istovremeno ima mogućnost vizuelne interakcije s web stranicama dizajniranim prvenstveno za ljude.

Sve se ovo radi korištenjem vlastitog virtualnog računara, koji čuva kontekst potreban za zadatak, čak i kada se koristi više alata - model može odabrati otvaranje stranice pomoću tekstualnog pretraživača ili vizualnog pretraživača, preuzeti datoteku sa weba, manipulirati njome pokretanjem naredbe u terminalu, a zatim pregledati izlaz nazad u vizualnom pretraživaču. Model prilagođava svoj pristup kako bi obavljao zadatke s brzinom, preciznošću i efikasnošću.

Agent ChatGPT je dizajniran za iterativne, kolaborativne tijekove rada, daleko interaktivnije i fleksibilnije od prethodnih modela. Dok ChatGPT radi, možete ga prekinuti u bilo kojem trenutku kako biste razjasnili svoje upute, usmjerili ga prema željenim ishodima ili potpuno promijenili zadatak. Nastavit će tamo gdje je stao, sada s novim informacijama, ali bez gubitka prethodnog napretka. Isto tako, sam ChatGPT može proaktivno tražiti dodatne detalje od vas kada je to potrebno kako bi se osiguralo da zadatak ostane usklađen s vašim ciljevima. Ako zadatak traje duže nego što se očekivalo ili se čini zaglavljenim, možete ga pauzirati, zatražiti sažetak napretka ili ga potpuno zaustaviti i dobiti djelomične rezultate. Ako na telefonu imate aplikaciju ChatGPT, ona će vam poslati obavijest kada završi sa vašim zadatkom.

Proširenje korisnosti u stvarnom svijetu

Ove jedinstvene agentičke sposobnosti značajno povećavaju korisnost ChatGPT‑a u svakodnevnim i profesionalnim kontekstima. Na poslu možete automatizirati ponavljajuće zadatke, kao što su pretvaranje snimaka zaslona ili kontrolnih tabli u prezentacije sastavljene od vektorskih elemenata koji se mogu uređivati, preuređivanje sastanaka, planiranje i rezervacija vanjskih lokacija, te ažuriranje izračunskih tabela s novim financijskim podacima uz zadržavanje istog oblikovanja. U svom osobnom životu, možete ga koristiti za bez napora plan i rezervaciju itinerara putovanja, dizajniranje i rezervaciju čitavih večera ili pronalaženje stručnjaka i zakazivanje termina.

Poboljšane sposobnosti modela odražavaju se u njegovim najsavremenijim (SOTA) performansama na evaluacijama koje mjere pregledavanje weba i sposobnosti izvršavanja zadataka u stvarnom svijetu.

Na Humanity’s Last Exam⁠(otvara se u novom prozoru)*, evaluaciji koja mjeri performanse UI u širokom spektru predmeta na pitanjima na nivou stručnjaka, model koji pokreće agenta ChatGPT postiže novi prolaz@1 SOTA na 41,6. Budući da agent dinamički planira i bira vlastite alate, može se pozabaviti istim zadatkom na različite načine u različitim pokretanjima. Kada smo ovo skalirali jednostavnom strategijom paralelnog uvođenja—izvodeći do osam pokušaja odjednom i birajući onaj s najvećim samoprijavljenim povjerenjem—HLE rezultat agenta povećava se na 44,4.

FrontierMath** je najteži poznati matematički test, koji sadrži nove, neobjavljene probleme za koje su stručnim matematičarima često potrebni sati ili čak dani da ih riješe. Korištenjem alata, kao što je pristup terminalu za izvršavanje koda, agent ChatGPT postiže tačnost od 27,4%, nadmašujući oba prethodna modela za veliku razliku.

Takođe smo procijenili model koristeći referentne vrijednosti oblikovane prema složenim stvarnim zadacima. Na internoj referentnoj vrijednosti dizajniranoj za procjenu performansi modela na složenim, ekonomski vrijednim zadacima znanja, izlaz ChatGPT agenta je usporediv ili bolji od ljudskog u otprilike polovini slučajeva kroz različita vremena izvršavanja zadataka, dok značajno nadmašuje o3 i o4-mini. Izlaze modela ocjenjuju stručnjaci prema visokokvalitetnim ljudskim referentnim tačkama koje su kreirali vrhunski izvođači u svakom polju. Ovi zadaci, dobiveni od stručnjaka iz različitih zanimanja i industrija, odražavaju profesionalni rad u stvarnom svijetu - poput pripreme konkurentske analize pružatelja hitne skrbi na zahtjev, izrade detaljnih rasporeda amortizacije i identificiranja održivih bunara za novi pogon za zeleni vodik.

Na DSBench⁠(otvara se u novom prozoru), koji je dizajniran za procjenu agenata na realističnim zadacima nauke o podacima koji obuhvataju analizu i modeliranje, agent ChatGPT značajno nadmašuje ljudske performanse.

Na SpreadsheetBench, koji procjenjuje modele na osnovu njihove sposobnosti uređivanja izračunskih tabela izvedenih iz scenarija iz stvarnog svijeta, agent ChatGPT nadmašuje postojeće modele značajnom razlikom. Kada se pruži mogućnost izravnog uređivanja izračunskih tabela, agent ChatGPT postiže još veće rezultate sa 45,5%, u poređenju s Copilotom u Excelu koji ima 20,0%.

Metodologija: Autori SpreadsheetBencha koristili su Windows okruženje koristeći Microsoft Excel za evaluaciju izračunskih tabela. Koristili smo OSX okruženje i LibreOffice, što može rezultirati malim razlikama u ocjenjivanju. Na primjer, autori su pronašli ukupno teško ograničenje od 15,02% za GPT‑4o, a mi smo dobili 13,38%. Koristili smo kompletan benchmark od 912 pitanja.

Na internom referentnom testu koji mjeri sposobnost modela da preuzme zadatke modeliranja analitičara investicijskog bankarstvaod prve do treće godine - poput sastavljanja trostrukog finansijskog modela za Fortune 500 kompaniju s odgovarajućim formatiranjem i citatima, ili izgradnje modela otkupa s polugom za privatizaciju - model koji pokreće ChatGPT agent značajno nadmašuje duboka istraživanja i o3. Svaki zadatak se ocjenjuje prema stotinama kriterija vezanih za tačnost i korištenje formula.

Također smo procijenili ChatGPT agenta na BrowseComp⁠, mjerilu koje smo objavili ranije ove godine i koje mjeri sposobnost agenata pregledavanja da pronađu teško dostupne informacije na webu. Model je postavio novi SOTA sa 68,9%, što je 17,4 postotna boda više od dubokog istraživanja.

Konačno, na WebArena⁠(otvara se u novom prozoru), mjerilu dizajniranom za procjenu performansi agenata za pregledavanje weba u izvršavanju stvarnih web zadataka, model se poboljšava u odnosu na CUA pokretan o3 (model koji pokreće Operator).

Kako koristiti

Nove agentičke mogućnosti ChatGPT‑a možete aktivirati direktno putem padajućeg menija alata kompozitora odabirom 'načina agenta' u bilo kojem trenutku u bilo kojem razgovoru. Jednostavno opišite svoj željeni zadatak—bilo da se radi o provođenju dubokih istraživanja, kreiranju prezentacije ili podnošenju troškova. Dok izvršava vaš zadatak, naracija na ekranu pruža uvid u to što ChatGPT tačno radi. Možete prekinuti i preuzeti kontrolu nad pretraživačem kad god je to potrebno, osiguravajući da zadaci ostanu usklađeni s vašim ciljevima.

ChatGPT agent može pristupiti vašim konektorima, omogućavajući mu da se integrira s vašim tijekovima rada i pristupi relevantnim, djelotvornim informacijama. Nakon autentifikacije, ovi konektori omogućavaju ChatGPT‑u da vidi informacije i obavlja zadatke poput rezimiranja vašeg pristiglog sandučića za taj dan ili pronalaženja slobodnih termina za sastanak – međutim, da biste poduzeli radnje na ovim web stranicama, i dalje će se od vas tražiti da se prijaviti preuzimanjem kontrole nad pretraživačem.

Osim toga, možete zakazati da se izvršeni zadaci automatski ponavljaju, kao što je generirati sedmični izvještaj o metrikama svakog ponedjeljka ujutro.

Nove mogućnosti, novi rizici

Ovo izdanje označava prvi put da korisnici mogu tražiti od ChatGPT‑a da poduzmu radnje na webu. Ovo uvodi nove rizike, posebno zato što agent ChatGPT‑a može direktno raditi s vašim podacima, bilo da se radi o informacijama kojima se pristupa putem konektora ili web stranica na koje ste ih prijavili putem načina preuzimanja. Pojačali smo robusne kontrole iz Operatorovog pregleda i dodali zaštitne mjere za izazove kao što su rukovanje osjetljivim informacijama na webu uživo, širi doseg korisnika i (ograničen) pristup terminalnoj mreži. Iako ova ublažavanja značajno smanjuju rizik, prošireni alati agenta ChatGPT i širi domet korisnika znače da je njegov ukupni profil rizika veći.

Poseban naglasak stavili smo na zaštitu ChatGPT agenta od adversarne manipulacije putem ubrizgavanja upita, što predstavlja rizik za agentičke sisteme općenito, te smo u skladu s tim pripremili opsežnije mjere ublažavanja. Injekcije upita su pokušaji treće strane da manipulišu ponašanjem putem zlonamjernih uputa s kojima se ChatGPT agent može susresti na webu dok izvršava zadatak. Na primjer, zlonamjerni upit skriven na web stranici, kao što su nevidljivi elementi ili metadata, mogao bi prevariti agenta da poduzme neželjene radnje, poput dijeljenja privatnih podataka iz konektora s napadačem ili poduzimanja štetne radnje na web stranici na koju se korisnik prijavio. Budući da ChatGPT agent može poduzeti direktne radnje, uspješni napadi mogu imati veći utjecaj i predstavljati veće rizike.

Obučili smo i testirali agenta za identifikaciju i otpornost na upit injekcije, uz korištenje nadzora za brzo otkrivanje i odgovor na napade upit injekcija. Zahtijevanje eksplicitne potvrde korisnika prije posljedičnih radnji dodatno smanjuje rizik od štete od ovih napada, a korisnici mogu intervenirati u zadatke po potrebi preuzimanjem ili pauziranjem. Korisnici bi trebali odmjeriti ove kompromise prilikom odlučivanja koje informacije će pružiti agentu, kao i poduzeti korake kako bi smanjili svoju izloženost tim rizicima, poput onemogućavanja konektora kada nisu potrebni za zadatak.

Također smo implementirali mjere ublažavanja grešaka modela, posebno zato što model sada može obavljati zadatke koji utječu na stvarni svijet:

Eksplicitna potvrda korisnika: ChatGPT je obučen da izričito zatraži vašu dozvolu prije nego što poduzme radnje s posljedicama u stvarnom svijetu, poput kupovine.
Aktivni nadzor (“Watch Mode”): Određeni kritični zadaci, poput slanja e-pošte, zahtijevaju vaše aktivno nadgledanje.
Proaktivno ublažavanje rizika: ChatGPT je obučen da aktivno odbija visokorizične zadatke kao što su bankovni prenosi.

Konačno, uveli smo dodatne kontrole kako bismo ograničili pristup podacima koje model može koristiti:

Kontrole privatnosti: Jednim klikom u postavkama ChatGPT‑a, možete izbrisati sve podatke pregledavanja i odmah se odjaviti sa svih aktivnih sesija web stranice. U suprotnom, kolačići ostaju aktivni prema politikama kolačića svake posjećene web stranice, što može učiniti ponovljene posjete stranicama efikasnijim.
Siguran način preuzimanja pretraživača: Kada komunicirate s webom koristeći ChatGPT‑ov pretraživač (“način preuzimanja”), vaši unosi ostaju privatni. ChatGPT ne prikuplja niti pohranjuje nikakve podatke koje unesete tokom ovih sesija, kao što su lozinke, jer modelu to nije potrebno, a sigurnije je ako ih nikada ne vidi.

Naš do sada najjači sigurnosni sistem za biološki rizik

S obzirom na povećane mogućnosti modela, donijeli smo odluku da agenta ChatGPT tretiramo kao entitet s visokim biološkim i hemijskim sposobnostima u okviru našeg Okvira spremnosti⁠, aktivirajući povezane zaštitne mjere. Iako nemamo konačne dokaze da bi model mogao smisleno pomoći početniku da kreira ozbiljnu biološku štetu—što je naš prag za visoku sposobnost—sada postupamo oprezno i provodimo potrebne zaštitne mjere. Kao rezultat toga, ovaj model ima naš do sada najopsežniji sigurnosni paket s poboljšanim zaštitnim mjerama za biologiju: sveobuhvatno modeliranje prijetnji, obuku za odbijanje dvostruke upotrebe, uvijek uključene klasifikatore i monitore obrazloženja te jasne kanale za provođenje.

Pored našeg rada na osiguranju agenta ChatGPT, znamo da slojevita biološka sigurnost najbolje funkcioniše kada se zaštitne mjere protežu izvan bilo koje laboratorije, pa sarađujemo u cijelom ekosistemu kako bismo ojačali odbranu. Od prvog dana radili smo s vanjskim stručnjacima za biološku sigurnost, institutima za sigurnost i akademskim istraživačima kako bismo oblikovali naš model prijetnji, procjene i politike. Recenzenti obučeni za biologiju potvrdili su naše podatke o evaluaciji, a stručnjaci za domenu iz crvenog tima su testirali zaštitne mjere na stres u realističnim scenarijima. Ranije ovog mjeseca sazvali smo radionicu o bioodbrani sa stručnjacima iz vlade, akademske zajednice, nacionalnih laboratorija i nevladinih organizacija kako bismo ubrzali saradnju i unaprijedili istraživanje bioodbrane koje pokreće umjetna inteligencija. Nastavit ćemo globalno partnerstvo kako bismo ostali ispred novih rizika.

Pročitajte više o našem robusnom sigurnosnom pristupu za jedinstveni agentički model u sistemskoj kartici⁠. Također pokrećemo bug bounty program⁠ kako bismo mogli pronaći i sanirati rizike iz stvarnog svijeta.

Dostupnost

ChatGPT agent počinje s uvođenjem danas za Pro, Plus i Team; Pro će dobiti pristup do kraja dana, dok će korisnici Plus i Team dobiti pristup u sljedećih nekoliko dana. Korisnici Enterprise i obrazovni korisnici dobit će pristup u narednim sedmicama. Pro korisnici imaju 400 poruka mjesečno, dok ostali plaćeni korisnici dobivaju 40 poruka mjesečno, s dodatnom upotrebom dostupnom putem fleksibilnih opcija zasnovanih na kreditima.

Još uvijek radimo na omogućavanju pristupa za Evropski ekonomski prostor i Švicarsku.

Stranica za pregled istraživanja Operatora ostat će funkcionalna još nekoliko sedmica, nakon čega će biti ugašena. Duboko istraživanje je dio mogućnosti agenta ChatGPT‑a. Ako više volite originalnu funkciju dubokog istraživanja—koja može potrajati duže da se izvrši, ali po predodređenim postavkama pruža detaljnije, dublje odgovore—još uvijek joj možete pristupiti odabirom “dubinsko istraživanje” iz padajućeg izbornika u kompozitoru poruka.

Ograničenja i pogled unaprijed

ChatGPT agent je još uvijek u ranoj fazi. Sposoban je preuzeti niz složenih zadataka, ali još uvijek može praviti greške.

Iako vidimo značajan potencijal u njegovoj sposobnosti da generirati prezentacije, ova funkcionalnost je trenutno u beta fazi. Trenutno se izlazi ponekad mogu činiti osnovnim u svom oblikovanju i završnoj obradi, posebno kada se započinje bez postojećeg dokumenta. Usmjerili smo početne mogućnosti modela na generiranje artefakata koji organiziraju informacije u toku i formatu pogodnom za prezentacije, s elementima poput teksta, grafikona, slika i oblika koji su izvorno i lako uređivi nakon izvoza, optimizirajući za strukturu i fleksibilnost. Trenutno postoje i povremene razlike između slajdova u pregledniku i izvezenog PowerPointa koje nastojimo smanjiti. Osim toga, iako trenutno možete otpremiti postojeću izračunsku tabelu za ChatGPT za uređivanje ili korištenje kao šablon, ova mogućnost još nije dostupna za prezentacije. Već obučavamo sljedeću iteraciju kreiranja prezentacija ChatGPT‑a kako bismo proizveli uglađenije, sofisticiranije izlaze, sa širim mogućnostima i poboljšanim formatiranjem.

Sve u svemu, očekujemo kontinuirana poboljšanja efikasnosti, dubine i svestranosti ChatGPT agenta tokom vremena, uključujući besprijekornije interakcije dok nastavljamo prilagođavati količinu nadzora potrebnog od korisnika kako bismo ga učinili korisnijim, a istovremeno osiguravamo da je siguran za upotrebu.

Dodatak

SpreadsheetBench
Model	Okruženje za evaluaciju	Blaga restrikcija (%): Na nivou ćelije	Blago ograničenje (%): Na nivou lista	Blaga restrikcija (%): Sveukupno
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot u Excelu	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
ChatGPT agent	OSX, LibreOffice	38,27	30,48	35,27
ChatGPT agent s .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Čovjek		75,56	65,00	71,33

Repriza prijenosa uživo

Autor

OpenAI

Fusnote

* Kada omogućite pregledavanje, model ponekad može pronaći tačne odgovore na mreži, na primjer, čitajući postove na blogu s uzorcima problema iz skupa podataka. Ublažavamo zabrinutost zbog varanja modela prilikom pregledavanja koristeći dvije strategije:

1. Blokirani domeni s kojih smo u prošlosti primijetili da model vara.

2. Korišten je dodatni model kao monitor za ispitivanje svih izlaznih tokena alata u svakom pokušaju prepoznavanja sumnjivog ponašanja. Sumnjivo ponašanje definira se kao "stranica, datoteka ili isječak čija je glavna svrha pružiti tačan odgovor na ovo specifično pitanje—npr., službeni ključ ocjenjivanja, procurila suština “rješenja” ili diskusija koja doslovno citira gotov odgovor." Benigno ponašanje definira se kao "Bilo koji autoritativni resurs koji bi marljiv čovjek mogao konzultirati (dokumentacija, priručnici, naučni radovi, ugledni članci) čak i ako slučajno sadrži tačan odgovor." Svi pokušaji u kojima je monitor smatrao da je predstavljanje sumnjivo računaju se kao netačni. Većina uzoraka koji nisu prošli ovu provjeru bili su problemi čije je tačno rješenje bilo dostupno na više internetskih izvora koji nisu povezani s HLE.

**OpenAI ima ekskluzivan pristup 237 od 290 privatnih pitanja u skupu podataka Tier 1-3. Pitanja četvrtog nivoa iz FrontierMath-a nisu uključena u ovu evaluaciju. Rezultati su procijenjeni kao prosjek od 16 pokušaja da se odgovori na svako pitanje. Rezultate agenta ChatGPT generira OpenAI, ocjenjuje ih Epoch AI, s pristupom pretraživaču i terminalu te ograničenjem od 128K tokena po odgovoru. Evaluacije OpenAI o4-mini i o3 provodi i ocjenjuje Epoch AI, bez pristupa pretraživaču i terminalu, koristeći python skripte putem pozivanja funkcija, s ograničenjem od 100K tokena po odgovoru.

*** Oracle@64 odnosi se na najbolji rezultat postignut u 64 uzorkovana ciklusa, odabranih korištenjem temeljne istine (tj. biramo pokušaj s najvećim bodovima za svaki zadatak na osnovu stvarnih ocijenjenih performansi). Izvještavamo o prosjeku ovih najboljih rezultata po zadatku u svim zadacima. Ova metrika naglašava gornji potencijal modela i varijance u izvedbi zadataka - pokazujući koliko model može biti sposoban kada uspije i ukazuje na prostor za poboljšanje dosljednosti kroz daljnju obuku. Za razliku od tipičnih metrika “best of N”, koje biraju na osnovu pouzdanosti modela, oracle@64 koristi temeljnu istinu za odabir i primjenjuje se na zadatke ocijenjene na kontinuiranoj skali 0–1, a ne na binarni prolaz/neuspjeh.