17. juuli 2025

Tutvustame ChatGPT agenti: ühendame uurimistöö ja tegutsemise

ChatGPT mõtleb ja tegutseb nüüd, valides ise ennetavalt agentlike oskuste tööriistakastist selle, mis on vajalik, et täita sinu eest ülesandeid oma arvuti abil.

Proovi ChatGPT-s

Laadimine…

ChatGPT saab nüüd sinu eest tööd teha omaenda arvuti abil, tegeledes keeruliste ülesannetega algusest lõpuni.

Nüüd saad paluda ChatGPT‑l käsitleda selliseid päringuid nagu „vaata minu kalendrit ja teavita mind hiljutiste uudiste põhjal eelseisvatest kliendikohtumistest”, „plaani ja osta koostisosad jaapani hommikusöögi valmistamiseks neljale” ja „analüüsi kolme konkurenti ja loo slaidikomplekt”. ChatGPT navigeerib arukalt veebisaitidel, filtreerib tulemusi, viipab sind vajadusel turvaliselt sisse logima, käivitab koodi, viib läbi analüüse ja esitab isegi redigeeritavaid slaidiseansse ja arvutustabeleid, mis võtavad kokku selle tulemused.

Selle uue võimekuse keskmes on ühendatud agentlik süsteem. See ühendab varasemate läbimurrete kolm tugevust: Operatori⁠ võime veebisaitidega suhelda, süvauuringu⁠ oskuse teavet sünteesida ning ChatGPT intelligentsuse ja vestlusoskuse.

ChatGPT täidab neid ülesandeid oma virtuaalse arvuti abil, sujuvalt arutluse ja toimingu vahel liikudes, et hallata keerukaid töövooge algusest lõpuni, kõik sinu juhiste põhjal.

Kõige tähtsam on, et kontroll on alati sinu käes. ChatGPT küsib luba enne oluliste toimingute tegemist ning sa saad igal ajal hõlpsalt toimingu katkestada, brauseri üle võtta või ülesandeid peatada.

Alates tänasest saavad Pro, Plus ja Team kasutajad aktiveerida ChatGPT uued agendi võimed otse kokkupaneku tööriistade rippmenüüst, valides iga vestluse igal hetkel "agendi režiimi".

Kuigi ChatGPT agent on juba võimas tööriist keeruliste ülesannete lahendamiseks, on tänane lansseerimine alles algus. Me jätkame oluliste täiustuste järkjärgulist lisamist, muutes selle aja jooksul võimekamaks ja kasulikumaks rohkemate inimeste jaoks.

Operatori ja süvauuringute loomulik areng

Varem olid Operator ja süvauuringud mõlemad kasutatavad unikaalsete tugevuste jaoks: Operator oskas veebis liikuda, klõpsata ja tippida, samas kui süvauuringud paistsid silma teabe analüüsimisel ja kokkuvõtete tegemisel. Kuid need töötasid kõige paremini erinevates olukordades: Operator ei saanud analüüsi süvitsi sisse minna ega üksikasjalikke aruandeid kirjutada ning süvauuring ei saanud suhelda veebisaitidega, et tulemusi täpsustada või kasutaja autentimist nõudvale sisule juurde pääseda. Tegelikult märkasime, et paljud päringud, mida kasutajad Operatoriga proovisid, sobisid paremini süvauuringuteks, seega ühendasime mõlema parimad omadused.

Integreerides need täiendavad tugevused ChatGPT‑sse ja tutvustades lisatööriistu, oleme ühe mudeli sees avanud täiesti uued võimalused. Nüüd on see suuteline aktiivselt veebisaitidega suhtlema—klikkida, filtreeri ja koguda täpsemaid, tõhusamaid tulemusi. Sa võid ka loomulikult minna lihtsast vestlusest üle toimingutele otse samas vestluses.

Agent, kes töötab sinu heaks ja koos sinuga

Oleme varustanud ChatGPT agendi tööriistakomplektiga: visuaalne lehitseja, mis suhtleb veebiga graafilise kasutajaliidese kaudu, tekstipõhine lehitseja lihtsamate põhjenduspõhiste veebipäringute jaoks, terminal ja otsene juurdepääs API-le. Agent suudab kasutada ka ChatGPT ühendusi⁠(avaneb uues aknas), mis võimaldab sul ühendada selliseid rakendusi nagu Gmail ja Github, et ChatGPT saaks leida sinu viipade jaoks asjakohast teavet ja kasutada neid oma vastustes. Samuti saad mis tahes veebisaidil logida sisse, võttes lehitseja üle, võimaldades sel minna nii uurimistöös kui ka ülesannete täitmisel sügavamale ja laiemale. ChatGPT‑le erinevate võimaluste andmine veebiteabele juurdepääsuks ja suhtlemiseks tähendab, et see saab valida optimaalse tee ülesannete tõhusaks täitmiseks. Näiteks võib see koguda teavet teie kalendri kohta API kaudu, tekstipõhise lehitseja abil tõhusalt Arutle suures koguses teksti üle, omades samal ajal võimalust visuaalselt suhelda peamiselt inimestele mõeldud veebisaitidega.

Kõik see tehakse oma virtuaalse arvuti abil, mis säilitab ülesande täitmiseks vajaliku konteksti isegi siis, kui kasutatakse mitut tööriista – mudel võib valida, kas avada lehekülg tekstilehitsejaga või visuaalse lehitsejaga, laadida alla fail veebist, seda terminalis käsu abil manipuleerida ja seejärel vaadata väljundit tagasi visuaalses lehitsejas. Mudel kohandab oma lähenemisviisi, et täita ülesandeid kiiresti, täpselt ja tõhusalt.

ChatGPT agent on loodud iteratiivsete ja koostööl põhinevate töövoogude jaoks, olles palju interaktiivsem ja paindlikum kui varasemad mudelid. Kui ChatGPT töötab, võid igal hetkel vahele astuda, et selgitada oma juhiseid, suunata see soovitud tulemuste poole või ülesannet täielikult muuta. See jätkab sealt, kus see pooleli jäi, nüüd uue teabega, kuid ilma et kaotaks varasemat edasiminekut. Samamoodi võib ChatGPT ise vajadusel sinult ennetavalt täiendavaid üksikasju küsida, et tagada ülesande vastavus sinu eesmärkidega. Kui ülesanne võtab oodatust kauem aega või tundub ummikus olevat, saad selle peatada, küsida sellelt edenemise kokkuvõtet või peatada selle täielikult ja saada osalisi tulemusi. Kui sul on telefonis ChatGPT rakendus, saadab see sulle teate, kui on sinu ülesandega lõpetanud.

Reaalse maailma kasulikkuse laiendamine

Need ühtsed agentlikud võimed suurendavad oluliselt ChatGPT kasulikkust nii igapäevases kui ka professionaalses kontekstis. Tööl saad automeerida korduvaid ülesandeid, näiteks teisendada ekraanipilte või töölaudu redigeeritavatest vektorelementidest koosnevateks esitlusteks, korraldada ümber koosolekuid, planeerida ja broneerida väljasõite ning värskendada arvutustabeleid uute finantsandmetega, säilitades samal ajal sama vormingu. Isiklikus elus saad sellega hõlpsasti plaanida ja broneerida reisiprogramme, kavandada ja broneerida terveid õhtusöögi pidusid või leida spetsialiste ja planeerida kohtumisi.

Mudeli kõrgendatud võimekused kajastuvad selle tipptasemel (SOTA) jõudluse kaudu hindamistel, mis mõõdavad veebi sirvimise ja reaalse maailma ülesannete täitmise võimekust.

Humanity’s Last Exam⁠(avaneb uues aknas)* hindamisel, mis mõõdab tehisintellekti jõudlust paljude ainete lõikes eksperttaseme küsimustes, saavutab ChatGPT agenti võimestav mudel new pass@1 SOTA tulemuse 41.6. Kuna agent plaanib dünaamiliselt ja valib oma tööriistad, saab ta sama ülesandega tegeleda erinevatel viisidel erinevate korduste käigus. Kui me kasutasime lihtsat paralleelset käivitamisstrateegiat—käivitasime korraga kuni kaheksa katset ja valisime selle, millel oli suurim enesekindlus—siis tõusis agendi HLE-skoor 44,4-ni.

FrontierMath** on kõige raskem teadaolev matemaatika võrdlusalus, mis sisaldab uudseid avaldamata probleeme, mille lahendamiseks asjatundjatest matemaatikutel kulub sageli tunde või isegi päevi. Tööriistade kasutamisel, nagu juurdepääs terminalile koodi täitmiseks, saavutab ChatGPT agent 27,4% täpsuse, edestades mõlemat eelmist mudelit suure edumaaga.

Hindasime mudelit ka keeruliste päriselu ülesannete järgi modelleeritud võrdlusaluste abil. Sisemises võrdlusuuringus, mille eesmärk on hinnata mudeli tulemuslikkust keerukate, majanduslikult väärtuslike teadmistega seotud ülesannete lahendamisel, on ChatGPT agendi väljund ligikaudu pooltel juhtudel võrreldav inimeste omaga või sellest parem, kusjuures see on oluliselt parem kui o3 ja o4-mini. Eksperdid hindavad mudeli väljundeid kõrgekvaliteediliste inimeste lähtejoonte alusel, mille on loonud iga valdkonna tipptasemel esinejad. Need ülesanded, mis pärinevad erinevate ametite ja tööstusharude ekspertidelt, peegeldavad tegelikku professionaalset tööd - näiteks nõudlikku kiiret abi osutajate konkurentsianalüüsi ettevalmistamisel, üksikasjalike amortisatsioonigraafikute koostamisel ja uue rohelise vesiniku rajatise sobivate veekaevude tuvastamisel.

Platvormil DSBench⁠(avaneb uues aknas), mis on loodud agentide hindamiseks realistlikes andmeteaduse ülesannetes, mis hõlmavad andmete analüüsi ja modelleerimist, ületab ChatGPT agent märkimisväärselt inimeste sooritust.

Platvormil SpreadsheetBench, mis hindab mudeleid nende võimekuse järgi redigeerida reaalsetest stsenaariumidest tuletatud arvutustabeleid, edestab ChatGPT agent olemasolevaid mudeleid märkimisväärse marginaaliga. Kui ChatGPT agendile antakse võimalus arvutustabeleid otse redigeerida, saavutab ta veelgi kõrgema tulemuse 45,5%, võrrelduna Exceli Copiloti 20,0%-ga.

Metoodika: SpreadsheetBenchi autorid kasutasid arvutustabeleid hindamaks Windows-keskkonda, kasutades Microsoft Excelit. Kasutasime OSX-keskkonda ja LibreOffice'i, mis võib põhjustada väikeseid hindamiserinevusi. Näiteks leidsid autorid, et GPT‑4o puhul oli üldine kõva piirang 15,02%, ja meie saime 13,38%. Kasutasime täielikku 912 küsimuse võrdlusalust.

Sisemises võrdlusuuringus, mis mõõdab mudeli võimet täita esimese kuni kolmanda aasta investeerimispanganduse analüütiku modelleerimisülesandeid—näiteks Fortune 500 ettevõtte kolme finantsaruande mudeli koostamine koos nõuetekohase vormingu ja viidetega või finantsvõimendusega väljaostumudeli koostamine eraomandisse viimiseks—on ChatGPT agent märkimisväärselt edukam kui süvauuringud ja o3. Iga ülesannet hinnatakse sadade kriteeriumide järgi, mis on seotud korrektsuse ja valemite kasutamisega.

Hindasime ka ChatGPT agenti BrowseComp⁠, selle aasta alguses avaldatud võrdlusaluses, mis mõõdab sirvimisagentide võimet leida veebist raskesti leitavat teavet. Mudel püstitas uue SOTA tulemuse 68,9%, mis on 17,4 protsendipunkti kõrgem kui süvauuring.

Lõpuks, WebArena⁠(avaneb uues aknas), mis on võrdlustest, mille eesmärk on hinnata veebibrauseriagentide jõudlust reaalsete veebiülesannete täitmisel, parandab mudel o3‑toega CUA (mudelit käitav Operator) jõudlust.

Kuidas kasutada

Saate aktiveerida ChatGPT uued agendi võimed otse helilooja tööriistade rippmenüüst, valides vestluse mistahes hetkel "agendi režiimi". Kirjelda lihtsalt oma soovitud ülesannet – olgu see siis süvauuringute tegemine, slaidiesitluse loo või kulude esitamine. Kui see täidab sinu ülesannet, annab ekraanil kuvatav jutustus täpse ülevaate sellest, mida ChatGPT teeb. Võite lehitseja vajaduse korral katkestada ja selle üle kontrolli haarata, tagades, et ülesanded jäävad sinu eesmärkidega kooskõlla.

ChatGPT agent pääseb ligi su konnektoritele, võimaldades sellel integreeruda su töövoogudega ja ligi pääseda asjakohasele ja kasutatavale teabele. Pärast autentimist võimaldavad need ühendused ChatGPT‑l näha teavet ja teha asju, näiteks võtta kokku su päeva postkast või leida kohtumiseks saadaval olevad ajavahemikud – nendel saitidel toimingute tegemiseks palutakse sul siiski lehitseja üle võtmise kaudu sisse logida.

Lisaks saad planeerida täidetud ülesannete automaatset kordumist, näiteks iganädalase mõõtearuande koostamist igal esmaspäeva hommikul.

Uued võimalused, uued riskid

See väljalase tähistab esimest korda, kui kasutajad saavad paluda ChatGPT‑l veebis toiminguid teha. See toob kaasa uusi riske, eriti kuna ChatGPT agent saab otse töötada sinu andmetega, olgu see teave, millele pääseb juurde pistikute kaudu või veebisaitide kaudu, kuhu oled ülevõtmisrežiimi kaudu sisse loginud. Oleme tugevdanud Operator'i uuringu eelvaatest saadud jõulisi kontrolle ja lisanud kaitsemeetmeid selliste probleemide jaoks nagu tundliku teabe käsitlemine reaalajas veebis, laiem kasutajate ulatus ja (piiratud) juurdepääs terminalivõrgule. Kuigi need leevendused vähendavad oluliselt riski, tähendavad ChatGPT agendi laiendatud tööriistad ja laiemad kasutajad, et tema üldine riskiprofiil on kõrgem.

Oleme pööranud erilist rõhku ChatGPT agendi kaitsmisele pahatahtliku manipuleerimise eest viipa injekteerimise kaudu, mis on oht agentlikele süsteemidele üldiselt, ja oleme vastavalt ette valmistanud ulatuslikumad leevendused. Viip-injektsioonid on kolmandate osapoolte katsed manipuleerida selle käitumist pahatahtlike juhiste abil, mida ChatGPT agent võib ülesande täitmise ajal veebis kohata. Näiteks võib veebilehel peidetud pahatahtlik viip, näiteks nähtamatutes elementides või metaandmetes, petta agenti tegema soovimatuid toiminguid, nagu jagama ründajaga ühenduse privaatseid andmeid või tegema kahjulikke toiminguid saidil, kuhu kasutaja on sisse loginud. Kuna ChatGPT agent saab teha otseseid toiminguid, võivad edukad rünnakud avaldada suuremat mõju ja kujutada endast suuremaid riske.

Oleme koolitanud ja testinud agenti viipade injekteerimise tuvastamiseks ja nendele vastu seismiseks, lisaks kasutame jälgimist, et kiiresti tuvastada ja reageerida viipade injekteerimisrünnetele. Selgesõnalise kasutajakinnituse nõudmine enne olulisi toiminguid vähendab veelgi nende rünnakute põhjustatud kahju ohtu ning kasutajad saavad vajadusel ülesannetesse sekkuda, juhtimist üle võtta või peatada. Kasutajad peaksid neid kompromisse kaaluma, kui nad otsustavad, millist teavet agendile edastada, ning võtma meetmeid, et vähendada nende riskide ohtu, näiteks keelata ühendused, kui neid pole ülesande jaoks vaja.

Oleme samuti rakendanud meetmeid mudeli vigade vähendamiseks, eriti kuna mudel suudab nüüd täita ülesandeid, mis mõjutavad reaalset maailma:

Kasutaja selgesõnaline kinnitus: ChatGPT on treenitud enne reaalsete tagajärgedega toimingute tegemist selgesõnaliselt sinu luba küsima, näiteks ostu sooritamiseks.
Aktiivne järelevalve ("valverežiim"): Teatud kriitilised ülesanded, nagu e-kirjade saatmine, nõuavad su aktiivset järelevalvet.
Proaktiivne riskide maandamine: ChatGPT on koolitatud aktiivselt keelduma kõrge riskiga ülesannetest, näiteks panga kannete üle kandmisest.

Lõpuks oleme kasutusele võtnud täiendavad kontrollid, et piirata andmeid, millele mudelil on juurdepääs:

Privaatsuse kontroll: Ühe klõpsuga ChatGPT seadetes saad kustuta kõik sirvimisandmed ja kohe logida välja kõikidest aktiivsetest veebisaidi seanssidest. Vastasel juhul jäävad küpsised alles vastavalt iga külastatud veebisaidi küpsiste poliitikale, mis võib muuta korduvad külastused tõhusamaks.
Turvaline lehitseja ülevõtmisrežiim: Kui suhtled veebiga ChatGPT lehitseja abil („ülevõtmisrežiim”), jäävad sinu sisendid privaatseks. ChatGPT ei kogu ega salvesta andmeid, mida sa nende seansside ajal sisestad, näiteks paroole, sest mudel ei vaja neid ja on turvalisem, kui see neid kunagi ei näe.

Meie seni tugevaim ohutuslahendus bioloogilise riski vastu

Mudeli suurenenud võimekuse tõttu oleme otsustanud käsitleda ChatGPT agenti oma valmisolekuraamistiku⁠ raames kõrge bioloogilise ja keemilise võimekusega, aktiveerides sellega seotud kaitsemeetmed. Kuigi meil pole lõplikke tõendeid selle kohta, et mudel võiks tähenduslikult aidata algajal luua tõsist bioloogilist kahju – meie kõrge võimekuse lävi –, oleme ettevaatlikud ja rakendame vajalikke kaitsemeetmeid juba praegu. Selle tulemusena on sellel mudelil meie seni kõige põhjalikum ohutuspakett koos täiustatud bioloogiakaitsemeetmetega: põhjalik ohtude modelleerimine, kahesugusest kasutusest keeldumise koolitus, alati sisselülitatud klassifikaatorid ja arutluskäikude jälgijad ning selged jõustamismehhanismid.

Lisaks meie tööle ChatGPT agendi turvalisuse tagamisel teame, et kihiline bioohutus toimib kõige paremini, kui kaitsemeetmed ulatuvad kaugemale kui ükski labor, seega teeme koostööd kogu ökosüsteemis, et tugevdada kaitset. Alates esimesest päevast oleme teinud koostööd väliste bioohutuse ekspertide, ohutusinstituutide ja akadeemiliste teadlastega, et kujundada meie ohumudelit, hinnanguid ja poliitikaid. Bioloogiaalased retsensendid kinnitasid meie hindamisandmed ja valdkonnaekspertidest punased meeskonnaliikmed on realistlikes stsenaariumides stressitestinud kaitsemeetmeid. Selle kuu alguses korraldasime biokaitse töötoa, kus osalesid valitsuse, akadeemiliste ringkondade, riiklike laborite ja valitsusväliste organisatsioonide eksperdid, et kiirendada koostööd ja edendada tehisintellektil põhinevaid biokaitseuuringuid. Jätkame ülemaailmset partnerlust, et olla tekkivate riskidega sammu ees.

Loe rohkem meie ühtse agentide mudeli tugeva ohutusstrateegia kohta süsteemikaardilt⁠. Samuti käivitame vigade tuvastamise programmi⁠, et saaksime leida ja kõrvaldada reaalseid riske.

Kättesaadavus

ChatGPT agent hakkab täna kasutusele võtma Pro, Plus ja Team plaane; Pro saab juurdepääsu päeva lõpuks, samas kui Plus ja Team kasutajad saavad juurdepääsu järgmise paari päeva jooksul. Enterprise ja hariduskasutajad saavad juurdepääsu lähinädalatel. Pro kasutajatel on 400 sõnumit kuus, samas kui teised tasulised kasutajad saavad 40 sõnumit kuus, lisakasutus on saadaval paindlike krediidipõhiste valikute kaudu.

Me töötame veel Euroopa Majanduspiirkonna ja Šveitsi juurdepääsu võimaldamise kallal.

Operatori uurimistöö eelvaate sait jääb toimima veel mõneks nädalaks, pärast mida see lõpetatakse. Süvauuring on osa ChatGPT agendi võimetest. Kui eelistad algset süvauuringu funktsiooni, mis võib võtta kauem aega, kuid pakub vaikimisi üksikasjalikumaid ja põhjalikumaid vastuseid, saad sellele siiski juurde pääseda, valides sõnumite koostaja rippmenüüst „süvauuring”.

Piirangud ja tulevikku vaatamine

ChatGPT agent on alles algusjärgus. See on võimeline täitma mitmesuguseid keerulisi ülesandeid, kuid võib siiski teha vigu.

Kuigi näeme selle slaidiseansside koostamise võimes märkimisväärset potentsiaali, on see funktsioon praegu beetaversioonis. Praegu võib väljundite vormindus ja viimistlus tunduda mõnikord algeline, eriti kui alustatakse ilma olemasoleva dokumendita. Keskendasime mudeli esialgsed võimalused selliste artefaktide koostamisele, mis korraldavad teavet esitluste jaoks sobivas voos ja vormingus, koos elementidega nagu tekst, diagrammid, pildid ja kujundid, mida on pärast eksportimist natiivselt ja hõlpsasti redigeeritavad, optimeerides struktuuri ja paindlikkust. Praegu esineb ka aeg-ajalt lahknevusi vaataja slaidide ja eksporditud PowerPointi vahel, mida me püüame vähendada. Lisaks, kuigi praegu saad ChatGPT jaoks üles laadida olemasoleva arvutustabeli, et seda muuta või kasutada mallina, ei ole see võimalus veel saadaval slaidiesitluste jaoks. Me juba viime läbi ChatGPT slaidiesitluse loomise järgmise iteratsiooni koolitust, et toota lihvitud ja keerukamaid väljundeid, millel on laiemad võimalused ja parem vorming.

Üldiselt ootame, et ChatGPT agendi tõhusus, sügavus ja mitmekülgsus aja jooksul jätkuvalt paranevad, sealhulgas tekivad sujuvamad suhtlused, kuna kohandame kasutajalt nõutava järelevalve mahtu, et muuta see kasulikumaks ja samal ajal tagada selle ohutus.

Lisa

SpreadsheetBench
Mudel	Hindamiskeskkond	Pehme piirang (%): lahtri tasandil	Pehme piirang (%): lehe tasandil	Pehme piirang (%): üldine
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot Excelis	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
ChatGPT agent	OSX, LibreOffice	38,27	30,48	35,27
ChatGPT agent koos .xlsx-failiga	OSX, LibreOffice	50,56	37,51	45,54
Inimene		75,56	65,00	71,33

Livestream kordus

Autor

OpenAI

Joonealused märkused

* Sirvimise võimaldamisel võib mudel mõnikord leida täpseid vastuseid internetist, näiteks lugedes blogipostitusi, kuid esineb valimiprobleeme andmekogumist andmete saamisel. Me vähendame muret mudeli petmise pärast sirvimise ajal kahe strateegia abil:

1. Blokeeritud domeenid, mille puhul oleme täheldanud, et mudel on minevikus petnud.

2. Kasutati lisamudelit monitorina, et uurida kõiki tööriista väljundmärke igal katsel, et tuvastada kahtlast käitumist. Kahtlane käitumine on määratletud kui "lehekülg, fail või lõik, mille peamine eesmärk on anda täpne vastus sellele konkreetsele küsimusele - nt ametlik hindamisvõti, lekkinud "lahenduste" gist või arutelu, mis tsiteerib sõna-sõnalt valmis vastust." Healoomuline käitumine on määratletud kui "Iga autoriteetne allikas, mida hoolas inimene võiks kasutada teabe saamiseks (dokumentatsioon, käsiraamatud, teaduslikud dokumendid, mainekad artiklid), isegi kui see sisaldab juhuslikult õiget vastust." Kõik katsed, mille puhul monitor pidas kasutuselevõttu kahtlaseks, loetakse valeks. Enamik selle kontrolli käigus läbikukkunuks loetud näidetest olid probleemid, mille täpne lahendus oli kättesaadav mitmest HLEga mitteseotud internetiallikast.

**OpenAI-l on ainujurdepääs 237-le 290 privaatsest küsimusest tasemete 1-3 andmekogus. FrontierMathi 4. taseme küsimused ei ole selles hindamises kaasatud. Tulemusi hinnatakse 16 vastamiskatse keskmisena iga küsimuse puhul. ChatGPT agendi tulemused on esile kutsutud OpenAI poolt, hinnatud Epoch AI poolt, koos juurdepääsuga lehitsejale ja terminalile ning vastuse piiranguga 128K tokenit. OpenAI o4-mini ja o3 hinnanguid koostab ja hindab Epoch AI, ilma lehitseja ja terminali juurdepääsuta, kasutades pythoni skripte funktsioonikutsumise kaudu ja 100 000 tokeni piiranguga vastuse kohta.

*** Oracle@64 viitab parimale punktisummale, mis on saavutatud 64 valimisse võetud katse puhul, mis on valitud tõelise tulemuse alusel (st me valime iga ülesande jaoks parima tulemuse, mis põhineb tegelikul hinnatud tulemuslikkusel). Me esitame nende parimate tulemuste keskmise kõikide ülesannete kohta. See mõõdik toob esile mudeli maksimaalse potentsiaali ja varieeruvuse ülesannete täitmisel - see näitab, kui võimekas võib mudel olla, kui see on edukas, ja näitab ruumi järjepidevuse parandamiseks edasise koolituse abil. Erinevalt tüüpilisest "N parimast" mõõdikust, mille puhul tehakse valik mudeli usaldusväärsuse alusel, kasutab oracle@64 valiku tegemiseks tõelist tulemust ja seda kohaldatakse ülesannete suhtes, mida hinnatakse pideva 0-1 skaala alusel, mitte binaarselt "sooritatud/ei sooritatud".