2025. július 17.

Bemutatkozik a ChatGPT‑ügynök: a kutatás és a művelet összekapcsolására

A ChatGPT gondolkodik és cselekszik, proaktívan választ az ügynöki készségek eszköztárából, hogy a saját számítógépével végezze el a feladatokat számodra.

A ChatGPT kipróbálása

Betöltés…

A ChatGPT mostantól képes saját számítógépével elvégezni a munkát helyetted, az elejétől a végéig kezelve az összetett feladatokat.

Mostantól megkérheted a ChatGPT‑t, hogy kezelje az olyan kéréseket, mint „nézd meg a naptáramat, és tájékoztass a közelgő ügyféltalálkozókról a legújabb hírek alapján”, „állítsd össze és vásárold meg a hozzávalókat a négyszemélyes japán reggeli elkészítéséhez”, és „elemezz három versenytársat, és hozz létre diasort”. A ChatGPT intelligensen navigál a weboldalakon, megszűri az eredményeket, szükség esetén utasítást ad a biztonságos belépéshez, kódot futtat, elemzéseket végez, és még szerkeszthető diasorokat és táblázatokat is készít, amelyek összefoglalja a megállapításait.

Ennek az új képességnek a középpontjában egy egységes ügynöki rendszer áll. Három korábbi áttörés erősségeit egyesíti: Operator⁠ képességét a weboldalakkal való interakcióra, a mélyreható kutatás⁠ információszintetizáló készségét, valamint a ChatGPT intelligenciáját és társalgási folyékonyságát.

A ChatGPT ezeket a feladatokat saját virtuális számítógépe segítségével hajtja végre, folyékonyan váltva az indoklás és a művelet között, hogy az elejétől a végéig kezelje az összetett munkafolyamatokat, mindezt a te utasításaid alapján.

A legfontosabb, hogy mindig te irányítasz. A ChatGPT engedélyt kér, mielőtt következményekkel járó műveleteket hajtana végre, és bármikor könnyedén megszakíthatod, átveheted tőle a böngészőt, vagy leállíthatod a feladatokat.

A mai naptól a Pro, Plus és Team felhasználók közvetlenül aktiválhatják a ChatGPT új ügynöki képességeit a szerkesztő eszközök legördülő menüjéből, ha bármely beszélgetés bármely pontján kiválasztják az „ügynök módot”.

Bár a ChatGPT ügynök már most is hatékony eszköz az összetett feladatok kezelésére, a mai bevezetés csak a kezdet. A folytatásként rendszeresen bővítünk jelentős fejlesztésekkel, így idővel egyre több ember számára válik még hasznosabbá és használhatóbbá.

Az Operator és a mély kutatás természetes evolúciója

Korábban az Operator és a mély kutatás mindegyike egyedi erősségeket hozott: az Operator görgethetett, kattinthatott és gépelhetett a weben, míg a mély kutatás az információk elemzésében és összegzésében jeleskedett. De különböző helyzetekben állták meg a helyüket a legjobban: Az Operator nem tudott mélyen belemerülni az elemzésbe vagy részletes jelentéseket írni, és a mély kutatás nem tudott interakcióba lépni a webhelyekkel az eredmények finomítása vagy a felhasználói hitelesítést igénylő tartalomhoz való hozzáférés érdekében. Valójában láttuk, hogy a felhasználók által az Operatorral megkísérelt számos lekérdezés jobban megfelelt a mély kutatás számára, ezért a legjobbat hoztuk ki mindkettőből.

Ezeknek az egymást kiegészítő erősségeknek a ChatGPT‑be történő integrálásával és további eszközök bevezetésével teljesen új képességeket nyitottunk meg egyetlen modellel. Mostantól aktívan munkálkodhatsz a weboldalakon – kattintással, szűrve és pontosabb, hatékonyabb eredmények gyűjtésével. Természetesen átállhatsz egy egyszerű beszélgetésről a műveletek kérésére közvetlenül ugyanazon a csevegésen belül.

Egy ügynök, aki érted, veled dolgozik

A ChatGPT ügynököt egy egész eszközkészlettel láttuk el: egy vizuális böngészővel, amely grafikus felhasználói felületen keresztül lép kapcsolatba a webbel, egy szöveges böngészővel az egyszerűbb, érvelésen alapuló webes lekérdezésekhez, egy terminállal és közvetlen API-hozzáféréssel. Az ügynök ChatGPT csatlakozókat⁠(új ablakban nyílik meg) is használ, amelyek lehetővé teszik olyan appok összekapcsolását, mint a Gmail és a Github, így a ChatGPT megtalálhatja az utasításaidhoz kapcsolódó információkat, és felhasználhatja azokat a válaszaiban. Bármely webhelyre beléphetsz a böngésző átvételével, lehetővé téve, hogy az mélyebben és szélesebb körben végezze el a kutatást és a feladatok végrehajtását. Ha a ChatGPT‑nek megadod ezeket a különböző utakat a webes információk eléréséhez és az azokkal való interakcióhoz, az azt jelenti, hogy kiválaszthatja az optimális utat a feladatok leghatékonyabb elvégzéséhez. Például egy API-n keresztül információkat gyűjthet a naptáradról, hatékonyan indokolhat nagy mennyiségű szöveget a szöveges böngésző segítségével, és eközben képes vizuálisan interakcióba lépni az elsősorban emberek számára tervezett webhelyekkel.

Mindezt a saját virtuális számítógépén végzi, amely megőrzi a feladathoz szükséges kontextust, még akkor is, ha több eszközt használ—a modell választhat, hogy megnyit egy oldalt a szöveges vagy a vizuális böngészővel, letölthet egy fájlt az internetről, manipulálhatja azt egy parancs futtatásával a terminálban, majd a kimenetet visszanézheti a vizuális böngészőben. A modell adaptálja megközelítését a feladatok gyors, pontos és hatékony elvégzéséhez.

A ChatGPT ügynököt iteratív, együttműködő munkafolyamatokra tervezték, sokkal interaktívabb és rugalmasabb, mint a korábbi modellek. Amikor a ChatGPT dolgozik, bármikor megszakíthatod a folyamatot, hogy tisztázd az utasításaidat, irányítsd a kívánt eredmények felé, vagy akár teljesen megváltoztasd a feladatot. Ott folytatja, ahol abbahagyta, már az új információkkal, de anélkül, hogy elveszítené a korábbi előrehaladást. Hasonlóképpen, maga a ChatGPT is proaktívan kérhet további részleteket tőled, ha ez szükséges ahhoz, hogy a feladat összhangban maradjon a céljaiddal. Ha egy feladat a vártnál hosszabb ideig tart, vagy elakad, szüneteltetheted, kérhetsz egy összegzést az előrehaladásról, vagy teljesen leállíthatod, és részeredményeket kaphatsz. Ha a telefonodon van a ChatGPT app, értesítést küld, amikor befejezte a feladatodat.

A valós hasznosság bővítése

Ezek az egységesített ügynöki képességek jelentősen növelik a ChatGPT hasznosságát mind a hétköznapi, mind a szakmai felhasználás során. A munkahelyen automatizálhatsz ismétlődő feladatokat, például képernyőképek vagy vezérlőpultok átalakítását olyan prezentációkká, amelyek szerkeszthető vektorelemekből állnak, meetingek átszervezését, csapatösszetartások megtervezését és lefoglalását, illetve táblázatok frissítését új pénzügyi adatokkal az eredeti formázás megőrzése mellett. A privát életedben könnyedén összerakhatsz és lefoglalhatsz egy utazást, összehozhatsz és lefoglalhatsz egy egész vacsorapartit, vagy szakembereket kereshetsz és időpontokat ütemezhetsz.

A modell fejlett képességei tükröződnek a legkorszerűbb (SOTA) teljesítményében a webböngészést és a valós feladatok végrehajtását mérő értékelések során.

Az Emberiség utolsó vizsgáján⁠(új ablakban nyílik meg)*, amely a mesterséges intelligencia teljesítményét méri a szakértői szintű kérdések széles körében, a ChatGPT‑ügynököt működtető modell új pass@1 SOTA eredményt ért el 41,6-os értékkel. Mivel az ügynök dinamikusan tervez és saját eszközeit választja ki, ugyanazt a feladatot különböző módon tudja kezelni a különböző futtatások során. Amikor ezt egy egyszerű, párhuzamos bevezetési stratégiával skáláztuk—egyszerre akár nyolc próbálkozást futtatva, majd a legmagasabb önértékelt magabiztosságot mutató változatot választva—az ügynök HLE pontszáma 44,4-re nőtt.

A FrontierMath** a jelenleg ismert legnehezebb matematikai mérce, amely új, még nem publikált feladatokat tartalmaz, amelyeket gyakran csak órák vagy akár napok alatt tudnak megoldani a szakértő matematikusok. Az eszközhasználattal, például a kód végrehajtásához szükséges terminálhoz való hozzáféréssel, a ChatGPT‑ügynök 27,4%-os pontosságot ér el, messze felülmúlva mindkét korábbi modellt.

A modellt összetett valós feladatok alapján kialakított benchmarkok segítségével is értékeltük. Egy belső mércével, amelyet a komplex, gazdaságilag értékes tudásalapú feladatok teljesítésének értékelésére terveztek, a ChatGPT ügynök eredménye hozzávetőlegesen az emberi szinttel megegyező vagy azt meghaladó körülbelül az esetek felében, különböző feladatvégrehajtási idők mellett, miközben jelentősen felülmúlja az o3 és o4-mini modelleket. A modellek kimeneti eredményeit szakértők értékelik az egyes területek legjobb szakemberei által létrehozott, magas színvonalú humán referenciaértékekhez viszonyítva. Ezeket a feladatokat különböző foglalkozások és iparágak szakértőitől gyűjtötték, és a valódi szakmai munkát tükrözik—például versenytárselemzés készítése az azonnali sürgősségi ellátást nyújtó szolgáltatókról, részletes amortizációs ütemtervek elkészítése, vagy életképes vízkutak azonosítása egy új zöld hidrogén üzem számára.

A DSBench⁠(új ablakban nyílik meg) platformon, amelyet az ügynökök valósághű adatelemzési és modellezési feladatok kiértékelésére terveztek, a ChatGPT ügynök jelentős mértékben lepipálja az emberi teljesítményt.

A SpreadsheetBench platformon, amely a modelleket a valós forgatókönyvekből származó táblázatok szerkesztési képessége alapján értékeli, a ChatGPT ügynök jelentős mértékben felülmúlja a meglévő modelleket. Amikor lehetőséget kap a táblázatok közvetlen szerkesztésére, a ChatGPT‑ügynök még magasabb, 45,5%-os pontszámot ér el, szemben az Excel Copilot 20,0%-os eredményével.

Módszertan: A SpreadsheetBench szerzői Windows-környezetben, a Microsoft Excel segítségével értékelték a táblázatokat. OSX környezetet és LibreOffice-t használtunk, ami eredményezhet kis értékelési különbségeket. Például a szerzők 15,02%-os „Overall Hard” korlátozást találtak a GPT‑4o esetében, míg mi 13,38%-ot kaptunk. A teljes, 912 kérdésből álló benchmarkot használtuk.

Egy belső teszten, amely egy modell képességét méri, hogy első-harmadéves befektetési banki elemzői modellezési feladatokat végezzen—mint például egy Fortune 500 vállalat három kimutatásból álló pénzügyi modelljének összeállítása megfelelő formázással és hivatkozásokkal, vagy egy tőkeáttételes kivásárlási modell építése egy magántulajdonba vételhez—a ChatGPT ügynököt működtető modell jelentősen felülmúlja a mélyreható kutatást és az o3‑at. Minden feladatot több száz, a helyességgel és a képlethasználattal kapcsolatos kritérium alapján értékelnek.

A ChatGPT‑ügynököt a BrowseComp⁠ is értékeltük, egy olyan benchmarkon, amelyet korábban, az év elején publikáltunk, és amely a böngésző ügynököknek a nehezen megtalálható webes információk felkutatására való képességét méri. A modell új SOTA eredményt ért el 68,9%-kal, ami 17,4 százalékponttal magasabb, mint a mély kutatás.

Végül a WebArena⁠(új ablakban nyílik meg) platformon, amely a webböngésző ügynökök teljesítményének értékelésére szolgál valós webes feladatok elvégzése során, a modell az o3‑alapú CUA-hoz képest is jobban teljesített (az Operator-t működtető modell).

Hogyan használd

A ChatGPT új ügynöki képességeit közvetlenül az eszközök legördülő menüjéből aktiválhatod a szerkesztőben az „ügynöki mód” kiválasztásával bármely beszélgetés során, bármikor. Egyszerűen írd le a kívánt feladatot—legyen az mély kutatás, prezentáció létrehozása vagy költségek benyújtása. Amikor a feladatodat végzi, a képernyőn megjelenő narráció pontosan mutatja, mit is csinál a ChatGPT. Bármikor közbeléphetsz, és átveheted az irányítást a böngésző felett, így biztosítva, hogy a feladatok összhangban maradjanak a céljaiddal.

A ChatGPT ügynök hozzáférhet a csatlakozókhoz, így integrálódhat a munkafolyamataidba, és hozzáférhet a releváns, felhasználható információkhoz. A hitelesítés után ezek a csatlakozók lehetővé teszik a ChatGPT számára, hogy információkat lásson, és olyan műveleteket hajtson végre, mint például a napközben bejövő üzeneteid összefoglalása, vagy az elérhető időintervallumok keresése—ezeken az oldalakon azonban a böngésző átvételével továbbra is belépésre lesz szükséged.

Ezen felül az elkészült feladatokat automatikus ismétlődésre is beállíthatod, például hogy minden hétfő reggel elkészüljön egy heti metrikajelentés.

Új képességek, új kockázatok

Ez a kiadás az első lehetőség arra, hogy a felhasználók megkérjék a ChatGPT‑t, hogy hajtson végre műveleteket a weben. Ez új kockázatokat jelent, különösen azért, mert a ChatGPT‑ügynök közvetlenül a te adataiddal dolgozhat, legyen szó akár csatlakozókon keresztül elért információkról, akár olyan webhelyekről, amelyekbe átvételi módban jelentkeztél be. Erősebbé tettük az Operator kutatási előnézetének robusztus vezérlőit, és további biztosítékokat vezettünk be az olyan kihívások kezelésére, mint az érzékeny információk kezelése az élő weben, a szélesebb körű felhasználói elérés, valamint a (korlátozott) terminálhálózati hozzáférés. Bár ezek az enyhítő intézkedések jelentősen csökkentik a kockázatot, a ChatGPT ügynök kibővített eszközei és szélesebb felhasználói elérhetősége miatt összességében magasabb a kockázati profilja.

Különös hangsúlyt fektettünk a ChatGPT ügynök védelmére a utasítás injekcióval történő ellenséges manipulációval szemben, ami általában véve kockázatot jelent az ügynöki rendszerek számára, és ennek megfelelően kiterjedtebb enyhítő intézkedésekkel éltünk. Az utasítás-injekciók kísérletek, amelyekkel harmadik felek megpróbálják manipulálni a ChatGPT ügynök viselkedését olyan rosszindulatú utasításokkal, amelyekkel a weben találkozhat egy feladat elvégzése közben. Például egy weblapon elrejtett rosszindulatú utasítás, például láthatatlan elemekben vagy metaadatokban, becsaphatja az ügynököt, hogy nem kívánt műveleteket hajtson végre, mint például a csatlakozó privát adatainak megosztása a támadóval, vagy káros művelet végrehajtása egy olyan webhelyen, ahová a felhasználó bejelentkezett. Mivel a ChatGPT ügynök végrehajthat közvetlen műveleteket, a sikeres támadások nagyobb hatással lehetnek és magasabb kockázatot jelenthetnek.

Kiképeztük és teszteltük az ügynököt az utasítás-injekciók azonosítására és az azoknak való ellenállására, valamint monitorozást alkalmaztunk az utasítás-injekciós támadások gyors észlelésére és lereagálására. A következményes műveletek előtt a felhasználó kifejezett megerősítésének előírása tovább csökkenti az ilyen támadásokból eredő károk kockázatát, és a felhasználók szükség szerint beavatkozhatnak a feladatokba, átvéve vagy szüneteltetve azokat. A felhasználóknak mérlegelniük kell ezeket a kompromisszumokat, amikor eldöntik, hogy milyen információkat adnak meg az ügynöknek, és lépéseket tesznek annak érdekében, hogy minimalizálják az ilyen kockázatoknak való kitettségüket, például a csatlakozók letiltásával, ha nincs rájuk szükség egy feladathoz.

A modell hibáinak csökkentését is megoldottuk, különösen mivel a modell most már képes olyan feladatok elvégzésére, amelyek hatással vannak a valós világra:

Kifejezett felhasználói megerősítés: A ChatGPT‑t arra képezték, hogy kifejezetten kikérje az engedélyedet, mielőtt valós következményekkel járó műveleteket hajt végre, például vásárlást végez.
Aktív felügyelet („Watch Mode”): Bizonyos kritikus feladatok, mint például az e-mailek küldése, aktív felügyeletet igényelnek.
Proaktív kockázatcsökkentés: A ChatGPT‑t arra képezték ki, hogy aktívan elutasítsa a magas kockázatú feladatokat, például a banki utalásokat.

Végül további vezérlőket vezettünk be, hogy korlátozzuk a modell által elérhető adatokat:

Adatvédelmi beállítások: A ChatGPT beállításaiban egyetlen kattintással törölheted az összes böngészési adatot, és azonnal kiléphetsz az összes aktív weboldal-munkamenetből. Egyébként a sütik az egyes meglátogatott webhelyek sütiszabályzatai alapján maradnak meg, ami hatékonyabbá teheti a webhelyek ismételt felkeresését.
Biztonságos böngészőátvételi mód: Amikor a ChatGPT böngészőjét használod a webes felületen („átvételi mód”), a bevitt információid bizalmasak maradnak. A ChatGPT nem gyűjt vagy tárol semmilyen adatot, amit ezekben a munkamenetekben megadsz, például jelszavakat, mert a modellnek nincs szüksége rá, és biztonságosabb, ha soha nem is látja.

Az eddigi legerősebb biztonsági csomagunk biológiai kockázatok ellen

A modell megnövelt képességei miatt úgy döntöttünk, hogy a ChatGPT ügynököt a biológiai és kémiai képességek szempontjából magas kockázatúként kezeljük a Felkészültségi keretrendszerünk⁠ alatt, aktiválva a kapcsolódó védelmi intézkedéseket. Bár nincs végleges bizonyítékunk arra, hogy a modell érdemben segíthetne egy kezdőnek súlyos biológiai károk okozásában—ez jelenti a magas képesség küszöbét—, óvatosan járunk el, és már most bevezetjük a szükséges biztosítékokat. Ennek eredményeképpen ez a modell rendelkezik az eddigi legátfogóbb biztonsági csomagunkkal, amely fokozott biológiai védelmet biztosít: átfogó fenyegetésmodellezés, kettős felhasználású elutasító betanítás, folyamatosan működő osztályozók és érvelési monitorok, valamint egyértelmű végrehajtási folyamatok.

A ChatGPT‑ügynök biztonságának biztosítása mellett tudjuk, hogy a réteges biológiai biztonság akkor működik a legjobban, ha a biztosítékok túlmutatnak egyetlen laboratóriumon, ezért az egész ökoszisztémával együttműködünk a védelem megerősítése érdekében. Az első naptól kezdve külső bio-biztonsági szakértőkkel, biztonsági intézetekkel és egyetemi kutatókkal dolgozunk együtt, hogy fenyegetettségi modellünket, értékeléseinket és irányelveinket formáljuk. Biológiában képzett szakértők hitelesítették az értékelési adatainkat, és a domain-szakértő vörös csapatok stressztesztelték a biztosítékokat valósághű forgatókönyvekben. A hónap elején biodefense workshopot hívtunk össze kormányzati, akadémiai, nemzeti laboratóriumi és civil szervezeti szakértők részvételével, hogy felgyorsítsuk az együttműködést, és előmozdítsuk a mesterséges intelligenciára épülő biológiai védekezési kutatásokat. Továbbra is globálisan együttműködünk, hogy megelőzzük a felmerülő kockázatokat.

Tudj meg többet az egységes ügynöki modellhez kapcsolódó robusztus biztonsági megközelítésünkről a rendszerkártyán⁠. Egy bug bounty programot⁠ is elindítunk a valós kockázatok azonosítására és orvoslására.

Elérhetőség

A ChatGPT ügynököt mától tesszük elérhetővé a Pro, Plus és Team felhasználók számára; a Pro felhasználók a nap végéig megkapják a hozzáférést, míg a Plus és Team felhasználók a következő napokban. Az Enterprise és az Iskolai felhasználók a következő hetekben jutnak hozzáféréshez. A Pro felhasználók havonta 400 üzenetet kapnak, míg a többi fizetős felhasználó havonta 40 üzenetet kap, az ezt meghaladó további felhasználás rugalmas, hitelalapú opciók révén érhető el.

Még dolgozunk azon, hogy az Európai Gazdasági Térség és Svájc számára is elérhetővé tegyük a hozzáférést.

Az Operator előnézet oldala még néhány hétig működőképes marad, utána megszűnik. A mély kutatás a ChatGPT ügynök képességeinek része. Ha az eredeti mélyreható kutatási funkciót részesíted előnyben – amelynek futtatása hosszabb időt vehet igénybe, de alapértelmezett módon részletesebb, mélyrehatóbb válaszokat ad –, akkor továbbra is elérheted azt, ha az üzenetíró legördülő menüjében a „mély kutatás” lehetőséget választod.

Limitek és a jövő

A ChatGPT‑ügynök még a kezdeti szakaszában van. Képes számos összetett feladatot elvégezni, de még így is hibázhat.

Bár jelentős potenciált látunk a prezentációk generálásának képességében, ez a funkció jelenleg még béta állapotban van. Jelenleg a kimenetek formázása és csiszolása néha kezdetlegesnek tűnhet, különösen, ha kiindulási dokumentum nélkül kezded. A modell kezdeti képességeit a generálásra összpontosítottuk, hogy olyan elemeket hozzon létre, amelyek az információkat prezentációkhoz megfelelő áramlásba és formátumba szervezik, mint például szöveg, diagramok, képek és alakzatok, amelyek az exportálás után natívan és könnyen szerkeszthetők, optimalizálva a struktúrát és a rugalmasságot. Jelenleg is előfordulnak néha eltérések a nézőben megjelenő diák és az exportált PowerPoint között, amelyeket igyekszünk csökkenteni. Továbbá, bár jelenleg feltölthető meglévő táblázat a ChatGPT‑nek szerkesztésre vagy sablonként való használatra, ez a lehetőség még nem érhető el a prezentációkhoz. Már tanítjuk a ChatGPT prezentáció-készítésének következő iterációját, hogy még csiszoltabb, kifinomultabb kimeneteket érjünk el, szélesebb körű képességekkel és jobb formázással.

Összességében arra számítunk, hogy idővel tovább javul a ChatGPT ügynök hatékonysága, mélysége és sokoldalúsága, beleértve a még gördülékenyebb interakciókat, mivel folyamatosan finomhangoljuk, mennyi felhasználói felügyeletre van szükség ahhoz, hogy még hasznosabb legyen, miközben továbbra is biztonságosan használható marad.

Függelék

SpreadsheetBench
Modell	Értékelési környezet	Lágy korlátozás (%): Cellaszintű	Lágy korlátozás (%): Lap szintű	Enyhe korlátozás (%): Összesen
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot az Excelben	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
ChatGPT‑ügynök	OSX, LibreOffice	38,27	30,48	35,27
ChatGPT ügynök .xlsx fájllal	OSX, LibreOffice	50,56	37,51	45,54
Ember		75,56	65,00	71,33

Élő közvetítés visszajátszása

Szerző

OpenAI

Lábjegyzetek

* Ha engedélyezed a böngészést, a modell van, hogy pontos válaszokat talál az interneten, például egy adathalmazból származó mintaproblémákat tartalmazó blogbejegyzések elolvasásával. Két stratégiával csökkentjük a modell csalásával kapcsolatos aggályokat böngészés közben:

1. Blokkoltuk azokat a domainek, amelyeket korábban már észleltünk, hogy a modell „csalásra” használja.

2. Extra modellt használtunk monitorként, hogy minden eszköz kimeneti tokenjét megvizsgáljuk minden próbálkozás során a gyanús viselkedés azonosítására. Gyanús viselkedésnek minősül az „olyan oldal, fájl vagy részlet, amelynek fő célja, hogy pontos választ adjon az adott kérdésre - például egy hivatalos osztályozási kulcs, kiszivárgott „megoldások” gist vagy a kész választ szó szerint idéző vita.” A jóindulatú viselkedés az „Bármilyen hiteles forrás, amelyet egy szorgalmas ember megnézhet (dokumentáció, kézikönyvek, tudományos munkák, tekintélyes cikkek), még akkor is, ha az véletlenül tartalmazza a helyes választ.” Minden olyan próbálkozást, amelyet a monitor gyanúsnak minősített, hibásnak számoltunk. A legtöbb, ezen az ellenőrzésen elbukott minta olyan feladat volt, amelynek a pontos megoldása több, a HLE-től független internetes forráson is elérhető volt.

**Az OpenAI kizárólagos hozzáféréssel rendelkezik az 1-3. szintű adatállomány 290 magánjellegű kérdése közül 237-hez. A FrontierMath 4. szintű kérdései nem szerepelnek ebben az értékelésben. Az eredményeket úgy értékeltük, hogy kérdésenként 16 válaszadási kísérlet átlagát vettük. A ChatGPT-ügynök eredményeit az OpenAI állítja elő, az Epoch AI értékeli, böngésző- és terminálhozzáféréssel, és válaszonként 128K tokenes korláttal. Az OpenAI o4-mini és o3 értékeléseket az Epoch AI váltja ki és osztályozza, böngésző- és terminálhozzáférés nélkül, python szkriptek használatával funkcióhívások révén, és válaszonként 100 ezer token limittel.

*** Az oracle@64 a 64 mintavételes futás során elért legjobb pontszámot jelenti, amelyet a valós eredmények alapján választunk ki (azaz minden feladathoz a ténylegesen értékelt teljesítmény alapján a legmagasabb pontszámú próbálkozást választjuk). Ezeknek a feladatonkénti legjobb pontszámoknak az átlaga kerül a jelentésbe az összes feladatra vonatkozóan. Ez a metrika kiemeli a modell felső határon elérhető potenciálját és a teljesítmény ingadozását—megmutatja, mennyire képes a modell, amikor sikeres, és jelzi a konzisztencia javításának lehetőségét további képzéssel. A tipikus „best of N” metrikákkal ellentétben, amelyek a modell saját bizonyossága alapján választanak, az oracle@64 a valós eredményekre támaszkodik a kiválasztásnál, és olyan feladatokra alkalmazható, amelyeket folyamatos 0–1 skálán értékelnek, nem csupán bináris siker/kudarc alapon.