Bemutatjuk a GPT‑5‑öt fejlesztők számára
A legjobb modell kódoláshoz és az ügynöki feladatokhoz.
Ma kiadásra kerül a GPT‑5 az API-platformunkon—az eddigi legjobb modellünk a kódolási és ügynöki feladatokhoz.
A GPT‑5 a legkorszerűbb (state-of-the-art, SOTA) a fontos kódolási tesztek terén: 74,9%-ot ér el a SWE-bench Verified teszten és 88%-ot az Aider polyglot feladatsoron. A GPT‑5‑öt úgy képeztük ki, hogy igazi kódolási partnered legyen. Kiválóan teljesít a magas minőségű kód előállításában és olyan feladatok kezelésében, mint a hibák kijavítása, a kód szerkesztése és a komplex kódbázisokkal kapcsolatos kérdések megválaszolása. A modell irányítható és együttműködő—nagy pontossággal képes követni a részletes utasításokat, és képes előzetes magyarázatot adni a műveleteiről az eszközhívások előtt és között. A modell a front-end kódolásban is kiemelkedő, a belső tesztelés során az esetek 70%-ában felülmúlta az OpenAI o3‑at a front-end webfejlesztésben.
A GPT‑5‑öt valós kódolási feladatokra képeztük ki, a startupok és vállalatok korai tesztelőivel együttműködésben. Cursor szerint a GPT‑5 „a legokosabb modell, amit valaha használtak”, és „meglepően intelligens, könnyen irányítható, sőt, olyan személyisége is van, amit más modellekben nem tapasztaltak.” Windsurf megosztotta, hogy a GPT‑5 az értékeléseiken SOTA, és „feleannyi parancshívási hibaaránya van, mint más határmodelleknek”. Vercel szerint „ez a legjobb frontend mesterséges intelligencia modell, amely mind esztétikai érzék, mind kódminőség tekintetében csúcsteljesítményt nyújt, így saját kategóriába kerül.”
A GPT‑5 a hosszú ideig futó ügynöki feladatokban is kiválóan teljesít—SOTA eredményeket ért el a τ2-bench Telecom* (96,7%), egy mindössze 2 hónapja kiadott parancshívási teszten. A GPT‑5 továbbfejlesztett eszközintelligenciája lehetővé teszi, hogy több tucat parancshívást megbízhatóan összefűzzön—akár sorban, akár párhuzamosan—anélkül, hogy eltévedne, így sokkal jobban képes végrehajtani a bonyolult, valós feladatokat elejétől a végéig. Ezenkívül pontosabban követi az eszközutasításokat, jobban kezeli az eszközhibákat, és kiválóan teljesít a hosszú kontextusú tartalom visszakeresésében. Manus szerint a GPT‑5 „a legjobb teljesítményt érte el, amit valaha is láttak egyetlen modelltől a belső teszteken.” Notion szerint „[a modell] gyors válaszai, különösen alacsony indoklási módban, ideálissá teszik a GPT‑5‑öt, ha összetett feladatokat kell egy lépésben megoldani.” Inditex szerint „ami igazán megkülönbözteti a [GPT‑5]‑öt, az az indoklás mélysége: árnyalt, többrétegű válaszokat ad, amelyek a téma valós megértését tükrözik.”
Új funkciókat vezetünk be az API-nkban, nagyobb irányítást adjunk a fejlesztőknek a modellválaszok felett. A GPT‑5 támogat egy új verbosity paramétert (értékek: low, medium, high), amely segít szabályozni, hogy a válaszok rövidek és lényegre törőek, vagy hosszúak és átfogóak legyenek. A GPT‑5 reasoning_effort paramétere mostantól minimális értéket is felvehet, hogy gyorsabban kapj válaszokat, anélkül, hogy előzetesen alaposan indokolnál. Hozzáadtunk egy új eszköztípust is—egyéni eszközöket—, hogy a GPT‑5 egyszerű szöveggel hívhassa az eszközöket JSON helyett. Az egyéni eszközök ügyfélszolgálatot nyújtanak a fejlesztők által biztosított kontextusfüggetlen nyelvtan általi korlátozásra.
A GPT‑5‑öt három méretben adjuk ki az API-ban—gpt-5, gpt-5-mini, és gpt-5-nano—, hogy a fejlesztők nagyobb rugalmasságot élvezhessenek a teljesítmény, költség és késés közötti egyensúlyozásban. Míg a ChatGPT‑ben a GPT‑5 érvelési, nem érvelési és router modellek rendszere, az API platformon a GPT‑5 az az érvelési modell, amely a maximális teljesítményt biztosítja a ChatGPT‑ben. Figyelemre méltó, hogy a minimális érveléssel rendelkező GPT‑5 más modell, mint a ChatGPT nem érvelő modellje, és jobban hangolt a fejlesztők számára. A ChatGPT‑ben használt nem érvelő modell GPT‑5‑chat‑latest néven érhető el.
Ha szeretnél többet megtudni a ChatGPT‑ben található GPT‑5‑ről és a ChatGPT egyéb fejlesztéseiről, nézd meg a kutatási blogunkat. Ha többet akarsz megtudni arról, hogy a vállalatok miért használják lelkesen a GPT‑5‑öt, nézd meg vállalati blogunkat.
A GPT‑5 a legerősebb kódolási modell, amit valaha is kiadtunk. Felülmúlja az o3‑at a kódolási benchmarkok és valós használati esetek során, és finomhangolás által olyan ügynökalapú kódolási termékekben tűnjön ki, mint a Cursor, a Windsurf, a GitHub Copilot és a Codex CLI. A GPT‑5 lenyűgözte az alfa tesztelőinket, és számos privát belső értékelésben rekordokat döntött.
Korai visszajelzések a GPT‑5 valós kódolási feladatokról
„A GPT-5 a legokosabb kódolási modell, amit valaha használtunk. Csapatunk szerint a GPT-5 rendkívül intelligens, könnyen irányítható, és ráadásul olyan személyiséggel is rendelkezik, amilyet más modelleknél nem tapasztaltunk. Nemcsak a trükkös, mélyen elrejtett hibákat találja meg, hanem hosszú, többkörös háttérügynököket is futtathat, hogy a bonyolult feladatokat a végéig végigvigye—olyan problémákat, amelyek korábban más modelleket megállásra kényszerítettek. Ma már ezt használjuk napi szinten mindenre: a PR-ek megtervezésétől és előkészítésétől kezdve a komplett end-to-end buildekig.”
A SWE-bench Verified-on, amely valós szoftvermérnöki feladatokon alapuló értékelés, a GPT‑5 74,9%-ot ért el, szemben az o3 69,1%-ával. Érdemes megjegyezni, hogy a GPT‑5 nagyobb hatékonysággal és sebességgel éri el magas pontszámát: az o3‑hoz képest magas indoklási intenzitás mellett a GPT‑5 22%-kal kevesebb kimeneti tokent és 45%-kal kevesebb parancshívást használ.
A SWE-bench Verified keretében a modellnek egy kódrepót és a hibát leíró információt adnak, majd egy javítást kell létrehoznia a hiba orvoslására. A szöveges címkék jelzik az indoklási intenzitást. Az értékeléseink 500 problémából 23-at kihagytak, amelyek megoldások nem feleltek meg megbízhatóan az infrastruktúránknak. A GPT‑5 egy rövid utasítást kapott, amely hangsúlyozta a megoldások alapos igazolását; ugyanaz az utasítás nem volt hasznos az o3 számára.
Az Aider polyglot programban, a kódszerkesztés értékelése során a GPT‑5 új rekordot állított fel 88%-kal, ami egyharmaddal csökkenti a hibaszázalékot az o3‑hoz képest.
Az Aider polygot(új ablakban nyílik meg) (diff) esetében a modell egy kódolási feladatot kap az Exercismből, és a megoldását kódkülönbségként kell megírnia. Az indoklási modelleket nagy intenzitással futtatták.
Azt is észrevettük, hogy a GPT‑5 kiválóan alkalmas a kódbázisok mélyreható elemzésére, hogy választ adjon a különböző részek működésével vagy együttműködésével kapcsolatos kérdésekre. Egy olyan bonyolult kódbázisban, mint az OpenAI megerősítéses tanulás rendszere, azt tapasztaljuk, hogy a GPT‑5 segíthet az indoklásban és a kódunkkal kapcsolatos kérdések megválaszolásában, felgyorsítva a mindennapi munkánkat.
Amikor frontend kódot készítesz web appokhoz, a GPT‑5 esztétikusabb, ambiciózusabb és pontosabb. Az o3‑mal való egymás melletti összehasonlítások során tesztelőink az esetek 70%-ában a GPT‑5‑öt részesítették előnyben.
Íme néhány szórakoztató, válogatott példa arra, hogy a GPT‑5 mire képes egyetlen utasítás alapján:
Utasítás: Kérlek, készíts egy gyönyörű, élethű landing oldalt egy olyan szolgáltatás számára, ami a kávérajongóknak havi 200 dolláros előfizetést kínál, amely magában foglalja a berendezések bérlését és személyes betanítást a kávépörkölésre és a tökéletes eszpresszó elkészítésére vonatkozóan. A célközönség egy Bay Area-i, középkorú, tech területen dolgozó, képzett, költségvetéssel rendelkező személy, aki szenvedélyesen rajong a kávé művészetéért és tudományáért. Optimalizáld a konverziót 6 hónapos előfizetéshez.
További GPT‑5 példákat itt(új ablakban nyílik meg) talál galériánkban.
A GPT‑5 jobb együttműködő partner, különösen az olyan ügynökalapú kódolási termékekben, mint a Cursor, a Windsurf, a GitHub Copilot és a Codex CLI. Munka közben a GPT‑5 képes terveket, frissítéseket és összefoglalókat kiadni a parancshívások között. Korábbi modelljeinkhez képest a GPT‑5 proaktívabb az ambiciózus feladatok elvégzésében anélkül, hogy megállna az engedélyedre várva vagy visszariadna a nagy bonyolultságtól.
Íme egy példa arra, hogyan nézhet ki a GPT‑5 egy összetett feladat megoldása közben (jelen esetben egy étterem weboldalának létrehozása):
Miután a felhasználó weboldalt kér az étterméhez, a GPT‑5 megoszt egy gyors tervet, felépíti az appot, telepíti a függő részeket, létrehozza az oldal tartalmát, futtat egy buildet a fordítási hibák ellenőrzésére, összefoglalja a munkáját, és javaslatot tesz a lehetséges következő lépéseket. Ezt a videót körülbelül háromszorosára gyorsítottuk fel, hogy ne kelljen várakoznod; a weboldal létrehozása körülbelül három percet vett igénybe.
Az ügynöki kódoláson túl a GPT‑5 általában jobban teljesít az ügynöki feladatokban. A GPT‑5 új rekordokat döntött az utasításkövetés (69,6% a Scale MultiChallenge teszten, az o3‑mini értékelése alapján) és az eszközhívás (96,7% a τ2-bench telecom teszten) terén. A továbbfejlesztett eszközintelligencia lehetővé teszi a GPT‑5 számára, hogy megbízhatóbban összekapcsolja a műveleteket a valós feladatok végrehajtásához.
Korai visszajelzés a GPT‑5‑ről az ügynöki feladatokhoz
„A GPT-5 jelentős előrelépés. A belső tesztjeinken a valaha egyetlen modelltől látott legjobb teljesítményt érte el. A GPT-5 kiválóan teljesített különböző ügynöki feladatokban—még mielőtt egyetlen kódsort is módosítottunk volna, vagy egy utasítást igazítottunk volna. Az új preambulumok és az eszközhasználat pontosabb ellenőrzése jelentős ugrást engedélyezett ügynökeink stabilitásában és irányíthatóságában.
A GPT‑5 megbízhatóbban követi az utasításokat, mint bármelyik elődje, és magas pontszámot ér el a COLLIE, a Scale MultiChallenge és a belső utasításkövető értékeléseken.
COLLIE(új ablakban nyílik meg) esetében a modelleknek olyan szöveget kell írniuk, amely különböző feltételeknek felel meg. A Scale MultiChallenge(új ablakban nyílik meg) során a modelleket többfordulós beszélgetésekben tesztelik, hogy helyesen használják a korábbi üzenetek négy típusú információját. Az eredményeink az o3‑mini osztályozóként történő használatából származnak, amely pontosabb volt, mint a GPT‑4o. Az eval követő belső OpenAI API utasításainkban a modelleknek a valódi fejlesztői visszajelzésekből származó nehéz utasításokat kell követniük. Az indoklási modelleket nagy intenzitással futtatták.
Keményen dolgozunk, hogy a fejlesztők számára fontos módokon javítsuk a parancshívásokat. A GPT‑5 jobban követi az eszközutasításokat, jobban kezeli az eszközhibákat, és proaktívabban képes több parancshívást végrehajtani egymás után vagy párhuzamosan. Amikor utasítást kap, a GPT‑5 képes kimenetként előszó üzeneteket is megjeleníteni a parancshívások előtt és között, hogy tájékoztassa a felhasználókat arról, hol tart a hosszabb ügynöki feladatok során.
Két hónappal ezelőtt a Sierra.ai közzétette a τ2-bench telecom nevű kihívást jelentő eszközhasználati benchmarkot, amely rávilágított arra, hogy a nyelvi modellek teljesítménye jelentősen csökken, amikor egy olyan környezeti állapottal lépnek interakcióba, amelyet a felhasználók megváltoztathatnak. Publikációjukban(új ablakban nyílik meg) egyetlen modell sem ért el 49%-nál magasabb pontszámot. A GPT‑5 97%-os eredményt ért el.
A τ2-benchben(új ablakban nyílik meg) egy modellnek eszközöket kell használnia egy ügyfélszolgálati feladat elvégzéséhez, ahol lehet egy felhasználó, aki képes kommunikálni és műveleteket végezni a világ állapotán. Az indoklási modelleket nagy intenzitással futtatták.
A GPT‑5 a hosszú kontextusú teljesítmény terén is erős javulást mutat. Az OpenAI-MRCR-en, amely a hosszú kontextusú információvisszakeresés mérőszáma, a GPT‑5 felülmúlja az o3‑at és a GPT‑4.1‑et, egy olyan különbséggel, amely hosszabb beviteli hossz esetén jelentősen megnő.
Az OpenAI-MRCR(új ablakban nyílik meg) (többkörös ko-referencia felbontás) során több azonos „tűszerű” felhasználói kérés kerül el hosszú, hasonló kérésekből és válaszokból álló „szénakazalba”, és a modellt arra kérik, hogy reprodukálja az i-edik tűre adott választ. Az átlagos egyezési arány a modell válasza és a helyes válasz közötti átlagos szöveg-egyezési arányt méri. A 256k maximális beviteli token pontjai a 128k–256k beviteli tokenek átlagát képviselik, és így tovább. Itt a 256k 256 * 1,024 = 262 114 tokent jelent. Az indoklási modelleket nagy intenzitással futtatták.
Emellett nyílt forráskódúvá tesszük a BrowseComp Long Contextet(új ablakban nyílik meg), amely új mércét jelent a hosszú kontextusú kérdések és válaszok értékeléséhez. Ebben a tesztben a modell egy felhasználói lekérdezést kap, a releváns keresési eredmények hosszú listáját, és a keresési eredmények alapján kell megválaszolnia a kérdést. A BrowseComp Long Contextet úgy terveztük, hogy valósághű, nehéz és megbízhatóan helyes alapigazság válaszokat adjon. 128K–256K tokenek beviteli esetén a GPT‑5 az esetek 89%-ában adja meg a helyes választ.
Az API-ban minden GPT‑5 modell legfeljebb 272 000 beviteli tokent fogadhat el, és legfeljebb 128 000 indoklási és kimeneti tokent bocsáthat ki, így a teljes kontextushossz 400 000 token.
A GPT‑5 megbízhatóbb, mint a korábbi modelljeink. A LongFact és FactScore tesztek utasításai alapján a GPT‑5 ~80%-kal kevesebb tényszerű hibát követ el, mint az o3. Ezáltal jobban megfelel az ügynöki felhasználási eseteknek, ahol a helyesség számít—különösen a kód, az adatok és a döntéshozatal terén.
A magasabb pontszámok rosszabbak. A LongFact(új ablakban nyílik meg) és a FActScore(új ablakban nyílik meg) nyílt végű ténykereső kérdésekből áll. Egy böngészéssel kiegészített, LLM-alapú értékelőt használunk az ezekhez a tesztekhez tartozó utasításokra adott válaszok tényellenőrzésére, és azt mérjük, az állítások mekkora része bizonyul tényszerűen hibásnak. A megvalósítás és az osztályozás részletei a rendszerkártyán találhatók. Az indoklási modellek nagy mértékű érvelési igénnyel dolgoztak. A keresés nem volt engedélyezve.
Általánosságban elmondható, hogy a GPT‑5‑öt arra képezték ki, hogy jobban tisztában legyen saját korlátaival, és képes legyen jobban kezelni a váratlan helyzeteket. A GPT‑5‑öt arra is betanítottuk, hogy sokkal pontosabban válaszoljon egészséggel kapcsolatos kérdésekre (többet olvashatsz erről a kutatási blogunkban). Mint minden nyelvi modell esetében, azt javasoljuk, hogy ha magas a tét, ellenőrizd a GPT‑5 munkáját.
A fejlesztők a GPT‑5 gondolkodási idejét az API reasoning_effort paraméterén keresztül vezérelhetik. A korábbi értékeken –low, medium (alapértelmezett) és high—mellett a GPT‑5 támogatja a minimal értéket is, amely minimalizálja a GPT‑5 indoklását, a gyors válaszok érdekében.
A magasabb reasoning_effort értékek maximalizálják a minőséget, míg az alacsonyabb értékek a sebességet. Nem minden feladat profitál egyformán a további érvelésből, ezért javasoljuk, hogy kísérletezz, hogy lásd, melyik működik a legjobban az általad fontosnak tartott felhasználási esetekben.
Például a low szint fölé emelt reasoning szinte semmit nem ad hozzá az egyszerűbb, hosszú kontextusú keresési feladatokhoz, viszont több százalékponttal javítja a teljesítményt a CharXiv Reasoning(új ablakban nyílik meg) vizuális indoklási teszten.
A GPT‑5 indoklási intenzitása különböző feladatoknál eltérő előnyöket eredményez. A CharXiv Reasoning érdekében a GPT‑5 hozzáférést kapott egy Python eszközhöz.
A GPT‑5 válaszainak alapértelmezett hosszának szabályozására bevezettünk egy új API-paramétert, a verbosity-t, amely low, medium (alapértelmezett) és high értékeket vehet fel. Ha az egyértelmű utasítások ütköznek a részletességi paraméterekkel, az egyértelmű utasítások élveznek elsőbbséget. Például, ha megkéred a GPT‑5‑öt, hogy „írj egy 5 bekezdéses esszét”, a modell válasza mindig 5 bekezdésből áll, függetlenül a részletezettségi szinttől (bár maguk a bekezdések lehetnek hosszabbak vagy rövidebbek).
Részletezettség=low
Részletezettség=medium
Részletezettség=high
Ha utasítást kap, a GPT‑5 felhasználó által látható preambulumüzeneteket jelenít meg a parancshívások előtt és között. Ellentétben a rejtett indoklási üzenetekkel, ezek a látható üzenetek lehetővé teszik a GPT‑5 számára, hogy kommunikálja a terveket és a haladást a felhasználóval, segítve a végfelhasználókat megérteni a megközelítést és a szándékot a parancshívások mögött.
Bevezetünk egy új eszköztípust—az egyéni eszközöket—, amely lehetővé teszi a GPT‑5 számára, hogy JSON helyett egyszerű szöveggel hívjon meg egy eszközt. A GPT‑5 egyéni eszközformátumok követésére a fejlesztők megadhatnak reguláris kifejezést, vagy akár egy teljesebben meghatározott kontextusfüggetlen nyelvtant(új ablakban nyílik meg).
Korábban a fejlesztők által meghatározott eszközök felületének használatához JSON-t kellett használni, amely egy általánosan használt formátum a webes API-k és a fejlesztők körében. Azonban ahhoz, hogy a JSON érvényes legyen, a modellnek hibátlanul kell „kimenekítenie” (escape-elnie) az összes idézőjelet, fordított perjelet, sortörést és egyéb vezérlőkaraktert. Bár modelljeink jól képzettek a JSON kimenet előállítására, hosszú beviteli adatok esetén, mint például több száz kódsor vagy egy 5 oldalas jelentés, a hibák valószínűsége megnő. Egyéni eszközökkel a GPT‑5 egyszerű szövegként írhatja az eszközbemeneteket anélkül, hogy el kellene kerülnie az összes kimenekítést igénylő karakterektől.
A SWE-bench Verified-on, egyedi eszközöket használva a JSON eszközök helyett, a GPT‑5 körülbelül ugyanazt a pontszámot éri el.
A GPT‑5 előrelépést jelent a biztonság terén, robusztusabb, megbízhatóbb és hasznosabb modell. A GPT‑5 lényegesen ritkábban ad kitalált vagy valótlan válaszokat, mint korábbi modelljeink, őszintébben közli a felhasználóval, mit csinál és mire képes, és ahol csak lehetséges, a leghasznosabb választ adja, miközben továbbra is a biztonsági kereteken belül marad. További információkat a kutatási blogunkban olvashatsz.
A GPT‑5 már elérhető az API platformon három méretben: gpt-5, gpt-5-mini és gpt-5-nano. Elérhető a Responses API-n, a Chat Completions API-n, és alapértelmezett a Codex CLI-ben. A GPT‑5 ára 1,25 USD/1M beviteli token és 10 USD/1M kimeneti token, a GPT‑5 mini ára 0,25 USD/1M beviteli token és 2 USD/1M kimeneti token, míg a GPT‑5 nano ára 0,05 USD/1M beviteli token és 0,40 USD/1M kimeneti token.
Ezek a modellek támogatják a reasoning_effort és a verbosity API paramétereket, valamint az egyedi eszközöket. Támogatják a párhuzamos parancshívást, a beépített eszközöket (webes keresés, fájlkeresés, képgenerálás és még sok más), az alapvető API funkciókat (streaming, strukturált kimenetek és még sok más), valamint a költségmegtakarítási funkciókat, amilyen például az utasítás cache és a Batch API.
A ChatGPT‑ben használt GPT‑5 nem érvelő verziója elérhető az API-ban gpt-5-chat-latest néven, és ára szintén 1,25 USD/1 millió beviteli token és 10 USD/1 millió kimeneti token.
A GPT‑5‑öt a Microsoft platformjain is bevezetjük, beleértve a Microsoft 365 Copilotot, a Copilotot, a GitHub Copilotot és az Azure AI Foundry-t.
Nézd meg a GPT‑5 dokumentációját(új ablakban nyílik meg), árakat(új ablakban nyílik meg) és promptolási útmutatót(új ablakban nyílik meg), hogy elkezdhesd.
Intelligencia
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Van egy kis eltérés az előző blogbejegyzésünkben közölt számoktól, mivel azokat Az emberiség utolsó vizsgája (Humanity's Last Exam, HLE) elnevezésű teszt egy korábbi verzióján futtatták le.
Multimodális
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Kódolás
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 E USD | 75 E USD | 49 E USD | 86 E USD | 66 E USD | 34 E USD | 31 E USD | 9 E USD |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Az 500 feladatból 23-at kihagytunk, mert nem voltak futtathatók az infrastruktúránkon. A 23 kihagyott feladat teljes listája: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' és 'sphinx-doc__sphinx-9367'.
Utasítás követése
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Megjegyzés: Megállapítottuk, hogy a MultiChallenge (GPT-4o) alapértelmezett osztályozója gyakran hibásan értékeli a modellválaszokat. Azt tapasztaljuk, hogy ha az osztályozót egy érvelő modellre cseréljük, például az o3-minire, az jelentősen javítja az osztályozás pontosságát az általunk vizsgált mintákon.
Függvényhívás
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Hosszú kontextus
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Valótlanság
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


