Ugrás a fő tartalomra
OpenAI

2025. augusztus 7.

Termék

Bemutatjuk a GPT‑5‑öt fejlesztők számára

A legjobb modell kódoláshoz és az ügynöki feladatokhoz.

Betöltés…

Bevezetés

Ma kiadásra kerül a GPT‑5 az API-platformunkon—az eddigi legjobb modellünk a kódolási és ügynöki feladatokhoz.

A GPT‑5 a legkorszerűbb (state-of-the-art, SOTA) a fontos kódolási tesztek terén: 74,9%-ot ér el a SWE-bench Verified teszten és 88%-ot az Aider polyglot feladatsoron. A GPT‑5‑öt úgy képeztük ki, hogy igazi kódolási partnered legyen. Kiválóan teljesít a magas minőségű kód előállításában és olyan feladatok kezelésében, mint a hibák kijavítása, a kód szerkesztése és a komplex kódbázisokkal kapcsolatos kérdések megválaszolása. A modell irányítható és együttműködő—nagy pontossággal képes követni a részletes utasításokat, és képes előzetes magyarázatot adni a műveleteiről az eszközhívások előtt és között.  A modell a front-end kódolásban is kiemelkedő, a belső tesztelés során az esetek 70%-ában felülmúlta az OpenAI o3‑at a front-end webfejlesztésben.

A GPT‑5‑öt valós kódolási feladatokra képeztük ki, a startupok és vállalatok korai tesztelőivel együttműködésben. Cursor szerint a GPT‑5 „a legokosabb modell, amit valaha használtak”, és „meglepően intelligens, könnyen irányítható, sőt, olyan személyisége is van, amit más modellekben nem tapasztaltak.” Windsurf megosztotta, hogy a GPT‑5 az értékeléseiken SOTA, és „feleannyi parancshívási hibaaránya van, mint más határmodelleknek”. Vercel szerint „ez a legjobb frontend mesterséges intelligencia modell, amely mind esztétikai érzék, mind kódminőség tekintetében csúcsteljesítményt nyújt, így saját kategóriába kerül.”

A GPT‑5 a hosszú ideig futó ügynöki feladatokban is kiválóan teljesít—SOTA eredményeket ért el a τ2-bench Telecom* (96,7%), egy mindössze 2 hónapja kiadott parancshívási teszten. A GPT‑5 továbbfejlesztett eszközintelligenciája lehetővé teszi, hogy több tucat parancshívást megbízhatóan összefűzzön—akár sorban, akár párhuzamosan—anélkül, hogy eltévedne, így sokkal jobban képes végrehajtani a bonyolult, valós feladatokat elejétől a végéig. Ezenkívül pontosabban követi az eszközutasításokat, jobban kezeli az eszközhibákat, és kiválóan teljesít a hosszú kontextusú tartalom visszakeresésében. Manus szerint a GPT‑5 „a legjobb teljesítményt érte el, amit valaha is láttak egyetlen modelltől a belső teszteken.” Notion szerint „[a modell] gyors válaszai, különösen alacsony indoklási módban, ideálissá teszik a GPT‑5‑öt, ha összetett feladatokat kell egy lépésben megoldani.” Inditex szerint „ami igazán megkülönbözteti a [GPT‑5]‑öt, az az indoklás mélysége: árnyalt, többrétegű válaszokat ad, amelyek a téma valós megértését tükrözik.”

Új funkciókat vezetünk be az API-nkban, nagyobb irányítást adjunk a fejlesztőknek a modellválaszok felett. A GPT‑5 támogat egy új verbosity paramétert (értékek: low, medium, high), amely segít szabályozni, hogy a válaszok rövidek és lényegre törőek, vagy hosszúak és átfogóak legyenek. A GPT‑5 reasoning_effort paramétere mostantól minimális értéket is felvehet, hogy gyorsabban kapj válaszokat, anélkül, hogy előzetesen alaposan indokolnál. Hozzáadtunk egy új eszköztípust is—egyéni eszközöket—, hogy a GPT‑5 egyszerű szöveggel hívhassa az eszközöket JSON helyett. Az egyéni eszközök ügyfélszolgálatot nyújtanak a fejlesztők által biztosított kontextusfüggetlen nyelvtan általi korlátozásra.

A GPT‑5‑öt három méretben adjuk ki az API-ban—gpt-5, gpt-5-mini, és gpt-5-nano—, hogy a fejlesztők nagyobb rugalmasságot élvezhessenek a teljesítmény, költség és késés közötti egyensúlyozásban. Míg a ChatGPT‑ben a GPT‑5 érvelési, nem érvelési és router modellek rendszere, az API platformon a GPT‑5 az az érvelési modell, amely a maximális teljesítményt biztosítja a ChatGPT‑ben. Figyelemre méltó, hogy a minimális érveléssel rendelkező GPT‑5 más modell, mint a ChatGPT nem érvelő modellje, és jobban hangolt a fejlesztők számára. A ChatGPT‑ben használt nem érvelő modell GPT‑5‑chat‑latest néven érhető el.

Ha szeretnél többet megtudni a ChatGPT‑ben található GPT‑5‑ről és a ChatGPT egyéb fejlesztéseiről, nézd meg a kutatási blogunkat. Ha többet akarsz megtudni arról, hogy a vállalatok miért használják lelkesen a GPT‑5‑öt, nézd meg vállalati blogunkat.

Kódolás

A GPT‑5 a legerősebb kódolási modell, amit valaha is kiadtunk. Felülmúlja az o3‑at a kódolási benchmarkok és valós használati esetek során, és finomhangolás által olyan ügynökalapú kódolási termékekben tűnjön ki, mint a Cursor, a Windsurf, a GitHub Copilot és a Codex CLI. A GPT‑5 lenyűgözte az alfa tesztelőinket, és számos privát belső értékelésben rekordokat döntött. 

Korai visszajelzések a GPT‑5 valós kódolási feladatokról

„A GPT-5 a legokosabb kódolási modell, amit valaha használtunk. Csapatunk szerint a GPT-5 rendkívül intelligens, könnyen irányítható, és ráadásul olyan személyiséggel is rendelkezik, amilyet más modelleknél nem tapasztaltunk. Nemcsak a trükkös, mélyen elrejtett hibákat találja meg, hanem hosszú, többkörös háttérügynököket is futtathat, hogy a bonyolult feladatokat a végéig végigvigye—olyan problémákat, amelyek korábban más modelleket megállásra kényszerítettek. Ma már ezt használjuk napi szinten mindenre: a PR-ek megtervezésétől és előkészítésétől kezdve a komplett end-to-end buildekig.”
Michael Truell, társalapító & vezérigazgató, Cursor

A SWE-bench Verified-on, amely valós szoftvermérnöki feladatokon alapuló értékelés, a GPT‑5 74,9%-ot ért el, szemben az o3 69,1%-ával. Érdemes megjegyezni, hogy a GPT‑5 nagyobb hatékonysággal és sebességgel éri el magas pontszámát: az o3‑hoz képest magas indoklási intenzitás mellett a GPT‑5 22%-kal kevesebb kimeneti tokent és 45%-kal kevesebb parancshívást használ.

A SWE-bench Verified keretében a modellnek egy kódrepót és a hibát leíró információt adnak, majd egy javítást kell létrehoznia a hiba orvoslására. A szöveges címkék jelzik az indoklási intenzitást. Az értékeléseink 500 problémából 23-at kihagytak, amelyek megoldások nem feleltek meg megbízhatóan az infrastruktúránknak. A GPT‑5 egy rövid utasítást kapott, amely hangsúlyozta a megoldások alapos igazolását; ugyanaz az utasítás nem volt hasznos az o3 számára.

Az Aider polyglot programban, a kódszerkesztés értékelése során a GPT‑5 új rekordot állított fel 88%-kal, ami egyharmaddal csökkenti a hibaszázalékot az o3‑hoz képest.

Az Aider polygot(új ablakban nyílik meg) (diff) esetében a modell egy kódolási feladatot kap az Exercismből, és a megoldását kódkülönbségként kell megírnia. Az indoklási modelleket nagy intenzitással futtatták.

Azt is észrevettük, hogy a GPT‑5 kiválóan alkalmas a kódbázisok mélyreható elemzésére, hogy választ adjon a különböző részek működésével vagy együttműködésével kapcsolatos kérdésekre. Egy olyan bonyolult kódbázisban, mint az OpenAI megerősítéses tanulás rendszere, azt tapasztaljuk, hogy a GPT‑5 segíthet az indoklásban és a kódunkkal kapcsolatos kérdések megválaszolásában, felgyorsítva a mindennapi munkánkat. 

Frontend fejlesztés

Amikor frontend kódot készítesz web appokhoz, a GPT‑5 esztétikusabb, ambiciózusabb és pontosabb. Az o3‑mal való egymás melletti összehasonlítások során tesztelőink az esetek 70%-ában a GPT‑5‑öt részesítették előnyben.

Íme néhány szórakoztató, válogatott példa arra, hogy a GPT‑5 mire képes egyetlen utasítás alapján:

Utasítás: Kérlek, készíts egy gyönyörű, élethű landing oldalt egy olyan szolgáltatás számára, ami a kávérajongóknak havi 200 dolláros előfizetést kínál, amely magában foglalja a berendezések bérlését és személyes betanítást a kávépörkölésre és a tökéletes eszpresszó elkészítésére vonatkozóan. A célközönség egy Bay Area-i, középkorú, tech területen dolgozó, képzett, költségvetéssel rendelkező személy, aki szenvedélyesen rajong a kávé művészetéért és tudományáért. Optimalizáld a konverziót 6 hónapos előfizetéshez.

További GPT‑5 példákat itt(új ablakban nyílik meg) talál galériánkban.

Kódolási együttműködés

A GPT‑5 jobb együttműködő partner, különösen az olyan ügynökalapú kódolási termékekben, mint a Cursor, a Windsurf, a GitHub Copilot és a Codex CLI. Munka közben a GPT‑5 képes terveket, frissítéseket és összefoglalókat kiadni a parancshívások között. Korábbi modelljeinkhez képest a GPT‑5 proaktívabb az ambiciózus feladatok elvégzésében anélkül, hogy megállna az engedélyedre várva vagy visszariadna a nagy bonyolultságtól.

Íme egy példa arra, hogyan nézhet ki a GPT‑5 egy összetett feladat megoldása közben (jelen esetben egy étterem weboldalának létrehozása):

Miután a felhasználó weboldalt kér az étterméhez, a GPT‑5 megoszt egy gyors tervet, felépíti az appot, telepíti a függő részeket, létrehozza az oldal tartalmát, futtat egy buildet a fordítási hibák ellenőrzésére, összefoglalja a munkáját, és javaslatot tesz a lehetséges következő lépéseket. Ezt a videót körülbelül háromszorosára gyorsítottuk fel, hogy ne kelljen várakoznod; a weboldal létrehozása körülbelül három percet vett igénybe.

Ügynöki feladatok

Az ügynöki kódoláson túl a GPT‑5 általában jobban teljesít az ügynöki feladatokban. A GPT‑5 új rekordokat döntött az utasításkövetés (69,6% a Scale MultiChallenge teszten, az o3‑mini értékelése alapján) és az eszközhívás (96,7% a τ2-bench telecom teszten) terén. A továbbfejlesztett eszközintelligencia lehetővé teszi a GPT‑5 számára, hogy megbízhatóbban összekapcsolja a műveleteket a valós feladatok végrehajtásához.

Korai visszajelzés a GPT‑5‑ről az ügynöki feladatokhoz

„A GPT-5 jelentős előrelépés. A belső tesztjeinken a valaha egyetlen modelltől látott legjobb teljesítményt érte el. A GPT-5 kiválóan teljesített különböző ügynöki feladatokban—még mielőtt egyetlen kódsort is módosítottunk volna, vagy egy utasítást igazítottunk volna. Az új preambulumok és az eszközhasználat pontosabb ellenőrzése jelentős ugrást engedélyezett ügynökeink stabilitásában és irányíthatóságában.
Yichao ‘Peak’ Ji, társalapító és fő tudományos munkatárs, Manus

Utasítás követése

A GPT‑5 megbízhatóbban követi az utasításokat, mint bármelyik elődje, és magas pontszámot ér el a COLLIE, a Scale MultiChallenge és a belső utasításkövető értékeléseken.

COLLIE(új ablakban nyílik meg) esetében a modelleknek olyan szöveget kell írniuk, amely különböző feltételeknek felel meg. A Scale MultiChallenge(új ablakban nyílik meg) során a modelleket többfordulós beszélgetésekben tesztelik, hogy helyesen használják a korábbi üzenetek négy típusú információját. Az eredményeink az o3‑mini osztályozóként történő használatából származnak, amely pontosabb volt, mint a GPT‑4o. Az eval követő belső OpenAI API utasításainkban a modelleknek a valódi fejlesztői visszajelzésekből származó nehéz utasításokat kell követniük. Az indoklási modelleket nagy intenzitással futtatták.

Parancshívás

Keményen dolgozunk, hogy a fejlesztők számára fontos módokon javítsuk a parancshívásokat. A GPT‑5 jobban követi az eszközutasításokat, jobban kezeli az eszközhibákat, és proaktívabban képes több parancshívást végrehajtani egymás után vagy párhuzamosan. Amikor utasítást kap, a GPT‑5 képes kimenetként előszó üzeneteket is megjeleníteni a parancshívások előtt és között, hogy tájékoztassa a felhasználókat arról, hol tart a hosszabb ügynöki feladatok során.

Két hónappal ezelőtt a Sierra.ai közzétette a τ2-bench telecom nevű kihívást jelentő eszközhasználati benchmarkot, amely rávilágított arra, hogy a nyelvi modellek teljesítménye jelentősen csökken, amikor egy olyan környezeti állapottal lépnek interakcióba, amelyet a felhasználók megváltoztathatnak. Publikációjukban(új ablakban nyílik meg) egyetlen modell sem ért el 49%-nál magasabb pontszámot. A GPT‑5 97%-os eredményt ért el.

A τ2-benchben(új ablakban nyílik meg) egy modellnek eszközöket kell használnia egy ügyfélszolgálati feladat elvégzéséhez, ahol lehet egy felhasználó, aki képes kommunikálni és műveleteket végezni a világ állapotán. Az indoklási modelleket nagy intenzitással futtatták.

A GPT‑5 a hosszú kontextusú teljesítmény terén is erős javulást mutat. Az OpenAI-MRCR-en, amely a hosszú kontextusú információvisszakeresés mérőszáma, a GPT‑5 felülmúlja az o3‑at és a GPT‑4.1‑et, egy olyan különbséggel, amely hosszabb beviteli hossz esetén jelentősen megnő.

Az OpenAI-MRCR(új ablakban nyílik meg) (többkörös ko-referencia felbontás) során több azonos „tűszerű” felhasználói kérés kerül el hosszú, hasonló kérésekből és válaszokból álló „szénakazalba”, és a modellt arra kérik, hogy reprodukálja az i-edik tűre adott választ. Az átlagos egyezési arány a modell válasza és a helyes válasz közötti átlagos szöveg-egyezési arányt méri. A 256k maximális beviteli token pontjai a 128k–256k beviteli tokenek átlagát képviselik, és így tovább. Itt a 256k 256 * 1,024 = 262 114 tokent jelent. Az indoklási modelleket nagy intenzitással futtatták.

Emellett nyílt forráskódúvá tesszük a BrowseComp Long Contextet(új ablakban nyílik meg), amely új mércét jelent a hosszú kontextusú kérdések és válaszok értékeléséhez. Ebben a tesztben a modell egy felhasználói lekérdezést kap, a releváns keresési eredmények hosszú listáját, és a keresési eredmények alapján kell megválaszolnia a kérdést. A BrowseComp Long Contextet úgy terveztük, hogy valósághű, nehéz és megbízhatóan helyes alapigazság válaszokat adjon. 128K–256K tokenek beviteli esetén a GPT‑5 az esetek 89%-ában adja meg a helyes választ.

Az API-ban minden GPT‑5 modell legfeljebb 272 000 beviteli tokent fogadhat el, és legfeljebb 128 000 indoklási és kimeneti tokent bocsáthat ki, így a teljes kontextushossz 400 000 token.

Tényszerűség

A GPT‑5 megbízhatóbb, mint a korábbi modelljeink. A LongFact és FactScore tesztek utasításai alapján a GPT‑5 ~80%-kal kevesebb tényszerű hibát követ el, mint az o3. Ezáltal jobban megfelel az ügynöki felhasználási eseteknek, ahol a helyesség számít—különösen a kód, az adatok és a döntéshozatal terén.

A magasabb pontszámok rosszabbak. A LongFact(új ablakban nyílik meg) és a FActScore(új ablakban nyílik meg) nyílt végű ténykereső kérdésekből áll. Egy böngészéssel kiegészített, LLM-alapú értékelőt használunk az ezekhez a tesztekhez tartozó utasításokra adott válaszok tényellenőrzésére, és azt mérjük, az állítások mekkora része bizonyul tényszerűen hibásnak. A megvalósítás és az osztályozás részletei a rendszerkártyán találhatók. Az indoklási modellek nagy mértékű érvelési igénnyel dolgoztak. A keresés nem volt engedélyezve.

Általánosságban elmondható, hogy a GPT‑5‑öt arra képezték ki, hogy jobban tisztában legyen saját korlátaival, és képes legyen jobban kezelni a váratlan helyzeteket. A GPT‑5‑öt arra is betanítottuk, hogy sokkal pontosabban válaszoljon egészséggel kapcsolatos kérdésekre (többet olvashatsz erről a kutatási blogunkban). Mint minden nyelvi modell esetében, azt javasoljuk, hogy ha magas a tét, ellenőrizd a GPT‑5 munkáját.

Új funkciók

Minimális indoklási igény

A fejlesztők a GPT‑5 gondolkodási idejét az API reasoning_effort paraméterén keresztül vezérelhetik. A korábbi értékeken –low, medium (alapértelmezett) és high—mellett a GPT‑5 támogatja a minimal értéket is, amely minimalizálja a GPT‑5 indoklását, a gyors válaszok érdekében.

A magasabb reasoning_effort értékek maximalizálják a minőséget, míg az alacsonyabb értékek a sebességet. Nem minden feladat profitál egyformán a további érvelésből, ezért javasoljuk, hogy kísérletezz, hogy lásd, melyik működik a legjobban az általad fontosnak tartott felhasználási esetekben.

Például a low szint fölé emelt reasoning szinte semmit nem ad hozzá az egyszerűbb, hosszú kontextusú keresési feladatokhoz, viszont több százalékponttal javítja a teljesítményt a CharXiv Reasoning(új ablakban nyílik meg) vizuális indoklási teszten.

A GPT‑5 indoklási intenzitása különböző feladatoknál eltérő előnyöket eredményez. A CharXiv Reasoning érdekében a GPT‑5 hozzáférést kapott egy Python eszközhöz.

Részletezettség

A GPT‑5 válaszainak alapértelmezett hosszának szabályozására bevezettünk egy új API-paramétert, a verbosity-t, amely low, medium (alapértelmezett) és high értékeket vehet fel. Ha az egyértelmű utasítások ütköznek a részletességi paraméterekkel, az egyértelmű utasítások élveznek elsőbbséget. Például, ha megkéred a GPT‑5‑öt, hogy „írj egy 5 bekezdéses esszét”, a modell válasza mindig 5 bekezdésből áll, függetlenül a részletezettségi szinttől (bár maguk a bekezdések lehetnek hosszabbak vagy rövidebbek).

Részletezettség=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Részletezettség=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Részletezettség=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Parancshívás előtti bevezető üzenetek

Ha utasítást kap, a GPT‑5 felhasználó által látható preambulumüzeneteket jelenít meg a parancshívások előtt és között. Ellentétben a rejtett indoklási üzenetekkel, ezek a látható üzenetek lehetővé teszik a GPT‑5 számára, hogy kommunikálja a terveket és a haladást a felhasználóval, segítve a végfelhasználókat megérteni a megközelítést és a szándékot a parancshívások mögött.

Egyedi eszközök

Bevezetünk egy új eszköztípust—az egyéni eszközöket—, amely lehetővé teszi a GPT‑5 számára, hogy JSON helyett egyszerű szöveggel hívjon meg egy eszközt. A GPT‑5 egyéni eszközformátumok követésére a fejlesztők megadhatnak reguláris kifejezést, vagy akár egy teljesebben meghatározott kontextusfüggetlen nyelvtant(új ablakban nyílik meg).

Korábban a fejlesztők által meghatározott eszközök felületének használatához JSON-t kellett használni, amely egy általánosan használt formátum a webes API-k és a fejlesztők körében. Azonban ahhoz, hogy a JSON érvényes legyen, a modellnek hibátlanul kell „kimenekítenie” (escape-elnie) az összes idézőjelet, fordított perjelet, sortörést és egyéb vezérlőkaraktert. Bár modelljeink jól képzettek a JSON kimenet előállítására, hosszú beviteli adatok esetén, mint például több száz kódsor vagy egy 5 oldalas jelentés, a hibák valószínűsége megnő. Egyéni eszközökkel a GPT‑5 egyszerű szövegként írhatja az eszközbemeneteket anélkül, hogy el kellene kerülnie az összes kimenekítést igénylő karakterektől.

A SWE-bench Verified-on, egyedi eszközöket használva a JSON eszközök helyett, a GPT‑5 körülbelül ugyanazt a pontszámot éri el.

Biztonság

A GPT‑5 előrelépést jelent a biztonság terén, robusztusabb, megbízhatóbb és hasznosabb modell. A GPT‑5 lényegesen ritkábban ad kitalált vagy valótlan válaszokat, mint korábbi modelljeink, őszintébben közli a felhasználóval, mit csinál és mire képes, és ahol csak lehetséges, a leghasznosabb választ adja, miközben továbbra is a biztonsági kereteken belül marad. További információkat a kutatási blogunkban olvashatsz.

Elérhetőség és árak

A GPT‑5 már elérhető az API platformon három méretben: gpt-5, gpt-5-mini és gpt-5-nano. Elérhető a Responses API-n, a Chat Completions API-n, és alapértelmezett a Codex CLI-ben. A GPT‑5 ára 1,25 USD/1M beviteli token és 10 USD/1M kimeneti token, a GPT‑5 mini ára 0,25 USD/1M beviteli token és 2 USD/1M kimeneti token, míg a GPT‑5 nano ára 0,05 USD/1M beviteli token és 0,40 USD/1M kimeneti token.

Ezek a modellek támogatják a reasoning_effort és a verbosity API paramétereket, valamint az egyedi eszközöket. Támogatják a párhuzamos parancshívást, a beépített eszközöket (webes keresés, fájlkeresés, képgenerálás és még sok más), az alapvető API funkciókat (streaming, strukturált kimenetek és még sok más), valamint a költségmegtakarítási funkciókat, amilyen például az utasítás cache és a Batch API.

A ChatGPT‑ben használt GPT‑5 nem érvelő verziója elérhető az API-ban gpt-5-chat-latest néven, és ára szintén 1,25 USD/1 millió beviteli token és 10 USD/1 millió kimeneti token.

A GPT‑5‑öt a Microsoft platformjain is bevezetjük, beleértve a Microsoft 365 Copilotot, a Copilotot, a GitHub Copilotot és az Azure AI Foundry-t.

Részletes tesztek

Intelligencia
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Van egy kis eltérés az előző blogbejegyzésünkben közölt számoktól, mivel azokat Az emberiség utolsó vizsgája (Humanity's Last Exam, HLE) elnevezésű teszt egy korábbi verzióján futtatták le.

Multimodális
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Kódolás
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 E USD75 E USD49 E USD86 E USD66 E USD34 E USD31 E USD9 E USD
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Az 500 feladatból 23-at kihagytunk, mert nem voltak futtathatók az infrastruktúránkon. A 23 kihagyott feladat teljes listája: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' és 'sphinx-doc__sphinx-9367'.

Utasítás követése
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Megjegyzés: Megállapítottuk, hogy a MultiChallenge (GPT-4o) alapértelmezett osztályozója gyakran hibásan értékeli a modellválaszokat. Azt tapasztaljuk, hogy ha az osztályozót egy érvelő modellre cseréljük, például az o3-minire, az jelentősen javítja az osztályozás pontosságát az általunk vizsgált mintákon.

Függvényhívás
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Hosszú kontextus
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Valótlanság
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Szerző

OpenAI