Ugrás a fő tartalomra
OpenAI

2025. december 11.

TermékKiadás

Bemutatkozik a GPT‑5.2

A legfejlettebb élvonalbeli modell professzionális munkához és a tartósan működő ügynökök számára.

Betöltés…

Bemutatjuk a GPT‑5.2‑t, a legfejlettebb modellszériánkat a professzionális tudásalapú munkához.

Az átlagos ChatGPT Enterprise felhasználó már most azt mondja, hogy az AI napi 40-60 percet takarít meg neki, a nagy felhasználók pedig azt mondják, hogy hetente több mint 10 órát takarítanak meg vele. A GPT‑5.2‑t úgy terveztük, hogy még több gazdasági értéket teremtsen; jobban teljesít a táblázatok létrehozásában, prezentációk összeállításában, kódolásban, képek felismerésében, hosszú kontextusok megértésében, eszközök használatában, valamint összetett, többlépcsős projektek kezelésében.

A GPT‑5.2 számos benchmarkban, köztük a GDPval is új szintre lép, ahol jól meghatározott tudásalapú munkafeladatokban – mintegy 44 foglalkozási területet lefedve – az iparági szakemberek teljesítményét is felülmúlja.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (győzelmek vagy döntetlenek)
Tudásalapú munkafeladatok

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (public)
Szoftverfejlesztés

55,6%

50,8%

SWE-bench Verified
Szoftverfejlesztés

80,0%

76,3%

GPQA Diamond (eszközök nélkül)
Tudományos kérdések

92,4%

88,1%

CharXiv Reasoning (Python-nal)
Tudományos ábrák kérdései

88,7%

80,3%

HMMT (2025. február)
Matematikai verseny

99,4%

96,3%

FrontierMath (1–3. szint)
Haladó matematika

40,3%

31,0%

ARC-AGI-1 (Igazolt)
Absztrakt következtetés

86,2%

72,8%

ARC-AGI-2 (igazolva)
Absztrakt következtetés

52,9%

17,6%

A Notion(új ablakban nyílik meg), a Box(új ablakban nyílik meg), a Shopify(új ablakban nyílik meg), a Harvey(új ablakban nyílik meg) és a Zoom(új ablakban nyílik meg) megfigyelései szerint a GPT‑5.2 a hosszú távú következtetés és az eszközhívások terén is a jelenlegi csúcsteljesítményt nyújtja. A Databricks(új ablakban nyílik meg), a Hex(új ablakban nyílik meg) és a Triple Whale(új ablakban nyílik meg) kiválónak találták a GPT‑5.2‑t az ügynöki adatelemzési és dokumentum-elemzési feladatokhoz. A Cognition(új ablakban nyílik meg), a Warp(új ablakban nyílik meg), aCharlie Labs(új ablakban nyílik meg), a JetBrains(új ablakban nyílik meg) és a Augment Code(új ablakban nyílik meg) szerint a GPT‑5.2 csúcstechnológiás kódolási teljesítményt nyújt, mérhető javulásokkal olyan területeken, mint az interaktív kódolás, a kódellenőrzések és a hibakeresés.

A ChatGPT‑ben a GPT‑5.2 Az Instant, a Thinking és a Pro modellek bevezetése ma kezdődik, és először a fizetős előfizetők számára mutatjuk be. Az API-ban mostantól minden fejlesztő számára elérhetők.

Összességében a GPT‑5.2 jelentős fejlesztéseket hoz az általános intelligencia, a hosszú kontextus megértése, az agentikus eszközhívás és a látás terén—így képes hatékonyabban végrehajtani a bonyolult, valós feladatokat elejétől a végéig, mint bármely korábbi modell.

Modell teljesítmény

Gazdaságilag értékes feladatok

A GPT‑5.2 Thinking az eddigi legjobb modell valós, professzionális használatra. A GDPval-on, egy olyan értékelésen, amely 44 foglalkozási területen jól meghatározott tudásalapú feladatokat mér, a GPT‑5.2 Thinking új csúcseredményt ér el, és ez az első modellünk, amely emberi szakértői szinten vagy azt meghaladó teljesítményt nyújt. Különösen a GPT‑5.2 Thinking a GDPval tudásalapú feladatok 70,9%-ában felülmúlja vagy legalábbis eléri az iparág legjobb szakembereinek teljesítményét a szakértői értékelések szerint. Ezek a feladatok közé tartozik a prezentációk, táblázatok és más anyagok elkészítése. A GPT‑5.2 A Thinking a GDPval feladatokhoz tartozó kimeneteket több mint 11-szer gyorsabban és kevesebb mint 1%-os költséggel állította elő a szakértőkhöz képest, ami arra utal, hogy emberi felügyelettel párosítva a GPT‑5.2 segíthet a szakmai munkában. A sebességre és költségekre vonatkozó becslések korábbi mérőszámokon alapulnak; a ChatGPT‑ben tapasztalt sebesség eltérhet.

A GDPval-ban a modellek jól meghatározott tudásalapú munkát próbálnak megvalósítani, amely 44 foglalkozást ölel fel az USA GDP-jéhez leginkább hozzájáruló 9 iparágból. A feladatok valós munkatermékeket igényelnek, például értékesítési prezentációkat, könyvelési táblázatokat, sürgősségi ellátási ütemterveket, gyártási diagramokat vagy rövid videókat. A ChatGPT‑ben a GPT‑5.2 Thinking változatnak új eszközei vannak, amelyekkel a GPT‑5 Thinking nem rendelkezik.

Amikor egy különösen jó eredményt vizsgáltak, az egyik GDPval bíráló megjegyezte: „Ez egy izgalmas és észrevehető ugrás a kimenet minőségében... Úgy tűnik, mintha egy profi cég készítette volna el, szakembergárdával, és mindkét anyaghoz meglepően jól megtervezett elrendezést és tanácsokat nyújt, bár az egyikkel kapcsolatban még néhány kisebb hibát ki kell javítanunk."

Továbbá, a belső benchmarkunkban a junior befektetési banki elemzők táblázatkezelési modellezési feladatai - például egy Fortune 500 vállalat három kimutatásos modelljének összeállítása megfelelő formázással és idézetekkel, vagy egy tőkeáttételes kivásárlási modell létrehozása egy magánkézbe kerülő vállalat számára - a GPT 5.2 Thinking átlagos pontszáma feladatonként 9,3%-kal magasabb, mint a GPT‑5.1‑é, 59,1%-ról 68,4%-ra emelkedik.

Az egymás melletti összehasonlítások azt mutatják, hogy a GPT‑5.2 Thinking által generált táblázatok és prezentációk kifinomultsága és formázása javult:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Utasítás: Készíts egy munkaerő-tervezési modellt: létszámot, felvételi tervet, fluktuációt és költségvetési hatást. Szerepeljen benne a mérnöki, marketing, jogi és értékesítési osztály.

A ChatGPT új táblázatkezelési és prezentációs képességeinek használatához fizetős csomagra van szükség, és a GPT‑5.2 Thinking vagy Pro változatot kell kiválasztani. Az összetett generációk előállítása több percet is igénybe vehet.

Kódolás

A GPT‑5.2 Thinking új mércét állít fel a valós szoftvermérnöki munka szigorú értékelésére szolgáló SWE-bench Pro teszten, 55,6%-os eredménnyel. Ellentétben a SWE-bench Verified teszttel, amely csak Python nyelven tesztel, a SWE-bench Pro négy nyelvet vizsgál, és célja, hogy ellenállóbb legyen a szennyeződésekre, nagyobb kihívást jelentsen, változatosabb, és ipari szempontból relevánsabb legyen.

A SWE-bench Pro(új ablakban nyílik meg) tesztben a modell kap egy kódtárat, és egy javítást kell generálnia egy valósághű szoftverfejlesztési feladat megoldásához.

Az SWE-bench Verified teszten (nem ábrázolt), GPT‑5.2 a Thinking új csúcsot, 80%-ot ért el.

Mindennapi szakmai használatra ez egy olyan modellt jelent, amely megbízhatóbban képes hibakeresést végezni a gyártási kódon, funkciókéréseket megvalósítani, nagy kódbázisokat refaktorálni, és végponttól végpontig javításokat szállítani kevesebb manuális beavatkozással.

A GPT‑5.2 Thinking a front-end szoftverfejlesztésben is jobban teljesít, mint a GPT‑5.1 Thinking. A korai tesztelők jelentősen erősebbnek találták a front-end fejlesztésben és a komplex vagy szokatlan felhasználói felületek munkájában—különösen a  3D elemeket illetően—, így erőteljes napi partnerré vált a mérnökök számára a teljes stackben. Nézz meg néhány példát arra, hogy mi mindent tud létrehozni egyetlen utasításból:

Utasítás: Hozz létre egy egylapos appot egyetlen HTML-fájlban a következő feltételekkel:
- Név: Ocean Wave Simulation
- Cél: Valósághű animált hullámok megjelenítése.
- Funkciók: Szélsebesség, hullámmagasság, fény változtatása.
- A felhasználói felület legyen nyugtató és valósághű.

A korai tesztelők megosztották visszajelzéseiket a GPT‑5.2 kódolási képességeiről:

„A GPT-5.2 jelenti a legnagyobb ugrást a GPT modellek ügynöki kódolásában a GPT-5 óta, és csúcstechnológiás kódolási modell az árkategóriájában. A verziószám emelése alulértékeli az intelligencia valódi ugrását. Izgatottan várjuk, hogy alapértelmezett legyen a Windsurf és több alapvető Devin munkaterhelés esetében.”
Jeff Wang, vezérigazgató, Windsurf

Tényszerűség

A GPT‑5.2 Thinking kevesebbet hallucinál, mint a GPT‑5.1. Egy anonimizált ChatGPT‑lekérdezéskészleten a hibás válaszok 38%-kal rel ritkábban fordultak elő. A szakemberek számára ez azt jelenti, hogy a modell használatakor kevesebb hiba történik kutatás, írás, elemzés és döntéstámogatás során—így megbízhatóbbá válik a mindennapi tudásalapú munkában.

Az érvelési erőfeszítést a maximálisan elérhető szintre állították, és egy keresőeszköz engedélyezése megtörtént. A hibákat más olyan modellek észlelték, amelyek maguk is hibákat okozhatnak. A követelési szintű hibaarányok sokkal alacsonyabbak, mint a válasz szintű hibaarányok, mivel a legtöbb válasz sok követelést tartalmaz.

Mint minden modell, a GPT‑5.2 Thinking sem tökéletes. Bármilyen kritikus esetben ellenőrizd le a válaszokat.

Hosszú kontextus

A GPT‑5.2 Thinking új mércét állít fel a hosszú kontextusú érvelés terén, vezető teljesítményt ér el az OpenAI MRCRv2-n—azon az értékelésen, amely a modell képességét vizsgálja, hogy hosszú dokumentumokban szétszórt információkat integráljon. A valós világban végzett feladatokat, mint például a mély dokumentumelemzés, amely több százezer tokenen keresztül kapcsolódó információkat igényel, a GPT‑5.2 Thinking lényegesen pontosabban képes kezelni, mint a GPT‑5.1 Thinking. Különösen fontos, hogy ez az első modell, amellyel találkoztunk, és amely a 4-tűs MRCR változaton (akár 256 000 tokenig) közel 100%-os pontosságot ér el.

Gyakorlati szempontból ez lehetővé teszi a szakemberek számára, hogy a GPT‑5.2‑t hosszú dokumentumokkal—mint például jelentések, szerződések, kutatási anyagok, átiratok és többfájlos projektek—dolgozzanak, miközben fenn tudják tartani a koherenciát és a pontosságot több százezer tokenen keresztül. Ez különösen alkalmassá teszi a GPT‑5.2‑t a mélyelemzésre, szintézisre és összetett, több forrásból származó munkafolyamatokra.

Az OpenAI-MRCR⁠(új ablakban nyílik meg) v2 (többkörös ko-referencia felbontás) során több azonos „tű” felhasználói kérést illesztenek hosszú, hasonló kérésekből és válaszokból álló „szénakazalba”, és a modellt arra kérik, hogy reprodukálja az n-edik tűre adott választ. „Az értékelés 2. verziója körülbelül 5%-kal javította azokat a feladatokat, amelyeknél a kiinduló (helyes) értékek hibásak voltak. A „mean match ratio” az átlagos szövegegyezési arányt méri a modell válasza és a helyes megoldás között. A 256 000 maximális bemeneti tokenhez tartozó pontok az 128 000–256 000 token közötti átlagokat képviselik, és így tovább. Itt a 256 000 token valójában 256 × 1 024 = 262 144 tokennek felel meg. A gondolkodási erőfeszítés a rendelkezésre álló maximumra lett állítva.

Azoknál a feladatoknál, amelyek előnyt élveznek a maximális kontextusablakon túli gondolkodásból, a GPT‑5.2 Thinking kompatibilis az új Responses /compact végpontunkkal, amely kiterjeszti a modell hatékony kontextusablakát. Ez lehetővé teszi a GPT‑5.2 Thinking számára olyan eszközigényes, hosszú lefutású munkafolyamatok kezelését, amelyeket egyébként a korlátozott kontextushossza limitálna. További részletek az API dokumentációnkban(új ablakban nyílik meg).

Vízió

A GPT‑5.2 Thinking az eddigi legerősebb vizuális modellünk, amely körülbelül a felére csökkenti a hibaarányt diagramok értelmezésében és szoftverfelületek megértésében.

A mindennapi professzionális használat kapcsán ez azt jelenti, hogy a modell pontosabban tudja értelmezni az irányítópultokat, termékképernyőképeket, technikai diagramokat és vizuális jelentéseket—támogatva a munkafolyamatokat a pénzügy, üzemeltetés, mérnöki munka, tervezés és ügyfélszolgálat területén, ahol a vizuális információ központi szerepet játszik.

A CharXiv Reasoning(új ablakban nyílik meg) során a modellek tudományos cikkek vizuális diagramjaira vonatkozó kérdésekre válaszolnak. Egy Python eszköz engedélyezve lett, és az érvelési erőfeszítés maximálisra lett állítva.

A ScreenSpot-Pro(új ablakban nyílik meg) esetében a modelleknek különböző szakmai környezetek grafikus felhasználói felületeinek nagy felbontású képernyőképein kell megindokolniuk. Egy Python eszköz engedélyezve lett, és az indoklási erőfeszítés maximálisra lett állítva. Python eszköz nélkül az eredmények sokkal alacsonyabbak. Javasoljuk a Python eszköz engedélyezését az ilyen víziós feladatokhoz.

A GPT‑5.2 Thinking összehasonlítva a korábbi modellekkel jobban átlátja, hogyan helyezkednek el az elemek egy képen belül, ami segít az olyan feladatoknál, ahol a relatív elrendezés kulcsszerepet játszik a probléma megoldásában. Az alábbi példában arra kérjük a modellt, hogy azonosítsa a komponenseket egy képbevitelben (ebben az esetben egy alaplap), és adjon vissza címkéket hozzávetőleges határoló dobozokkal. A GPT‑5.2 még egy rossz minőségű képen is azonosítja a fő régiókat, és olyan dobozokat helyez el, amelyek nagyjából megfelelnek az egyes komponensek valódi helyének, míg a GPT‑5.1 csak néhány részt jelöl meg, és sokkal gyengébben érti azok térbeli elrendezését.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Parancshívás

A GPT‑5.2 Thinking új csúcsteljesítményt ér el a Tau2-bench Telecom teszten 98,7%-os eredménnyel, bemutatva képességét, hogy megbízhatóan használja az eszközöket hosszú, többfordulós feladatok során.

A késésre érzékeny felhasználási esetekhez a GPT‑5.2 Thinking sokkal jobban teljesít az érvelésben is, amikor a reasoning.effort=none, jelentősen felülmúlva a GPT‑5.1‑et és a GPT‑4.1‑et.

A τ2-bench⁠(új ablakban nyílik meg) keretében a modellek eszközöket használnak ügyfélszolgálati feladatok elvégzésére többszörös interakció során egy szimulált felhasználóval. A Telecom domainhez egy rövid, általánosan hasznos utasítást adtunk a rendszer utasításához a teljesítmény növelése érdekében. Az Airline részhalmazt kizárjuk az alacsonyabb minőségű alapigazság értékelés miatt.

A szakemberek számára ez erősebb végponttól végpontig tartó munkafolyamatokat jelent—mint például az ügyfélszolgálati esetek megoldása, adatok lehívása több rendszerből, elemzések futtatása és végső kimenetek generálása kevesebb megszakítással a lépések között.

Például, ha egy összetett ügyfélszolgálati kérdést teszel fel, amely többlépcsős megoldást igényel, a modell hatékonyabban tudja koordinálni a teljes munkafolyamatot több ügynök között. Az alábbi esetben egy utas arról számol be, hogy a járata késve indult, lekéste az átszállást, egy éjszakát New Yorkban kellett töltenie, és orvosi okokból speciális ülésre volt szüksége. A GPT‑5.2 kezeli a teljes feladatsort—újrafoglalás, speciális ülőhely és kártérítés—teljesebb eredményt nyújtva, mint a GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Tudomány & matematika

Az egyik reményünk az AI-jal kapcsolatban az, hogy felgyorsítja a tudományos kutatást, és ezáltal mindenki javát szolgálja. Ennek érdekében kutatókkal dolgozunk együtt, és figyelünk a visszajelzéseikre, hogy megértsük, miként gyorsíthatja fel az AI a munkájukat; a múlt hónapban pedig megosztottunk néhány korai, együttműködésen alapuló kísérletet itt.

Úgy véljük, hogy a GPT‑5.2 Pro és a GPT‑5.2 Thinking a világon a legjobb modellek a tudósok támogatására és munkájuk felgyorsítására. A GPQA Diamond teszten, egy posztgraduális szintű Google-biztos kérdés-válasz teszten, a GPT‑5.2 Pro 93,2%-ot ér el, melyet szorosan követ a GPT‑5.2 Thinking 92,4%-os eredménnyel.

A GPQA Diamond(új ablakban nyílik meg) esetében a modellek többszörös választás kérdésekre válaszolnak fizikából, kémiából és biológiából. Eszköz nem volt engedélyezve, és az érvelési erőfeszítés maximálisra volt állítva.

A FrontierMath (1–3. szint) professzionális szintű matematikai értékelésen a GPT‑5.2 Thinking új csúcsot állított fel, megoldva a problémák 40,3%-át.

A FrontierMath(új ablakban nyílik meg) programban a modellek szakértői szintű matematikai problémákat oldanak meg. Egy Python eszköz került engedélyezésre, az érvelési erőfeszítést pedig maximálisra állították.

Már látjuk, hogy az AI-modellek jelentős mértékben felgyorsítják a haladást a matematikában és a tudományban, méghozzá kézzelfogható módon. Például, a legutóbbi munkában a GPT‑5.2 Pro-val, a kutatók egy nyitott kérdést vizsgáltak a statisztikai tanuláselmélet területén. Egy szűk, jól meghatározott környezetben a modell egy bizonyítást javasolt, amelyet a szerzők később igazoltak és külső szakértőkkel átnéztek, bemutatva, hogyan segíthetik az élvonalbeli modellek a matematikai kutatást szoros emberi felügyelet mellett.

ARC-AGI 2

Az ARC-AGI-1 (Verified), az általános gondolkodási képesség mérésére tervezett benchmarkon a GPT‑5.2 az első modell, amely átlépte a 90% küszöböt, javítva az o3‑preview tavalyi 87% értékén, miközben a teljesítmény elérésének költségei nagyjából 390-szeresére csökkentek.

Az ARC-AGI-2 (igazolt) teszten, amely növeli a nehézséget és jobban elkülöníti a fluid következtetést, a GPT‑5.2 A Thinking új csúcsteljesítményt ér el a chain-of-thought modellek között, 52,9%-os eredménnyel. A GPT‑5.2 Pro még magasabb teljesítményt nyújt, elérve az 54,2%-ot, tovább bővítve a modell képességét az új, absztrakt problémák indoklására.

Az ezekben az értékelésekben tapasztalt javulások a GPT‑5.2 erősebb többlépéses következtetési képességeit, nagyobb kvantitatív pontosságát, valamint összetett technikai feladatok esetén megbízhatóbb problémamegoldását tükrözik.

Íme, mit mondanak korai tesztelőink a GPT‑5.2‑ről:

"A GPT-5.2 megnyitotta számunkra a lehetőséget egy teljes architektúraváltásra. Egy törékeny, többügynökös rendszert egyetlen mega-ügynökké alakítottunk, amely több mint 20 eszközzel rendelkezik. A legjobb az egészben, hogy egyszerűen működik. A mega-ügynök gyorsabb, okosabb és 100-szor könnyebben karbantartható. Jelentősen alacsonyabb késést, sokkal erősebb eszközhívást tapasztalunk, és már nincs szükségünk kiterjedt rendszerutasításokra, mert az 5.2 tisztán végrehajtja az egyszerű, egysoros utasításokat. Mintha maga a varázslat lenne."
AJ Orbach, Vezérigazgató, Triple Whale

GPT‑5.2 a ChatGPT‑ben

A ChatGPT‑ben a felhasználóknak észre kell venniük, hogy a GPT‑5.2‑t jobb érzés a mindennapokban használni –strukturáltabb, megbízhatóbb, és még mindig élvezetes a beszélgetés.

A GPT‑5.2 Instant egy gyors, alkalmas munkagép a mindennapi munkához és tanuláshoz, amely egyértelmű fejlesztéseket tartalmaz az információkereső kérdések, a hogyan-ok és az átvezetések, a technikai írás és a fordítás terén, a GPT‑5.1 Instantban bevezetett közvetlenebb, társalgási hangnemre építve. A korai tesztelők különösen megjegyezték a világosabb magyarázatokat, amelyek azonnal felszínre hozzák a kulcsfontosságú információkat.

A GPT‑5.2 Thinking az elmélyült munkához készült, segít a felhasználóknak az összetettebb feladatok nagyobb csiszoltsággal történő kezelésében – különösen a kódolás, a hosszú dokumentumok összefoglalása, a feltöltött fájlokkal kapcsolatos kérdések megválaszolása, a matematika és a logika lépésről lépésre történő feldolgozása, valamint a tervezés és a döntések támogatása világosabb struktúrával és hasznosabb részletességgel.

A GPT‑5.2 Pro a legokosabb és legmegbízhatóbb lehetőségünk a nehéz kérdésekhez, ahol a magasabb minőségű válasz megéri a várakozást, a korai tesztek pedig kevesebb súlyos hibát és erősebb teljesítményt mutatnak a komplex területeken, például a programozásban.

Biztonság

A GPT‑5.2 a GPT‑5‑tel bemutatott biztonságos befejezés kutatáson alapul, amely megtanítja a modellt arra, hogy a lehető leghasznosabb választ adja, miközben a biztonsági határokon belül marad.

Ezzel a kiadással folytattuk munkát annak érdekében, hogy megerősítsük modelljeink válaszait az érzékeny beszélgetések során, jelentős javulást értünk el abban, ahogyan a modellek reagálnak az öngyilkosságra vagy önkárosításra utaló jeleket, mentális egészségi nehézségeket, illetve a modellhez való érzelmi kötődést jelző promptokra. Ezek a célzott beavatkozások kevesebb nem kívánt választ eredményeztek mind a GPT‑5.2 Instant, mind pedig a GPT‑5.2 Thinking esetében, a GPT‑5.1, a GPT‑5 Instant és a Thinking modellekhez képest. További részleteket a rendszerkártyán találsz.

Az életkor-előrejelző modellünk bevezetésének korai szakaszában vagyunk, hogy automatikusan tudjuk alkalmazni a tartalomvédelmet a 18 év alatti felhasználók esetében, hogy korlátozzuk a hozzáférést az érzékeny tartalmakhoz. Ez a már meglévő megoldásunkra épít, amely a 18 év alatti felhasználókat és a szülői felügyeleti beállításokat kezeli.

A GPT‑5.2 csak egy lépés a folyamatos fejlesztések sorában, és még messze nem értünk a végére. Bár ez a kiadás jelentős előrelépést hoz az intelligencia és a termelékenység terén, tudjuk, hogy vannak területek, ahol az emberek még többre vágynak. A ChatGPT‑nél azon dolgozunk, hogy megoldjuk az ismert problémákat, mint például a túlzott elutasítások, miközben folytatjuk a biztonság és megbízhatóság színvonalának emelését. Ezek a változtatások összetettek, és minden energiánkkal azon vagyunk, hogy jól hajtsuk végre őket.

Mentális egészséggel kapcsolatos értékelések


GPT‑5.2 Instant

GPT‑5.1 Instant

GPT‑5.2 Thinking

GPT‑5.1
Thinking

Mentális egészség

0,995

0,883

0,915

0,684

Emotional reliance

0,938

0,945

0,955

0,785

Önkárosítás

0,938

0,925

0,963

0,937

Elérhetőség és árak

A ChatGPT‑ben ma kezdjük meg a GPT‑5.2 (Instant, Thinking és Pro) bevezetését, először a fizetős csomagokban (Plus, Pro, Go, Business, Enterprise). A GPT‑5.2 fokozatos bevezetésével igyekszünk a ChatGPT‑t a lehető legzökkenőmentesebbé és legmegbízhatóbbá tenni; ha elsőre nem látod, kérjük, próbáld meg később újra. A ChatGPT‑ben a GPT‑5.1 még három hónapig elérhető lesz a fizetős felhasználók számára a régi modellek keretében, ezt követően a GPT‑5.1‑t leállítjuk.

Modellek elnevezése a ChatGPT‑ben és az API-ban

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Az API platformunkon a GPT‑5.2 Thinking ma elérhető a Responses API-ban és a Chat Completions API-ban mint gpt-5.2, és a GPT‑5.2 Instant mint GPT‑5.2‑chat‑latest. A GPT‑5.2 Pro elérhető a Válaszok API-ban gpt-5.2-pro néven. A fejlesztők mostantól beállíthatják az indoklás paramétert a GPT‑5.2 Pro-ban, és mind a GPT‑5.2 Pro, mind a GPT‑5.2 Thinking támogatja az új, ötödik indoklási szintet, az xhigh-t, azokra a feladatokra, ahol a minőség a legfontosabb.

A GPT‑5.2 ára 1,75 $/1M input token és 14 $/1M output token, 90% kedvezményt adva a gyorsítótárazott inputokra. Több ügynöki értékelés során azt találtuk, hogy a GPT‑5.2 esetében a tokenenkénti költség magasabb, a kívánt minőségi szint elérésének költsége végül olcsóbb lett a GPT‑5.2 nagyobb tokenhatékonysága miatt.

Miközben a ChatGPT előfizetés árképzése változatlan marad, az API-ban a GPT‑5.2 tokenenként magasabb árazású, mint a GPT‑5.1, révén fejlettebb modell. Még mindig alacsonyabb árú, mint más fejlett modellek, így az emberek tovább használhatják napi munkájukban és alapvető alkalmazásaikban.

Ár millió tokenenként

Modell

bevitel

Gyorsítótárazott bevitel

Kimenet

gpt-5.2 /
gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 /
gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

$120

Jelenleg nem tervezzük a GPT‑5.1, a GPT‑5, vagy az API-ban a GPT‑4.1 megszüntetését, és bármilyen kivezetési tervről jó előre értesítjük a fejlesztőket. Bár a GPT‑5.2 már az alapértelmezett beállításokkal is jól fog működni a Codexben, várhatóan a következő hetekben kiadjuk Codexhez optimalizált GPT‑5.2 verziót.

Partnereink

A GPT‑5.2 az NVIDIA-val és a Microsofttal való hosszú távú partnereinkkel együttműködésben készült. Az Azure adatközpontok és az NVIDIA GPU-k, beleértve a H100, H200 és GB200-NVL72 modelleket, az OpenAI nagyszabású betanítási infrastruktúrájának alapját képezik, jelentős előrelépéseket eredményezve a modellek intelligenciájában. Ez az együttműködés lehetővé teszi számunkra, hogy magabiztosan bővítsük a számítási kapacitást, és gyorsabban vigyük piacra az új modelleket.

Függelék

Részletes tesztek

Az alábbiakban a GPT‑5.2 Thinking átfogó benchmark-eredményeit közöljük, valamint ezek egy részhalmazát a GPT‑5.2 Pro esetében.

Professzionális
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Kódolás
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Tényszerűség
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Hosszú kontextus
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vízió
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Eszközhasználat
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Tudományos
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Absztrakt indoklás
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

A modelleket az API-nkban elérhető maximális indoklási ráfordítással futtattuk (xhigh a GPT‑5.2 Thinking & Pro, és magas a GPT‑5.1 Thinking esetében, kivéve a professzionális értékeléseket, ahol a GPT‑5.2 Thinking a ChatGPT Pro-ban a maximálisan elérhető indoklási ráfordítással futott. A benchmarkokat kutatási környezetben végezték, ami bizonyos esetekben kissé eltérő eredményeket adhat, mint a ChatGPT termelési verziója.

* A SWE-Lancer esetében kihagytunk 40-et a 237 problémából, mert nem futottak az infrastruktúránkon.

Szerző

OpenAI