Ugrás a fő tartalomra
OpenAI

2026. április 23.

TermékKiadás

Bemutatkozik a GPT‑5.5

Az intelligencia új szintje a valódi munkához

Betöltés…

Frissítés: 2026. április 24-én a GPT‑5.5 és a GPT‑5.5 Pro már elérhető az API-ban. A rendszerkártyát is frissítettük, hogy leírjuk az alkalmazott további védelmi intézkedéseket.


Bemutatjuk a GPT‑5.5‑öt, az eddigi legokosabb és legintuitívabban használható modellünket, valamint a következő lépést afelé, hogy új módon végezhessük el a munkát a számítógépen.

A GPT‑5.5 gyorsabban megérti, mit szeretnél csinálni, és önállóbban el tudja végezni a munka nagyobb részét. Kiemelkedik a kódírásban és a hibakeresésben, az online kutatásban, az adatelemzésben, a dokumentumok és táblázatok készítésében, a szoftverek használatában, valamint az eszközök közötti váltásban, amíg egy feladat el nem készül. Ahelyett, hogy minden lépést gondosan kézben tartanod kellene, adhatsz a GPT‑5.5‑nek egy rendezetlen, több részből álló feladatot, és megbízhatsz benne, hogy megtervezi, eszközöket használ, ellenőrzi a saját munkáját, eligazodik a kétértelműségekben, és tovább halad.

Az előrelépések különösen jelentősek az ügynökalapú kódolás, a számítógép-használat, a tudásmunka és a korai szakaszban lévő tudományos kutatás terén — olyan területeken, ahol a fejlődés a kontextusok közötti érveléstől és az időben elnyúló cselekvéstől függ. A GPT‑5.5 ezt az intelligenciaszintbeli előrelépést anélkül nyújtja, hogy a sebesség rovására menne: a nagyobb, fejlettebb modellek kiszolgálása gyakran lassabb, de a GPT‑5.5 valós használati környezetben a GPT‑5.4 token késleltetését hozza, miközben jóval magasabb intelligenciaszinten teljesít. Ugyanazon Codex-feladatok elvégzéséhez jelentősen kevesebb tokent használ, így nemcsak hatékonyabb, hanem nagyobb képességű is.

Kiadjuk a GPT‑5.5‑öt az eddigi legerősebb védelmi intézkedéseinkkel együtt, amelyeket úgy alakítottunk ki, hogy csökkentsék a visszaélések lehetőségét, miközben megőrzik a hozzáférést a hasznos célú felhasználások számára. A megjelenés előtt ezt a modellt biztonsági és felkészültségi keretrendszereink teljes körén értékeltük, belső és külső red team szakértőkkel dolgoztunk együtt, célzott teszteléssel egészítettük ki a fejlett kiberbiztonsági és biológiai képességek vizsgálatát, valamint közel 200 megbízható korai hozzáférésű partnertől gyűjtöttünk visszajelzéseket valós használati esetekről.

Ma a GPT‑5.5 elérhetővé válik a Plus, Pro, Business és Enterprise felhasználók számára a ChatGPT‑ben és a Codexben, míg a GPT‑5.5 Pro a Pro, Business és Enterprise felhasználók számára lesz elérhető a ChatGPT‑ben. Az API-k telepítése különböző védelmi intézkedéseket igényel, és szorosan együttműködünk partnereinkkel és ügyfeleinkkel a biztonsági és védelmi követelmények kidolgozásában a nagyléptékű üzemeltetés érdekében. Hamarosan elérhetővé tesszük a GPT‑5.5‑öt és a GPT‑5.5 Pro-t az API-n keresztül.

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75,1%

-

-

69,4 %

68,5%

Expert-SWE (belső)

73,1%

68,5%

-

-

-

-

GDPval (győzelmek vagy döntetlenek)

84,9%

83.0%

82,3%

82,0%

80,3%

67.3%

OSWorld-Verified

78,7%

75.0%

-

-

78,0%

-

Toolathlon

55,6%

54,6%

-

-

-

48,8%

BrowseComp

84,4%

82.7%

90.1%

89,3%

79,3%

85,9%

FrontierMath 1–3. szint

51,7 %

47,6%

52.4%

50,0%

43,8%

36,9%

FrontierMath 4. szint

35,4%

27,1%

39,6%

38,0%

22,9%

16,7%

CyberGym

81,8 %

79,0%

-

-

73,1%

-

A modellek képességei

Az OpenAI az ügynökalapú AI globális infrastruktúráját építi, lehetővé téve, hogy az emberek és a vállalkozások világszerte AI segítségével végezzék el a munkájukat. Az elmúlt évben azt tapasztaltuk, hogy az AI jelentősen felgyorsította a szoftverfejlesztést. A GPT‑5.5‑tel a Codexben és a ChatGPT‑ben ugyanez az átalakulás kezd kiterjedni a tudományos kutatásra és arra a szélesebb körű munkára, amelyet az emberek számítógépeken végeznek.

Ezeken a területeken a GPT‑5.5 nemcsak intelligensebb, hanem hatékonyabban is dolgozik a problémák megoldásán, és gyakran jobb minőségű eredményeket ér el kevesebb tokennel és kevesebb újrapróbálkozással. Az Artificial Analysis Coding Index szerint a GPT‑5.5 csúcstechnológiás intelligenciát nyújt, fele akkora költséggel, mint a versenytárs élvonalbeli modell.

A(z) Artificial Analysis Intelligence Index(új ablakban nyílik meg) egy külső fél által végzett 10 értékelés súlyozott átlaga: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Ügynöki programozás

A GPT‑5.5 az eddigi legerősebb ügynöki kódolási modellünk. A Terminal-Bench 2.0-n, amely tervezést, iterációt és az eszközök összehangolt használatát igénylő, összetett parancssori munkafolyamatokat tesztel, 82,7%-os, jelenleg legjobb pontosságot ér el. A SWE-Bench Pro teszteli a valós GitHub-problémák megoldását, 58,6%-ot ér el, és egyetlen futásban több feladatot old meg végponttól végpontig, mint a korábbi modellek. A Expert-SWE esetében a hosszú távú kódolási feladatokra szolgáló belső élvonalbeli értékelésünkön, amelyek becsült medián emberi teljesítési ideje 20 óra, a GPT‑5.5 szintén felülmúlja a GPT‑5.4‑et.

Mindhárom értékelésben a GPT‑5.5 felülmúlja a GPT‑5.4 pontszámait, miközben kevesebb tokent használ.

A modell kódolási erősségei különösen jól megmutatkoznak a Codexben, ahol képes mérnöki feladatokat végezni, a megvalósítástól és refaktorálástól kezdve a hibakeresésen, tesztelésen és ellenőrzésen át. A korai tesztek arra utalnak, hogy a GPT‑5.5 jobban teljesít azokban a viselkedésekben, amelyekre a valódi mérnöki munka támaszkodik, például megőrzi a kontextust nagy rendszereken átívelően, eligazodik a kétértelmű hibákban, ellenőrzi a feltételezéseit eszközök segítségével, és végigvezeti a módosításokat a kapcsolódó kódbázison.

A megjelenített pálya a NASA/JPL Horizons vektoradatait használja az Orionra, a Holdra és a Napra vonatkozóan, az olvashatóság érdekében alkalmazott megjelenítési skálázással.

Utasítás: [mellékelt kép] Implementáld ezt új alkalmazásként WebGL és Vite használatával, az Artemis II küldetés valós adatait felhasználva. Ügyelj arra, hogy alaposan teszteld az appot addig, amíg teljesen működőképes nem lesz, és úgy nem néz ki, mint a képen látható app. Ügyeljen a bolygók és a repülési útvonalak megjelenítésére. Szeretnék interakcióba léphessek a 3D-s megjelenítéssel. Gondoskodj róla, hogy valósághű pályamechanikával rendelkezzen.

A benchmarkokon túl a korai tesztelők szerint a GPT‑5.5 jobban képes átlátni egy rendszer felépítését: miért hibásodik meg valami, hová kell kerülnie a javításnak, és a kódbázisban mi mindenre lenne még hatással.

alt

„Az első kódolási modell, amit használtam, amely komoly fogalmi tisztánlátással rendelkezik.”

Dan Shipper, az Every alapítója és vezérigazgatója a GPT‑5.5‑öt úgy jellemezte, mint „az első kódolási modellt, amelyet használtam, és amely valóban komoly fogalmi tisztasággal rendelkezik.”

Egy alkalmazás elindítása után napokat töltött egy bevezetés utáni hiba hibakeresésével, mielőtt bevonta egyik legjobb mérnökét, hogy újraírja a rendszer egy részét. A GPT‑5.5 teszteléséhez mintegy visszatekerte az időt: vajon a modell képes lenne-e a hibás állapotot megvizsgálva ugyanolyan jellegű átírást létrehozni, amelyet a mérnök végül választott? A GPT‑5.4 nem volt rá képes. A GPT‑5.5 igen.

alt

„Tényleg olyan érzés, mintha egy magasabb intelligenciával dolgoznék együtt, és szinte a tisztelet érzése is megjelenik.”

Pietro Schirano, a MagicPath vezérigazgatója hasonló jelentős előrelépést tapasztalt, amikor a GPT‑5.5 egy több száz frontenddel és refaktorálással kapcsolatos módosítást tartalmazó ágat egy olyan főágba egyesített, amely szintén jelentősen megváltozott, és a munkát egy lépésben, körülbelül 20 perc alatt oldotta meg.

A modellt tesztelő vezető mérnökök szerint a GPT‑5.5 érvelésben és autonómiában észrevehetően erősebb volt, mint a GPT‑5.4 és a Claude Opus 4.7. Előre észlelte a problémákat, és külön utasítás nélkül előre jelezte a tesztelési és felülvizsgálati igényeket. Egy esetben egy mérnök arra kérte, hogy tervezze újra egy együttműködésre épülő markdown-szerkesztő kommentrendszerét. Amikor visszatért, egy 12 diffből álló, szinte teljesen kész stack fogadta. Mások szerint meglepően kevés implementációs korrekcióra volt szükségük, és magabiztosabbnak érezték magukat a GPT‑5.5 terveivel kapcsolatban, mint a GPT‑5.4 esetében.

Az NVIDIA egyik mérnöke, aki korai hozzáférést kapott a modellhez, így fogalmazott: „A GPT‑5.5‑höz való hozzáférés elvesztése olyan, mintha amputálták volna az egyik végtagomat.”

„A GPT-5.5 észrevehetően okosabb és kitartóbb, mint a GPT-5.4, erősebb kódolási teljesítménnyel és megbízhatóbb eszközhasználattal. Sokkal hosszabb ideig képes a feladatra összpontosítani anélkül, hogy idő előtt leállna, ami különösen fontos azoknál a komplex, hosszú távú feladatoknál, amelyeket a felhasználóink a Cursornak delegálnak.”
– Michael Truell, társalapító és vezérigazgató, Cursor

Tudásalapú munka

Ugyanazok az erősségek, amelyek nagyszerűvé teszik a GPT‑5.5‑öt a kódolásban, a mindennapi számítógépes munkavégzéshez is hatékony eszközzé teszik. Mivel a modell jobban érti a szándékot, természetesebben tud végighaladni a tudásmunka teljes körfolyamatán: információt találni, megérteni, mi számít igazán, eszközöket használni, ellenőrizni a kimenetet, és a nyersanyagból valami hasznosat létrehozni.

A Codexben a GPT‑5.5 jobban teljesít a dokumentumok, táblázatok és prezentációk létrehozásában, mint a GPT‑5.4. Az alfa tesztelők szerint a korábbi modelleket is felülmúlta olyan feladatokban, mint az operációkutatás, a táblázatmodellezés és a rendezetlen üzleti bemenetek tervekké alakítása. A Codex számítógép-használati képességeivel kombinálva a GPT‑5.5 közelebb visz ahhoz az élményhez, hogy a modell valóban képes veled együtt használni a számítógépet: látja, mi van a képernyőn, kattint, gépel, navigál a felületeken, és pontosan mozog az eszközök között.

Az OpenAI csapatai már használják ezeket az erősségeket valós munkafolyamatokban. Ma a vállalat több mint 85%-a hetente használja a Codexet különböző területeken, többek között a szoftverfejlesztésben, a pénzügyben, a kommunikációban, a marketingben, az adattudományban és a termékmenedzsmentben. A Comms csapata a Codexben futó GPT‑5.5‑öt használta, hogy elemezze hat hónap beszédkérelmi adatait, pontozási és kockázati keretrendszert hozzon létre, és validáljon egy automatizált Slack-ügynököt. Az alacsony kockázatú kérelmek automatikusan kezelhetők, míg a magasabb kockázatú kérelmek továbbra is emberi felülvizsgálatra kerülnek. A pénzügyi csapat a Codexet használta 24 771 darab, összesen 71 637 oldalas K-1-es adónyomtatvány átvizsgálására. Egy olyan munkafolyamatot alkalmaztak, amely kizárta a személyes adatokat, és két héttel gyorsabbá tette a feladat elvégzését az előző évhez képest. A piaci bevezetési csapatban egy alkalmazott automatizálta a heti üzleti jelentések készítését, amivel hetente 5–10 órát takarít meg.

A ChatGPT‑ben a GPT‑5.5 Thinking gyorsabb segítséget nyújt a nehezebb problémákhoz, okosabb és tömörebb válaszokkal segítve, hogy hatékonyabban haladhass az összetett munkával. Kiemelkedően teljesít olyan szakmai feladatokban, mint a kódolás, a kutatás, az információk szintetizálása és elemzése, valamint a dokumentumigényes feladatok, különösen bővítmények használatakor.

A korai tesztelők a GPT‑5.5 Pro esetében jelentős előrelépést tapasztalnak mind az elvégezhető feladatok összetettségében, mind azok minőségében. A késleltetési javulások sokkal praktikusabbá teszik a ChatGPT‑t az igényes feladatokhoz. A GPT‑5.4 Pro-hoz képest a tesztelők úgy találták, hogy a GPT‑5.5 Pro válaszai jelentősen átfogóbbak, jobban strukturáltak, pontosabbak, relevánsabbak és hasznosabbak. Különösen erős teljesítményt nyújt az üzleti, jogi, oktatási és adattudományi területeken.

A GPT‑5.5 több, ezt a fajta munkát tükröző benchmarkon is csúcsteljesítményt ér el. A GDPval⁠ benchmarkon, amely 44 foglalkozásban teszteli az ügynökök jól meghatározott tudásalapú munkavégzésre való képességét, a GPT‑5.5 84,9%-os eredményt ér el. Az OSWorld-Verified benchmarkon, amely azt méri, hogy a modell képes-e önállóan valódi számítógépes környezetekben működni, 78,7%-ot ér el. A Tau2-bench Telecom benchmarkon, amely összetett ügyfélszolgálati munkafolyamatokat tesztel, 98,0%-ot ér el utasítás hangolás nélkül. A GPT‑5.5 más, tudásmunkával kapcsolatos benchmarkokon is erősen teljesít: FinanceAgent esetében 60,0%-ot, belső befektetési banki modellezési feladatokban 88.5%-ot, az OfficeQA Pro esetében pedig 54,1%-ot ér el.

A Tau2-bench Telecomot utasítás hangolás nélkül futtatták (és GPT‑4.1‑et használtak felhasználói modellként). A GPT‑5.5 jobban megérti a feladat szándékát, és tokenhatékonyabb, mint az elődei.

„A GPT-5.5 a végrehajtásigényes feladatokhoz szükséges tartós teljesítményt nyújt. Az NVIDIA GB200 NVL72 rendszerekre építve és azokon futtatva a modell lehetővé teszi csapataink számára, hogy természetes nyelvű utasításokból végponttól végpontig terjedő funkciókat szállítsanak, a hibakeresési időt napokról órákra csökkentsék, és az összetett kódbázisokban a heteken át tartó kísérletezést egyik napról a másikra elért előrelépéssé alakítsák. Ez több, mint gyorsabb kódolás – egy új munkamódszer, amely segít az embereknek alapvetően más tempóban dolgozni.”
– Justin Boitano, az NVIDIA vállalati AI-ért felelős alelnöke

Tudományos kutatás

A GPT‑5.5 a tudományos és műszaki kutatási munkafolyamatokban is előrelépést mutat, amelyek többek között többet igényelnek, mint egy nehéz kérdés megválaszolása. A kutatóknak meg kell vizsgálniuk egy ötletet, bizonyítékokat kell gyűjteniük, tesztelniük kell a feltételezéseket, értelmezniük kell az eredményeket, és el kell dönteniük, mit próbáljanak ki legközelebb. A GPT‑5.5 jobban képes végig kitartani ebben a folyamatban, mint más modellek.

Figyelemre méltó, hogy a GPT‑5.5 egyértelmű javulást mutat a GPT‑5.4‑hez képest az GeneBench(új ablakban nyílik meg) nevű új értékelésen, amely a genetika és a kvantitatív biológia területén végzett többlépcsős tudományos adatelemzésre összpontosít. Ezek a problémák megkövetelik, hogy a modellek minimális felügyeleti útmutatás mellett következtessenek a potenciálisan kétértelmű vagy hibás adatokra, kezeljék az olyan valósághű akadályokat, mint a rejtett zavaró tényezők vagy a QC-hibák, valamint helyesen megvalósítsák és értelmezzék a modern statisztikai módszereket. A modell teljesítménye figyelemre méltó annak fényében, hogy az itt szereplő feladatok gyakran többnapos projekteknek felelnek meg a tudományos szakértők számára.

Hasonlóképpen, a valós bioinformatikai és adatelemzési feladatokra épülő BixBench(új ablakban nyílik meg) benchmarkon a GPT‑5.5 a nyilvánosan közzétett eredményekkel rendelkező modellek között a legjobb teljesítményt érte el. A modell tudományos képességei mára elég erősek ahhoz, hogy valódi társkutatóként érdemben felgyorsítsák az előrehaladást a biomedikai kutatás élvonalában.

Egy másik példában a GPT‑5.5 egyéni tesztkörnyezettel ellátott belső verziója segített felfedezni egy új bizonyítást(új ablakban nyílik meg) a Ramsey-számokról, amelyek a kombinatorika egyik központi fogalmát jelentik. A kombinatorika azzal foglalkozik, hogyan illeszkednek egymáshoz a diszkrét objektumok: gráfok, hálózatok, halmazok és mintázatok. A Ramsey-számok nagyjából azt vizsgálják, mekkorának kell lennie egy hálózatnak ahhoz, hogy valamilyen rend szükségszerűen megjelenjen. Az ezen a területen elért eredmények ritkák, és gyakran technikailag nehezen megvalósíthatók. Itt a GPT‑5.5 talált egy bizonyítást a nem főátlóbeli Ramsey-számokra vonatkozó, régóta ismert aszimptotikus tényre, amelyet később Leanben is ellenőriztek. Az eredmény konkrét példája annak, hogy a GPT‑5.5 nem csupán kóddal vagy magyarázattal járul hozzá, hanem egy meglepő és hasznos matematikai érveléssel is egy alapvető kutatási területen.

A korai tesztelők a ChatGPT‑ben elérhető GPT‑5.5 Pro-t kevésbé egylövéses válaszgépként, inkább kutatási partnerként használták: kéziratok több körös véleményezésére, technikai érvek próbára tételére, elemzések javaslására, valamint kóddal, jegyzetekkel és PDF-ek tartalmával való munkára. A közös nevező az, hogy a GPT‑5.5 jobban segíti a kutatókat abban, hogy a kérdéstől a kísérleten át az eredményig jussanak.

Derya Unutmaz, a Jackson Laboratory for Genomic Medicine immunológiaprofesszora és kutatója a GPT‑5.5 Pro segítségével elemzett egy 62 mintát és közel 28 000 gént tartalmazó génexpressziós adathalmazt, amelynek eredményeként egy részletes kutatási jelentés készült, amely nemcsak összefoglalta az eredményeket, hanem rávilágított a kulcsfontosságú kérdésekre és felismerésekre is – ez a munka elmondása szerint hónapokig tartott volna a csapatának.

Bartosz Naskręcki, a lengyelországi Poznańban található Adam Mickiewicz Egyetem matematika adjunktusa, a Codexben használta a GPT‑5.5‑öt, hogy egyetlen utasításból 11 perc alatt létrehozzon egy algebrai geometriai alkalmazást, amely vizualizálja a másodfokú felületek metszetét, és az eredményül kapott görbét Weierstrass-modellé alakítja.

Később kibővítette az alkalmazást stabilabb szingularitás-vizualizációval és pontos együtthatókkal, amelyek a további munkában újra felhasználhatók. Számára a nagyobb változás az, hogy a Codex mostantól segíthet olyan egyéni matematikai vizualizációs és számítógépes algebrai munkafolyamatok megvalósításában, amelyek korábban dedikált eszközöket igényeltek. Összességében ezek a példák azt mutatják, hogy a GPT‑5.5 a szakértői szándékot működő kutatási eszközökké és elemzésekké alakítja.

""

Forrás: Bartosz Naskręcki(új ablakban nyílik meg)

utasítás: # Algebrai geometriai felületek metszése

Készíts egy alkalmazást, amely két másodfokú felületet jelenít meg, és a metszésgörbét piros színnel jelöli. Használd a számításos Riemann-Roch-tételt ahhoz, hogy ezt Weierstrass-görbévé alakítsd.

## Fő ablak

Két színezett felület enyhén átlátszó árnyalattal, kiváló minőségű rendereléssel egy piros színű algebrai görbe mentén metszik egymást.

Forgatás egérrel mindkét irányban, teljes csippentéses nagyítási mechanizmus, haptikus érintés a kis menü megjelenítéséhez, amely csúszkákat tartalmaz az egyes felületek együtthatóinak módosításához; észlelés a Z-buffer szintje alapján

## Jobb oldali ablak

Effektív Riemann-Roch-tétel-formulák segítségével Go kiszámított rövid Weierstrass-egyenlet (Q felett vagy kvadratikus testbővítés felett)

## Ambient mód, ahol minden vezérlő rejtve van, és a felhasználó a formák szépségében gyönyörködhet

## Specifikációk

Az alkalmazás böngészőben fut, könnyűsúlyú megvalósítás a legújabb full-stack könyvtárakkal, hordozható, telepíthető

## Dokumentumok

Git repo, napló, terv (Markdown fájlok)

„Hihetetlenül inspiráló az OpenAI új GPT-5.5 modelljét használni a tesztkörnyezetünkben, látni, ahogy óriási biokémiai adathalmazokat elemez, hogy előre jelezze a gyógyszerek emberi szervezetre gyakorolt hatásait, majd azt, hogy jelentős pontosságbeli javulást ér el a legnehezebb gyógyszerkutatási értékeléseinken.” Ha az OpenAI így folytatja, az év végére megváltoznak a gyógyszerfelfedezés alapjai.”
– Brandon White, társalapító és vezérigazgató, Axiom Bio

Következő generációs inferenciahatékonyság

A GPT‑5.5 kiszolgálása a GPT‑5.4 késleltetése mellett megkövetelte, hogy az inferenciát integrált rendszerként gondoljuk újra, ne pedig elszigetelt optimalizálások összességeként. A GPT‑5.5‑öt az NVIDIA GB200 és GB300 NVL72 rendszerekre tervezték, azokon képezték ki, és azokon futtatják. A Codex és a GPT‑5.5 kulcsszerepet játszottak abban, hogy elérjük a teljesítménycéljainkat. A Codex segített a csapatnak abban, hogy gyorsabban haladjon az ötlettől az összehasonlítható teljesítménymérésre alkalmas megvalósításig, megközelítések felvázolásával, kísérletek összeállításával, valamint annak azonosításával, hogy mely optimalizálások érdemelnek mélyebb ráfordítást. A GPT‑5.5 segített azonosítani és megvalósítani kulcsfontosságú fejlesztéseket magában a stackben. Egyszerűen fogalmazva, a modell hozzájárult az őt kiszolgáló infrastruktúra fejlesztéséhez.

Az egyik ilyen fejlesztés a terheléselosztás és a particionálási heurisztikák voltak. A GPT‑5.5 előtt a gyorsítón futó kéréseket rögzített számú egységre bontottuk, hogy eloszlassuk a terhelést a számítási magok között, biztosítva, hogy a nagy és a kis kérések ugyanazon a GPU-n futhassanak. Azonban a statikus egységek előre meghatározott száma nem optimális minden forgalmi mintázat esetén. A GPU-k jobb kihasználása érdekében a Codex hetekre visszamenő gyártási forgalmi mintákat elemzett, és egyedi heurisztikus algoritmusokat írt a munka optimális felosztására és kiegyensúlyozására. Az erőfeszítés aránytalanul nagy hatást gyakorolt, több mint 20%-kal növelve a token generálási sebességet.

A kiberbiztonság fejlesztése mindenki biztonságáért

A világ felkészítése az olyan modellekre, amelyek kiválóan alkalmasak a biztonsági sebezhetőségek felderítésére és javítására, közös erőfeszítést igényel. Ez megköveteli, hogy az egész ökoszisztéma keményen dolgozzon az ellenálló képesség kiépítésén, a modellekhez való demokratizált hozzáférés és az iteratív telepítés révén a kibervédelem új korszakához.

Az élvonalbeli modellek egyre fejlettebbé válnak a kiberbiztonság területén. Ezek a képességek széles körben elérhetővé válnak, és úgy véljük, hogy a legjobb előrelépési mód annak biztosítása, hogy a kibervédelem felgyorsítására és az ökoszisztéma megerősítésére lehessen használni őket.

A GPT‑5.5 fokozatos, de fontos lépés az olyan mesterséges intelligencia felé, amely képes megoldani a világ legnehezebb kihívásai közül néhányat, például a kiberbiztonság területén. A GPT‑5.2 esetében decemberben proaktívan bevezettük a szükséges kiberbiztonsági védelmi intézkedéseket, hogy korlátozzuk a modelljeinkkel való lehetséges kiber-visszaéléseket; most a GPT‑5.5 esetében szigorúbb osztályozókat vezetünk be a potenciális kiberkockázatok kezelésére, amelyeket egyes felhasználók kezdetben zavarónak találhatnak, miközben idővel finomhangoljuk ezeket.

Évek óta a kiberbiztonságot is kategóriaként tartjuk számon a Felkészültségi keretrendszerünkben(új ablakban nyílik meg), miközben modelljeink fokozatosan fejlődtek, és iteratív módon fejlesztettük és kalibráltuk a kockázatcsökkentő intézkedéseket annak érdekében, hogy felelősen tehessünk közzé érdemi kiberbiztonsági képességekkel rendelkező modelleket.

  • A kiberképesség ezen szintjéhez iparágvezető biztosítékokat vezetünk be. A GPT‑5.2(új ablakban nyílik meg) -vel tavaly vezettük be először a kiberspecifikus védelmi intézkedéseket, amelyeket a későbbi bevezetések során tovább teszteltünk, finomítottunk és továbbfejlesztettünk. A GPT‑5.5 esetében szigorúbb ellenőrzéseket terveztünk a magas kockázatú tevékenységek, érzékeny kiberkérések köré, és további védelmet vezettünk be az ismétlődő visszaélések ellen. A széles körű hozzáférést a modellbiztonságba, hitelesített használatba és a nem megengedett használat monitorozásába történő befektetéseink teszik lehetővé. Hónapok óta dolgozunk együtt külső szakértőkkel, hogy kidolgozzuk, teszteljük és folyamatosan fejlesszük ezen védelmi intézkedések megbízhatóságát. A GPT‑5.5‑tel biztosítjuk, hogy a fejlesztők könnyedén biztonságossá tehessék a kódjukat, miközben szigorúbb ellenőrzést alkalmazunk a kiberes munkafolyamatok körül, amelyeket a rosszindulatú szereplők a legnagyobb valószínűséggel használhatnak károkozásra.
  • Bővítjük a hozzáférést a kibervédelem minden szinten történő gyorsítása érdekében. Kiberengedékeny modelljeinket a Megbízható hozzáférés a Cyberhez program keretében tesszük elérhetővé, kezdve a Codexszel. Ez az induláskor bizonyos bizalmi jeleknek(új ablakban nyílik meg) megfelelő, ellenőrzött felhasználók számára kibővített hozzáférést biztosít a GPT‑5.5 fejlett kiberbiztonsági képességeihez, kevesebb korlátozással. Azok a szervezetek, amelyek a kritikus infrastruktúra védelméért felelősek, kérelmezhetik a GPT‑5.4‑Cyberhez hasonló kiberengedékeny modellekhez való hozzáférést, ha megfelelnek a szigorú biztonsági követelményeknek, és ezeket a modelleket belső rendszereik védelmére használják. Ez az ellenőrzött védelmi szakemberek széles körének biztosít hatékonyabb eszközöket a jogszerű biztonsági munkához, kevesebb szükségtelen akadállyal, hogy demokratizáljuk a fontos védelmi képességekhez való hozzáférést. A felhasználók a chatgpt.com/cyber(új ablakban nyílik meg) oldalon kérhetnek megbízható hozzáférést, hogy csökkentsék a szükségtelen elutasításokat, miközben a GPT‑5.5‑öt ellenőrzött védelmi munkához használják.
  • Kormányzati partnerekkel dolgozunk együtt, hogy segítsünk megvédeni a lakosság számára létfontosságú kritikus infrastruktúrát. Közösen vizsgáljuk, hogyan támogathatja a fejlett AI azon megbízható tisztviselők védelmi munkáját, akik olyan rendszerekért felelnek, amelyekre az emberek támaszkodnak – a fontos adófizetői adatokat védő digitális rendszerektől a helyi közösségek villamosenergia-hálózatáig és vízellátásáig.

A GPT‑5.5 biológiai/kémiai és kiberbiztonsági képességeit magas szintűnek kezeljük a Felkészültségi keretrendszerünk(új ablakban nyílik meg) szerint. Bár a GPT‑5.5 nem érte el a kritikus kiberbiztonsági képességi szintet, értékeléseink és tesztjeink azt mutatták, hogy kiberbiztonsági képességei előrelépést jelentenek a GPT‑5.4‑hez képest.

Emellett a GPT‑5.5 a kiadás előtt teljes körű biztonsági és irányítási folyamatunkon ment keresztül, beleértve a felkészültségi értékeléseket, a doménspecifikus tesztelést, a fejlett biológiai és kiberbiztonsági képességekre vonatkozó új, célzott értékeléseket, valamint a külső szakértőkkel végzett alapos tesztelést. További részleteket osztunk meg a GPT‑5.5 rendszerkártyában(új ablakban nyílik meg).

Ez a munka a szélesebb körű AI-reziliencia megközelítésünket tükrözi, amelyre véleményünk szerint szükség van, ahogy a modell képességei fejlődnek. Azt szeretnénk, hogy a nagy teljesítményű AI elérhető legyen azok számára, akik azt a rendszerek, az intézmények és a társadalom védelmére használják. A járható út a megbízható hozzáférés, a képességekkel együtt erősödő, szilárd biztosítékok, valamint a súlyos visszaélések észleléséhez és az azokra való reagáláshoz szükséges operatív képesség.

Elérhetőség és árak

Ma a GPT‑5.5 elérhetővé válik a Plus, Pro, Business és Enterprise felhasználók számára a ChatGPT‑ben és a Codexben, míg a GPT‑5.5 Pro a Pro, Business és Enterprise felhasználók számára lesz elérhető a ChatGPT‑ben. Hamarosan elérhetővé tesszük a GPT‑5.5‑öt és a GPT‑5.5 Pro-t az API-n keresztül.

A ChatGPT‑ben a GPT‑5.5 Thinking elérhető a Plus, Pro, Business és Enterprise felhasználók számára. A GPT‑5.5 Pro, amelyet még nehezebb kérdésekhez és nagyobb pontosságú munkához terveztek, elérhető a Pro, Business és Enterprise felhasználók számára.

A GPT‑5.5 elérhető a Codexben a ChatGPT Plus, Pro, Business, Enterprise, Edu és Go csomagokban, 400 ezres kontextusablakkal. A GPT‑5.5 Fast mode-ban is elérhető, ahol 1,5x gyorsabban generál tokeneket 2,5x-es költségért.

Az API-fejlesztők számára a gpt-5.5 hamarosan elérhető lesz a Responses és a csevegés-befejezési API-kban, 5 USD/1M bemeneti token és 30 USD/1M kimeneti token áron, 1M kontextusablakkal. A Batch és a Flex árazás a standard API-díj feléért érhető el, míg az elsőbbségi feldolgozás a standard díj 2,5-szereséért. A gpt-5.5-pro modellt is elérhetővé tesszük az API-ban a még nagyobb pontosság érdekében, 30 USD/1M beviteli token és 180 USD/1M kimeneti token áron. A teljes részletekért tekintsd meg az árképzési oldalt.

Miközben a GPT‑5.5 magasabb árazású, mint a GPT‑5.4, egyszerre intelligensebb és jóval token-hatékonyabb. A Codexben gondosan úgy alakítottuk ki az élményt, hogy a GPT‑5.5 a legtöbb felhasználó számára jobb eredményeket nyújtson kevesebb tokennel, mint a GPT‑5.4, miközben továbbra is bőkezű használati lehetőségeket kínálunk minden előfizetési szinten.

Értékelések

Kódolás

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro (nyilvános) *

58,6%

57.7%

-

-

64,3%

54,2%

Terminal-Bench 2.0

82.7%

75,1%

-

-

69,4%

68,5%

Expert-SWE (belső)

73,1%

68,5%

-

-

-

-

*A Labs memorizálásra utaló jeleket észlelt ezen a kiértékelésen(új ablakban nyílik meg)

Professzionális

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval (győzelmek vagy döntetlenek)

84,9%

83.0%

82,3%

82,0%

80,3%

67,3%

FinanceAgent v1.1

60,0%

56,0%

-

61,5%

64,4%

59,7%

Befektetési banki modellezési feladatok (Belső)

88,5%

87,3%

88,6%

836%

-

-

OfficeQA Pro

54,1%

53,2%

-

-

43,6%

18,1%

Számítógép-használat és látás

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78,7%

75.0%

-

-

78,0%

-

MMMU Pro (eszközök nélkül)

81,2%

81,2%

-

-

-

80,5%

MMMU Pro (eszközökkel)

83,2%

82,1%

-

-

-

-

Eszközhasználat

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90,1%

89,3%

79,3%

85,9%

MCP Atlas**

75,3%

70,6%

-

-

79,1%

78,2%

Toolathlon

55,6%

54,6%

-

-

-

48,8%

Tau2-bench Telecom***
(eredeti utasítások)

98,0%

92,8%

-

-

-

-

** MCP Atlas: a Scale AI eredményei a legutóbbi, 2026. áprilisi frissítés után. 
*** Tau2-bench telecom: eredmények 5.5 és 5.4 esetén az eredeti utasításokkal, azaz az utasítások módosítása nélkül. Ez nem tartalmazza azon egyéb laborok eredményeit, amelyeket utasítás módosításokkal értékeltek.

Tudományos

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25,0%

19,0%

33,2%

25,6%

-

-

FrontierMath 1–3. szint

51,7%

47,6%

52,4%

50,0%

43,8%

36,9%

FrontierMath 4. szint

35,4%

27,1%

39,6%

38,0%

22,9%

16,7%

BixBench

80,5%

74,0%

-

-

-

-

GPQA Diamond

93,6%

92,8%

-

94,4%

94,2%

94,3%

Humanity's Last Exam (eszközök nélkül)

41,4%

39,8%

43,1%

42,7%

46,9%

44,4%

Humanity's Last Exam (eszközökkel)

52,2%

52,1%

57,2%

58,7%

54,7%

51,4%

Kiberbiztonság

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Zászlóelfoglaló kihívásfeladatok (Belső)****

88,1%

83,7%

-

-

-

-

CyberGym

81,8%

79,0%

-

-

73,1%

-

**** A legnehezebb, rendszerkártyákban használt CTF-ek kibővített változata további nehéz kihívásokkal.

Hosszú kontextus

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73,7%

62,5%

-

-

76,9%

-

Graphwalks BFS 1mil f1

45,4%

9,4%

-

-

41,2% (Opus 4.6)

-

Graphwalks szülők 256k f1

90,1%

82,8%

-

-

93,6%

-

Graphwalks szülők 1mil f1

58,5%

44,4%

-

-

72,0% (Opus 4.6)

-

OpenAI MRCR v2 8-needle 4K-8K

98,1%

97,3%

-

-

-

-

OpenAI MRCR v2 8-needle 8K-16K

93,0%

91,4%

-

-

-

-

OpenAI MRCR v2 8-needle 16K-32K

96,5%

97,2%

-

-

-

-

OpenAI MRCR v2 8-needle 32K-64K

90,0%

90,5%

-

-

-

-

OpenAI MRCR v2 8-needle 64K-128K

83,1%

86,0%

-

-

-

-

OpenAI MRCR v2 8-needle 128K-256K

87,5%

79,3%

-

-

59,2%

-

OpenAI MRCR v2 8-needle 256K-512K

81,5%

57,5%

-

-

-

-

OpenAI MRCR v2 8-needle 512K-1M

74,0%

36,6%

-

-

32,2%

-

Absztrakt indoklás

Értékelés

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1 (igazolt)

95.0 %

93,7%

-

94,5%

93,5%

98,0%

ARC-AGI-2 (igazolt)

85,0%

73,3%

-

83,3%

75,8%

77,1%

A GPT kiértékeléseit xhigh értékre állított érvelési erőfeszítéssel futtattuk, és kutatási környezetben végezték őket, ami bizonyos esetekben kissé eltérő eredményeket adhat, mint a ChatGPT gyártási verziója.

Szerző

OpenAI