Šiandien išleidžiame GPT‑5.4 sistemose „ChatGPT“ (kaip „GPT‑5.4 Thinking“), API ir „Codex“. Tai mūsų pajėgiausias ir efektyviausias priešakinis modelis, skirtas profesionaliam darbui. Taip pat išleidžiame GPT‑5.4 Pro sistemose „ChatGPT“ ir API – žmonėms, norintiems maksimalaus našumo atliekant sudėtingas užduotis.
GPT‑5.4 sujungia geriausius mūsų naujausius pasiekimus protavimo, programavimo ir agentų darbo eigų srityse į vieną priešakinį modelį. Jis apima pramonėje pirmaujančias „GPT‑5.3‑Codex“ programavimo galimybes ir kartu pagerina modelio veikimą su įvairiais įrankiais, programinės įrangos aplinkomis ir profesionaliomis užduotimis, susijusiomis su skaičiuoklėmis, pristatymais bei dokumentais. Rezultatas – modelis, kuris sudėtingą realų darbą atlieka tiksliai, veiksmingai ir efektyviai: jis pateikia tai, ko prašėte, ir tam reikia mažiau susirašinėjimo etapų.
Sistemoje „ChatGPT“ modelis „GPT‑5.4 Thinking“ dabar gali iš anksto pateikti savo protavimo planą, todėl galite pakoreguoti kryptį atsakymo rengimo metu, kol jis dirba, ir gauti galutinį rezultatą, kuris geriau atitinka jūsų poreikius be papildomų etapų. „GPT‑5.4 Thinking“ taip pat patobulina gilųjį tyrimą saityne, ypač kai pateikiamos itin specifinės užklausos, ir kartu geriau išlaiko kontekstą, kai klausimams reikia ilgesnio protavimo. Kartu šie patobulinimai reiškia, kad gaunami aukštesnės kokybės atsakymai, kurie pateikiami greičiau ir išlieka aktualūs atliekamai užduočiai.
Sistemose „Codex“ ir API modelis GPT‑5.4 yra pirmasis mūsų išleistas bendrosios paskirties modelis su integruotomis, pažangiausiomis kompiuterio naudojimo galimybėmis, leidžiančiomis agentams valdyti kompiuterius ir vykdyti sudėtingas darbo eigas įvairiose programose. Jis palaiko iki 1 mln. žetonų kontekstą, todėl agentai gali planuoti, vykdyti ir tikrinti užduotis ilgesniais laikotarpiais. GPT‑5.4 taip pat pagerina modelių veikimą plačiose įrankių ir jungčių ekosistemose pasitelkiant įrankių paiešką – tai padeda agentams efektyviau rasti ir naudoti tinkamus įrankius neaukojant intelekto. Galiausiai, GPT‑5.4 yra mūsų efektyviausiai žetonus naudojantis protavimo modelis, problemoms spręsti sunaudojantis gerokai mažiau žetonų, palyginti su GPT‑5.2, – tai reiškia mažesnį žetonų naudojimą ir didesnį greitį.
Kartu su pažanga bendrojo protavimo, programavimo ir profesionalaus protinio darbo srityse, GPT‑5.4 įgalina patikimesnius agentus, greitesnes kūrėjų darbo eigas ir aukštesnės kokybės išvestis sistemose „ChatGPT“, API bei „Codex“.
GPT‑5.4 | „GPT‑5.3‑Codex“ | GPT‑5.2 | |
„GDPval“ (pergalės arba lygiosios) | 83,0 % | 70,9 % | 70,9 % |
„SWE-Bench Pro“ (viešas) | 57,7 % | 56,8 % | 55,6 % |
„OSWorld-Verified“ | 75,0 % | 74,0 %* | 47,3 % |
Toolathlon | 54,6 % | 51,9 % | 46,3 % |
BrowseComp | 82,7 % | 77,3 % | 65,8 % |
* Anksčiau nurodyta kaip 64,7 proc. „GPT‑5.3‑Codex“ pasiekia 74,0 proc. naudodamas naujai pristatytą API parametrą, kuris išsaugo pradinę vaizdo raišką.
Remdamasis GPT‑5.2 bendrojo protavimo galimybėmis, GPT‑5.4 teikia dar nuoseklesnius ir labiau nušlifuotus rezultatus atliekant realias, profesionalams svarbias užduotis.
Atliekant „GDPval“ testą, vertinantį agentų gebėjimus atlikti tiksliai nurodytą protinį darbą, apimantį 44 profesijas, GPT‑5.4 pasiekia naują pažangos lygį, prilygdamas pramonės profesionalams arba juos pralenkdamas 83,0 proc. palyginimų, kai tuo tarpu GPT‑5.2 rodiklis buvo 71,0 proc.
„GDPval“ vertinime modeliai bando atlikti tiksliai apibrėžtus žinių darbus, apimančius 44 profesijas iš devynių pagrindinių pramonės šakų, prisidedančių prie JAV BVP. Užduotyse prašoma realių darbo produktų, pavyzdžiui, pardavimų pristatymų, apskaitos skaičiuoklių, skubios pagalbos tvarkaraščių, gamybos diagramų ar trumpų vaizdo įrašų. „GPT‑5.4“ modeliui buvo nustatytas labai didelis („xhigh“) protavimo pastangų lygis, o „GPT‑5.2“ – didelis („heavy“) (šiek tiek žemesnis lygis „ChatGPT“ sistemoje).
„GPT-5.4 yra geriausias mūsų kada nors bandytas modelis. Dabar jis užima pirmąją vietą mūsų „APEX-Agents“ lyderių lentelėje, kurioje matuojamas modelio našumas atliekant profesionalių paslaugų darbą. Jis puikiai kuria ilgalaikius rezultatus, pavyzdžiui, skaidrių rinkinius, finansinius modelius ir teisinę analizę, užtikrindamas aukščiausią našumą, veikdamas greičiau ir mažesnėmis išlaidomis nei konkuruojantys priešakiniai modeliai.“
Ypatingą dėmesį skyrėme GPT‑5.4 gebėjimų kurti ir redaguoti skaičiuokles, pristatymus bei dokumentus tobulinimui. Atliekant vidinį skaičiuoklių modeliavimo užduočių, kurias galėtų atlikti jaunesnysis investicinės bankininkystės analitikas, testavimą, GPT‑5.4 pasiekia vidutinį 87,5 proc. įvertinimą, palyginti su 68,4 proc. GPT‑5.2 atveju. Vertinant pristatymų užklausų rinkinį, žmonės-vertintojai 68,0 proc. atvejų teikė pirmenybę GPT‑5.4 sukurtiems pristatymams, o ne GPT‑5.2, dėl geresnės estetikos, didesnės vaizdinės įvairovės ir efektyvesnio vaizdų generavimo naudojimo.

Dokumentai sugeneruoti protavimo pastangas nustačius į „xhigh“
Šias galimybes galite išbandyti sistemoje „ChatGPT“ naudodami „GPT‑5.4 Thinking“ arba „Pro“. Jei esate „Enterprise“ klientas, rekomenduojame naudoti mūsų naujai išleistus „ChatGPT“, skirtus „Excel“ ir „Google“ skaičiuoklių įskiepiams(atsidaro naujame lange), kurie taip pat buvo pristatyti šiandien. Taip pat atnaujinome skaičiuoklių(atsidaro naujame lange) ir pristatymų kūrimo įgūdžius(atsidaro naujame lange), prieinamus sistemose „Codex“ ir API.
Siekdami, kad GPT‑5.4 geriau tiktų realiam darbui, toliau mažinome pramanų ir klaidų skaičių. GPT‑5.4 yra mūsų labiausiai faktais pagrįstas modelis: vertinant nuasmenintų užklausų, kuriose naudotojai pažymėjo faktines klaidas, rinkinį, GPT‑5.4 atskiri teiginiai yra 33 proc. (santykinai) rečiau klaidingi, o visuose jo atsakymuose yra 18 proc. (santykinai) mažiau klaidų, palyginti su GPT‑5.2.
„GPT-5.4 nustato naują kartelę daug dokumentų reikalaujančiam teisiniam darbui. Mūsų „BigLaw Bench“ vertinime jis surinko 91 proc. Palyginti su kitais modeliais, GPT-5.4 šiuo metu geriau sistemina sudėtingą sandorių analizę, išlaiko tikslumą ilguose languose ir užtikrina aukštą detalumo lygį, kurio reikalauja teisininkai.“
GPT‑5.4 yra pirmasis mūsų bendrosios paskirties modelis su integruotomis kompiuterio naudojimo galimybėmis ir žymi didelį žingsnį į priekį tiek kūrėjams, tiek agentams. Šiuo metu tai yra geriausias modelis, prieinamas kūrėjams, kuriantiems agentus, atliekančius realias užduotis interneto svetainėse ir programinės įrangos sistemose.
Sukūrėme GPT‑5.4 taip, kad jis būtų našus atliekant įvairias kompiuterio naudojimo užduotis. Jis puikiai rašo kodą, skirtą valdyti kompiuterius per tokias bibliotekas kaip „Playwright“, taip pat duoti pelės ir klaviatūros komandas reaguojant į ekrano kopijas. Jo veikimą galima kreipti naudojant kūrėjų žinutes, o tai reiškia, kad kūrėjai gali pritaikyti elgseną konkretiems naudojimo atvejams. Kūrėjai netgi gali konfigūruoti modelio saugos elgseną, kad ji atitiktų skirtingus rizikos tolerancijos lygius, nurodydami pasirinktines patvirtinimo politikas.
Modelio našumas ir lankstumas atsispindi lyginamuosiuose testuose, vertinančiuose kompiuterio naudojimą įvairiose aplinkose. Atliekant OSWorld-Verified testą, kuris matuoja modelio gebėjimą naršyti darbalaukio aplinkoje naudojant ekrano kopijas ir klaviatūros ar pelės veiksmus, GPT‑5.4 pasiekia pažangiausią 75,0 proc. sėkmės rodiklį, gerokai pralenkdamas GPT‑5.2 47,3 proc. rezultatą ir žmogaus našumą, siekiantį 72,4 proc.1
Atliekant WebArena-Verified testą, kuris vertina naršyklės naudojimą, GPT‑5.4 pasiekia pirmaujantį 67,3 proc. sėkmės rodiklį, naudodamas ir DOM, ir ekrano kopijomis pagrįstą sąveiką, palyginti su GPT‑5.2 65,4 proc. rodikliu. Atliekant Online-Mind2Web testą, kuris taip pat vertina naršyklės naudojimą, GPT‑5.4 pasiekia 92,8 proc. sėkmės rodiklį, naudodamas vien ekrano kopijomis pagrįstus stebėjimus, ir pranoksta „ChatGPT Atlas“ Agentų režimą, kurio sėkmės rodiklis siekia 70,9 proc.
Įrankio užklausos vykdymo užlaikymas (angl. yield) įvyksta, kai asistentas pristabdo vykdymą, kad sulauktų įrankių atsakymų. Jei lygiagrečiai iškviečiami trys įrankiai, o po jų – dar trys, užlaikymų skaičius bus du. Įrankių užlaikymai geriau atspindi vėlavimą nei įrankių kvietimai, nes jie parodo lygiagretinimo pranašumus.
GPT‑5.4 interpretuoja naršyklės sąsajos ekrano kopijas ir sąveikauja su naudotojo sąsajos elementais per koordinatėmis pagrįstą paspaudimą, kad išsiųstų el. laiškus ir suplanuotų kalendoriaus įvykį.
Pagerintas GPT‑5.4 kompiuterio naudojimas pagrįstas geresnėmis modelio bendrosiomis vaizdo suvokimo galimybėmis. Atliekant MMMU-Pro testą, kuris vertina modelio vaizdo supratimą ir protavimą, GPT‑5.4 pasiekia 81,2 proc. sėkmės rodiklį nenaudojant įrankių – tai yra patobulinimas, palyginti su GPT‑5.2 79,5 proc.. Geresnis vaizdo suvokimas taip pat lemia geresnes dokumentų analizavimo galimybes. Atliekant OmniDocBench testą, GPT‑5.4 be protavimo pastangų vidutinė klaida (matuojama normalizuotu redagavimo atstumu tarp modelio prognozės ir tikrovės) siekia 0,109, o tai yra geresnis rezultatas nei GPT‑5.2 pasiektas 0,140.
„MMMUPro“ buvo atliktas nustačius protavimo pastangas kaip labai dideles („xhigh“). „OmniDocBench“ buvo atliktas nustačius protavimo pastangas kaip nulinę vertę („none“), siekiant atspindėti mažų išlaidų ir mažo vėlavimo našumą.
Taip pat geriname didelio tankio, didelės raiškos vaizdų, kur svarbus visiškas tikslumas, vizualinį supratimą. Nuo GPT‑5.4 modelio pristatome original vaizdo įvesties detalumo(atsidaro naujame lange) lygį, palaikantį visiško tikslumo suvokimą iki 10,24 mln. pikselių iš viso arba iki 6000 pikselių didžiausio matmens (atsižvelgiant į tai, kuri vertė mažesnė) – high vaizdo įvesties detalumo lygis dabar palaiko iki 2,56 mln. pikselių iš viso arba 2048 pikselių didžiausią matmenį. Atlikdami ankstyvuosius bandymus su API naudotojais, pastebėjome didelį pažangą vietos nustatymo, vaizdo supratimo ir paspaudimų tikslumo srityse naudojant original arba high detalumą.
„Mūsų vertinimuose, kuriuose matuojamas kompiuterio naudojimo našumas maždaug 30 tūkst. namų savininkų bendrijų ir nekilnojamojo turto mokesčių portaluose, GPT-5.4 pasiekė 95 proc. sėkmės rodiklį pirmuoju bandymu ir 100 proc. per tris bandymus, palyginti su maždaug 73–79 proc. naudojant ankstesnius CUA modelius. Jis taip pat užbaigė seansus apie triskart greičiau naudodamas apie 70 proc. mažiau žetonų, iš esmės padidindamas patikimumą ir išlaidų efektyvumą dideliu mastu.“
API aplinkoje kūrėjai gali pasiekti šias galimybes naudodami atnaujintą computer įrankį. Rekomenduojamą geriausią praktiką rasite mūsų atnaujintoje dokumentacijoje(atsidaro naujame lange).
GPT‑5.4 sujungia „GPT‑5.3‑Codex“ programavimo pranašumus su pirmaujančiomis protinio darbo ir kompiuterio naudojimo galimybėmis, kurios svarbiausios atliekant ilgiau trunkančias užduotis, kai modelis gali naudoti įrankius, kartoti veiksmus ir stumti darbą į priekį su mažiau žmogaus įsikišimo. Atliekant „SWE-Bench Pro“ testą, jis prilygsta „GPT‑5.3‑Codex“ arba jį lenkia, o vykdant protavimo užduotis pasižymi mažesniu vėlavimu.
Vėlavimą įvertiname nagrinėdami mūsų modelių veikimą realiomis sąlygomis ir modeliuodami tai neprisijungę prie tinklo. Vėlavimo įvertis apima įrankio kvietimo trukmę (kodo vykdymo laiką), paimtus žetonus ir įvesties žetonus. Realus vėlavimas gali gerokai skirtis ir priklauso nuo daugelio veiksnių, neįtrauktų į mūsų modeliavimą. Protavimo pastangos buvo keičiamos nuo jokių iki „xhigh“.
Jį įjungus, „Codex“ režimas „/fast“ užtikrina iki 1,5 karto didesnį žetonų greitį su GPT‑5.4. Tai tas pats modelis ir tas pats intelektas, tik greitesnis. Tai reiškia, kad naudotojai gali atlikti programavimo, iteravimo ir derinimo užduotis neprarasdami srauto būsenos. Kūrėjai gali pasiekti GPT‑5.4 tokiu pat dideliu greičiu per API, naudodami prioritetinį apdorojimą(atsidaro naujame lange).
Atlikdami vertinimus ir vidinius bandymus nustatėme, kad GPT‑5.4 puikiai susidoroja su sudėtingomis priekinės programos dalies („frontend“) užduotimis, pateikdamas pastebimai estetiškesnius ir funkcionalesnius rezultatus nei bet kurie anksčiau mūsų išleisti modeliai.
Norėdami pademonstruoti, kaip modelio patobulintos kompiuterio naudojimo ir programavimo galimybės veikia kartu, taip pat išleidžiame eksperimentinį „Codex“ įgūdį(atsidaro naujame lange), vadinamą „Playwright (Interactive)“ („Playwright“ (interaktyvus)). Tai leidžia „Codex“ vizualiai derinti saityno ir „Electron“ programas; jį netgi galima naudoti testuojant kuriamą programą jos kūrimo metu.
Pramogų parko modeliavimo žaidimas, sukurtas su GPT‑5.4 iš vienos nesudėtingos užklausos, naudojant „Playwright Interactive“ naršyklės testavimui ir vaizdų generavimą izometriniam išteklių rinkiniui. Modeliavimas apima plytelėmis grįstą takų tiesimą, atrakcionų ir dekoracijų statybą, svečių maršrutų paiešką, eilę ir atrakcionų ciklus, o parko rodikliai, tokie kaip pinigai, svečių skaičius, laimė, švara ir įvertinimas, kyla arba krenta atsižvelgiant į tai, kaip veikia išdėstymas ir kaip svečiai į jį reaguoja. „Playwright“ buvo naudojamas automatizuoti naršyklės žaidimų testus, statant ir plečiant parką, tiesiant ir pašalinant takus bei atrakcionus, tikrinant kameros naršymą ir patvirtinant, kad svečių, eilių, atrakcionų būsenos ir naudotojo sąsajos rodikliai buvo tinkamai atnaujinami per kelis žaidimo raundus.
Užklausa: „Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism.“ (Naudok $playwright-interactive ir $imagegen. Sukurk interaktyvų izometrinį pramogų parko modeliavimo žaidimą, kurį galėčiau kurti ir naršyti naršyklėje. Naudok imagegen, kad nustatytum bendrą vizualinę viziją ir sugeneruotum žaidimo išteklius, įskaitant atrakcionus, takus, reljefą, medžius, vandenį, maisto prekystalius, dekoracijas, pastatus, piktogramas ir naudotojo sąsajos iliustracijas. Pasaulis turėtų atrodyti vientisas, ištobulintas ir vizualiai turtingas, o aukščiausios kokybės meno kryptis turėtų gerai atrodyti iš izometrinės perspektyvos. Leisk man tiesti ir pašalinti takus, pridėti atrakcionų, išdėstyti dekoracijas ir sklandžiai judėti po parką stebint svečių aktyvumą, atrakcionų būseną ir parko augimą. Įtrauk įtikinamą svečių judėjimą, paprastas parko valdymo sistemas, tokias kaip pinigai, švara, eilės ir laimė, ir padaryk taip, kad patirtis atrodytų žaisminga, aiški ir išbaigta, o ne kaip grubus prototipas. Teik pirmenybę žavesiui, skaitomumui ir stipriam žaidimo pojūčiui, o ne tikroviškumui.)
Testuodamas žaidimą, būtinai statyk ir plėsk parką per kelis žaidimo raundus, patikrink, ar išdėstymas ir naršymas veikia sklandžiai, patvirtink, kad svečiai reaguoja į parko išdėstymą ir atrakcionus, ir užtikrink, kad vaizdai, naudotojo sąsaja ir sąveikos atrodytų stabilios bei vientisos.
„Mūsų inžinierių nuomone, GPT-5.4 yra natūralesnis ir tvirtesnis nei ankstesni modeliai. Jis sprendžia dviprasmiškas problemas nedvejodamas ir iniciatyviai lygiagretina darbą, kad procesas vyktų toliau.“
Su GPT‑5.4 smarkiai pagerinome modelių darbą su išoriniais įrankiais. Agentai dabar gali veikti didesnėse įrankių ekosistemose, patikimiau rinktis tinkamus įrankius ir atlikti daugiapakopes darbo eigas su mažesnėmis išlaidomis bei mažesniu vėlavimu.
API aplinkoje GPT‑5.4 pristato įrankių paiešką(atsidaro naujame lange), leidžiančią modeliams efektyviai dirbti, kai jiems pateikiama daug įrankių.
Anksčiau, modeliui pateikus įrankius, visos įrankių apibrėžtys būdavo iš anksto įtraukiamos į užklausą. Sistemose su daugybe įrankių tai galėjo prie kiekvienos užklausos pridėti tūkstančius – ar net dešimtis tūkstančių – žetonų, o tai didino išlaidas, lėtino atsakymus ir apkraudavo kontekstą informacija, kurios modelis galbūt niekada nepanaudotų.
Naudojant įrankių paiešką, GPT‑5.4 vietoje to gauna lengvą prieinamų įrankių sąrašą kartu su įrankių paieškos galimybe. Kai modeliui prireikia naudoti įrankį, jis gali surasti to įrankio apibrėžtį ir tuo metu pridėti ją prie pokalbio.
Šis metodas smarkiai sumažina žetonų skaičių, reikalingą darbo eigoms, kuriose naudojama daug įrankių, ir išsaugo talpyklą, todėl užklausos tampa greitesnės ir pigesnės. Tai taip pat leidžia agentams patikimai dirbti su daug didesnėmis įrankių ekosistemomis. MCP serveriams, kuriuose gali būti dešimtys tūkstančių įrankių apibrėžčių žetonų, efektyvumo padidėjimas gali būti didžiulis.
Siekdami pademonstruoti efektyvumo padidėjimą, įvertinome 250 užduočių iš „Scale“ lyginamojo testo „MCP Atlas“(atsidaro naujame lange), kuriame visi 36 MCP serveriai buvo įjungti dviem režimais: (1) kiekviena MCP funkcija pateikiama tiesiogiai modelio kontekste ir (2) visi MCP serveriai pasiekiami per įrankių paiešką. Įrankių paieškos konfigūracija sumažino bendrą žetonų naudojimą 47 proc., tuo pačiu išlaikydama tokį patį tikslumą.
Žetonų skaičiaus pavyzdžiai gaunami apskaičiavus vidurkį iš 250 užduočių „MCP-Atlas“ viešajame duomenų rinkinyje.
GPT‑5.4 taip pat patobulina įrankių kvietimą, todėl protavimo metu, ypač per API, jis tiksliau ir efektyviau nusprendžia, kada ir kaip naudoti įrankius. Palyginti su GPT‑5.2, atliekant „Toolathlon“ – lyginamąjį testą, kuriame vertinama, kaip gerai DI agentai gali naudoti realius įrankius ir API daugiapakopėms užduotims atlikti, – jis pasiekia didesnį tikslumą per mažiau etapų. Pavyzdžiui, agentas turi perskaityti el. laiškus, ištraukti užduočių priedus, juos įkelti, įvertinti ir įrašyti rezultatus į skaičiuoklę.
Įrankio užklausos vykdymo užlaikymas (angl. yield) įvyksta, kai asistentas pristabdo vykdymą, kad sulauktų įrankių atsakymų. Jei lygiagrečiai iškviečiami trys įrankiai, o po jų – dar trys, užlaikymų skaičius bus du. Įrankių užlaikymai geriau atspindi vėlavimą nei įrankių kvietimai, nes jie parodo lygiagretinimo pranašumus.
Naudojimo atvejais, kai svarbus vėlavimas ir pageidautina nustatyti protavimo pastangas kaip nulinę vertę („None“), GPT‑5.4 dar labiau pralenkia savo pirmtakus.
Atliekant τ2-bench(atsidaro naujame lange) testą, modelis turi naudoti įrankius klientų aptarnavimo užduočiai atlikti, kurioje gali būti imituojamas naudotojas, galintis bendrauti ir atlikti veiksmus, keičiančius pasaulio būseną. Protavimo pastangos buvo nustatytos kaip nulinė vertė („None“).
GPT‑5.4 geriau atlieka agentinę paiešką saityne. Atliekant „BrowseComp“ testą, matuojantį, kaip gerai DI agentai gali atkakliai naršyti saityne ieškodami sunkiai randamos informacijos, GPT‑5.4 rezultatą pagerina 17 proc. (absoliučia verte), palyginti su GPT‑5.2, o „GPT‑5.4 Pro“ pasiekia naują pažangos lygį – 89,3 proc.
Praktiškai tai reiškia, kad „GPT‑5.4 Thinking“ geriau atsako į klausimus, kuriems reikia surinkti informaciją iš daugelio šaltinių saityne. Jis gali atkakliau ieškoti per kelis etapus, kad nustatytų tinkamiausius šaltinius, ypač kai ieškoma „adatos šieno kupetoje“, ir susisteminti juos į aiškų, gerai pagrįstą atsakymą.
Naudodami „BrowseComp“, vertindami taikėme paieškos blokavimo sąrašą, iš kurio buvo pašalintos interneto svetainės su etaloniniais atsakymais – taip siekėme užkirsti kelią taršai ir užtikrinti objektyvų našumo matavimą. GPT‑5.4 buvo vertinamas vėliau nei GPT‑5.2, todėl rezultatai atspindi modelio, mūsų paieškos sistemos ir interneto būklės pokyčius. GPT‑5.4 buvo išbandytas su ilgesniu, atnaujintu blokavimo sąrašu. Modeliai naudoja įrankį „ChatGPT Search“, kuris gali šiek tiek skirtis nuo paieškos per API.
„GPT-5.4 xhigh“ – naujas pažangiausias daugiapakopio įrankių naudojimo standartas. „Zapier“ atlieka vienus griežčiausių įrankių naudojimo lyginamųjų testų srityje, išbandydama modelius šimtuose pažangių realių darbo eigų. GPT-5.4 užbaigė darbą ten, kur ankstesni modeliai pasidavė – tai atkakliausias modelis iki šiol.“
Panašiai kaip „Codex“ nurodo savo metodą pradėdamas dirbti, „GPT‑5.4 Thinking“ sistemoje „ChatGPT“ dabar savo darbą apibūdins įžangoje ilgesnėms ir sudėtingesnėms užklausoms. Taip pat galite pridėti instrukcijų arba koreguoti jo kryptį atsakymo rengimo metu. Taip lengviau nukreipti modelį tikslaus norimo rezultato link nepradedant iš naujo ir nereikalaujant kelių papildomų etapų. Ši funkcija dabar prieinama svetainėje chatgpt.com(atsidaro naujame lange) ir „Android“ programoje, o netrukus pasirodys ir „iOS“ programoje.
Atlikdamas sudėtingas užduotis, modelis taip pat gali galvoti ilgiau, tuo pačiu geriau suvokdamas ankstesnius pokalbio etapus. Tai leidžia jam apdoroti ilgesnes darbo eigas ir sudėtingesnes užklausas, išlaikant atsakymų nuoseklumą ir aktualumą visą laiką.
Šis vaizdo įrašas buvo pagreitintas iliustravimo tikslais.
Pastaraisiais mėnesiais, ruošdami GPT‑5.4 diegimui, toliau tobulinome apsaugos priemones, kurias pristatėme su „GPT‑5.3‑Codex“. Panašiai kaip ir „GPT‑5.3‑Codex“, pagal mūsų Pasirengimo sistemą GPT‑5.4 priskiriame aukštam kibernetinių gebėjimų lygiui ir diegiame jį su atitinkamomis apsaugos priemonėmis, kaip aprašyta sistemos kortelėje. Tai apima išplėstą kibernetinės saugos rinkinį, įskaitant stebėjimo sistemas, patikimus prieigos valdiklius ir asinchroninį didesnės rizikos užklausų blokavimą klientams, naudojantiems nulinio duomenų saugojimo (angl. Zero Data Retention, ZDR) paviršius, kartu su nuolatinėmis investicijomis į platesnę saugumo ekosistemą.
Kadangi kibernetinio saugumo galimybės iš prigimties yra dvejopo naudojimo, laikomės atsargumo principo diegdami ir toliau derindami savo politikas bei klasifikatorius. Tam tikriems ZDR paviršių klientams užklausų lygio blokavimas išlieka mūsų kibernetinės rizikos mažinimo priemonių rinkinio dalimi; kadangi klasifikatoriai vis dar tobulinami, mums toliau koreguojant šias apsaugos priemones gali pasitaikyti klaidingų teigiamų rezultatų. Šiais atnaujinimais siekiama pagerinti apsaugos priemonių veikimą praktikoje, įskaitant nereikalingų atsisakymų ir pernelyg atsargių atsakymų sumažinimą, kartu išlaikant tvirtą apsaugą nuo piktnaudžiavimo.
Tęsėme saugos tyrimus, susijusius su minčių grandinės (CoT) stebimumu, siekdami geriau suprasti, kaip modeliai protauja, ir padėti aptikti galimą netinkamą elgesį. Vykdydami šį darbą pristatome naują atvirojo kodo vertinimą, CoT valdomumą, matuojantį, ar modeliai gali sąmoningai užmaskuoti savo protavimą, kad išvengtų stebėjimo. Nustatėme, kad „GPT‑5.4 Thinking“ gebėjimas valdyti savo CoT yra menkas – tai teigiama savybė saugumo požiūriu, rodanti, kad modelis neturi gebėjimo nuslėpti savo protavimo, o CoT stebėjimas išlieka veiksminga saugumo priemone.
Šiandien GPT‑5.4 palaipsniui pradedamas diegti sistemose „ChatGPT“ ir „Codex“. API aplinkoje GPT‑5.4 dabar pasiekiamas kaip gpt-5.4. „GPT‑5.4 Pro“ taip pat pasiekiamas API aplinkoje kaip gpt-5.4-pro kūrėjams, kuriems reikia maksimalaus našumo atliekant sudėtingiausias užduotis.
Sistemoje „ChatGPT“ modelis „GPT‑5.4 „Thinking“ nuo šiandien prieinamas „ChatGPT Plus“, „Team“ ir „Pro“ naudotojams ir pakeičia „GPT‑5.2 Thinking“. „GPT‑5.2 Thinking“ mokamiems naudotojams bus prieinamas tris mėnesius modelių parinkiklyje, skiltyje „Legacy Models“ (Senesni modeliai), o po to, 2026 m. birželio 5 d., jo naudojimas bus nutrauktas. Turintys planus „Enterprise“ ir „Edu“ ankstyvąją prieigą gali įjungti administratoriaus nuostatose. „GPT‑5.4 Pro“ pasiekiamas turintiems „Pro“ ir „Enterprise“ planus. Konteksto langai(atsidaro naujame lange), skirti „GPT‑5.4 Thinking“, „ChatGPT“ sistemoje nesikeičia, palyginti su „GPT‑5.2 Thinking“.
GPT‑5.4 yra pirmasis mūsų pagrindinis protavimo modelis, apimantis priešakinius „GPT‑5.3‑codex“ kodavimo pajėgumus, ir jis pradedamas diegti „ChatGPT“, API bei „Codex“ sistemose. Jį vadiname GPT‑5.4, kad atspindėtume šį šuolį ir supaprastintume modelių pasirinkimą naudojant „Codex“. Ilgainiui galite tikėtis, kad mūsų „Instant“ ir „Thinking“ modeliai tobulės skirtingu greičiu.
GPT‑5.4 „Codex“ sistemoje apima eksperimentinį 1 mln. konteksto lango palaikymą. Kūrėjai gali tai išbandyti sukonfigūruodami model_context_window ir model_auto_compact_token_limit. Užklausos, viršijančios standartinį 272 tūkst. konteksto langą, įskaičiuojamos į naudojimo limitus dukart didesniu nei įprastas tarifu.
API aplinkoje GPT‑5.4 žetono kaina yra didesnė nei GPT‑5.2, siekiant atspindėti jo patobulintas galimybes, o didesnis žetonų naudojimo efektyvumas padeda sumažinti bendrą žetonų skaičių, reikalingą daugeliui užduočių. Paketinių („Batch“) ir lanksčiųjų („Flex“) kainų planai siūlomi už pusę standartinio API tarifo, o prioritetinis apdorojimas prieinamas už dvigubą standartinį API tarifą.
API modelis | Įvesties kaina | Talpykloje saugomos įvesties kaina | Išvesties kaina |
gpt-5.2 | 1,75 USD / mln. žetonų | 0,175 USD / mln. žetonų | 14 USD / mln. žetonų |
gpt-5.4 | 2,50 USD / mln. žetonų | 0,25 USD / mln. žetonų | 15 USD / mln. žetonų |
gpt-5.2-pro | 21 USD / mln. žetonų | - | 168 USD / mln. žetonų |
gpt-5.4-pro | 30 USD / mln. žetonų | - | 180 USD / mln. žetonų |
Profesionalus
Įvert. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0 % | 82,0 % | 70,9 % | 70,9 % | 74,1 % |
FinanceAgent v1.1 | 56,0 % | 61,5 % | 54,0 % | 59,5 % | — |
Investicinės bankininkystės modeliavimo užduotys (vidinės) | 87,3 % | 83,6 % | 79,3 % | 68,4 % | 71,7 % |
OfficeQA | 68,1 % | — | 65,1 % | 63,1 % | — |
Programavimas
Įvert. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
„SWE-Bench Pro“ (viešas) | 57,7 % | — | 56,8 % | 55,6 % | — |
Terminal-Bench 2.0 | 75,1 % | — | 77,3 % | 62,2 % | — |
Kompiuterio naudojimas ir rega
Įvert. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
„OSWorld-Verified“ | 75,0 % | — | 74,0 % | 47,3 % | — |
„MMMU Pro“ (be įrankių) | 81,2 % | — | — | 79,5 % | — |
„MMMU Pro“ (su įrankiais) | 82,1 % | — | — | 80,4 % | — |
Įrankių naudojimas
Įvert. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7 % | 89,3 % | 77,3 % | 65,8 % | 77,9 % |
MCP Atlas | 67,2 % | — | — | 60,6 % | — |
Toolathlon | 54,6 % | — | 51,9 % | 45,7 % | — |
„Tau2-bench Telecom“ | 98,9 % | — | — | 98,7 % | — |
Akademinis
Įvert. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Priešakinių mokslų tyrimai | 33,0 % | 36,7 % | — | 25,2 % | — |
FrontierMath Tier 1–3 | 47,6 % | — | — | 40,7 % | — |
FrontierMath Tier 4 | 27,10 % | 38,0 % | — | 18.8% | 18,8 % |
GPQA Diamond | 92,8 % | 94,4 % | 92,6 % | 92,4 % | 93,2 % |
„Humanity's Last Exam“ (be įrankių) | 39,8 % | 42,7 % | — | 34,5 % | 36,6 % |
„Humanity's Last Exam“ (su įrankiais) | 52,1 % | 58,7 % | — | 45,5 % | 50,0 % |
Ilgas kontekstas
Įvert. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0 % | — | — | 94,0 % | — |
Graphwalks BFS 256K–1M | 21,4 % | — | — | — | — |
„Graphwalks parents 0–128K“ (tikslumas) | 89,8 % | — | — | 89,0 % | — |
„Graphwalks parents 256K–1M“ (tikslumas) | 32,4 % | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97,3 % | — | — | 98,2 % | — |
OpenAI MRCR v2 8-needle 8K–16K | 91,4 % | — | — | 89,3 % | — |
OpenAI MRCR v2 8-needle 16K–32K | 97,2 % | — | — | 95,3 % | — |
OpenAI MRCR v2 8-needle 32K–64K | 90,5 % | — | — | 92,0 % | — |
OpenAI MRCR v2 8-needle 64K–128K | 86,0 % | — | — | 85,6 % | — |
OpenAI MRCR v2 8-needle 128K–256K | 79,3 % | — | — | 77,0 % | — |
OpenAI MRCR v2 8-needle 256K–512K | 57,5 % | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36,6 % | — | — | — | — |
Abstraktus samprotavimas
Įvert. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (patvirtinta) | 93,7 % | 94,5 % | — | 86,2 % | 90,5 % |
ARC-AGI-2 (patvirtinta) | 73,3 % | 83,3 % | — | 52,9 % | 54,2 % („high“) |
Vertinimai be protavimo
Įvert. | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
„OmniDocBench“ (normalizuotas redagavimo atstumas) | 0,109 | 0,140 | — |
„Tau2-bench Telecom“ | 64,3 % | 57,2 % | 43,6 % |
Vertinimai buvo atlikti protavimo pastangas nustačius į „xhigh“, nebent nurodyta kitaip. Lyginamieji testai buvo atlikti tyrimų aplinkoje, todėl kai kuriais atvejais rezultatai gali šiek tiek skirtis nuo realiomis sąlygomis naudojamo „ChatGPT“ rezultatų.
Autorius
Pastabos
1 Žmogaus našumas nurodytas tyrime OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(atsidaro naujame lange).


