Sot, po publikojmë GPT‑5.4 në ChatGPT (si GPT‑5.4 Thinking), API, dhe Codex. Është modeli ynë më i aftë dhe më efikas avangardë për punë profesionale. Po qarkullojmë gjithashtu GPT‑5.4 Pro në ChatGPT dhe API, për njerëzit që duan performancë maksimale në detyra komplekse.
GPT‑5.4 bashkon më të mirën e përparimeve tona të fundit në arsyetim, kodim dhe flukse pune agjentike në një model të vetëm avangardë. Ai përfshin aftësitë lider në sektorin e kodimit të GPT‑5.3‑Codex ndërsa përmirëson mënyrën se si model funksionon nëpër mjete, mjedise softuerike dhe detyra profesionale që përfshijnë spreadsheet, prezantime dhe dokumente. Rezultati është një model që kryen punë reale komplekse me saktësi, efektivitet dhe efikasitet —duke ofruar atë që kërkove me më pak mundim.
Në ChatGPT, GPT‑5.4 Thinking tani mund të ofrojë një plan paraprak të të menduarit të tij, që ti të mund të rregullosh drejtimin në mes të përgjigjes ndërsa është duke punuar, dhe të arrish në një rezultat përfundimtar që është më i përafruar me atë që të nevojitet pa kthesa shtesë. GPT‑5.4 Thinking gjithashtu përmirëson kërkimin në deep web, veçanërisht për pyetje shumë specifike, ndërsa ruan më mirë kontekstin për pyetjet që kërkojnë mendim më të gjatë. Së bashku, këto përmirësime nënkuptojnë përgjigje me cilësi më të lartë që vijnë më shpejt dhe mbeten të rëndësishme për detyrën në fjalë.
Në Codex dhe API, GPT‑5.4 është modeli i parë me qëllim të përgjithshëm që kemi publikuar me aftësi vendase, të nivelit më të lartë, të përdorimit të kompjuterit, duke u mundësuar agjentëve të operojnë kompjuterë dhe të kryejnë flukse pune komplekse nëpër aplikacione. Ai mbështet deri në 1M token të kontekstit, duke u lejuar agjentëve të planifikojnë, ekzekutojnë dhe verifikojnë detyra në horizonte të gjata. GPT‑5.4 gjithashtu përmirëson mënyrën se si modelet funksionojnë nëpër ekosisteme të mëdha mjetesh dhe lidhësish me kërkimin e mjeteve, duke i ndihmuar agjentët të gjejnë dhe të përdorin mjetet e duhura më me efikasitet pa sakrifikuar inteligjencën. Së fundi, GPT‑5.4 është modeli ynë më efikas në token për model arsyetimi deri më tani, duke përdorur dukshëm më pak token për të zgjidhur probleme krahasuar me GPT‑5.2 — duke u përkthyer në përdorim të reduktuar të token dhe shpejtësi më të larta.
Së bashku me përparimet në arsyetim të përgjithshëm, kodim dhe punë profesionale të bazuar në njohuri, GPT‑5.4 mundëson agjentë më të besueshëm, flukse pune më të shpejta për zhvilluesit dhe outpute me cilësi më të lartë në të gjithë ChatGPT, API-n dhe Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (fitore ose barazime) | 83.0% | 70,9% | 70,9% |
SWE-Bench Pro (Publik) | 57.7% | 56,8% | 55.6% |
OSWorld Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*Raportuar më parë si 64.7%. GPT‑5.3‑Codex arrin 74.0% me një parametër API të sapo prezantuar që ruan rezolucionin origjinal të imazhit.
Duke u bazuar në aftësitë e përgjithshme të arsyetimit të GPT‑5.2, GPT‑5.4 ofron rezultate edhe më të qëndrueshme dhe më të rafinuara në detyra të botës reale që kanë rëndësi për profesionistët.
Në GDPval, i cili teston aftësitë e agjentëve për të prodhuar punë me njohuri të mirëspecifikuara në 44 profesione, GPT‑5.4 arrin një standard të ri, duke u barazuar me ose duke tejkaluar profesionistët e sektorit në 83.0% të krahasimeve, krahasuar me 71.0% për GPT‑5.2.
Në GDPval, modelet përpiqen të kryejnë punë të mirë specifikuar të bazuar në njohuri që përfshin 44 profesione nga 9 industritë kryesore që kontribuojnë në PBB-në e SHBA-së. Detyrat kërkojnë produkte reale pune, si prezantime shitjesh, fletëllogaritëse kontabël, orare të kujdesit urgjent, diagrame prodhimi, ose video të shkurtra. Përpjekja e arsyetimit u caktua në xhigh për GPT‑5.4 dhe heavy për GPT‑5.2 (një nivel pak më i ulët në ChatGPT).
“GPT-5.4 është modeli më i mirë që kemi provuar ndonjëherë. Tani është në krye të leaderboard në standardin tonë APEX-Agents, i cili mat performancën e model për punë në shërbime profesionale. Shkëlqen në krijimin e rezultateve afatgjata si prezantime me slajde, modele financiare dhe analizë ligjore, duke ofruar performancë të nivelit më të lartë ndërsa funksionon më shpejt dhe me kosto më të ulët se modelet konkurruese avangardë.”
Ne vendosëm një fokus të veçantë në përmirësimin e aftësisë së GPT‑5.4 për të krijuar dhe redaktuar spreadsheet, prezantime dhe dokumente. Në standardin tonë të brendshëm për detyrat e modelimit të spreadsheet-eve që mund t’i bëjë një analist i ri i bankës së investimeve, GPT‑5.4 arrin një rezultat mesatar prej 87.5%, krahasuar me 68.4% për GPT‑5.2. Në një grup kërkesash për vlerësimin e prezantimeve, vlerësuesit njerëzorë preferuan prezantimet nga GPT‑5.4 68.0% të kohës mbi ato nga GPT‑5.2 për shkak të estetikës më të fortë, larmisë më të madhe vizuale dhe përdorimit më efektiv të gjenerim imazhi.

Dokumentet u gjeneruan me nivelin e arsyetimit të vendosur në xhigh
Mund t’i provosh këto aftësi në ChatGPT duke përdorur GPT‑5.4 Thinking ose Pro. Nëse je klient Enterprise, të rekomandojmë të përdorësh modulet tona të sapoqarkulluara ChatGPT për Excel dhe Google Sheets(hapet në një dritare të re), të cilat u qarkulluan gjithashtu sot. Ne kemi përditësuar gjithashtu fletëllogaritësen(hapet në një dritare të re) dhe aftësitë e prezantimit(hapet në një dritare të re) të disponueshme në Codex dhe në API.
Për ta bërë GPT‑5.4 më të mirë në punën reale, ne vazhduam përparimin tonë në uljen e iluzioneve dhe gabimeve. GPT‑5.4 është modeli ynë më faktik deri më tani: në një grup kërkesash të çidentifikuara ku përdoruesit shënuan gabime faktike, Pretendimet individuale kanë 33% më pak gjasa të jenë të rreme dhe përgjigjet e tij të plota kanë 18% më pak gjasa të përmbajnë ndonjë gabim, në krahasim me GPT‑5.2.
“GPT-5.4 vendos një standard të ri për punën ligjore me shumë dokumente. Në vlerësimin tonë BigLaw Bench, shënoi 91%. Krahasuar me modelet e tjera, GPT-5.4 aktualisht është më i mirë në strukturimin e analizës komplekse të transaksioneve, ruajtjen e saktësisë nëpër kontrata të gjata dhe ofrimin e nivelit të lartë të detajeve që kërkojnë praktikuesit e së drejtës.”
GPT‑5.4 është modeli ynë i parë me qëllim të përgjithshëm me aftësi të përdorimit të kompjuterit dhe shënon një hap të madh përpara si për zhvilluesit ashtu edhe për agjentët. Është modeli më i mirë aktualisht i disponueshëm për zhvilluesit që ndërtojnë agjentë që përfundojnë detyra reale nëpër uebsajte dhe sisteme softuerike.
Ne e kemi projektuar GPT‑5.4 që të ketë performancë të lartë në një gamë të gjerë ngarkesash pune të përdorimit të kompjuterit. Shkëlqen në shkrimin e kodit për të operuar kompjuterët përmes bibliotekave si Playwright, si edhe në lëshimin e komandave të miut dhe tastierës në përgjigje të pamjeve të ekranit. Sjellja e tij është e drejtueshme përmes mesazheve të zhvilluesit, që do të thotë se zhvilluesit mund ta rregullojnë sjelljen për t’iu përshtatur rasteve të veçanta të përdorimit. Zhvilluesit madje mund të konfigurojnë sjelljen e sigurisë së model për t’iu përshtatur niveleve të ndryshme të tolerancës ndaj rrezikut duke specifikuar politika të personalizuara konfirmimi.
Performanca dhe fleksibiliteti i model pasqyrohen nëpër standarde që testojnë përdorimin e kompjuterit nëpër mjedise të ndryshme. Në OSWorld-Verified, që mat aftësinë e një model për të naviguar një mjedis desktopi përmes pamjeve të ekranit dhe veprimeve me tastierë/miun, GPT‑5.4 arrin një nivel të fjalës së fundit të teknologjisë prej 75.0% shkalla e suksesit, duke e tejkaluar shumë GPT‑5.2’s 47.3%, dhe duke tejkaluar performancën njerëzore me 72.4%.1
Në WebArena-Verified, i cili teston përdorimin e shfletuesit, GPT‑5.4 arrin një normë suksesi udhëheqëse prej 67.3% kur përdor si ndërveprim të drejtuar nga DOM ashtu edhe nga pamjet e ekranit, krahasuar me 65.4% të GPT‑5.2. Në Online-Mind2Web, i cili teston gjithashtu përdorimin e shfletuesit, GPT‑5.4 arrin një shkallë suksesi prej 92.8% duke përdorur vetëm vëzhgime të bazuara në pamje ekrani, duke u përmirësuar krahasuar me Modalitetin e Agjentit të ChatGPT Atlas, i cili arrin një shkallë suksesi prej 70.9%.
"Tool yield” (Rendimenti i mjetit) ndodh kur një asistent tërhiqet për të pritur përgjigjet e mjeteve. Nëse 3 mjete thirren paralelisht, të ndjekura nga 3 mjete të tjera të thirrura paralelisht, numri i rendimenteve do të ishte 2. Prodhimet e mjeteve janë një tregues më i mirë i latencës sesa thirrjet e mjeteve, sepse pasqyrojnë përfitimet e paralelizimit.
GPT‑5.4 interpreton pamjet e ekranit të një ndërfaqeje shfletuesi dhe ndërvepron me elementet e ndërfaqes përmes klikimit të bazuar në koordinata për të dërguar emaile dhe për të planifikuar një ngjarje në kalendar.
Përdorimi i përmirësuar i kompjuterit i GPT‑5.4 bazohet në aftësitë e përmirësuara të perceptimit të përgjithshëm vizual të modelit. Në MMMU-Pro, një test i të kuptuarit vizual dhe arsyetimit të një modeli, GPT‑5.4 arrin një normë suksesi prej 81.2% pa përdorim mjetesh, një përmirësim krahasuar me GPT‑5.2’s 79.5%. Perceptimi vizual i përmirësuar përkthehet gjithashtu në aftësi më të mira për analizimin e dokumenteve. Në OmniDocBench, GPT‑5.4 pa përpjekje arsyetimi arrin një gabim mesatar (i matur nga distanca e redaktimit e normalizuar midis parashikimit të model dhe të vërtetës bazë) prej 0.109, i përmirësuar nga 0.140 i GPT‑5.2.
MMMUPro u ekzekutua me përpjekje arsyetimi të caktuar në xhigh. OmniDocBench u ekzekutua me përpjekjen e arsyetimit të vendosur në asnjë, për të pasqyruar performancë me kosto të ulët dhe vonesë të ulët.
Po ashtu po përmirësojmë të kuptuarin vizual për imazhe të dendura, me rezolucion të lartë, ku besnikëria e plotë ka rëndësi. Duke filluar me GPT‑5.4, po prezantojmë një nivel original të detajeve të inputit(hapet në një dritare të re) të imazhit që mbështet perceptim me besnikëri të plotë deri në 10.24M pikselë gjithsej ose dimensionin maksimal 6000 pikselë, cilado që është më e ulët; niveli high i detajeve të hyrjes së imazhit tani mbështet deri në 2.56M pikselë gjithsej ose një dimension maksimal 2048 pikselë. Gjatë testimeve të hershme me përdorues të API, vëzhguam përmirësime të mëdha në aftësinë e lokalizimit, kuptimin e imazheve dhe saktësinë e klikimeve kur përdorej original ose high detaje.
“Në vlerësimet tona që matin performancën e përdorimit të kompjuterit nëpër ~30K portale HOA dhe të taksës së pronës, GPT-5.4 arriti një normë suksesi prej 95% në përpjekjen e parë dhe 100% brenda tre përpjekjeve, krahasuar me ~73–79% me modelet e mëparshme CUA. Gjithashtu përfundoi sesionet rreth ~3 herë më shpejt, ndërsa përdorte rreth ~70% më pak tokenë, duke përmirësuar ndjeshëm besueshmërinë dhe efikasitetin e kostos në shkallë."
Në API, zhvilluesit mund të kenë akses në këto aftësi duke përdorur mjetin e përditësuar computer. Shih dokumentacionin tonë të përditësuar(hapet në një dritare të re) për praktikat më të mira të rekomanduara.
GPT‑5.4 kombinon pikat e forta të kodimit të GPT‑5.3‑Codex me aftësi udhëheqëse në punë me njohuri dhe përdorimin e kompjuterit, të cilat janë të rëndësishme për detyra afatgjata ku modeli mund të përdorë mjete, të përsërisë dhe të shtyjë punën më tej me më pak ndërhyrje manuale. Ai barazohet ose e tejkalon GPT‑5.3‑Codex në SWE-Bench Pro, ndërsa ka latencë më të ulët në përpjekjet e arsyetimit.
Ne e vlerësojmë vonesën duke parë sjelljen në prodhim të modeleve tona dhe duke e simuluar këtë jashtë linje. Vlerësimi i vonesës merr parasysh kohëzgjatjen e thirrjes së mjetit (kohën e ekzekutimit të kodit), tokenët e mostruar dhe tokenët hyrës. Vonesa në botën reale mund të ndryshojë ndjeshëm dhe varet nga shumë faktorë që nuk kapen në simulimin tonë. Përpjekjet e arsyetimit u rritën nga asnjë në shumë të larta.
Kur aktivizohet, /fast mode në Codex ofron deri në 1.5x shpejtësi më të lartë të tokenëve meGPT‑5.4. Është i njëjti model dhe e njëjta inteligjencë, thjesht më i shpejtë. Kjo do të thotë se përdoruesit mund të kalojnë nëpër detyra kodimi, përsëritje dhe korrigjimin e gabimeve duke qëndruar në rrjedhën e punës. Zhvilluesit mund të kenë akses në GPT‑5.4 me të njëjtat shpejtësi të larta përmes API duke përdorur përpunim prioritar(hapet në një dritare të re).
Në vlerësim dhe testime të brendshme zbuluam se GPT‑5.4 shkëlqen në detyra komplekse frontend, me rezultate dukshëm më estetike dhe më funksionale se çdo model që kemi publikuar më parë.
Si një demonstrim i aftësive të përmirësuara të përdorimit të kompjuterit dhe të kodimit të modelit që punojnë në tandem, po publikojmë gjithashtu një aftësi Codex eksperimentale të quajtur “Playwright (Interactive)(hapet në një dritare të re)”. Kjo i lejon Codex të korrigjojë vizualisht aplikacionet web dhe Electron; madje mund të përdoret për të testuar një aplikacion që po ndërton, ndërsa po e ndërton.
Lojë simulimi e parkut tematik e bërë me GPT‑5.4 nga një kërkesë e vetme e specifikuar lehtë, duke përdorur Playwright Interactive për testimin e lojës në shfletues dhe gjenerim imazhi për setin e aseteve izometrike. Simulimi përfshin vendosjen e shtigjeve me bazë pllaka, ndërtimin e atraksioneve dhe skenografisë, gjetjen e rrugës nga vizitorët, radhitjen dhe ciklet e atraksioneve, ndërsa metrikat e parkut si paratë, numri i vizitorëve, lumturia, pastërtia dhe vlerësimi rriten ose bien në varësi të mënyrës se si funksionon plani dhe si reagojnë vizitorët ndaj tij. Playwright u përdor për të automatizuar playtest-et e shfletuesit duke ndërtuar dhe zgjeruar parkun, duke vendosur dhe hequr shtigje dhe atraksione, duke kontrolluar navigimin e kamerës dhe duke verifikuar që vizitorët, radhët, gjendjet e atraksioneve dhe metrikat e ndërfaqes të përditësoheshin saktë gjatë disa raundeve të lojës.
Kërkesë: Përdorni $playwright-interactive dhe $imagegen. Krijoni një lojë simulimi interaktive të një parku tematik izometrik që mund ta ndërtoni dhe ta navigoni në shfletues. Përdorni imagegen për të vendosur vizionin e përgjithshëm vizual dhe për të gjeneruar asetet e lojës, duke përfshirë atraksione, shtigje, terren, pemë, ujë, stenda ushqimi, dekorime, ndërtesa, ikona dhe ilustrime UI. Bota duhet të ndihet kohezive, e lëmuar dhe vizualisht e pasur, me një drejtim artistik premium që funksionon mirë nga një perspektivë izometrike. Ju lejon të vendosni dhe të hiqni shtigje, të shtoni atraksione, të poziciononi skenografinë dhe të lëvizni rreth parkut pa pengesa, ndërsa monitoroni aktivitetin e vizitorëve, statusin e atraksioneve dhe rritjen e parkut. Përfshini lëvizje të besueshme të vizitorëve, sisteme të thjeshta menaxhimi të parkut si para, pastërti, radhë dhe lumturi, dhe bëjeni përvojën të ndihet lozonjare, e qartë dhe e plotë, në vend që të duket si një prototip i papërpunuar. Jepni përparësi hijeshisë, lexueshmërisë dhe ndjesisë së fortë të lojës mbi realizmin.
Gjatë testimit të lojës, sigurohu të ndërtosh dhe të zgjerosh një park gjatë disa raundeve loje, të verifikosh që vendosja dhe navigimi funksionojnë pa probleme, të konfirmosh që vizitorët reagojnë ndaj planimetrisë së parkut dhe atraksioneve, dhe të sigurosh që pamjet, UI dhe ndërveprimet të duken të qëndrueshme dhe kohezive.
“Inxhinierët tanë e gjejnë GPT-5.4 më natyrale dhe më të vendosura se modelet e mëparshme. Ai punon përmes problemeve të paqarta pa e vënë në dyshim veten, dhe është proaktiv në paralelizimin e punës për t’i mbajtur gjërat në lëvizje.”
Me GPT‑5.4, kemi përmirësuar ndjeshëm mënyrën se si modelet punojnë me mjetet e jashtme. Agjentët tani mund të operojnë nëpër ekosisteme më të gjera mjetesh, të zgjedhin mjetet e duhura më me besueshmëri dhe të përfundojnë procese pune me shumë hapa me kosto dhe vonesë më të ulët.
Në API, GPT‑5.4 prezanton kërkimin e mjeteve(hapet në një dritare të re), i cili u lejon modeleve të punojnë me efikasitet kur u jepen shumë mjete.
Më parë, kur një modeli i jepeshin mjete, të gjitha përkufizimet e mjeteve përfshiheshin në kërkesë që në fillim. Për sistemet me shumë mjete, kjo mund të shtojë mijëra ose edhe dhjetëra mijëra token në çdo kërkesë, duke rritur koston, duke ngadalësuar përgjigjet dhe duke e mbushur kontekstin me informacion që modeli mund të mos e përdorë kurrë.
Me kërkimin e mjeteve, GPT‑5.4 në vend të kësaj merr një listë të lehtë të mjeteve të disponueshme së bashku me një aftësi kërkimi të mjeteve. Kur modeli duhet të përdorë një mjet, ai mund të kërkojë përkufizimin e atij mjeti dhe ta bashkëngjisë atë në bisedë në atë moment.
Kjo qasje ul ndjeshëm numrin e token-ëve të nevojshëm për flukse pune me shumë mjete dhe ruan cache-in, duke i bërë kërkesat më të shpejta dhe më të lira. Ajo gjithashtu u mundëson agjentëve të punojnë me besueshmëri me ekosisteme mjetesh shumë më të mëdha. Për serverët MCP që mund të përmbajnë dhjetëra mijëra token të përkufizimeve të mjeteve, përfitimet në efikasitet mund të jenë të konsiderueshme.
Për të demonstruar përfitimet e efikasitetit, vlerësuam 250 detyra nga benchmark-u MCP Atlas(hapet në një dritare të re) i Scale me të gjithë 36 serverët MCP të aktivizuar në dy mënyra: (1) duke ekspozuar çdo funksion MCP drejtpërdrejt në kontekstin e modelit, dhe (2) duke vendosur të gjithë serverët MCP pas kërkimit të mjeteve. Konfigurimi i kërkimit të mjeteve uli përdorimin total të tokenëve me 47% duke arritur të njëjtën saktësi.
Numërimet shembull të tokenëve vijnë nga mesatarizimi i 250 detyrave në datasetin publik MCP-Atlas.
GPT‑5.4 gjithashtu përmirëson thirrjen e mjeteve, duke e bërë atë më të saktë dhe efikase kur vendos se kur dhe si të përdorë mjetet gjatë arsyetimit, veçanërisht në API. Krahasuar me GPT‑5.2, ai arrin saktësi më të lartë me më pak kthesa në Toolathlon, një standard që teston se sa mirë agjentët e AI mund të përdorin mjete dhe API të botës reale për të përfunduar detyra me shumë hapa. Për shembull, një agjent duhet të lexojë email-e, të nxjerrë bashkëngjitjet e detyrës, t'i ngarkojë ato, t'i vlerësojë dhe të regjistrojë rezultatet në një fletëllogaritëse.
"Tool yield” (Rendimenti i mjetit) ndodh kur një asistent tërhiqet për të pritur përgjigjet e mjeteve. Nëse 3 mjete thirren paralelisht, të ndjekura nga 3 mjete të tjera të thirrura paralelisht, numri i rendimenteve do të ishte 2. Prodhimet e mjeteve janë një tregues më i mirë i latencës sesa thirrjet e mjeteve, sepse pasqyrojnë përfitimet e paralelizimit.
Për rastet e përdorimit të ndjeshme ndaj vonesës ku preferohet përpjekja e arsyetim asnjë, GPT‑5.4 përmirëson më tej paraardhësit e tij.
Në τ2-bench(hapet në një dritare të re), një model duhet të përdorë mjete për të përmbushur një detyrë të shërbimit ndaj klientit, ku mund të ketë një përdorues të simuluar që mund të komunikojë dhe të ndërmarrë veprime në gjendjen botërore. Arsyetimi u vendos në "Asnjë".
GPT‑5.4 është më i mirë në kërkimin në internet si agjent. Në BrowseComp, një matje e asaj se sa mirë agjentët e AI mund të shfletojnë në mënyrë të qëndrueshme uebin për të gjetur informacion të vështirë për t’u gjetur, GPT‑5.4 rritet me 17%abs mbi GPT‑5.2, dhe GPT‑5.4 Pro vendos një standard të ri të fjalës së fundit të teknologjisë prej 89.3%.
Në praktikë, kjo do të thotë GPT‑5.4 Thinking është më i fortë në përgjigjen e pyetjeve që kërkojnë mbledhjen e informacionit nga shumë burime në internet. Mund të kërkojë më këmbëngulësisht nëpër raunde të shumta për të identifikuar burimet më përkatëse, veçanërisht për pyetje shumë të vështira, dhe t’i sintetizojë ato në një përgjigje të qartë, të arsyetuar mirë.
Në BrowseComp, përdorëm një listë bllokimi kërkimi që përjashton faqet e internetit që përmbajnë përgjigje të standardit nga vlerësimi për të parandaluar ndotjen dhe për të siguruar një masë të drejtë të performancës. GPT‑5.4 u mat në një datë më të vonshme se GPT‑5.2, që pikët të pasqyrojnë ndryshimet në model, sistemin tonë të kërkimit dhe gjendjen e internetit. GPT‑5.4 u testua me një listë bllokimi më të gjatë, të përditësuar. Modelet përdorin mjetin e kërkimit të ChatGPT, i cili mund të ketë dallime të vogla nga kërkimi i API.
“GPT-5.4 xhigh është standardi i ri i fjalës së fundit të teknologjisë për përdorimin e mjeteve me shumë hapa. Zapier ekzekuton disa nga standardet më rigoroze të përdorimit të mjeteve në industri, duke testuar modelet nëpër qindra procese pune të avancuara të botës reale. GPT-5.4 e përfundoi punën aty ku modelet e mëparshme hoqën dorë - modeli më këmbëngulës deri më sot.”
Në mënyrë të ngjashme me mënyrën se si Codex përshkruan qasjen e vet kur fillon të punojë, GPT‑5.4 Të menduarit në ChatGPT tani do ta përvijojë punën e tij me një parathënie për pyetje më të gjata dhe më komplekse. Mund të shtosh gjithashtu udhëzime ose të rregullosh drejtimin e tij në mes të përgjigjes. Kjo e bën më të lehtë të udhëzosh modelin drejt rezultatit të saktë që dëshiron, pa filluar nga e para ose pa kërkuar disa radhë shtesë. Kjo veçori është e disponueshme tani në chatgpt.com(hapet në një dritare të re) dhe në aplikacionin Android, dhe do të vijë së shpejti në aplikacionin iOS.
Modeli mund të mendojë gjithashtu më gjatë për detyra të vështira, duke ruajtur një ndërgjegjësim më të fortë për hapat e mëparshëm në bisedë. Kjo i mundëson të trajtojë flukse pune më të gjata dhe kërkesa më komplekse, duke i mbajtur përgjigjet koherente dhe të rëndësishme gjatë gjithë kohës.
Kjo video është përshpejtuar për qëllime ilustruese.
Gjatë muajve të fundit, kemi vazhduar të përmirësojmë masat mbrojtëse që prezantuam me GPT‑5.3‑Codex, ndërsa po përgatisim GPT‑5.4 për vendosje. Ngjashëm me GPT‑5.3‑Codex, ne po e trajtojmë GPT‑5.4 si një aftësi të lartë kibernetike sipas Kornizës sonë të Gatishmërisë, dhe po e vendosim atë me mbrojtjet përkatëse siç dokumentohen në kartën e sistemit. Këto përfshijnë një paketë të zgjeruar të sigurisë kibernetike, duke përfshirë sisteme monitorimi, kontrolle të aksesit të besuar dhe bllokim asinkron për kërkesa me rrezik të lartë për klientët në sipërfaqet pa mbajtje të dhënash (ZDR), së bashku me investime të vazhdueshme në ekosistemin më të gjerë të sigurisë.
Meqenëse aftësitë e sigurisë kibernetike janë në thelb me përdorim të dyfishtë, ne mbajmë një qasje paraprake ndaj vendosjes, ndërsa vazhdojmë të rregullojmë politikat dhe klasifikuesit tanë. Për disa klientë të caktuar në sipërfaqet ZDR, bllokimi në nivel kërkese mbetet pjesë e grumbullit tonë të masave të zbutjes së rrezikut kibernetik; meqë klasifikuesit janë ende duke u përmirësuar, mund të ndodhin disa rezultate të rreme pozitive ndërsa vazhdojmë t’i përsosim këto masa mbrojtëse. Këto përditësime synojnë të përmirësojnë mënyrën se si masat mbrojtëse funksionojnë në praktikë, duke përfshirë reduktimin e refuzimeve të panevojshme dhe përgjigjeve me tepër paralajmërime, ndërsa ruajnë mbrojtje të forta kundër keqpërdorimit.
Ne kemi vazhduar hulumtimin tonë të sigurisë mbi monitorueshmërinë e zinxhirit të mendimit (CoT) për të kuptuar më mirë se si arsyetojnë modelet dhe për të ndihmuar në zbulimin e sjelljes së mundshme të keqe. Si pjesë e kësaj pune, ne prezantojmë një vlerësim të ri me burim të hapur, kontrolli i CoT, që mat nëse modelet mund të errësojnë qëllimisht arsyetimin e tyre për t’iu shmangur monitorimit. Kemi vënë re se aftësia e GPT‑5.4 Thinking për të kontrolluar CoT e vet është e ulët, gjë që është një veti pozitive për sigurinë, duke sugjeruar se modelit i mungon aftësia për të fshehur arsyetimin e tij dhe se monitorimi CoT mbetet një mjet efektiv sigurie.
GPT‑5.4 po qarkullon gradualisht sot në të gjithë ChatGPT dhe Codex. Në API, GPT‑5.4 është i disponueshëm tani si gpt-5.4. GPT‑5.4 Pro është gjithashtu i disponueshëm në API si gpt-5.4-pro për zhvilluesit që kanë nevojë për performancë maksimale në detyrat më komplekse.
Në ChatGPT, GPT‑5.4 Thinking është i disponueshëm që nga sot për përdoruesit e ChatGPT Plus, Team dhe Pro, duke zëvendësuar GPT‑5.2 Thinking. GPT‑5.2 Thinking do të mbetet i disponueshëm për tre muaj për përdoruesit me pagesë në zgjedhësin e modelit nën seksionin Legacy Models, pas së cilës do të tërhiqet më 5 qershor 2026. Ata që janë në planet Enterprise dhe Edu mund të aktivizojnë aksesin e hershëm përmes cilësimeve të administratorit. GPT‑5.4 Pro është i disponueshëm për planet Pro dhe Enterprise. Dritaret e kontekstit(hapet në një dritare të re) në ChatGPT për GPT‑5.4 Thinking mbetet i pandryshuar nga GPT‑5.2 Thinking.
GPT‑5.4 është modeli ynë i parë kryesor i model arsyetimi që përfshin aftësitë avangardë të kodimit të GPT‑5.3‑codex dhe që po qarkullon në ChatGPT, API dhe Codex. Po e quajmë GPT‑5.4 për të pasqyruar atë rritje dhe për të thjeshtuar zgjedhjen midis modeleve kur përdoret Codex. Me kalimin e kohës, mund të presësh që modelet tona Instant dhe modelet Thinking të evoluojnë me shpejtësi të ndryshme.
GPT‑5.4 në Codex përfshin mbështetje eksperimentale për dritaren e kontekstit 1M. Zhvilluesit mund ta provojnë këtë duke konfiguruar model_context_window dhe model_auto_compact_token_limit. Kërkesat që tejkalojnë dritaren standarde të kontekstit 272K llogariten ndaj kufizimeve të përdorimit me 2x normën normale.
Në API, GPT‑5.4 ka një çmim më të lartë për token sesa GPT‑5.2 për të pasqyruar aftësitë e tij të përmirësuara, ndërsa efikasiteti i tij më i madh i tokenëve ndihmon në uljen e numrit total të tokenëve të nevojshëm për shumë detyra. Çmimet Batch dhe Flex janë të disponueshme me gjysmën e tarifës standarde të API-së, ndërsa përpunimi Priority është i disponueshëm me dyfishin e tarifës standarde të API-së.
Model API | Çmimi i hyrjes | Çmimi i inputit në memorien e përkohshme | Çmimi i prodhimit |
gpt-5.2 | $1.75 / M tokenë | $0,175 / M tokenë | $14 / M tokenë |
gpt-5.4 | $2.50 / M tokenë | $0.25 / M tokenë | $15 / M token |
gpt-5.2-pro | $21 / M tokenë | - | $168 / M tokenë |
gpt-5.4-pro | $30 / M tokenë | - | $180 / M token |
Profesional
Vlerësim | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70,9% | 70,9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
Detyra të modelimit në bankën e investimeve (Të brendshme) | 87,3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
Kodimi
Vlerësim | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Publik) | 57.7% | — | 56,8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62,2% | — |
Përdorimi i kompjuterit dhe vizioni
Vlerësim | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (pa mjete) | 81.2% | — | — | 79.5% | — |
MMMU Pro (me mjete) | 82.1% | — | — | 80.4% | — |
Përdorimi i mjeteve
Vlerësim | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77,9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98,7% | — |
Akademik
Vlerësim | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Kërkime shkencore avangardë | 33.0% | 36,7% | — | 25.2% | — |
FrontierMath Tier 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath Tier 4 | 27.1% | 38,0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Humanity's Last Exam (pa mjete) | 39.8% | 42,7% | — | 34.5% | 36.6% |
Humanity's Last Exam (me mjete) | 52.1% | 58.7% | — | 45.5% | 50.0% |
Kontekst i gjatë
Vlerësim | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94,0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks parents 0–128K (saktësi) | 89.8% | — | — | 89.0% | — |
Graphwalks parents 256K–1M (saktësi) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79,3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
Arsyetim abstrakt
Vlerësim | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (verifikuar) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (verifikuar) | 73.3% | 83,3% | — | 52,9% | 54,2% (high) |
Vlerësimet pa arsyetim
Vlerësim | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (distanca e redaktimit e normalizuar) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
Evals u ekzekutuan me përpjekje arsyetimi të vendosur në xhigh, me përjashtim të rasteve kur specifikohet ndryshe. Testet e performancës u kryen në një mjedis kërkimor, që mund të japë outpute paksa të ndryshme nga ChatGPT në prodhim në disa raste.
Autor
Shënime në fund
1 Performanca njerëzore e raportuar në OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(hapet në një dritare të re).


