Sot, po publikojmë GPT‑5.4 mini dhe nano, modelet tona të vogla më të afta deri më tani. Ato sjellin shumë nga pikat e forta të GPT‑5.4 në modele më të shpejta e më efikase, të projektuara për ngarkesa pune me volum të lartë.
GPT‑5.4 mini përmirëson ndjeshëm krahasuar me GPT‑5 mini në kodim, arsyetim, kuptim multimodal dhe përdorim mjetesh, ndërsa funksionon më shumë se 2x më shpejt. Ai gjithashtu i afrohet performancës së model më të madh GPT‑5.4 në disa vlerësime, duke përfshirë SWE-Bench Pro dhe OSWorld-Verified.
GPT‑5.4 nano është versioni më i vogël dhe më i lirë i GPT‑5.4 për detyra ku shpejtësia dhe kostoja kanë rëndësi më së shumti. Është gjithashtu një përmirësim i rëndësishëm kundrejt GPT‑5‑nano. Ne e rekomandojmë për klasifikim, nxjerrje të të dhënave, renditje dhe nënagjentë kodimi që trajtojnë detyra mbështetëse më të thjeshta.
Këto modele janë krijuar për llojet e ngarkesave të punës ku vonesa ndikon drejtpërdrejt në përvojën e produktit: asistentë kodimi që duhet të jenë të shpejtë, nënagjentë që përfundojnë me shpejtësi detyra mbështetëse, sisteme kompjuterike që kapin dhe interpretojnë pamje ekrani, si dhe aplikacione multimodale që mund të arsyetojnë mbi imazhet në kohë reale. Në këto cilësime, modeli më i mirë shpesh nuk është më i madhi — është ai që mund të përgjigjet shpejt, të përdorë mjete në mënyrë të besueshme dhe prapë të performojë mirë në detyra komplekse profesionale.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Niveli më i lartë i disponueshëm i reasoning_effort për GPT‑5 mini është 'high'.
Ja çfarë mendojnë klientët tanë pasi testuan GPT‑5.4 mini dhe nano në rrjedhat e tyre të punës:
“GPT-5.4 mini ofron performancë të fuqishme fund-më-fund për një model të kësaj klase. Në vlerësimet tona, ai u barazua ose e tejkaloi model konkurruese në disa detyra të rezultateve dhe rikujtimin e citimeve me një kosto shumë më të ulët. Ai gjithashtu arriti norma më të larta kalimi skaj-më-skaj dhe atribuim më të fortë të burimit sesa modeli më i madh GPT-5.4.
GPT‑5.4 mini dhe nano janë veçanërisht efikasë në rrjedhat e punës së kodimit që përfitojnë nga përsëritja e shpejtë. Modeli trajton redaktime të synuara, navigimin në bazën e kodit, gjenerimin front-end dhe ciklet e korrigjimit të gabimeve me latencë të ulët, duke e bërë atë një zgjedhje të fortë për detyra kodimi që duhet të përfundojnë me shpejtësi më të lartë dhe me kosto më të ulët.
Në benchmark-e, GPT‑5.4 mini vazhdimisht e tejkalon GPT‑5‑mini në vonesa të ngjashme dhe u afrohet normave të kalimit të GPT‑5.4‑level ndërsa funksionon shumë më shpejt, duke ofruar një nga kompromiset më të forta performancë-për-vonesë për flukset e punës së kodimit.
Ne e vlerësojmë vonesën duke parë sjelljen në prodhim të modeleve tona dhe duke e simuluar këtë jashtë linje. Vlerësimi i vonesës merr parasysh kohëzgjatjen e thirrjes së mjetit (kohën e ekzekutimit të kodit), tokenët e mostruar dhe tokenët hyrës. Vonesa në botën reale mund të ndryshojë ndjeshëm dhe varet nga shumë faktorë që nuk kapen në simulimin tonë. Në mënyrë të ngjashme, kostot vlerësohen bazuar në çmimet e API për këto modele në kohën e shkrimit. Kostot mund të ndryshojnë në të ardhmen. Përpjekjet e arsyetimit u rritën nga low në xhigh.
GPT‑5.4 mini është gjithashtu një përshtatje e shkëlqyer për sistemet që kombinojnë modele me madhësi të ndryshme. Në Codex, për shembull, një model më i madh si GPT‑5.4 mund të merret me planifikimin, koordinimin dhe gjykimin përfundimtar, ndërsa delegon te nënagjentët mini GPT‑5.4 që merren me nëndetyra më të ngushta paralelisht—si kërkimi në një bazë kodi, shqyrtimi i një skedari të madh ose përpunimi i dokumenteve mbështetëse. Mëso si funksionojnë nënagjentët në Codex në dokumentacionin(hapet në një dritare të re).
Ky model bëhet më i dobishëm ndërsa modelet më të vogla bëhen më të shpejta dhe më të afta. Në vend që të përdorin një model për gjithçka, zhvilluesit mund të ndërtojnë sisteme ku modelet më të mëdha vendosin çfarë të bëjnë dhe modelet më të vogla ekzekutojnë shpejt në shkallë të gjerë. GPT‑5.4 mini është modeli ynë mini më i fuqishëm deri tani për atë stil të rrjedhës së punës.
GPT‑5.4 mini është gjithashtu i fortë në detyrat multimodale, veçanërisht ato që lidhen me përdorimin e kompjuterit. Modeli mund të interpretojë shpejt pamjet e ekranit të ndërfaqeve të dendura të përdoruesit për të përfunduar detyra të përdorimit të kompjuterit me shpejtësi. Në OSWorld-Verified, GPT‑5.4 mini i afrohet GPT‑5.4, ndërsa e tejkalon ndjeshëm GPT‑5 mini.
GPT‑5.4 mini është i disponueshëm sot në API, Codex dhe ChatGPT.
Në API, GPT‑5.4 mini mbështet hyrje teksti dhe imazhi, përdorimin e mjeteve, thirrje funksioni, kërkim në ueb, kërkim skedarësh, përdorim të kompjuterit dhe aftësi. Ka një dritare konteksti prej 400k dhe kushton $0.75 për 1M tokenë hyrës dhe $4.50 për 1M tokenë dalës.
Në Codex, GPT‑5.4 mini është i disponueshëm në të gjithë aplikacionin Codex, CLI, zgjerimin e IDE dhe ueb. Përdor vetëm 30% të kuotës së GPT‑5.4, duke u mundësuar zhvilluesve të trajtojnë shpejt detyra më të thjeshta kodimi në Codex për rreth një të tretën e kostos. Codex mund të delegojë gjithashtu te nënagjentët mini GPT‑5.4, në mënyrë që punë më pak intensive për sa i përket arsyetim të ekzekutohet në modelin më të lirë.
Në ChatGPT, GPT‑5.4 mini është i disponueshëm për përdoruesit Free dhe Go përmes veçorisë “Thinking” në menynë +. Për të gjithë përdoruesit e tjerë, GPT‑5.4 mini është i disponueshëm si një alternativë rezervë për kufirin e ritmit për GPT‑5.4 Thinking.
GPT‑5.4 nano është i disponueshëm vetëm në API dhe kushton $0,20 për 1M tokenë hyrës dhe $1,25 për 1M tokenë output.
Për më shumë informacion mbi masat mbrojtëse të modeleve, ju lutemi shikoni shtojcën e kartë sistemi në Deployment Safety Hub(hapet në një dritare të re).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Niveli më i lartë i disponueshëm i reasoning_effort për GPT‑5 mini është 'high'.
2 Distanca e përgjithshme e redaktimit. OmniDocBench u ekzekutua me reasoning_effort të vendosur në 'none' për të pasqyruar performancë me kosto të ulët dhe vonesë të ulët.


