5 martie 2026

Îți prezentăm GPT‑5.4

Conceput pentru muncă profesională

Se încarcă…

Astăzi, lansăm GPT‑5.4 în ChatGPT (ca GPT‑5.4 Thinking), în API și Codex. Este cel mai capabil și eficient model de vârf al nostru pentru munca profesională. De asemenea, lansăm GPT‑5.4 Pro în ChatGPT și în API, pentru cei care doresc performanță maximă pentru sarcini complexe.

GPT‑5.4 reunește cele mai bune progrese recente ale noastre în raționament, programare și fluxuri de lucru agentice într-un singur model de vârf. Încorporează capabilitățile de programare de top din domeniu ale GPT‑5.3‑Codex⁠ în timp ce îmbunătățește modul în care modelul funcționează cu diverse instrumente, medii software și sarcini profesionale care implică foi de calcul, prezentări și documente. Rezultă un model care realizează activități complexe cu precizie și eficiență, oferind ceea ce ai solicitat cu mai puține întreruperi.

În ChatGPT, GPT‑5.4 Thinking poate oferi acum, din start, un plan al modului în care gândește, astfel încât să poți ajusta direcția la mijlocul răspunsului în timp ce lucrează și să ajungi la un rezultat final mai bine aliniat cu ceea ce ai nevoie fără ture suplimentare. GPT‑5.4 Thinking îmbunătățește, de asemenea, cercetarea aprofundată pe web, în special pentru interogări foarte specifice, menținând în același timp mai bine contextul pentru întrebările care necesită o gândire mai îndelungată. Împreună, aceste îmbunătățiri înseamnă răspunsuri de calitate mai bună, care sosesc mai rapid și rămân relevante pentru sarcina în cauză.

În Codex și în API, GPT‑5.4 este primul model cu scop general pe care l-am lansat cu capacități native, de ultimă generație, de utilizare a computerului, permițându-le agenților să opereze computere și să desfășoare fluxuri de lucru complexe în mai multe aplicații. Acceptă până la 1 milion de tokenuri de context, permițându-le agenților să planifice, să execute și să verifice sarcini pe orizonturi lungi. GPT‑5.4 îmbunătățește și modul în care modelele funcționează în ecosisteme mari de instrumente și conectori cu căutarea de instrumente, ajutând agenții să găsească și să folosească instrumentele potrivite mai eficient, fără a sacrifica inteligența. În cele din urmă, GPT‑5.4 este cel mai eficient model de raţionament din punct de vedere al tokenurilor al nostru de până acum, folosind semnificativ mai puține tokenuri pentru a rezolva problemele în comparație cu GPT‑5.2 — ceea ce înseamnă o utilizare redusă a tokenurilor și viteze mai mari.

Împreună cu progresele în raţionament general, programare și activitate profesională bazată pe cunoștințe, GPT‑5.4 permite agenți mai fiabili, fluxuri de lucru mai rapide pentru dezvoltatori și rezultate de calitate superioară în ChatGPT, API și Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (wins or ties)	83,0%	70,9%	70,9%
SWE-Bench Pro (Public)	57,7%	56,8%	55,6%
OSWorld-Verified	75,0%	74,0%*	47,3%
Toolathlon	54,6%	51,9%	46,3%
BrowseComp	82,7%	77,3%	65,8%

*Raportat anterior ca 64,7%. GPT‑5.3‑Codex atinge 74,0% cu un parametru API introdus recent, care păstrează rezoluția originală a imaginii.

Muncă bazată pe cunoștințe

Bazându-se pe capabilitățile generale de raţionament ale GPT‑5.2, GPT‑5.4 oferă rezultate și mai consecvente și mai rafinate în sarcini din lumea reală care contează pentru profesioniști.

În GDPval⁠, care testează capacitățile agenților de a produce activități intelectuale bine definite din 44 de profesii, GPT‑5.4 obține un nou rezultat de ultimă generație, egalând sau depășind profesioniștii din domeniu în 83,0% dintre comparații, față de 71,0% pentru GPT‑5.2.

În GDPval, modelele încearcă să realizeze o muncă bazată pe cunoștințe bine definită, care acoperă 44 de profesii din primele 9 sectoare care contribuie la PIB-ul SUA. Sarcinile necesită produse reale, cum ar fi prezentări de vânzări, foi de calcul pentru contabilitate, programe de îngrijire medicală urgentă, diagrame de fabricație sau videoclipuri scurte. Efortul de raţionament a fost setat la xhigh pentru GPT‑5.4 și heavy pentru GPT‑5.2 (un nivel ușor mai scăzut în ChatGPT).

„GPT-5.4 este cel mai bun model pe care l-am încercat vreodată. Acum se află în fruntea clasamentului nostru pentru testul de performanță APEX-Agents, care măsoară performanța modelelor pentru activități profesionale. Excelează la crearea de livrabile pe termen lung, precum seturi de slide-uri, modele financiare și analize juridice, oferind performanțe de top, în timp ce rulează mai rapid și la un cost mai mic decât modelele de vârf concurente.”

— Brendan Foody, director executiv al Mercor

Am pus un accent deosebit pe îmbunătățirea capacității GPT‑5.4. de a crea și edita foi de calcul, prezentări și documente. Pe testului nostru intern de performanță pentru sarcini de modelare în foi de calcul pe care le-ar putea face un analist junior de investiții bancare, GPT‑5.4 obține un scor mediu de 87,5%, comparativ cu 68,4% pentru GPT‑5.2. Pe un set de solicitări de evaluare a prezentărilor, evaluatorii umani au preferat prezentările de la GPT‑5.4 68,0% din timp față de cele de la GPT‑5.2 datorită esteticii mai puternice, varietății vizuale mai mari și utilizării mai eficiente a generării de imagini.

Exemplu alăturat al rezultatelor foilor de calcul de la GPT-5.2 vs GPT-5.4

Documentele au fost generate cu efortul de raţionament setat la xhigh

Poți încerca aceste capacități în ChatGPT folosind GPT‑5.4 Thinking sau Pro. Dacă ești client Enterprise, îți recomandăm să folosești pluginurile noastre ChatGPT pentru Excel și Google Sheets, lansate recent, pluginuri⁠(se deschide într-o fereastră nouă), care au fost lansate tot astăzi. De asemenea, ne-am actualizat abilitățile pentru foi de calcul⁠(se deschide într-o fereastră nouă) și prezentări⁠(se deschide într-o fereastră nouă) disponibile în Codex și API.

Pentru a îmbunătăți GPT‑5.4 în practică, am continuat să reducem halucinațiile și erorile. GPT‑5.4 este modelul nostru cel mai factual de până acum: în cazul unui set de solicitări anonimizate în care utilizatorii au semnalat erori factuale, afirmațiile individuale ale GPT‑5.4 au o probabilitate cu 33% mai mică de a fi false, iar răspunsurile complete au o probabilitate cu 18% mai mică de a conține erori, comparativ cu GPT‑5.2.

„GPT-5.4 stabilește un nou standard pentru munca juridică cu multe documente. În cadrul evaluării noastre BigLaw Bench, a obținut un scor de 91%. Comparativ cu alte modele, GPT-5.4 este în prezent mai eficient în structurarea analizelor tranzacționale complexe, menținerea preciziei pe parcursul contractelor lungi și furnizarea nivelului ridicat de detaliu necesar specialiștilor juridici.”

— Niko Grupen, șef al departamentului de cercetare aplicată la Harvey

Utilizarea computerului și viziunea noastră

GPT‑5.4 este primul nostru model cu scop general, cu capacități native de utilizare a computerului și marchează un pas înainte major atât pentru dezvoltatori, cât și pentru agenți. Este cel mai bun model disponibil în prezent pentru dezvoltatorii care construiesc agenți ce finalizează sarcini reale pe site-uri web și în sisteme software.

Am conceput GPT‑5.4 pentru a oferi performanțe ridicate într-o gamă largă de sarcini de utilizare a computerului. Excelează la scrierea de cod pentru a opera computere prin biblioteci precum Playwright, precum și la emiterea de comenzi de mouse și tastatură ca răspuns la capturi de ecran. Comportamentul său poate fi controlat prin mesaje de dezvoltator, ceea ce înseamnă că dezvoltatorii pot ajusta comportamentul pentru a se potrivi unor cazuri de utilizare specifice. Dezvoltatorii pot chiar să configureze comportamentul de siguranță al modelului pentru a se potrivi cu diferite niveluri de toleranță la risc, specificând politici de confirmare personalizate.

Performanța și flexibilitatea modelului se reflectă în testele de performanță care testează utilizarea computerului în diferite contexte. În cazul OSWorld-Verified, care măsoară capacitatea unui model de a naviga într-un mediu desktop prin capturi de ecran și acțiuni de la tastatură/mouse, GPT‑5.4 atinge un rezultat o rată de succes de ultimă generație de 75,0%, depășind cu mult rezultatul de 47,3% al GPT‑5.2 și depășind performanța umană de 72,4%.¹

În cazul WebArena-Verified, care testează utilizarea browserului, GPT‑5.4 atinge o rată de succes de top de 67,3% atunci când folosește atât interacțiunea bazată pe DOM, cât și pe capturi de ecran, comparativ cu 65,4% pentru GPT‑5.2. În cazul Online-Mind2Web, care testează la rândul său utilizarea browserului, GPT‑5.4 atinge o rată de succes de 92,8% folosind doar observații bazate pe capturi de ecran, îmbunătățind fiabilitatea Modului Agent al ChatGPT Atlas, care atinge o rată de succes de 70,9%.

O cedare a instrumentului are loc atunci când un asistent cedează dreptul de a aștepta răspunsurile instrumentului. Dacă 3 instrumente sunt apelate în paralel, urmate de încă 3 instrumente apelate în paralel, numărul de cedări ar fi 2. Cedările instrumentelor sunt un proxy mai bun al latenței decât apelările de instrumente, deoarece reflectă beneficiile paralelizării.

GPT‑5.4 interpretează capturi de ecran ale unei interfețe de browser și interacționează cu elementele UI prin clicuri bazate pe coordonate pentru a trimite e-mailuri și a programa un eveniment în calendar.

Utilizarea îmbunătățită a computerului în GPT‑5.4 se bazează pe capacitățile îmbunătățite de percepție vizuală generală ale modelului. În cazul MMMU-Pro, un test al înțelegerii vizuale și al raţionamentului unui model, GPT‑5.4 atinge o rată de succes de 81,2% fără utilizarea instrumentelor, o îmbunătățire față de rezultatul GPT‑5.2 de 79,5%. Percepția vizuală îmbunătățită înseamnă și capacități mai bune de analizare a documentelor. În cazul OmniDocBench, GPT‑5.4 fără efort de raționament atinge o rată de eroare medie (măsurată prin distanța de editare normalizată dintre predicția modelului și adevărul de referință) de 0,109, o îmbunătățire adusă performanței de 0,140 a GPT‑5.2.

MMMUPro a fost rulat cu efortul de raţionament setat la xhigh. OmniDocBench a fost rulat cu efortul de raţionament setat la none, pentru a reflecta performanța cu cost redus și latență scăzută.

De asemenea, îmbunătățim înțelegerea vizuală pentru imagini dense, de înaltă rezoluție, unde fidelitatea completă contează. Începând cu GPT‑5.4, introducem un nivel original de detaliu de intrare⁠(se deschide într-o fereastră nouă) pentru imagini, care acceptă o percepție cu fidelitate completă de până la 10,24 de milioane de pixeli în total sau dimensiunea maximă de 6000 de pixeli, oricare este mai mic; nivelul high de detaliu de intrare pentru imagini acceptă acum până la 2,56 de milioane de pixeli în total sau dimensiunea maximă de 2048 de pixeli. În testările inițiale cu utilizatorii API, am observat îmbunătățiri semnificative în capacitatea de localizare, înțelegerea imaginilor și precizia clicurilor atunci când se folosește nivelul de detalii original sau cel înalt.

„În evaluările noastre care măsoară performanța de utilizare a computerului în ~30K portaluri HOA și de impozit pe proprietate, GPT-5.4 a obținut o rată de succes de 95% la prima încercare și 100% în decurs de trei încercări, comparativ cu ~73–79% cu modelele CUA anterioare. De asemenea, a finalizat sesiunile de ~3x mai repede, folosind cu ~70% mai puține tokenuri, îmbunătățind semnificativ fiabilitatea și eficiența costurilor la scară largă."

— Dod Fraser, director executiv al Mainstay

În API, dezvoltatorii pot accesa aceste capacități folosind instrumentul computer actualizat. Consultă-ne documentația actualizată⁠(se deschide într-o fereastră nouă) pentru cele mai bune practici recomandate.

Programare

GPT‑5.4 combină punctele forte de codare ale GPT‑5.3‑Codex cu capabilități de vârf pentru munca de cunoaștere și utilizarea computerului, care contează cel mai mult în sarcini de lungă durată, în care modelul poate folosi instrumente, poate itera și poate duce munca mai departe cu mai puțină intervenție manuală. Egalizează sau depășește GPT‑5.3‑Codex pe SWE-Bench Pro, având în același timp o latență mai mică pentru eforturile de raţionament.

Estimăm latența analizând comportamentul în producție al modelelor noastre și simulând acest lucru offline. Estimarea latenței ia în considerare durata apelării instrumentului (timpul de execuție a codului), tokenurile eșantionate și tokenurile de intrare. Latența reală poate varia substanțial și depinde de mulți factori care nu sunt surprinși în simularea noastră. Eforturile de raţionament au fost crescute de la none la xhigh.

Când este activat, modul /fast din Codex oferă o viteză a tokenurilor de până la 1,5 ori mai mare cu GPT‑5.4. Este același model și aceeași inteligență, doar mai rapid. Asta înseamnă că utilizatorii pot parcurge sarcini de programare, iterare și depanare, rămânând în fluxul de lucru. Dezvoltatorii pot accesa GPT‑5.4 la aceleași viteze rapide prin API folosind procesarea prioritară⁠(se deschide într-o fereastră nouă).

În evaluare și în testele interne am constatat că GPT‑5.4 excelează la sarcini front-end complexe, cu rezultate vizibil mai estetice și mai funcționale decât orice modele pe care le-am lansat anterior.

Ca o demonstrație a capacităților îmbunătățite ale modelului de utilizare a computerului și de programare, care funcționează în tandem, lansăm și o abilitate Codex experimentală numită „Playwright (Interactive)⁠(se deschide într-o fereastră nouă)”. Acest lucru permite Codex să depaneze vizual aplicații web și Electron; poate fi folosit chiar pentru a testa o aplicație pe care o construiește, în timp ce o construiește.

Joc de simulare a unui parc tematic realizat cu GPT‑5.4 dintr-o singură solicitare sumar definită, folosind Playwright Interactive pentru testarea jocului în browser și generare de imagini pentru setul de resurse izometrice. Simularea include plasarea traseelor pe bază de dale, construirea atracțiilor și a decorurilor, găsirea drumului de către vizitatori, formarea cozilor și ciclurile atracțiilor, în timp ce indicatorii parcului, precum banii, numărul de vizitatori, gradul de mulțumire a clienților, curățenia și ratingul, cresc sau scad în funcție de cât de bine funcționează configurația și de modul în care reacționează vizitatorii la aceasta. Playwright a fost folosit pentru a automatiza testele de joc pe browser prin construirea și extinderea parcului, plasarea și eliminarea traseelor și atracțiilor, verificarea navigației camerelor și verificarea actualizării corecte a vizitatorilor, cozilor, stărilor atracțiilor și indicatorilor interfeței pe parcursul mai multor runde de joc.

Solicitare: Folosește $playwright-interactive și $imagegen. Creează un joc de simulare interactiv, izometric, de parc tematic, pe care să îl pot construi și explora în browser. Folosește imagegen pentru a stabili viziunea vizuală de ansamblu și pentru a genera resursele jocului, inclusiv atracții, alei, teren, copaci, apă, standuri de mâncare, decorațiuni, clădiri, pictograme și ilustrații UI. Lumea ar trebui să pară coerentă, finisată și bogată vizual, cu o direcție artistică premium care funcționează bine dintr-o perspectivă izometrică. Permite-mi să plasez și să elimin alei, să adaug atracții, să poziționez decoruri și să mă deplasez lin prin parc, monitorizând activitatea vizitatorilor, starea atracțiilor și creșterea parcului. Include o mișcare credibilă a vizitatorilor, sisteme simple de management al parcului precum bani, curățenie, statul la coadă și gradul de mulțumire a vizitatorilor și fă ca experiența să pară jucăușă, clară și completă și nu ca un prototip brut. Prioritizează farmecul, lizibilitatea și o senzație puternică de joc în detrimentul realismului.

Când testezi jocul, asigură-te că dezvolți și extinzi un parc pe parcursul mai multor runde de joc, verifică faptul că plasarea și navigarea funcționează fără probleme, confirmă că vizitatorii reacționează la aspectul parcului și la atracții și asigură-te că elementele vizuale, UI și interacțiunile par stabile și coerente.

„Inginerii noștri consideră că GPT-5.4 este mai natural și mai asertiv decât modelele anterioare. Rezolvă problemele ambigue fără ezitare și este proactiv în ceea ce privește paralelizarea muncii pentru a menține ritmul de lucru.”

— Lee Robinson, vicepreședinte al departamentului de educație pentru dezvoltatori la Cursor

Utilizarea instrumentelor

Cu GPT‑5.4, am îmbunătățit semnificativ modul în care modelele funcționează cu instrumente externe. Agenții pot acum să opereze în ecosisteme de instrumente mai ample, să aleagă instrumentele potrivite mai fiabil și să finalizeze fluxuri de lucru în mai mulți pași cu cost și latență mai reduse.

Căutare instrumente

În API, GPT‑5.4 introduce căutarea de instrumente⁠(se deschide într-o fereastră nouă), care le permite modelelor să lucreze eficient atunci când li se oferă multe instrumente.

Anterior, când unui model i se ofereau instrumente, toate definițiile instrumentelor erau incluse în solicitare de la început. Pentru sistemele cu multe instrumente, acest lucru ar putea adăuga mii - sau chiar zeci de mii - de tokenuri la fiecare solicitare, crescând costul, încetinind răspunsurile și aglomerând contextul cu informații pe care modelul s-ar putea să nu le utilizeze niciodată.

Prin intermediul căutării de instrumente, GPT‑5.4 primește în schimb o listă simplificată de instrumente disponibile, împreună cu o funcție de căutare a instrumentelor. Când modelul trebuie să folosească un instrument, poate căuta definiția acelui instrument și o poate adăuga la conversație în acel moment.

Această abordare reduce dramatic numărul de tokenuri necesare pentru fluxurile de lucru cu multe instrumente și păstrează memoria cache, făcând solicitările mai rapide și mai ieftine. De asemenea, le permite agenților să lucreze în mod fiabil cu ecosisteme de instrumente mult mai ample. Pentru serverele MCP care pot conține zeci de mii de tokenuri de definiții de instrumente, câștigurile ]n eficiență pot fi substanțiale.

Pentru a demonstra câștigurile de eficiență, am evaluat 250 de sarcini din testul de performanță MCP Atlas⁠(se deschide într-o fereastră nouă) de la Scale cu toate cele 36 de servere MCP activate în două moduri: (1) expunerea directă a fiecărei funcții MCP în contextul modelului și (2) plasarea tuturor serverelor MCP în spatele căutării de instrumente. Configurația de căutare a instrumentelor a redus utilizarea totală de tokenuri cu 47%, menținând aceeași acuratețe.

Numărul de tokenuri din exemple provine din media a 250 de sarcini din setul de date public MCP-Atlas.

Apelarea agentivă de instrumente

GPT‑5.4 îmbunătățește, de asemenea, apelarea instrumentelor, făcând-o mai precisă și mai eficientă atunci când decide când și cum să folosească instrumente în timpul raţionamentului, în special în API. Comparativ cu GPT‑5.2, atinge o acuratețe mai mare în mai puține ture pe Toolathlon, un test de performanță care testează cât de bine pot agenții AI să folosească instrumente și API-uri din lumea reală pentru a finaliza sarcini în mai mulți pași. De exemplu, un agent trebuie să citească e-mailuri, să extragă atașamentele temei, să le încarce, să le noteze și să înregistreze rezultatele într-o foaie de calcul.

Pentru cazurile de utilizare sensibile la latență în care este preferat un efort de raţionament de tip None, GPT‑5.4 îmbunătățește și mai mult performanța față de predecesorii săi.

În cazul τ2-bench⁠⁠(se deschide într-o fereastră nouă), modelul trebuie să utilizeze instrumente pentru a îndeplini o sarcină de servicii pentru clienți, în care poate exista un utilizator simulat care poate comunica și poate întreprinde acțiuni asupra stării lumii. Efortul de raţionament a fost setat la None.

Căutare pe web îmbunătățită

GPT‑5.4 este mai bun la căutarea agentivă pe web. Pe BrowseComp, o măsură a cât de bine agenții AI pot naviga persistent pe web pentru a găsi informații greu de localizat, GPT‑5.4 depășește cu 17%_abs peste GPT‑5.2, iar GPT‑5.4 Pro stabilește un nou standard de referință de 89,3%.

În practică, asta înseamnă GPT‑5.4 Thinking este mai bun la a răspunde la întrebări care necesită coroborarea informațiilor din multe surse de pe web. Poate căuta mai persistent de-a lungul mai multor runde pentru a identifica cele mai relevante surse, în special pentru întrebări de tip „acul în carul cu fân”, și le poate sintetiza într-un răspuns clar, bine argumentat.

În BrowseComp, am folosit o listă de blocare pentru căutare care exclude site-urile web ce conțin răspunsuri la testul de performanță din evaluare pentru a preveni contaminarea și a asigura o măsură corectă a performanței. GPT‑5.4 a fost măsurat la o dată ulterioară față de GPT‑5.2, astfel încât scorurile să reflecte schimbările din model, sistemul nostru de căutare și starea internetului. GPT‑5.4 a fost testat cu o listă de blocare mai lungă și actualizată. Modelele folosesc instrumentul de căutare ChatGPT, care poate avea mici diferențe față de căutarea API.

„GPT-5.4 xhigh este noul standard de referință pentru utilizarea instrumentelor în mai mulți pași. Zapier rulează unele dintre cele mai riguroase teste de performanță pentru utilizarea instrumentelor din domeniu, testând modele în sute de fluxuri de lucru avansate din contexte reale. GPT-5.4 a terminat sarcina acolo unde modelele anterioare au renunțat, fiind cel mai perseverent model de până acum.”

— Wade, director executiv al Zapier

Orientabilitate

Similar cu modul în care Codex își descrie abordarea atunci când începe să lucreze, GPT‑5.4 Thinking din ChatGPT va schița acum modul în care funcționează, cu un preambul, pentru interogări mai lungi și mai complexe. Poți, de asemenea, să adaugi instrucțiuni sau să îi ajustezi direcția la mijlocul răspunsului. Acest lucru facilitează ghidarea modelului către rezultatul exact dorit, fără a o lua de la capăt sau a necesita mai multe ture suplimentare. Această funcție este disponibilă acum pe chatgpt.com⁠(se deschide într-o fereastră nouă) și în aplicația pentru Android, urmând să fie disponibilă în curând în aplicația pentru iOS.

Modelul poate, de asemenea, să gândească pe termen lung la sarcini dificile, menținând o conștientizare mai puternică a pașilor anteriori din conversație. Acest lucru îi permite să gestioneze fluxuri de lucru mai lungi și solicitări mai complexe, menținând în același timp răspunsurile coerente și relevante pe tot parcursul.

Acest videoclip a fost accelerat în scopuri ilustrative.

Siguranță

În ultimele luni, am continuat să îmbunătățim măsurile de protecție pe care le-am introdus odată cu GPT‑5.3‑Codex, în timp ce pregăteam GPT‑5.4 pentru implementare. Similar cu GPT‑5.3‑Codex, tratăm GPT‑5.4 ca având o capacitate cibernetică ridicată în Cadrul de pregătire și îl implementăm cu protecțiile corespunzătoare, așa cum sunt documentate în fișa de sistem⁠. Acestea includ un set extins de măsuri de protecție cibernetică, inclusiv sisteme de monitorizare, controale de acces de încredere și blocare asincronă pentru solicitările cu risc ridicat pentru clienții care utilizează suprafețe cu zero date păstrate (ZDR), alături de investiții continue în ecosistemul mai amplu de securitate.

Deoarece capacitățile de securitate cibernetică au în mod inerent o utilizare duală, menținem o abordare precaută privind implementarea, continuând în același timp să ne calibrăm politicile și clasificatorii. Pentru anumiți clienți care utilizează suprafețele ZDR, blocarea la nivel de solicitare rămâne parte din stiva noastră de atenuare a riscurilor cibernetice; deoarece clasificatoarele sunt încă în curs de îmbunătățire, este posibil să apară unele rezultate fals pozitive pe măsură ce continuăm să rafinăm aceste măsuri de siguranță. Aceste actualizări urmăresc să îmbunătățească modul în care măsurile de protecție funcționează în practică, inclusiv prin reducerea refuzurilor inutile și a răspunsurilor excesiv de complexe, păstrând în același timp protecții solide împotriva utilizării abuzive.

Ne-am continuat cercetările privind siguranța asupra capacității de monitorizare a lanțului de gândire (CoT) pentru a înțelege mai bine cum raționează modelele și pentru a ajuta la detectarea potențialelor comportamente necorespunzătoare. Ca parte a acestui demers, introducem o nouă evaluare open-source, controlabilitatea CoT⁠, care măsoară dacă modelele pot ascunde deliberat raţionamentul pentru a evita monitorizarea. Observăm că GPT‑5.4 Thinking are o capacitate scăzută de a-și controla CoT-ul, ceea ce reprezintă un aspect pozitiv pentru siguranță, sugerând că modelul nu are capacitatea de a-și ascunde raţionamentul și că monitorizarea CoT rămâne un instrument eficient pentru siguranță.

Disponibilitate și prețuri

GPT‑5.4 va fi lansat treptat astăzi în ChatGPT și Codex. În API, GPT‑5.4 este disponibil acum ca gpt-5.4. GPT‑5.4 Pro este disponibil și în API ca gpt-5.4-pro pentru dezvoltatorii care au nevoie de performanță maximă pentru cele mai complexe sarcini.

În ChatGPT, GPT‑5.4 Thinking este disponibil începând de astăzi pentru utilizatorii ChatGPT Plus, Team și Pro, înlocuind GPT‑5.2 Thinking. GPT‑5.2 Thinking va rămâne disponibil pentru utilizatorii cu plată timp de trei luni în selectorul de modele, în secțiunea Modele vechi, după care va fi retras pe 5 iunie 2026. Deținătorii planurilor Enterprise și Edu pot activa accesul timpuriu prin setările de administrare. GPT‑5.4 Pro este disponibil în planurile Pro și Enterprise. Ferestrele de context⁠(se deschide într-o fereastră nouă) din ChatGPT pentru GPT‑5.4 Thinking rămân neschimbate față de GPT‑5.2 Thinking.

GPT‑5.4 este primul nostru model de raţionament din linia principală care încorporează capabilitățile de programare de vârf ale GPT‑5.3‑codex și se lansează în ChatGPT, API și Codex. L-am denumit GPT‑5.4 pentru a reflecta acel salt și pentru a simplifica alegerea între modele atunci când folosești Codex. Cu timpul, modelele noastre Instant și Thinking vor evolua în ritmuri diferite.

GPT‑5.4 din Codex include compatibilitate experimentală cu fereastra de context de 1M. Dezvoltatorii pot încerca acest lucru configurând model_context_window și model_auto_compact_token_limit. Solicitările care depășesc fereastra de context standard de 272K se iau în calcul în limitele de utilizare la o rată de 2x față de cea normală.

În API, GPT‑5.4 are un preț mai mare per token decât GPT‑5.2 pentru a reflecta capabilitățile sale îmbunătățite, în timp ce eficiența sa mai mare a tokenurilor ajută la reducerea numărului total de tokenuri necesare pentru multe sarcini. Prețurile pentru Batch și Flex sunt disponibile la jumătate din tariful standard al API, în timp ce procesarea prioritară este disponibilă la dublul tarifului standard al API.

Model API	Preț pentru intrare	Preț pentru intrare memorat în cache	Preț pentru ieșire
gpt-5.2	$1,75 / M tokenuri	$0,175 / M tokenuri	$14 / M tokenuri
gpt-5.4	$2,50 / M tokenuri	$0,25 / M tokenuri	$15 / M tokenuri
gpt-5.2-pro	$21 / M tokenuri	-	$168 / M tokenuri
gpt-5.4-pro	$30 / M tokenuri	-	$180 / M tokenuri

Evaluări

Profesional

Evaluare	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0%	82,0%	70,9%	70,9%	74,1%
FinanceAgent v1.1	56,0%	61,5%	54,0%	59,5%	—
Sarcini de modelare pentru investiții bancare (Intern)	87,3%	83,6%	79,3%	68,4%	71,7%
OfficeQA	68,1%	—	65,1%	63,1%	—

Programare

Evaluare	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57,7%	—	56,8%	55,6%	—
Terminal-Bench 2.0	75,1%	—	77,3%	62,2%	—

Utilizarea computerului și viziunea noastră

Evaluare	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0%	—	74,0%	47,3%	—
MMMU Pro (fără instrumente)	81,2%	—	—	79,5%	—
MMMU Pro (cu instrumente)	82,1%	—	—	80,4%	—

Utilizarea instrumentelor

Evaluare	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7%	89,3%	77,3%	65,8%	77,9%
MCP Atlas	67,2%	—	—	60,6%	—
Toolathlon	54,6%	—	51,9%	45,7%	—
Tau2-bench Telecom	98,9%	—	—	98,7%	—

Academic

Evaluare	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Cercetare științifică de vârf	33,0%	36,7%	—	25,2%	—
FrontierMath Nivelurile 1–3	47,6%	—	—	40,7%	—
FrontierMath Nivelul 4	27,1%	38,0%	—	18,8%	31,3%
GPQA Diamond	92,8%	94,4%	92,6%	92,4%	93,2%
Humanity's Last Exam (fără instrumente)	39,8%	42,7%	—	34,5%	36,6%
Humanity's Last Exam (cu instrumente)	52,1%	58,7%	—	45,5%	50,0%

Context lung

Evaluare	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93,0%	—	—	94,0%	—
Graphwalks BFS 256K–1M	21,4%	—	—	—	—
Graphwalks parents 0–128K (acuratețe)	89,8%	—	—	89,0%	—
Graphwalks parents 256K–1M (acuratețe)	32,4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97,3%	—	—	98,2%	—
OpenAI MRCR v2 8-needle 8K–16K	91,4%	—	—	89,3%	—
OpenAI MRCR v2 8-needle 16K–32K	97,2%	—	—	95,3%	—
OpenAI MRCR v2 8-needle 32K–64K	90,5%	—	—	92,0%	—
OpenAI MRCR v2 8-needle 64K–128K	86,0%	—	—	85,6%	—
OpenAI MRCR v2 8-needle 128K–256K	79,3%	—	—	77,0%	—
OpenAI MRCR v2 8-needle 256K–512K	57,5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36,6%	—	—	—	—

Raționament abstract

Evaluare	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93,7%	94,5%	—	86,2%	90,5%
ARC-AGI-2 (Verified)	73,3%	83,3%	—	52,9%	54,2% (high)

Evals fără raţionament

Evaluare	GPT‑5.4 (niciuna)	GPT‑5.2 (niciuna)	GPT‑4.1
OmniDocBench (distanță de editare normalizată)	0,109	0,140	—
Tau2-bench Telecom	64,3%	57,2%	43,6%

Evaluările au fost rulate cu efortul de raţionament setat la xhigh, cu excepția cazurilor în care se specifică altfel. Testele de performanță au fost efectuate într-un mediu de cercetare, care poate oferi rezultate ușor diferite față de versiunea ChatGPT de producție în unele cazuri.