ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

GPT‑5.4ను పరిచయం చేస్తున్నాము

ప్రొఫెషనల్ పనికి అనుకూలంగా రూపొందించబడింది

లోడ్ అవుతోంది…

ఈ రోజు, మేము ChatGPTలో GPT‑5.4 ను విడుదల చేస్తున్నాము (GPT‑5.4 Thinking), API, మరియు Codex. ప్రొఫెషనల్ పనుల కోసం ఇది మా అత్యంత సామర్థ్యవంతమైన మరియు సమర్థవంతమైన అత్యాధునిక మోడల్. మేము సంక్లిష్ట పనుల్లో గరిష్ట పనితీరు కావాలనుకునే వారి కోసం, ChatGPT మరియు APIలో GPT‑5.4 Pro ని కూడా విడుదల చేస్తున్నాం.

GPT‑5.4 మా రిజనింగ్, కోడింగ్, మరియు ఏజెంటిక్ వర్క్‌ఫ్లోలలో ఇటీవల చేసిన ఉత్తమ పురోగతులను ఒకే అత్యాధునిక మోడల్‌లో ఏకతాటిపైకి తీసుకువస్తుంది. ఇది GPT‑5.3‑Codex యొక్క పరిశ్రమలో ముందంజలో ఉన్న కోడింగ్ సామర్థ్యాలను కలిగి ఉండడంతో పాటు, టూల్స్, సాఫ్ట్‌వేర్ ఎన్విరాన్‌మెంట్‌లు, మరియు స్ప్రెడ్‌షీట్లు, ప్రెజెంటేషన్లు, మరియు డాక్యుమెంట్లకు సంబంధించిన ప్రొఫెషనల్ పనుల్లో మోడల్ పని చేసే విధానాన్ని మెరుగుపరుస్తుంది. ఫలితంగా, క్లిష్టమైన నిజమైన పనిని ఖచ్చితంగా, ప్రభావవంతంగా, మరియు సమర్థవంతంగా పూర్తి చేసే మోడల్ లభిస్తుంది—మీరు అడిగినదాన్ని తక్కువ ముందూ వెనుకా చర్చతో అందిస్తుంది.

ChatGPTలో, GPT‑5.4 Thinking ఇప్పుడు తన ఆలోచనకు సంబంధించిన ముందస్తు ప్లాన్‌ను అందించగలదు, కాబట్టి మీరు ఇది పని చేస్తున్నప్పుడు ప్రతిస్పందన మధ్యలోనే దిశను సర్దుబాటు చేసుకోవచ్చు , మరియు అదనపు టర్న్స్ లేకుండా మీకు అవసరమైనదానికి మరింత దగ్గరగా సరిపడే తుది అవుట్‌పుట్‌కు చేరుకోవచ్చు. GPT‑5.4 Thinking కూడా డీప్ వెబ్ రిసర్చ్, ను కూడా మెరుగుపరుస్తుంది, ముఖ్యంగా చాలా ప్రత్యేకమైన ప్రశ్నల కోసం; అలాగే ఎక్కువ ఆలోచన అవసరమైన ప్రశ్నలలో కాంటెక్స్ట్‌ను మరింత మెరుగుగా నిలుపుకుంటుంది. ఈ మెరుగుదలలు కలిసి, అధిక-నాణ్యత సమాధానాలు మరింత వేగంగా అందేలా చేసి, ప్రస్తుత పనికి సంబంధితంగా ఉండేలా చేస్తాయి.

Codex మరియు APIలో, GPT‑5.4 అనేది మేము విడుదల చేసిన మొదటి సాధారణ-ప్రయోజన మోడల్, ఇది నేటివ్, అత్యాధునిక కంప్యూటర్-యూజ్ సామర్థ్యాలును కలిగి ఉంది, దీని వల్ల ఏజెంట్లు కంప్యూటర్లను ఆపరేట్ చేసి అప్లికేషన్‌ల అంతటా క్లిష్టమైన వర్క్‌ఫ్లోలను నిర్వహించగలుగుతారు. ఇది గరిష్టంగా 1M టోకెన్ల కాంటెక్స్ట్కు మద్దతు ఇస్తుంది, దీని ద్వారా ఏజెంట్లు దీర్ఘకాలిక పనులపై ప్లాన్ చేయడం, అమలు చేయడం, మరియు ధృవీకరించడం చేయగలుగుతారు. GPT‑5.4 లో టూల్ సర్చ్ సహాయంతో టూల్స్ మరియు కనెక్టర్ల పెద్ద ఎకోసిస్టమ్‌లలో మోడళ్లు పనిచేసే విధానాన్ని కూడా మెరుగుపరుస్తుంది. దీని వల్ల ఏజెంట్లు సరైన టూల్స్‌ను మరింత సమర్థవంతంగా కనుగొని ఉపయోగించగలుగుతారు, అలాగే మేధస్సు తగ్గకుండా ఉంటుంది. చివరగా, GPT‑5.4 మా అత్యంత టోకెన్-సమర్థవంతమైన రిజనింగ్ మోడల్ ఇప్పటివరకు, GPT‑5.2తో పోలిస్తే సమస్యలను పరిష్కరించడానికి గణనీయంగా తక్కువ టోకెన్లను ఉపయోగిస్తుంది—దీని వల్ల టోకెన్ వినియోగం తగ్గి వేగం పెరుగుతుంది.

సాధారణ రిజనింగ్, కోడింగ్, మరియు ప్రొఫెషనల్ నాలెడ్జ్ వర్క్‌లో పురోగతులతో పాటు, GPT‑5.4 మరింత విశ్వసనీయమైన ఏజెంట్లను, వేగవంతమైన డెవలపర్ వర్క్‌ఫ్లోలను, మరియు ChatGPT, API, మరియు Codex అంతటా అధిక-నాణ్యత గల అవుట్‌పుట్‌లను సాధ్యం చేస్తుంది.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (విజయాలు లేదా సమానాలు)

83.0%

70.9%

70.9%

SWE-Bench Pro (పబ్లిక్)

57.7%

56.80%

55.6%

OSWorld-Verified

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.30%

65.8%

*ఇంతకుముందు 64.7%గా నివేదించబడింది. GPT‑5.3‑Codex మూల చిత్ర రిజల్యూషన్‌ను అలాగే ఉంచే కొత్తగా పరిచయం చేసిన API పరామీటర్‌తో 74.0% సాధిస్తుంది.

నాలెడ్జ్ వర్క్

GPT‑5.2 పై ఆధారపడి సాధారణ రిజనింగ్ సామర్థ్యాల పరంగా, GPT‑5.4 ప్రొఫెషనల్స్‌కు ముఖ్యమైన రియల్-వరల్డ్ పనుల్లో మరింత స్థిరమైన మరియు మెరుగుపరచిన ఫలితాలను అందిస్తుంది.

GDPvalలో, 44 వృత్తుల అంతటా స్పష్టంగా నిర్వచించిన నాలెడ్జ్ వర్క్‌ను ఉత్పత్తి చేయగల ఏజెంట్ల సామర్థ్యాలను పరీక్షించే ఈ ఈవాల్‌లో, GPT‑5.4 కొత్త అత్యాధునిక స్థాయిని సాధించింది, పోలికలలో 83.0% లో పరిశ్రమ నిపుణులతో సమానంగా లేదా వారిని మించి నిలిచింది, GPT‑5.2కు 71.0% తో పోలిస్తే.

GDPvalలో, మోడల్‌లు U.S. GDPకి దోహదపడే అగ్ర 9 పరిశ్రమల నుండి 44 వృత్తులను విస్తరించే బాగా నిర్వచిత జ్ఞాన పనిని ప్రయత్నిస్తాయి. టాస్క్‌లు నిజమైన పని అవుట్‌పుట్‌లను కోరుతాయి, ఉదాహరణకు సేల్స్ ప్రెజెంటేషన్లు, అకౌంటింగ్ స్ప్రెడ్‌షీట్లు, అర్జెంట్ కేర్ షెడ్యూల్‌లు, మాన్యుఫ్యాక్చరింగ్ డయాగ్రామ్‌లు లేదా చిన్న వీడియోలు. GPT‑5.4 కోసం రీజనింగ్ ఎఫర్ట్‌ను xhighగా, GPT‑5.2 కోసం heavyగా సెట్ చేశారు. (ChatGPTలో కొంచెం తక్కువ స్థాయి).

“GPT-5.4 మేము ఇప్పటివరకు ప్రయత్నించిన అత్యుత్తమ మోడల్. ప్రొఫెషనల్ సర్వీసెస్ పనిలో మోడల్ పనితీరును కొలిచే మా APEX-Agents బెంచ్‌మార్క్‌లో ఇది ఇప్పుడు లీడర్‌బోర్డ్‌లో అగ్రస్థానంలో ఉంది. స్లైడ్ డెక్‌లు, ఫైనాన్షియల్ మోడల్‌లు, మరియు లీగల్ విశ్లేషణ వంటి దీర్ఘకాలిక డెలివరబుల్‌లను రూపొందించడంలో ఇది అద్భుతంగా పనిచేస్తుంది. పోటీ ఫ్రంటియర్ మోడళ్లతో పోలిస్తే వేగంగా పనిచేస్తూ తక్కువ ఖర్చుతోనే అత్యుత్తమ పనితీరును అందిస్తుంది.”
—Brendan Foody, Mercor లో CEO

GPT‑5.4’s ను మెరుగుపరచడంపై మేము ప్రత్యేక దృష్టి పెట్టాము స్ప్రెడ్షీట్లు, ప్రెజెంటేషన్లు, మరియు డాక్యుమెంట్లను క్రియేట్ చేయడం మరియు ఎడిట్ చేయడం చేసే సామర్థ్యం. జూనియర్ ఇన్వెస్ట్మెంట్ బ్యాంకింగ్ అనలిస్ట్ చేయవచ్చని భావించే స్ప్రెడ్షీట్ మోడలింగ్ టాస్క్స్‌పై మా అంతర్గత బెంచ్‌మార్క్‌లో, GPT‑5.4 సగటు స్కోరు 87.5% సాధించింది, GPT‑5.2 కోసం 68.4% తో పోల్చితే. ప్రెజెంటేషన్ మూల్యాంకన ప్రాంప్ట్‌ల సమూహంలో, బలమైన సౌందర్యం, ఎక్కువ విజువల్ వైవిధ్యం, మరియు ఇమేజ్ జనరేషన్‌ను మరింత ప్రభావవంతంగా ఉపయోగించడం వల్ల, మానవ రేటర్లు GPT‑5.2 కంటే GPT‑5.4 నుండి వచ్చిన ప్రెజెంటేషన్‌లను 68.0% సందర్భాల్లో ఇష్టపడ్డారు.

GPT-5.2 vs GPT-5.4 నుండి వచ్చిన స్ప్రెడ్‌షీట్ అవుట్‌పుట్‌లను పక్కపక్కన చూపించే ఉదాహరణ

డాక్యుమెంట్లు రిజనింగ్ ఎఫర్ట్‌ను xhigh గా సెట్ చేసి రూపొందించబడ్డాయి

ChatGPTలో GPT‑5.4ని ఉపయోగించి మీరు ఈ సామర్థ్యాలను ప్రయత్నించవచ్చు. Thinking లేదా Pro. మీరు Enterprise కస్టమర్ అయితే, ఈ రోజు ప్రారంభించిన, తాజాగా విడుదలైన Excel కోసం ChatGPT మరియు Google Sheets plugins(కొత్త విండోలో తెరుచుకుంటుంది)ను ఉపయోగించాలని మేము సిఫార్సు చేస్తున్నాము. Codex మరియు APIలో అందుబాటులో ఉన్న మా స్ప్రెడ్‌షీట్(కొత్త విండోలో తెరుచుకుంటుంది) మరియు ప్రెజెంటేషన్ స్కిల్స్(కొత్త విండోలో తెరుచుకుంటుంది) ను కూడా మేము అప్‌డేట్ చేశాము.

GPT‑5.4 ను రూపొందించడానికి నిజ జీవిత పనిలో మరింత మెరుగ్గా ఉండేందుకు, హాల్యూసినేషన్లు మరియు తప్పులను తగ్గించడంలో మేము మా పురోగతిని కొనసాగించాము. GPT‑5.4 ఇప్పటివరకు మా అత్యంత వాస్తవాధారిత మోడల్: వినియోగదారులు వాస్తవపరమైన పొరపాట్లను ఫ్లాగ్ చేసిన, గుర్తింపు తొలగించిన ప్రాంప్ట్‌ల సమూహంలో, GPT‑5.4’s వ్యక్తిగత క్లెయిమ్స్ 33% తప్పుడు కావడానికి తక్కువ అవకాశం ఉంది మరియు GPT‑5.2తో పోల్చితే, దాని పూర్తి రెస్పాన్స్‌లు ఏవైనా ఎరర్స్ కలిగి ఉండే అవకాశం 18% తక్కువగా ఉంటుంది.

“GPT-5.4 పత్రాలపై ఎక్కువగా ఆధారపడే న్యాయ పనికి కొత్త ప్రమాణాన్ని నెలకొల్పుతుంది. మా BigLaw Bench eval లో, ఇది 91% స్కోర్ చేసింది. ఇతర మోడల్స్‌తో పోలిస్తే, GPT-5.4 ప్రస్తుతం క్లిష్టమైన ట్రాన్సాక్షనల్ విశ్లేషణను నిర్మాణబద్ధంగా రూపొందించడంలో, పొడవైన కాంట్రాక్ట్స్ అంతటా ఖచ్చితత్వాన్ని నిలుపుకోవడంలో, మరియు లీగల్ ప్రాక్టిషనర్లు అవసరపడే ఉన్నత స్థాయి వివరాలను అందించడంలో మెరుగ్గా ఉంది.”
— Niko Grupen, Harveyలో అప్లైడ్ రీసెర్చ్ హెడ్

కంప్యూటర్ వినియోగం మరియు దృష్టి

GPT‑5.4 అనేది నేటివ్ కంప్యూటర్‌ను ఉపయోగించే సామర్థ్యాలు కలిగిన మా మొదటి సాధారణ ప్రయోజనాల మోడల్, మరియు ఇది డెవలపర్లు మరియు ఏజెంట్ల కోసం ఒక ముఖ్యమైన ముందడుగు. వెబ్‌సైట్‌లు మరియు సాఫ్ట్‌వేర్ సిస్టమ్‌లలో నిజమైన పనులను పూర్తి చేసే ఏజెంట్లను రూపొందిస్తున్న డెవలపర్ల కోసం ప్రస్తుతం అందుబాటులో ఉన్న ఉత్తమ మోడల్ ఇదే.

GPT‑5.4 ను వివిధ రకాల కంప్యూటర్ వినియోగ వర్క్‌లోడ్‌లలో అధిక పనితీరుతో పనిచేసేలా మేము రూపొందించాము. Playwright వంటి లైబ్రరీలను ఉపయోగించి కంప్యూటర్లను ఆపరేట్ చేయడానికి కోడ్ రాయడంలో ఇది ఎంతో నైపుణ్యం చూపిస్తుంది; అలాగే స్క్రీన్‌షాట్‌లకు ప్రతిస్పందనగా మౌస్ మరియు కీబోర్డ్ కమాండ్‌లను కూడా ఇస్తుంది. డెవలపర్ మెసేజ్‌ల ద్వారా దీని ప్రవర్తనను నియంత్రించవచ్చు, అంటే డెవలపర్‌లు నిర్దిష్ట వినియోగ సందర్భాలకు అనుగుణంగా ప్రవర్తనను సర్దుబాటు చేయగలరు. డెవలపర్లు కస్టమ్ కన్ఫర్మేషన్ పాలసీలను నిర్దేశించడం ద్వారా, వివిధ స్థాయిల రిస్క్ టాలరెన్స్‌కు సరిపోయేలా మోడల్ యొక్క సేఫ్టీ ప్రవర్తనను కూడా కాన్ఫిగర్ చేయవచ్చు.

మోడల్ యొక్క పనితీరు మరియు సౌలభ్యం వివిధ సెట్టింగ్స్‌లో కంప్యూటర్ వినియోగాన్ని పరీక్షించే బెంచ్‌మార్క్‌లలో ప్రతిబింబిస్తాయి. OSWorld-Verifiedపై, ఇది స్క్రీన్‌షాట్‌లు మరియు కీబోర్డ్/మౌస్ చర్యల ద్వారా డెస్క్‌టాప్ వాతావరణంలో నావిగేట్ చేయగల మోడల్ సామర్థ్యాన్ని కొలుస్తుంది, GPT‑5.4 ఒక స్టేట్-ఆఫ్-ది-ఆర్ట్ 75.0% సాధిస్తుంది GPT‑5.2 కంటే ఎంతో ఎక్కువ సక్సెస్ రేట్ 47.3%, మరియు మానవ పనితీరు అయిన 72.4%.1ను కూడా అధిగమిస్తుంది.

WebArena-Verifiedలో, ఇది బ్రౌజర్ వినియోగాన్ని పరీక్షిస్తుంది, DOM- మరియు స్క్రీన్‌షాట్-ఆధారిత పరస్పర చర్య రెండింటినీ ఉపయోగించినప్పుడు GPT‑5.4 అగ్రస్థానంలో ఉన్న 67.3% విజయ రేటును సాధిస్తుంది, GPT‑5.2 యొక్క 65.4%తో పోలిస్తే. బ్రౌజర్ వినియోగాన్ని కూడా పరీక్షించే Online-Mind2Web లో, స్క్రీన్‌షాట్-ఆధారిత పరిశీలనలను మాత్రమే ఉపయోగించి GPT‑5.4 92.8% సక్సెస్ రేట్‌ను సాధిస్తుంది, 70.9% సక్సెస్ రేట్‌ను సాధించే ChatGPT Atlas యొక్క Agent Mode కంటే మెరుగ్గా ఉంది.

టూల్ స్పందనల కోసం అసిస్టెంట్ వేచి ఉండేందుకు నియంత్రణను టూల్‌కు అప్పగించే సందర్భాన్ని టూల్ యీల్డ్ అంటారు. మూడు టూల్స్‌ను ఒకేసారి ప్యారలల్‌గా కాల్ చేసి, తర్వాత మరో మూడు టూల్స్‌ను కూడా ప్యారలల్‌గా కాల్ చేస్తే యీల్డ్‌ల సంఖ్య రెండు అవుతుంది. ప్యారలలైజేషన్ ప్రయోజనాలను ప్రతిబింబించే కారణంగా, టూల్ కాల్స్ కంటే టూల్ యీల్డ్‌లు లేటెన్సీకి మెరుగైన సూచికగా ఉంటాయి.

GPT‑5.4 బ్రౌజర్ ఇంటర్‌ఫేస్ స్క్రీన్‌షాట్‌లను అర్థం చేసుకుని, ఇమెయిల్‌లు పంపడానికి మరియు క్యాలెండర్ ఈవెంట్‌ను షెడ్యూల్ చేయడానికి కోఆర్డినేట్-ఆధారిత క్లికింగ్ ద్వారా UI అంశాలతో పరస్పర చర్య చేస్తుంది.

GPT‑5.4 లో మెరుగైన కంప్యూటర్ వినియోగ సామర్థ్యం, మోడల్‌లో మెరుగుపరచబడిన సాధారణ విజువల్ పర్సెప్షన్ సామర్థ్యాలపై ఆధారపడి ఉంటుంది. మోడల్ యొక్క విజువల్ అర్థం చేసుకోవడం మరియు రీజనింగ్‌ను పరీక్షించే MMMU-Pro లో, టూల్స్‌ను ఉపయోగించకుండా GPT‑5.4 81.2% సక్సెస్ రేట్‌ను సాధించింది, ఇది GPT‑5.2 కంటే మెరుగైనది 79.5%. మెరుగైన విజువల్ పర్సెప్షన్ వల్ల డాక్యుమెంట్ పార్సింగ్ సామర్థ్యాలు కూడా మెరుగవుతాయి. OmniDocBench పై, రిజనింగ్ ఎఫర్ట్ లేకుండా GPT‑5.4 సగటు లోపం (మోడల్ అంచనా మరియు గ్రౌండ్ ట్రూత్ మధ్య నార్మలైజ్డ్ ఎడిట్ డిస్టెన్స్ ద్వారా కొలిచినది) 0.109 సాధించింది, ఇది GPT‑5.2 యొక్క 0.140 కంటే మెరుగైనది.

MMMUPro ను రిజనింగ్ ఎఫర్ట్‌ను xhigh గా సెట్ చేసి రన్ చేశారు. తక్కువ ఖర్చు, తక్కువ లేటెన్సీ పనితీరును ప్రతిబింబించడానికి, OmniDocBench ను రిజనింగ్ ఎఫర్ట్‌ను none గా సెట్ చేసి నడిపారు.

పూర్తి ఫిడెలిటీ ముఖ్యమైన ఘనమైన, హై-రిజల్యూషన్ ఇమేజ్‌ల కోసం విజువల్ అర్థం చేసుకునే సామర్థ్యాన్ని కూడా మేము మెరుగుపరుస్తున్నాము. GPT‑5.4తో ప్రారంభించి, మేము ఒరిజినల్ ఇమేజ్ ఇన్‌పుట్ వివరాలు(కొత్త విండోలో తెరుచుకుంటుంది) స్థాయిని పరిచయం చేస్తున్నాము, ఇది 10.24M మొత్తం పిక్సెల్స్ లేదా 6000-pixel గరిష్ట డైమెన్షన్ (ఏది తక్కువైతే అది) వరకు పూర్తి-ఫిడెలిటీ పర్సెప్షన్‌కు మద్దతు ఇస్తుంది; హై ఇమేజ్ ఇన్‌పుట్ వివరాల స్థాయి ఇప్పుడు 2.56M మొత్తం పిక్సెల్స్ లేదా 2048-pixel గరిష్ట డైమెన్షన్ (ఏది తక్కువైతే అది) వరకు మద్దతు ఇస్తుంది. API వినియోగదారులతో ప్రారంభ టెస్టింగ్‌లో, ఒరిజినల్ లేదా హై డీటెయిల్‌ను ఉపయోగించినప్పుడు లోకలైజేషన్ సామర్థ్యం, ఇమేజ్ అర్థం చేసుకోవడం, మరియు క్లిక్ ఖచ్చితత్వంలో బలమైన మెరుగుదలలను మేం గమనించాం.

“సుమారు ~30K HOA మరియు ప్రాపర్టీ టాక్స్ పోర్టల్‌లలో కంప్యూటర్ వినియోగ పనితీరును కొలిచిన మా evals లో, GPT-5.4 మొదటి ప్రయత్నంలోనే 95% విజయ రేటును సాధించింది మరియు మూడు ప్రయత్నాల లోపల 100% వరకు చేరుకుంది, ఇది పూర్వ CUA మోడళ్లలో ఉన్న ~73–79%తో పోలిస్తే చాలా మెరుగైనది. ఇది సెషన్‌లను సుమారు ~3x వేగంగా పూర్తి చేయడంతో పాటు సుమారు ~70% తక్కువ టోకెన్‌లను ఉపయోగించింది, దీనివల్ల పెద్ద స్థాయిలో నమ్మకత్వం మరియు ఖర్చు సమర్థత గణనీయంగా మెరుగయ్యాయి.”
— Dod Fraser, Mainstay లో CEO

API లో, డెవలపర్లు ఈ సామర్థ్యాలను అప్‌డేట్ చేసిన కంప్యూటర్ టూల్‌ను ఉపయోగించి యాక్సెస్ చేయవచ్చు సిఫార్సు చేసిన ఉత్తమ పద్ధతుల కోసం దయచేసి మా అప్‌డేట్ చేసిన డాక్యుమెంటేషన్(కొత్త విండోలో తెరుచుకుంటుంది) ను చూడండి.

కోడింగ్

GPT‑5.4, GPT‑5.3‑Codex యొక్క కోడింగ్ బలాలను ప్రముఖ నాలెడ్జ్ వర్క్ మరియు కంప్యూటర్-యూజ్ సామర్థ్యాలతో కలిపి అందిస్తుంది; ఇవి ముఖ్యంగా దీర్ఘకాలంగా నడిచే టాస్క్‌లలో అత్యంత ప్రాధాన్యం కలిగి ఉంటాయి, అక్కడ మోడల్ టూల్స్‌ను ఉపయోగించి, పునరావృతం చేస్తూ, తక్కువ మాన్యువల్ జోక్యంతో పనిని మరింత ముందుకు నెట్టగలదు. ఇది SWE-Bench Proలో GPT‑5.3‑Codexతో సరిపోలుతుంది లేదా దానికంటే మెరుగ్గా పనిచేస్తుంది, అలాగే రిజనింగ్ ప్రయత్నాలన్నింటిలోనూ తక్కువ లేటెన్సీని కలిగి ఉంటుంది.

మా మోడళ్ల ప్రొడక్షన్ ప్రవర్తనను పరిశీలించి, దాన్ని ఆఫ్‌లైన్‌లో సిమ్యులేట్ చేసి లేటెన్సీని అంచనా వేస్తాము. ఈ లేటెన్సీ అంచనాలో టూల్ కాల్ వ్యవధి (కోడ్ ఎగ్జిక్యూషన్ సమయం), సాంపిల్ చేసిన టోకెన్‌లు మరియు ఇన్‌పుట్ టోకెన్‌లు పరిగణనలోకి తీసుకోబడతాయి. వాస్తవ ప్రపంచంలో లేటెన్సీ గణనీయంగా మారవచ్చు, ఎందుకంటే మా సిమ్యులేషన్‌లో పరిగణనలోకి రాని అనేక అంశాలపై అది ఆధారపడి ఉంటుంది. రీజనింగ్ ఎఫర్ట్ స్థాయిలను none నుంచి xhigh వరకు పరీక్షించాము.

టాగిల్ ఆన్ చేసినప్పుడు, Codexలోని /fast mode withGPT‑5.4తో గరిష్టంగా 1.5x వేగంగా టోకెన్ వేగాన్ని అందిస్తుంది. ఇది అదే మోడల్ మరియు అదే ఇంటెలిజెన్స్, కానీ మరింత వేగంగా ఉంటుంది. అంటే యూజర్లు ఫ్లోలోనే ఉండి కోడింగ్ టాస్క్‌లు, ఇటరేషన్, మరియు డీబగ్గింగ్‌ను ముందుకు సాగించగలరు. డెవలపర్‌లు ప్రాధాన్యత ప్రాసెసింగ్(కొత్త విండోలో తెరుచుకుంటుంది) ఉపయోగించి API ద్వారా అదే వేగవంతమైన వేగాలతో GPT‑5.4 ను యాక్సెస్ చేయవచ్చు.

ఇవాల్యుయేషన్ మరియు ఇంటర్నల్ టెస్టింగ్‌లో, GPT‑5.4 క్లిష్టమైన ఫ్రంట్‌ఎండ్ టాస్క్స్‌లో అద్భుతంగా పనిచేస్తుందని మేం గుర్తించాం; మేం ఇంతకుముందు లాంచ్ చేసిన ఏ మోడల్స్‌కన్నా గమనించదగ్గంతగా మరింత ఎస్తెటిక్‌గా, మరింత ఫంక్షనల్‌గా ఉన్న ఫలితాలు ఇస్తుంది.

మోడల్ యొక్క మెరుగైన కంప్యూటర్-యూజ్ మరియు కోడింగ్ సామర్థ్యాలు కలిసి పనిచేస్తున్నాయని చూపించే డెమోగా, “Playwright (Interactive)(కొత్త విండోలో తెరుచుకుంటుంది)” అనే ప్రయోగాత్మక Codex స్కిల్‌ను కూడా మేము విడుదల చేస్తున్నాం. ఇది Codex కు వెబ్ మరియు Electron యాప్‌లను దృశ్యపరంగా డీబగ్ చేయడానికి అనుమతిస్తుంది; ఇది నిర్మిస్తున్నప్పుడే, అది నిర్మిస్తున్న యాప్‌ను పరీక్షించడానికి కూడా ఉపయోగించవచ్చు.

GPT‑5.4తో తయారు చేసిన థీమ్ పార్క్ సిమ్యులేషన్ గేమ్; ఒకే ఒక్క స్వల్పంగా నిర్దిష్టమైన ప్రాంప్ట్ నుండి, బ్రౌజర్ ప్లేటెస్టింగ్ కోసం Playwright Interactive ను, మరియు ఐసోమెట్రిక్ ఆసెట్ సెట్ కోసం ఇమేజ్ జనరేషన్‌ను ఉపయోగించి. ఈ సిమ్యులేషన్‌లో టైల్స్-ఆధారిత పాత్ ప్లేస్‌మెంట్, రైడ్ మరియు సీనరీ నిర్మాణం, అతిథుల పాత్‌ఫైండింగ్, క్యూలో నిలబడటం, మరియు రైడ్ సైకిల్స్ ఉంటాయి; అలాగే డబ్బు, అతిథుల సంఖ్య, సంతోషం, శుభ్రత, మరియు రేటింగ్ వంటి పార్క్ మెట్రిక్స్ లేఅవుట్ ఎలా పనిచేస్తుందో మరియు అతిథులు దానికి ఎలా స్పందిస్తారో ఆధారంగా పెరుగుతాయి లేదా తగ్గుతాయి. Playwright ను బ్రౌజర్ ప్లేటెస్ట్‌లను ఆటోమేట్ చేయడానికి ఉపయోగించారు; పార్క్‌ను నిర్మించి విస్తరించడం, మార్గాలు మరియు ఆకర్షణలను ఉంచడం మరియు తొలగించడం, కెమెరా నావిగేషన్‌ను తనిఖీ చేయడం, అలాగే ప్లే యొక్క అనేక రౌండ్లలో అతిథులు, క్యూలు, రైడ్ స్థితులు, మరియు UI మెట్రిక్స్ సరిగ్గా అప్‌డేట్ అయ్యాయో లేదో ధృవీకరించడం వంటి పనుల కోసం.

ప్రాంప్ట్: $playwright-interactive మరియు $imagegen ను ఉపయోగించండి. నేను బ్రౌజర్‌లో నిర్మించి నావిగేట్ చేయగలిగే ఇంటరాక్టివ్ ఐసోమెట్రిక్ థీమ్ పార్క్ సిమ్యులేషన్ గేమ్‌ను రూపొందించండి. మొత్తం విజువల్ విజన్‌ను స్థిరపరచడానికి మరియు రైడ్స్, పాత్‌లు, టెర్రైన్, చెట్లు, నీరు, ఫుడ్ స్టాల్స్, డెకరేషన్లు, బిల్డింగ్‌లు, ఐకాన్‌లు, మరియు UI ఇలస్ట్రేషన్లు వంటి గేమ్ అసెట్‌లను రూపొందించడానికి imagegen ను ఉపయోగించండి. ప్రపంచం ఐసోమెట్రిక్ పర్స్పెక్టివ్‌లో బాగా పనిచేసే ప్రీమియమ్ ఆర్ట్ డైరెక్షన్‌తో, కోహీసివ్‌గా, పాలిష్‌గా, మరియు విజువల్లీ రిచ్‌గా అనిపించాలి. గెస్ట్ యాక్టివిటీ, రైడ్ స్టేటస్, మరియు పార్క్ గ్రోత్‌ను మానిటర్ చేస్తూ, నేను పాత్‌లను ప్లేస్ చేయడం మరియు తొలగించడం, అట్రాక్షన్‌లను జోడించడం, సీనరీని పొజిషన్ చేయడం, అలాగే పార్క్‌లో స్మూత్‌గా తిరగడం చేయగలిగేలా చేయండి. నమ్మకంగా అనిపించే గెస్ట్ మూవ్‌మెంట్, డబ్బు, శుభ్రత, క్యూయింగ్, మరియు హ్యాపినెస్ వంటి సరళమైన పార్క్ మేనేజ్‌మెంట్ సిస్టమ్‌లను చేర్చండి, అలాగే అనుభవం రఫ్ ప్రోటోటైప్‌లా కాకుండా ప్లేఫుల్‌గా, క్లియర్‌గా, మరియు కంప్లీట్‌గా అనిపించేలా చేయండి. రియలిజం కంటే చార్మ్, రీడబిలిటీ, మరియు స్ట్రాంగ్ గేమ్ ఫీల్‌కు ప్రాధాన్యత ఇవ్వండి.

ప్లే టెస్టింగ్ చేస్తున్నప్పుడు, కొన్ని రౌండ్ల ప్లే ద్వారా ఒక పార్క్‌ను నిర్మించి విస్తరించండి, ప్లేస్‌మెంట్ మరియు నావిగేషన్ సాఫీగా పనిచేస్తున్నాయో వెరిఫై చేయండి, అతిథులు పార్క్ లేఅవుట్ మరియు ఆకర్షణలకు ఎలా స్పందిస్తున్నారో నిర్ధారించండి, అలాగే విజువల్స్, UI, మరియు ఇంటరాక్షన్‌లు స్థిరంగా మరియు సమగ్రంగా అనిపించేలా చూసుకోండి.

“మా ఇంజినీర్లు GPT-5.4 ను గుర్తించారు మునుపటి మోడళ్ల కంటే మరింత సహజంగా మరియు దృఢంగా . ఇది అస్పష్టమైన సమస్యలను తన నిర్ణయాన్ని తానే మళ్లీ సందేహించకుండా పరిష్కరిస్తూ ముందుకు సాగుతుంది, అలాగే పనులు ఆగకుండా సాగేందుకు పనిని ప్యారలల్‌గా చేయడంలో ముందస్తుగా చర్యలు తీసుకుంటుంది.”
— Cursor లో డెవలపర్ ఎడ్యుకేషన్ VP, Lee Robinson

టూల్ వినియోగం

GPT‑5.4 తో, మోడల్ ఎక్స్‌టర్నల్ టూల్స్‌తో ఎలా పని చేస్తాయో మేము గణనీయంగా మెరుగుపరిచాము. ఏజెంట్లు ఇప్పుడు పెద్ద టూల్ ఎకోసిస్టమ్‌ల అంతటా పనిచేయగలరు, సరైన టూల్స్‌ను మరింత నమ్మకంగా ఎంచుకోగలరు, మరియు తక్కువ ఖర్చు మరియు లేటెన్సీతో బహుళ-దశల వర్క్‌ఫ్లోలను పూర్తి చేయగలరు.

టూల్ సెర్చ్

APIలో, GPT‑5.4 టూల్ సెర్చ్(కొత్త విండోలో తెరుచుకుంటుంది)‌ను పరిచయం చేస్తోంది, ఇది అనేక టూల్స్ ఇచ్చినప్పుడు మోడల్స్ సమర్థవంతంగా పని చేయడానికి అనుమతిస్తుంది.

గతంలో, ఒక మోడల్‌కు టూల్స్ ఇచ్చినప్పుడు, అన్ని టూల్ నిర్వచనాలు ముందుగానే ప్రాంప్ట్‌లో చేర్చబడేవి. అనేక టూల్స్ ఉన్న సిస్టమ్‌ల కోసం, ఇది ప్రతి రిక్వెస్ట్‌కు వేల—లేదా పదివేల—టోకెన్లను కూడా జోడించవచ్చు, ఖర్చును పెంచి, ప్రతిస్పందనలను నెమ్మదింపజేసి, మోడల్ ఎప్పటికీ ఉపయోగించకపోవచ్చు అనే సమాచారంతో కాంటెక్స్ట్‌ను నింపేస్తుంది.

టూల్ సెర్చ్‌తో, GPT‑5.4 బదులుగా అందుబాటులో ఉన్న టూల్స్ యొక్క తేలికపాటి జాబితాను, అలాగే టూల్ సెర్చ్ సామర్థ్యాన్ని పొందుతుంది. మోడల్‌కు ఒక టూల్‌ను ఉపయోగించాల్సిన అవసరం వచ్చినప్పుడు, అది ఆ టూల్ నిర్వచనాన్ని చూసి, ఆ క్షణంలోనే దాన్ని సంభాషణకు జోడించగలదు.

ఈ విధానం టూల్-హెవీ వర్క్‌ఫ్లోల కోసం అవసరమైన టోకెన్ల సంఖ్యను గణనీయంగా తగ్గిస్తుంది మరియు క్యాష్‌ను నిలుపుతుంది, దీని వల్ల రిక్వెస్టులు వేగంగా మరియు తక్కువ ఖర్చుతో పూర్తవుతాయి. ఇది ఏజెంట్లు పెద్ద టూల్ ఎకోసిస్టమ్‌లతో విశ్వసనీయంగా పని చేయడానికి వీలు కల్పిస్తుంది. టూల్ నిర్వచనాల కోసం పదివేలల టోకెన్లు కలిగి ఉండగల MCP సర్వర్‌లకు, సామర్థ్య పెరుగుదల గణనీయంగా ఉంటుంది.

సమర్థత పెరుగుదలలను చూపించడానికి, రెండు మోడ్‌లలో అన్ని 36 MCP సర్వర్‌లను ఎనేబుల్ చేసి Scale’s MCP Atlas(కొత్త విండోలో తెరుచుకుంటుంది) బెంచ్‌మార్క్ నుండి 250 టాస్క్‌లను మేము మూల్యాంకనం చేశాము: (1) ప్రతి MCP ఫంక్షన్‌ను నేరుగా మోడల్ కాంటెక్స్ట్‌లో ఎక్స్‌పోజ్ చేయడం, మరియు (2) అన్ని MCP సర్వర్‌లను టూల్ సెర్చ్ వెనుక ఉంచడం. టూల్-సెర్చ్ కాన్ఫిగరేషన్ అదే యాక్యురసీని సాధిస్తూ మొత్తం టోకెన్ల వినియోగాన్ని 47% తగ్గించింది.

ఉదాహరణ టోకెన్ లెక్కలు MCP-Atlas పబ్లిక్ డేటాసెట్‌లోని 250 టాస్క్‌ల సగటు ఆధారంగా వస్తాయి.

ఏజెంట్ టూల్ కాలింగ్

GPT‑5.4 కూడా టూల్ కాలింగ్ను మెరుగుపరుస్తుంది, ముఖ్యంగా APIలో, రిజనింగ్ సమయంలో టూల్స్‌ను ఎప్పుడు, ఎలా ఉపయోగించాలో నిర్ణయించేటప్పుడు దాన్ని మరింత ఖచ్చితంగా మరియు సమర్థవంతంగా చేస్తుంది.  GPT‑5.2తో పోలిస్తే, Toolathlon‌లో తక్కువ టర్న్‌లలోనే ఇది అధిక ఖచ్చితత్వాన్ని సాధిస్తుంది; Toolathlon అనేది AI ఏజెంట్లు నిజ-ప్రపంచ టూల్స్ మరియు APIs‌ను ఉపయోగించి బహుళ-దశల పనులను పూర్తి చేయడంలో ఎంత బాగా పనిచేస్తారో పరీక్షించే ఒక బెంచ్‌మార్క్. ఉదాహరణకు, ఒక ఏజెంట్ ఇమెయిల్‌లను చదవాలి, అసైన్‌మెంట్ అటాచ్‌మెంట్‌లను తీసుకోవాలి, వాటిని అప్‌లోడ్ చేయాలి, వాటికి గ్రేడ్ ఇవ్వాలి మరియు ఫలితాలను ఒక స్ప్రెడ్‌షీట్‌లో నమోదు చేయాలి.

టూల్ స్పందనల కోసం అసిస్టెంట్ వేచి ఉండేందుకు నియంత్రణను టూల్‌కు అప్పగించే సందర్భాన్ని టూల్ యీల్డ్ అంటారు. మూడు టూల్స్‌ను ఒకేసారి ప్యారలల్‌గా కాల్ చేసి, తర్వాత మరో మూడు టూల్స్‌ను కూడా ప్యారలల్‌గా కాల్ చేస్తే యీల్డ్‌ల సంఖ్య రెండు అవుతుంది. ప్యారలలైజేషన్ ప్రయోజనాలను ప్రతిబింబించే కారణంగా, టూల్ కాల్స్ కంటే టూల్ యీల్డ్‌లు లేటెన్సీకి మెరుగైన సూచికగా ఉంటాయి.

లేటెన్సీ-సెన్సిటివ్ యూజ్ కేసుల కోసం రిజనింగ్ ఎఫర్ట్ Noneకి ప్రాధాన్యం ఇచ్చే సందర్భాల్లో, GPT‑5.4 తన పూర్వ మోడళ్ల కంటే మరింత మెరుగుపడింది.

లో τ2-bench⁠(కొత్త విండోలో తెరుచుకుంటుంది), కస్టమర్ సర్వీస్ టాస్క్‌ను పూర్తి చేయడానికి ఒక మోడల్ టూల్స్‌ను ఉపయోగించాలి, అక్కడ వరల్డ్ స్టేట్‌పై కమ్యూనికేట్ చేయగలిగే మరియు చర్యలు తీసుకోగల అనుకరణ యూజర్ ఉండవచ్చు. రిజనింగ్ ఎఫర్ట్ Noneగా సెట్ చేయబడింది.

మెరుగుపరిచిన వెబ్ సెర్చ్

GPT‑5.4 ఏజెంటిక్ వెబ్ సెర్చ్‌లో మెరుగ్గా ఉంది. BrowseCompలో, AI ఏజెంట్లు కష్టంగా దొరికే సమాచారాన్ని కనుగొనడానికి వెబ్‌ను నిరంతరంగా బ్రౌజ్ చేయగల సామర్థ్యాన్ని ఎంత బాగా కొలుస్తుందో అనే కొలమానంలో, GPT‑5.4, GPT‑5.2 కంటే 17%abs ముందుకు దూకుతుంది, మరియు GPT‑5.4 Pro 89.3%తో కొత్త అత్యాధునిక స్థాయిని నెలకొల్పింది.

ఆచరణలో, దీని అర్థం GPT‑5.4 వెబ్ అంతటా అనేక మూలాల నుండి సమాచారాన్ని కలిపి అవసరమయ్యే ప్రశ్నలకు సమాధానాలు ఇవ్వడంలో Thinking మరింత బలంగా ఉంటుంది. ఇది బహుళ రౌండ్లలో మరింత స్థిరంగా సెర్చ్ చేసి అత్యంత సంబంధిత సోర్స్లను గుర్తించగలదు, ముఖ్యంగా “పెద్ద గడ్డి గుట్టలో సూది వెతికినట్టుగా” ప్రశ్నల కోసం, మరియు వాటిని ఒక స్పష్టమైన, బాగా తర్కబద్ధమైన సమాధానంగా సమన్వయపరచగలదు.

BrowseCompలో, కలుషితం కాకుండా నిరోధించడానికి మరియు పనితీరును న్యాయంగా కొలవడానికి, మూల్యాంకనం నుంచి బెంచ్‌మార్క్ సమాధానాలు ఉన్న వెబ్‌సైట్‌లను మినహాయించే సెర్చ్ బ్లాక్‌లిస్ట్‌ను మేము ఉపయోగించాము. GPT‑5.4 ను GPT‑5.2 కంటే తరువాతి తేదీన కొలిచారు, కాబట్టి స్కోర్లు మోడల్, మా శోధన వ్యవస్థ, మరియు ఇంటర్నెట్ స్థితిలోని మార్పులను ప్రతిబింబిస్తాయి. GPT‑5.4ను మరింత పొడవైన, అప్డేట్ చేసిన బ్లాక్లిస్ట్‌తో పరీక్షించారు. మోడల్‌లు ChatGPT సెర్చ్ టూల్‌ను ఉపయోగిస్తాయి, ఇది API సెర్చ్‌తో పోలిస్తే చిన్న తేడాలు ఉండవచ్చు.

“GPT-5.4 xhigh బహుళ దశల టూల్ వినియోగానికి కొత్త state-of-the-art. Zapier పరిశ్రమలో అత్యంత కఠినమైన టూల్ వినియోగ బెంచ్‌మార్క్‌లలో కొన్ని నిర్వహిస్తుంది, వందలాది ఆధునిక నిజ జీవిత వర్క్‌ఫ్లోల్లో మోడళ్లను పరీక్షిస్తుంది. మునుపటి మోడళ్లు వదిలేసిన చోట GPT-5.4 పనిని పూర్తి చేసింది — ఇప్పటివరకు అత్యంత పట్టుదలగల మోడల్.”
— Wade, Zapier లో CEO

స్టీరబిలిటీ

Codex పని ప్రారంభించినప్పుడు తన విధానాన్ని ఎలా వివరంగా చూపిస్తుందో అదే విధంగా, GPT‑5.4 కూడా ChatGPTలో Thinking ఇప్పుడు పొడవైన, క్లిష్టమైన ప్రశ్నల కోసం ముందుమాటతో తన పని అవుట్‌లైన్ చేస్తుంది. మీరు ప్రతిస్పందన మధ్యలో కూడా సూచనలను జోడించవచ్చు లేదా దిశను సర్దుబాటు చేయవచ్చు. ఇది మళ్లీ మొదలుపెట్టకుండా లేదా అనేక అదనపు టర్న్‌లు అవసరం లేకుండా, మీరు కోరుకున్న ఖచ్చితమైన ఫలితానికి మోడల్‌ను మార్గనిర్దేశం చేయడం సులభం చేస్తుంది. ఈ ఫీచర్ ఇప్పుడు chatgpt.com(కొత్త విండోలో తెరుచుకుంటుంది) మరియు Android యాప్‌లో అందుబాటులో ఉంది, iOS యాప్‌కు త్వరలో రానుంది.

మోడల్ కఠినమైన టాస్క్‌లపై కూడా ఎక్కువసేపు ఆలోచించగలదు, అదే సమయంలో సంభాషణలోని ముందరి దశలపై మరింత బలమైన అవగాహనను కొనసాగిస్తుంది. ఇది పొడవైన వర్క్‌ఫ్లోలను మరియు మరింత క్లిష్టమైన ప్రాంప్ట్‌లను హ్యాండిల్ చేయడానికి అనుమతిస్తుంది, అలాగే మొత్తం సమయంలో సమాధానాలు పొందికగా మరియు సంబంధితంగా ఉండేలా చేస్తుంది.

ఈ వీడియోను దృష్టాంత ప్రయోజనాల కోసం వేగవంతం చేయబడింది.

సేఫ్టీ

గత కొన్ని నెలలుగా, GPT‑5.3‑Codexతో మేము ప్రవేశపెట్టిన రక్షణ చర్యలను మెరుగుపరుస్తూనే, GPT‑5.4ను డిప్లాయ్‌మెంట్ కోసం సిద్ధం చేస్తున్నాము. GPT‑5.3‑Codex మాదిరిగానే, మా ప్రిపేర్‌డ్నెస్ ఫ్రేమ్‌వర్క్ కింద GPT‑5.4ను మేము ఉన్నత సైబర్ సామర్థ్యంగా పరిగణిస్తున్నాము, మరియు సిస్టమ్ కార్డ్లో డాక్యుమెంట్ చేసినట్లుగా సంబంధిత రక్షణలతో దాన్ని మేము డిప్లాయ్ చేస్తున్నాము. వీటిలో విస్తరించిన సైబర్ సేఫ్టీ స్టాక్, మానిటరింగ్ సిస్టమ్స్, ట్రస్టెడ్ యాక్సెస్ కంట్రోల్స్, అలాగే జీరో డేటా రిటెన్షన్ (ZDR) సర్ఫేస్‌లపై ఉన్న కస్టమర్ల కోసం అధిక-ప్రమాదం ఉన్న రిక్వెస్ట్‌లకు అసింక్రోనస్ బ్లాకింగ్, అలాగే విస్తృత సెక్యూరిటీ ఎకోసిస్టమ్‌లో కొనసాగుతున్న పెట్టుబడులు కూడా ఉన్నాయి.

సైబర్‌సెక్యూరిటీ సామర్థ్యాలు స్వభావతా డ్యూయల్-యూజ్ కావడం వల్ల, మా విధానాలు మరియు క్లాసిఫైయర్‌లను మేము సరిచేస్తూనే డిప్లాయ్‌మెంట్ విషయంలో జాగ్రత్త చర్యలతో కూడిన అప్రోచ్‌ను కొనసాగిస్తున్నాము. ZDR సర్ఫేస్‌లపై కొందరు కస్టమర్ల కోసం, రిక్వెస్ట్ స్థాయి బ్లాకింగ్ మా సైబర్ రిస్క్ మిటిగేషన్ స్టాక్‌లో భాగంగా ఉంటుంది. క్లాసిఫైయర్లు ఇంకా మెరుగుపడుతున్నందున, ఈ రక్షణ చర్యలను మేము మెరుగుపరుస్తున్నప్పుడు కొన్ని తప్పు పాజిటివ్‌లు సంభవించవచ్చు. ఈ అప్‌డేట్స్ ప్రాక్టికల్‌గా సేఫ్‌గార్డ్స్ ఎలా పనిచేస్తాయో మెరుగుపరచడమే లక్ష్యంగా ఉన్నాయి; ఇందులో అనవసరమైన నిరాకరణలు మరియు అతిగా హెచ్చరికలతో కూడిన సమాధానాలను తగ్గించడం కూడా ఉంది, అదే సమయంలో దుర్వినియోగం నుంచి బలమైన రక్షణలను కొనసాగిస్తాయి.

మోడళ్లు ఎలా రీజన్ చేస్తాయో మెరుగ్గా అర్థం చేసుకోవడానికి మరియు సంభావ్య దుర్వినియోగాన్ని గుర్తించడంలో సహాయపడేందుకు, చెయిన్-ఆఫ్-థాట్ (CoT) మానిటరబిలిటీపై మా భద్రతా పరిశోధనను మేము కొనసాగించాము. ఈ పనిలో భాగంగా, మేము ఒక కొత్త ఓపెన్-సోర్స్ మూల్యాంకనాన్ని పరిచయం చేస్తున్నాం, CoT నియంత్రణ సామర్థ్యం, ఇది మోడల్స్ పర్యవేక్షణను తప్పించుకోవడానికి తమ రిజనింగ్‌ను ఉద్దేశపూర్వకంగా అస్పష్టంగా చేయగలవా లేదా అని కొలుస్తుంది. GPT‑5.4 అని మేము గుర్తించాము Thinking తన CoT‌ను నియంత్రించే సామర్థ్యం తక్కువగా ఉంది, ఇది భద్రత కోసం ఒక సానుకూల లక్షణం; దీని ద్వారా మోడల్‌కు తన రిజనింగ్‌ను దాచే సామర్థ్యం లేదని, అలాగే CoT మానిటరింగ్ ప్రభావవంతమైన భద్రతా సాధనంగా కొనసాగుతుందని సూచిస్తుంది.

లభ్యత మరియు ధరలు

GPT‑5.4 ఈ రోజు ChatGPT మరియు Codex అంతటా దశలవారీగా రోల్‌అవుట్ అవుతోంది. APIలో, GPT‑5.4 ఇప్పుడు gpt-5.4గా అందుబాటులో ఉంది. GPT‑5.4 Pro APIలో కూడా gpt-5.4-pro గా అందుబాటులో ఉంది అత్యంత క్లిష్టమైన టాస్క్‌లపై గరిష్ట పనితీరు అవసరమైన డెవలపర్ల కోసం.

ChatGPTలో, GPT‑5.4 Thinking ఈ రోజు నుండి ChatGPT Plus, Team, మరియు Pro యూజర్లకు అందుబాటులో ఉంది, GPT‑5.2ను ప్రతిస్థాపిస్తోంది. Thinking. GPT‑5.2 Thinking చెల్లింపు యూజర్లకు మోడల్ పికర్ లోని Legacy Models సెక్షన్ కింద మూడు నెలల పాటు అందుబాటులో ఉంటుంది, అనంతరం ఇది June 5, 2026న రిటైర్ చేయబడుతుంది. Enterprise మరియు Edu ప్లాన్స్‌లో ఉన్నవారు అడ్మిన్ సెట్టింగ్స్ ద్వారా ముందస్తు యాక్సెస్‌ను ఎనేబుల్ చేయవచ్చు. GPT‑5.4 Pro, Pro మరియు Enterprise ప్లాన్లలో అందుబాటులో ఉంది. సందర్భ విండోలు(కొత్త విండోలో తెరుచుకుంటుంది) ChatGPTలో GPT‑5.4 కోసం Thinking GPT‑5.2 Thinking నుండి మార్పు లేకుండా ఉంటుంది.

GPT‑5.4 అనేది GPT‑5.3‑codex యొక్క అత్యాధునిక కోడింగ్ సామర్థ్యాలను కలుపుకున్న మా తొలి ప్రధాన శ్రేణి రిజనింగ్ మోడల్, మరియు అది ChatGPT, API మరియు Codex అంతటా రోల్‌అవుట్ అవుతోంది. ఆ పెద్ద పురోగతిని ప్రతిబింబించడానికి మరియు Codex ఉపయోగిస్తున్నప్పుడు మోడళ్ల మధ్య ఎంపికను సులభతరం చేయడానికి మేము దీనిని GPT‑5.4 అని పిలుస్తున్నాము. కాలక్రమేణా, మా Instant మోడల్స్ మరియు Thinking మోడల్స్ వేర్వేరు వేగాల్లో అభివృద్ధి చెందుతాయని మీరు ఆశించవచ్చు.

Codexలోని GPT‑5.4లో 1M కాంటెక్స్ట్ విండోకు ప్రయోగాత్మక మద్దతు ఉంది. డెవలపర్లు model_context_window మరియు model_auto_compact_token_limitలను కాన్ఫిగర్ చేయడం ద్వారా దీన్ని ప్రయత్నించవచ్చు. ప్రామాణిక 272K కాంటెక్స్ట్ విండోను మించే రిక్వెస్ట్‌లు వినియోగ పరిమితులలో సాధారణ రేటు కంటే 2x గా లెక్కించబడతాయి.

APIలో, GPT‑5.4ను GPT‑5.2 కంటే ప్రతి టోకెన్‌కు ఎక్కువ ధరగా నిర్ణయించారు, దాని మెరుగైన సామర్థ్యాలను ప్రతిబింబించడానికి, అయితే దాని మెరుగైన టోకెన్ సామర్థ్యం అనేక పనుల కోసం అవసరమైన మొత్తం టోకెన్ల సంఖ్యను తగ్గించడంలో సహాయపడుతుంది. Batch మరియు Flex ప్రైసింగ్ స్టాండర్డ్ API రేటు యొక్క సగం వద్ద అందుబాటులో ఉన్నాయి, కాగా ప్రాధాన్యత ప్రాసెసింగ్ స్టాండర్డ్ API రేటు యొక్క రెండింతల వద్ద అందుబాటులో ఉంది.

API మోడల్

ఇన్‌పుట్ ధర

క్యాష్ చేయబడిన ఇన్‌పుట్ ధర

ఔట్‌పుట్ ధర

gpt-5.2

$1.75 / M టోకెన్లు

$0.175 / M టోకెన్లు

$14 / M టోకెన్లు

gpt-5.4

$2.50 / M టోకెన్లు

$0.25 / M టోకెన్లు

$15 / M టోకెన్లు

gpt-5.2-pro

$21 / M టోకెన్లు

-

$168 / M టోకెన్లు

gpt-5.4-pro

$30 / M టోకెన్లు

-

$180 / M టోకెన్లు

అంచనాలు

ప్రొఫెషనల్

ఇవాల్

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

ఇన్వెస్ట్మెంట్ బ్యాంకింగ్ మోడలింగ్ టాస్క్స్ (అంతర్గత)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

కోడింగ్

ఇవాల్

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (పబ్లిక్)

57.7%

56.8%

55.6%

Terminal-Bench 2.0

75.1%

77.3%

62.2%

కంప్యూటర్ వినియోగం మరియు దృష్టి

ఇవాల్

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3‑Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75.0%

74.0%

47.3%

MMMU Pro (టూల్స్ లేవు)

81.2%

79.5%

MMMU Pro (టూల్స్‌తో)

82.1%

80.4%

టూల్ వినియోగం

ఇవాల్

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-బెంచ్ టెలికాం

98.9%

98.7%

అకాడెమిక్

ఇవాల్

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

అత్యాధునిక సైన్స్ పరిశోధన

33.0%

36.7%

25.2%

FrontierMath స్థాయి 1–3

47.6%

40.7%

FrontierMath టియర్ 4

27.1%

38.0%

18.8%

31.3%

"GPQA డైమండ్"

92.8%

94.4%

92.6%

92.4%

93.2%

Humanity's Last Exam (no tools)

39.8%

42.7%

34.5%

36.6%

Humanity's Last Exam (with tools)

52.1%

58.7%

45.5%

50.0%

పొడవైన కాంటెక్స్ట్

ఇవాల్

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3‑Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks parents 0–128K (ఖచ్చితత్వం)

89.8%

89.0%

Graphwalks parents 256K–1M (ఖచ్చితత్వం)

32.4%

OpenAI MRCR v2 8-needle 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-needle 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-needle 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-needle 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-needle 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-needle 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-needle 256K–512K

57.5%

OpenAI MRCR v2 8-needle 512K–1M

36.6%

సారాంశాత్మక రిజనింగ్

ఇవాల్

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Verified)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (ధృవీకరించబడింది)

73.3%

83.3%

52.9%

54.2% (high)

రిజనింగ్ లేకుండా ఇవాల్స్

ఇవాల్

GPT‑5.4
(none)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (నార్మలైజ్డ్ ఎడిట్ డిస్టెన్స్)

0.109

0.140

Tau2-బెంచ్ టెలికాం

64.3%

57.2%

43.6%

వేరుగా పేర్కొన్న సందర్భాలు తప్ప, అన్ని ఈవాల్స్‌ను రీజనింగ్ ఎఫర్ట్ ను xhigh గా సెట్ చేసి నిర్వహించారు. బెంచ్‌మార్క్‌లు పరిశోధనా వాతావరణంలో నిర్వహించబడ్డాయి, ఇవి కొన్ని సందర్భాల్లో ప్రొడక్షన్ ChatGPT కంటే కొంచెం భిన్నమైన అవుట్‌పుట్‌ను అందించవచ్చు.

రచయిత

OpenAI

ఫుట్ నోట్స్