ఈ రోజు, మేము ChatGPTలో GPT‑5.4 ను విడుదల చేస్తున్నాము (GPT‑5.4 Thinking), API, మరియు Codex. ప్రొఫెషనల్ పనుల కోసం ఇది మా అత్యంత సామర్థ్యవంతమైన మరియు సమర్థవంతమైన అత్యాధునిక మోడల్. మేము సంక్లిష్ట పనుల్లో గరిష్ట పనితీరు కావాలనుకునే వారి కోసం, ChatGPT మరియు APIలో GPT‑5.4 Pro ని కూడా విడుదల చేస్తున్నాం.
GPT‑5.4 మా రిజనింగ్, కోడింగ్, మరియు ఏజెంటిక్ వర్క్ఫ్లోలలో ఇటీవల చేసిన ఉత్తమ పురోగతులను ఒకే అత్యాధునిక మోడల్లో ఏకతాటిపైకి తీసుకువస్తుంది. ఇది GPT‑5.3‑Codex యొక్క పరిశ్రమలో ముందంజలో ఉన్న కోడింగ్ సామర్థ్యాలను కలిగి ఉండడంతో పాటు, టూల్స్, సాఫ్ట్వేర్ ఎన్విరాన్మెంట్లు, మరియు స్ప్రెడ్షీట్లు, ప్రెజెంటేషన్లు, మరియు డాక్యుమెంట్లకు సంబంధించిన ప్రొఫెషనల్ పనుల్లో మోడల్ పని చేసే విధానాన్ని మెరుగుపరుస్తుంది. ఫలితంగా, క్లిష్టమైన నిజమైన పనిని ఖచ్చితంగా, ప్రభావవంతంగా, మరియు సమర్థవంతంగా పూర్తి చేసే మోడల్ లభిస్తుంది—మీరు అడిగినదాన్ని తక్కువ ముందూ వెనుకా చర్చతో అందిస్తుంది.
ChatGPTలో, GPT‑5.4 Thinking ఇప్పుడు తన ఆలోచనకు సంబంధించిన ముందస్తు ప్లాన్ను అందించగలదు, కాబట్టి మీరు ఇది పని చేస్తున్నప్పుడు ప్రతిస్పందన మధ్యలోనే దిశను సర్దుబాటు చేసుకోవచ్చు , మరియు అదనపు టర్న్స్ లేకుండా మీకు అవసరమైనదానికి మరింత దగ్గరగా సరిపడే తుది అవుట్పుట్కు చేరుకోవచ్చు. GPT‑5.4 Thinking కూడా డీప్ వెబ్ రిసర్చ్, ను కూడా మెరుగుపరుస్తుంది, ముఖ్యంగా చాలా ప్రత్యేకమైన ప్రశ్నల కోసం; అలాగే ఎక్కువ ఆలోచన అవసరమైన ప్రశ్నలలో కాంటెక్స్ట్ను మరింత మెరుగుగా నిలుపుకుంటుంది. ఈ మెరుగుదలలు కలిసి, అధిక-నాణ్యత సమాధానాలు మరింత వేగంగా అందేలా చేసి, ప్రస్తుత పనికి సంబంధితంగా ఉండేలా చేస్తాయి.
Codex మరియు APIలో, GPT‑5.4 అనేది మేము విడుదల చేసిన మొదటి సాధారణ-ప్రయోజన మోడల్, ఇది నేటివ్, అత్యాధునిక కంప్యూటర్-యూజ్ సామర్థ్యాలును కలిగి ఉంది, దీని వల్ల ఏజెంట్లు కంప్యూటర్లను ఆపరేట్ చేసి అప్లికేషన్ల అంతటా క్లిష్టమైన వర్క్ఫ్లోలను నిర్వహించగలుగుతారు. ఇది గరిష్టంగా 1M టోకెన్ల కాంటెక్స్ట్కు మద్దతు ఇస్తుంది, దీని ద్వారా ఏజెంట్లు దీర్ఘకాలిక పనులపై ప్లాన్ చేయడం, అమలు చేయడం, మరియు ధృవీకరించడం చేయగలుగుతారు. GPT‑5.4 లో టూల్ సర్చ్ సహాయంతో టూల్స్ మరియు కనెక్టర్ల పెద్ద ఎకోసిస్టమ్లలో మోడళ్లు పనిచేసే విధానాన్ని కూడా మెరుగుపరుస్తుంది. దీని వల్ల ఏజెంట్లు సరైన టూల్స్ను మరింత సమర్థవంతంగా కనుగొని ఉపయోగించగలుగుతారు, అలాగే మేధస్సు తగ్గకుండా ఉంటుంది. చివరగా, GPT‑5.4 మా అత్యంత టోకెన్-సమర్థవంతమైన రిజనింగ్ మోడల్ ఇప్పటివరకు, GPT‑5.2తో పోలిస్తే సమస్యలను పరిష్కరించడానికి గణనీయంగా తక్కువ టోకెన్లను ఉపయోగిస్తుంది—దీని వల్ల టోకెన్ వినియోగం తగ్గి వేగం పెరుగుతుంది.
సాధారణ రిజనింగ్, కోడింగ్, మరియు ప్రొఫెషనల్ నాలెడ్జ్ వర్క్లో పురోగతులతో పాటు, GPT‑5.4 మరింత విశ్వసనీయమైన ఏజెంట్లను, వేగవంతమైన డెవలపర్ వర్క్ఫ్లోలను, మరియు ChatGPT, API, మరియు Codex అంతటా అధిక-నాణ్యత గల అవుట్పుట్లను సాధ్యం చేస్తుంది.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (విజయాలు లేదా సమానాలు) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (పబ్లిక్) | 57.7% | 56.80% | 55.6% |
OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.30% | 65.8% |
*ఇంతకుముందు 64.7%గా నివేదించబడింది. GPT‑5.3‑Codex మూల చిత్ర రిజల్యూషన్ను అలాగే ఉంచే కొత్తగా పరిచయం చేసిన API పరామీటర్తో 74.0% సాధిస్తుంది.
GPT‑5.2 పై ఆధారపడి సాధారణ రిజనింగ్ సామర్థ్యాల పరంగా, GPT‑5.4 ప్రొఫెషనల్స్కు ముఖ్యమైన రియల్-వరల్డ్ పనుల్లో మరింత స్థిరమైన మరియు మెరుగుపరచిన ఫలితాలను అందిస్తుంది.
GDPvalలో, 44 వృత్తుల అంతటా స్పష్టంగా నిర్వచించిన నాలెడ్జ్ వర్క్ను ఉత్పత్తి చేయగల ఏజెంట్ల సామర్థ్యాలను పరీక్షించే ఈ ఈవాల్లో, GPT‑5.4 కొత్త అత్యాధునిక స్థాయిని సాధించింది, పోలికలలో 83.0% లో పరిశ్రమ నిపుణులతో సమానంగా లేదా వారిని మించి నిలిచింది, GPT‑5.2కు 71.0% తో పోలిస్తే.
GDPvalలో, మోడల్లు U.S. GDPకి దోహదపడే అగ్ర 9 పరిశ్రమల నుండి 44 వృత్తులను విస్తరించే బాగా నిర్వచిత జ్ఞాన పనిని ప్రయత్నిస్తాయి. టాస్క్లు నిజమైన పని అవుట్పుట్లను కోరుతాయి, ఉదాహరణకు సేల్స్ ప్రెజెంటేషన్లు, అకౌంటింగ్ స్ప్రెడ్షీట్లు, అర్జెంట్ కేర్ షెడ్యూల్లు, మాన్యుఫ్యాక్చరింగ్ డయాగ్రామ్లు లేదా చిన్న వీడియోలు. GPT‑5.4 కోసం రీజనింగ్ ఎఫర్ట్ను xhighగా, GPT‑5.2 కోసం heavyగా సెట్ చేశారు. (ChatGPTలో కొంచెం తక్కువ స్థాయి).
“GPT-5.4 మేము ఇప్పటివరకు ప్రయత్నించిన అత్యుత్తమ మోడల్. ప్రొఫెషనల్ సర్వీసెస్ పనిలో మోడల్ పనితీరును కొలిచే మా APEX-Agents బెంచ్మార్క్లో ఇది ఇప్పుడు లీడర్బోర్డ్లో అగ్రస్థానంలో ఉంది. స్లైడ్ డెక్లు, ఫైనాన్షియల్ మోడల్లు, మరియు లీగల్ విశ్లేషణ వంటి దీర్ఘకాలిక డెలివరబుల్లను రూపొందించడంలో ఇది అద్భుతంగా పనిచేస్తుంది. పోటీ ఫ్రంటియర్ మోడళ్లతో పోలిస్తే వేగంగా పనిచేస్తూ తక్కువ ఖర్చుతోనే అత్యుత్తమ పనితీరును అందిస్తుంది.”
GPT‑5.4’s ను మెరుగుపరచడంపై మేము ప్రత్యేక దృష్టి పెట్టాము స్ప్రెడ్షీట్లు, ప్రెజెంటేషన్లు, మరియు డాక్యుమెంట్లను క్రియేట్ చేయడం మరియు ఎడిట్ చేయడం చేసే సామర్థ్యం. జూనియర్ ఇన్వెస్ట్మెంట్ బ్యాంకింగ్ అనలిస్ట్ చేయవచ్చని భావించే స్ప్రెడ్షీట్ మోడలింగ్ టాస్క్స్పై మా అంతర్గత బెంచ్మార్క్లో, GPT‑5.4 సగటు స్కోరు 87.5% సాధించింది, GPT‑5.2 కోసం 68.4% తో పోల్చితే. ప్రెజెంటేషన్ మూల్యాంకన ప్రాంప్ట్ల సమూహంలో, బలమైన సౌందర్యం, ఎక్కువ విజువల్ వైవిధ్యం, మరియు ఇమేజ్ జనరేషన్ను మరింత ప్రభావవంతంగా ఉపయోగించడం వల్ల, మానవ రేటర్లు GPT‑5.2 కంటే GPT‑5.4 నుండి వచ్చిన ప్రెజెంటేషన్లను 68.0% సందర్భాల్లో ఇష్టపడ్డారు.

డాక్యుమెంట్లు రిజనింగ్ ఎఫర్ట్ను xhigh గా సెట్ చేసి రూపొందించబడ్డాయి
ChatGPTలో GPT‑5.4ని ఉపయోగించి మీరు ఈ సామర్థ్యాలను ప్రయత్నించవచ్చు. Thinking లేదా Pro. మీరు Enterprise కస్టమర్ అయితే, ఈ రోజు ప్రారంభించిన, తాజాగా విడుదలైన Excel కోసం ChatGPT మరియు Google Sheets plugins(కొత్త విండోలో తెరుచుకుంటుంది)ను ఉపయోగించాలని మేము సిఫార్సు చేస్తున్నాము. Codex మరియు APIలో అందుబాటులో ఉన్న మా స్ప్రెడ్షీట్(కొత్త విండోలో తెరుచుకుంటుంది) మరియు ప్రెజెంటేషన్ స్కిల్స్(కొత్త విండోలో తెరుచుకుంటుంది) ను కూడా మేము అప్డేట్ చేశాము.
GPT‑5.4 ను రూపొందించడానికి నిజ జీవిత పనిలో మరింత మెరుగ్గా ఉండేందుకు, హాల్యూసినేషన్లు మరియు తప్పులను తగ్గించడంలో మేము మా పురోగతిని కొనసాగించాము. GPT‑5.4 ఇప్పటివరకు మా అత్యంత వాస్తవాధారిత మోడల్: వినియోగదారులు వాస్తవపరమైన పొరపాట్లను ఫ్లాగ్ చేసిన, గుర్తింపు తొలగించిన ప్రాంప్ట్ల సమూహంలో, GPT‑5.4’s వ్యక్తిగత క్లెయిమ్స్ 33% తప్పుడు కావడానికి తక్కువ అవకాశం ఉంది మరియు GPT‑5.2తో పోల్చితే, దాని పూర్తి రెస్పాన్స్లు ఏవైనా ఎరర్స్ కలిగి ఉండే అవకాశం 18% తక్కువగా ఉంటుంది.
“GPT-5.4 పత్రాలపై ఎక్కువగా ఆధారపడే న్యాయ పనికి కొత్త ప్రమాణాన్ని నెలకొల్పుతుంది. మా BigLaw Bench eval లో, ఇది 91% స్కోర్ చేసింది. ఇతర మోడల్స్తో పోలిస్తే, GPT-5.4 ప్రస్తుతం క్లిష్టమైన ట్రాన్సాక్షనల్ విశ్లేషణను నిర్మాణబద్ధంగా రూపొందించడంలో, పొడవైన కాంట్రాక్ట్స్ అంతటా ఖచ్చితత్వాన్ని నిలుపుకోవడంలో, మరియు లీగల్ ప్రాక్టిషనర్లు అవసరపడే ఉన్నత స్థాయి వివరాలను అందించడంలో మెరుగ్గా ఉంది.”
GPT‑5.4 అనేది నేటివ్ కంప్యూటర్ను ఉపయోగించే సామర్థ్యాలు కలిగిన మా మొదటి సాధారణ ప్రయోజనాల మోడల్, మరియు ఇది డెవలపర్లు మరియు ఏజెంట్ల కోసం ఒక ముఖ్యమైన ముందడుగు. వెబ్సైట్లు మరియు సాఫ్ట్వేర్ సిస్టమ్లలో నిజమైన పనులను పూర్తి చేసే ఏజెంట్లను రూపొందిస్తున్న డెవలపర్ల కోసం ప్రస్తుతం అందుబాటులో ఉన్న ఉత్తమ మోడల్ ఇదే.
GPT‑5.4 ను వివిధ రకాల కంప్యూటర్ వినియోగ వర్క్లోడ్లలో అధిక పనితీరుతో పనిచేసేలా మేము రూపొందించాము. Playwright వంటి లైబ్రరీలను ఉపయోగించి కంప్యూటర్లను ఆపరేట్ చేయడానికి కోడ్ రాయడంలో ఇది ఎంతో నైపుణ్యం చూపిస్తుంది; అలాగే స్క్రీన్షాట్లకు ప్రతిస్పందనగా మౌస్ మరియు కీబోర్డ్ కమాండ్లను కూడా ఇస్తుంది. డెవలపర్ మెసేజ్ల ద్వారా దీని ప్రవర్తనను నియంత్రించవచ్చు, అంటే డెవలపర్లు నిర్దిష్ట వినియోగ సందర్భాలకు అనుగుణంగా ప్రవర్తనను సర్దుబాటు చేయగలరు. డెవలపర్లు కస్టమ్ కన్ఫర్మేషన్ పాలసీలను నిర్దేశించడం ద్వారా, వివిధ స్థాయిల రిస్క్ టాలరెన్స్కు సరిపోయేలా మోడల్ యొక్క సేఫ్టీ ప్రవర్తనను కూడా కాన్ఫిగర్ చేయవచ్చు.
మోడల్ యొక్క పనితీరు మరియు సౌలభ్యం వివిధ సెట్టింగ్స్లో కంప్యూటర్ వినియోగాన్ని పరీక్షించే బెంచ్మార్క్లలో ప్రతిబింబిస్తాయి. OSWorld-Verifiedపై, ఇది స్క్రీన్షాట్లు మరియు కీబోర్డ్/మౌస్ చర్యల ద్వారా డెస్క్టాప్ వాతావరణంలో నావిగేట్ చేయగల మోడల్ సామర్థ్యాన్ని కొలుస్తుంది, GPT‑5.4 ఒక స్టేట్-ఆఫ్-ది-ఆర్ట్ 75.0% సాధిస్తుంది GPT‑5.2 కంటే ఎంతో ఎక్కువ సక్సెస్ రేట్ 47.3%, మరియు మానవ పనితీరు అయిన 72.4%.1ను కూడా అధిగమిస్తుంది.
WebArena-Verifiedలో, ఇది బ్రౌజర్ వినియోగాన్ని పరీక్షిస్తుంది, DOM- మరియు స్క్రీన్షాట్-ఆధారిత పరస్పర చర్య రెండింటినీ ఉపయోగించినప్పుడు GPT‑5.4 అగ్రస్థానంలో ఉన్న 67.3% విజయ రేటును సాధిస్తుంది, GPT‑5.2 యొక్క 65.4%తో పోలిస్తే. బ్రౌజర్ వినియోగాన్ని కూడా పరీక్షించే Online-Mind2Web లో, స్క్రీన్షాట్-ఆధారిత పరిశీలనలను మాత్రమే ఉపయోగించి GPT‑5.4 92.8% సక్సెస్ రేట్ను సాధిస్తుంది, 70.9% సక్సెస్ రేట్ను సాధించే ChatGPT Atlas యొక్క Agent Mode కంటే మెరుగ్గా ఉంది.
టూల్ స్పందనల కోసం అసిస్టెంట్ వేచి ఉండేందుకు నియంత్రణను టూల్కు అప్పగించే సందర్భాన్ని టూల్ యీల్డ్ అంటారు. మూడు టూల్స్ను ఒకేసారి ప్యారలల్గా కాల్ చేసి, తర్వాత మరో మూడు టూల్స్ను కూడా ప్యారలల్గా కాల్ చేస్తే యీల్డ్ల సంఖ్య రెండు అవుతుంది. ప్యారలలైజేషన్ ప్రయోజనాలను ప్రతిబింబించే కారణంగా, టూల్ కాల్స్ కంటే టూల్ యీల్డ్లు లేటెన్సీకి మెరుగైన సూచికగా ఉంటాయి.
GPT‑5.4 బ్రౌజర్ ఇంటర్ఫేస్ స్క్రీన్షాట్లను అర్థం చేసుకుని, ఇమెయిల్లు పంపడానికి మరియు క్యాలెండర్ ఈవెంట్ను షెడ్యూల్ చేయడానికి కోఆర్డినేట్-ఆధారిత క్లికింగ్ ద్వారా UI అంశాలతో పరస్పర చర్య చేస్తుంది.
GPT‑5.4 లో మెరుగైన కంప్యూటర్ వినియోగ సామర్థ్యం, మోడల్లో మెరుగుపరచబడిన సాధారణ విజువల్ పర్సెప్షన్ సామర్థ్యాలపై ఆధారపడి ఉంటుంది. మోడల్ యొక్క విజువల్ అర్థం చేసుకోవడం మరియు రీజనింగ్ను పరీక్షించే MMMU-Pro లో, టూల్స్ను ఉపయోగించకుండా GPT‑5.4 81.2% సక్సెస్ రేట్ను సాధించింది, ఇది GPT‑5.2 కంటే మెరుగైనది 79.5%. మెరుగైన విజువల్ పర్సెప్షన్ వల్ల డాక్యుమెంట్ పార్సింగ్ సామర్థ్యాలు కూడా మెరుగవుతాయి. OmniDocBench పై, రిజనింగ్ ఎఫర్ట్ లేకుండా GPT‑5.4 సగటు లోపం (మోడల్ అంచనా మరియు గ్రౌండ్ ట్రూత్ మధ్య నార్మలైజ్డ్ ఎడిట్ డిస్టెన్స్ ద్వారా కొలిచినది) 0.109 సాధించింది, ఇది GPT‑5.2 యొక్క 0.140 కంటే మెరుగైనది.
MMMUPro ను రిజనింగ్ ఎఫర్ట్ను xhigh గా సెట్ చేసి రన్ చేశారు. తక్కువ ఖర్చు, తక్కువ లేటెన్సీ పనితీరును ప్రతిబింబించడానికి, OmniDocBench ను రిజనింగ్ ఎఫర్ట్ను none గా సెట్ చేసి నడిపారు.
పూర్తి ఫిడెలిటీ ముఖ్యమైన ఘనమైన, హై-రిజల్యూషన్ ఇమేజ్ల కోసం విజువల్ అర్థం చేసుకునే సామర్థ్యాన్ని కూడా మేము మెరుగుపరుస్తున్నాము. GPT‑5.4తో ప్రారంభించి, మేము ఒరిజినల్ ఇమేజ్ ఇన్పుట్ వివరాలు(కొత్త విండోలో తెరుచుకుంటుంది) స్థాయిని పరిచయం చేస్తున్నాము, ఇది 10.24M మొత్తం పిక్సెల్స్ లేదా 6000-pixel గరిష్ట డైమెన్షన్ (ఏది తక్కువైతే అది) వరకు పూర్తి-ఫిడెలిటీ పర్సెప్షన్కు మద్దతు ఇస్తుంది; హై ఇమేజ్ ఇన్పుట్ వివరాల స్థాయి ఇప్పుడు 2.56M మొత్తం పిక్సెల్స్ లేదా 2048-pixel గరిష్ట డైమెన్షన్ (ఏది తక్కువైతే అది) వరకు మద్దతు ఇస్తుంది. API వినియోగదారులతో ప్రారంభ టెస్టింగ్లో, ఒరిజినల్ లేదా హై డీటెయిల్ను ఉపయోగించినప్పుడు లోకలైజేషన్ సామర్థ్యం, ఇమేజ్ అర్థం చేసుకోవడం, మరియు క్లిక్ ఖచ్చితత్వంలో బలమైన మెరుగుదలలను మేం గమనించాం.
“సుమారు ~30K HOA మరియు ప్రాపర్టీ టాక్స్ పోర్టల్లలో కంప్యూటర్ వినియోగ పనితీరును కొలిచిన మా evals లో, GPT-5.4 మొదటి ప్రయత్నంలోనే 95% విజయ రేటును సాధించింది మరియు మూడు ప్రయత్నాల లోపల 100% వరకు చేరుకుంది, ఇది పూర్వ CUA మోడళ్లలో ఉన్న ~73–79%తో పోలిస్తే చాలా మెరుగైనది. ఇది సెషన్లను సుమారు ~3x వేగంగా పూర్తి చేయడంతో పాటు సుమారు ~70% తక్కువ టోకెన్లను ఉపయోగించింది, దీనివల్ల పెద్ద స్థాయిలో నమ్మకత్వం మరియు ఖర్చు సమర్థత గణనీయంగా మెరుగయ్యాయి.”
API లో, డెవలపర్లు ఈ సామర్థ్యాలను అప్డేట్ చేసిన కంప్యూటర్ టూల్ను ఉపయోగించి యాక్సెస్ చేయవచ్చు సిఫార్సు చేసిన ఉత్తమ పద్ధతుల కోసం దయచేసి మా అప్డేట్ చేసిన డాక్యుమెంటేషన్(కొత్త విండోలో తెరుచుకుంటుంది) ను చూడండి.
GPT‑5.4, GPT‑5.3‑Codex యొక్క కోడింగ్ బలాలను ప్రముఖ నాలెడ్జ్ వర్క్ మరియు కంప్యూటర్-యూజ్ సామర్థ్యాలతో కలిపి అందిస్తుంది; ఇవి ముఖ్యంగా దీర్ఘకాలంగా నడిచే టాస్క్లలో అత్యంత ప్రాధాన్యం కలిగి ఉంటాయి, అక్కడ మోడల్ టూల్స్ను ఉపయోగించి, పునరావృతం చేస్తూ, తక్కువ మాన్యువల్ జోక్యంతో పనిని మరింత ముందుకు నెట్టగలదు. ఇది SWE-Bench Proలో GPT‑5.3‑Codexతో సరిపోలుతుంది లేదా దానికంటే మెరుగ్గా పనిచేస్తుంది, అలాగే రిజనింగ్ ప్రయత్నాలన్నింటిలోనూ తక్కువ లేటెన్సీని కలిగి ఉంటుంది.
మా మోడళ్ల ప్రొడక్షన్ ప్రవర్తనను పరిశీలించి, దాన్ని ఆఫ్లైన్లో సిమ్యులేట్ చేసి లేటెన్సీని అంచనా వేస్తాము. ఈ లేటెన్సీ అంచనాలో టూల్ కాల్ వ్యవధి (కోడ్ ఎగ్జిక్యూషన్ సమయం), సాంపిల్ చేసిన టోకెన్లు మరియు ఇన్పుట్ టోకెన్లు పరిగణనలోకి తీసుకోబడతాయి. వాస్తవ ప్రపంచంలో లేటెన్సీ గణనీయంగా మారవచ్చు, ఎందుకంటే మా సిమ్యులేషన్లో పరిగణనలోకి రాని అనేక అంశాలపై అది ఆధారపడి ఉంటుంది. రీజనింగ్ ఎఫర్ట్ స్థాయిలను none నుంచి xhigh వరకు పరీక్షించాము.
టాగిల్ ఆన్ చేసినప్పుడు, Codexలోని /fast mode withGPT‑5.4తో గరిష్టంగా 1.5x వేగంగా టోకెన్ వేగాన్ని అందిస్తుంది. ఇది అదే మోడల్ మరియు అదే ఇంటెలిజెన్స్, కానీ మరింత వేగంగా ఉంటుంది. అంటే యూజర్లు ఫ్లోలోనే ఉండి కోడింగ్ టాస్క్లు, ఇటరేషన్, మరియు డీబగ్గింగ్ను ముందుకు సాగించగలరు. డెవలపర్లు ప్రాధాన్యత ప్రాసెసింగ్(కొత్త విండోలో తెరుచుకుంటుంది) ఉపయోగించి API ద్వారా అదే వేగవంతమైన వేగాలతో GPT‑5.4 ను యాక్సెస్ చేయవచ్చు.
ఇవాల్యుయేషన్ మరియు ఇంటర్నల్ టెస్టింగ్లో, GPT‑5.4 క్లిష్టమైన ఫ్రంట్ఎండ్ టాస్క్స్లో అద్భుతంగా పనిచేస్తుందని మేం గుర్తించాం; మేం ఇంతకుముందు లాంచ్ చేసిన ఏ మోడల్స్కన్నా గమనించదగ్గంతగా మరింత ఎస్తెటిక్గా, మరింత ఫంక్షనల్గా ఉన్న ఫలితాలు ఇస్తుంది.
మోడల్ యొక్క మెరుగైన కంప్యూటర్-యూజ్ మరియు కోడింగ్ సామర్థ్యాలు కలిసి పనిచేస్తున్నాయని చూపించే డెమోగా, “Playwright (Interactive)(కొత్త విండోలో తెరుచుకుంటుంది)” అనే ప్రయోగాత్మక Codex స్కిల్ను కూడా మేము విడుదల చేస్తున్నాం. ఇది Codex కు వెబ్ మరియు Electron యాప్లను దృశ్యపరంగా డీబగ్ చేయడానికి అనుమతిస్తుంది; ఇది నిర్మిస్తున్నప్పుడే, అది నిర్మిస్తున్న యాప్ను పరీక్షించడానికి కూడా ఉపయోగించవచ్చు.
GPT‑5.4తో తయారు చేసిన థీమ్ పార్క్ సిమ్యులేషన్ గేమ్; ఒకే ఒక్క స్వల్పంగా నిర్దిష్టమైన ప్రాంప్ట్ నుండి, బ్రౌజర్ ప్లేటెస్టింగ్ కోసం Playwright Interactive ను, మరియు ఐసోమెట్రిక్ ఆసెట్ సెట్ కోసం ఇమేజ్ జనరేషన్ను ఉపయోగించి. ఈ సిమ్యులేషన్లో టైల్స్-ఆధారిత పాత్ ప్లేస్మెంట్, రైడ్ మరియు సీనరీ నిర్మాణం, అతిథుల పాత్ఫైండింగ్, క్యూలో నిలబడటం, మరియు రైడ్ సైకిల్స్ ఉంటాయి; అలాగే డబ్బు, అతిథుల సంఖ్య, సంతోషం, శుభ్రత, మరియు రేటింగ్ వంటి పార్క్ మెట్రిక్స్ లేఅవుట్ ఎలా పనిచేస్తుందో మరియు అతిథులు దానికి ఎలా స్పందిస్తారో ఆధారంగా పెరుగుతాయి లేదా తగ్గుతాయి. Playwright ను బ్రౌజర్ ప్లేటెస్ట్లను ఆటోమేట్ చేయడానికి ఉపయోగించారు; పార్క్ను నిర్మించి విస్తరించడం, మార్గాలు మరియు ఆకర్షణలను ఉంచడం మరియు తొలగించడం, కెమెరా నావిగేషన్ను తనిఖీ చేయడం, అలాగే ప్లే యొక్క అనేక రౌండ్లలో అతిథులు, క్యూలు, రైడ్ స్థితులు, మరియు UI మెట్రిక్స్ సరిగ్గా అప్డేట్ అయ్యాయో లేదో ధృవీకరించడం వంటి పనుల కోసం.
ప్రాంప్ట్: $playwright-interactive మరియు $imagegen ను ఉపయోగించండి. నేను బ్రౌజర్లో నిర్మించి నావిగేట్ చేయగలిగే ఇంటరాక్టివ్ ఐసోమెట్రిక్ థీమ్ పార్క్ సిమ్యులేషన్ గేమ్ను రూపొందించండి. మొత్తం విజువల్ విజన్ను స్థిరపరచడానికి మరియు రైడ్స్, పాత్లు, టెర్రైన్, చెట్లు, నీరు, ఫుడ్ స్టాల్స్, డెకరేషన్లు, బిల్డింగ్లు, ఐకాన్లు, మరియు UI ఇలస్ట్రేషన్లు వంటి గేమ్ అసెట్లను రూపొందించడానికి imagegen ను ఉపయోగించండి. ప్రపంచం ఐసోమెట్రిక్ పర్స్పెక్టివ్లో బాగా పనిచేసే ప్రీమియమ్ ఆర్ట్ డైరెక్షన్తో, కోహీసివ్గా, పాలిష్గా, మరియు విజువల్లీ రిచ్గా అనిపించాలి. గెస్ట్ యాక్టివిటీ, రైడ్ స్టేటస్, మరియు పార్క్ గ్రోత్ను మానిటర్ చేస్తూ, నేను పాత్లను ప్లేస్ చేయడం మరియు తొలగించడం, అట్రాక్షన్లను జోడించడం, సీనరీని పొజిషన్ చేయడం, అలాగే పార్క్లో స్మూత్గా తిరగడం చేయగలిగేలా చేయండి. నమ్మకంగా అనిపించే గెస్ట్ మూవ్మెంట్, డబ్బు, శుభ్రత, క్యూయింగ్, మరియు హ్యాపినెస్ వంటి సరళమైన పార్క్ మేనేజ్మెంట్ సిస్టమ్లను చేర్చండి, అలాగే అనుభవం రఫ్ ప్రోటోటైప్లా కాకుండా ప్లేఫుల్గా, క్లియర్గా, మరియు కంప్లీట్గా అనిపించేలా చేయండి. రియలిజం కంటే చార్మ్, రీడబిలిటీ, మరియు స్ట్రాంగ్ గేమ్ ఫీల్కు ప్రాధాన్యత ఇవ్వండి.
ప్లే టెస్టింగ్ చేస్తున్నప్పుడు, కొన్ని రౌండ్ల ప్లే ద్వారా ఒక పార్క్ను నిర్మించి విస్తరించండి, ప్లేస్మెంట్ మరియు నావిగేషన్ సాఫీగా పనిచేస్తున్నాయో వెరిఫై చేయండి, అతిథులు పార్క్ లేఅవుట్ మరియు ఆకర్షణలకు ఎలా స్పందిస్తున్నారో నిర్ధారించండి, అలాగే విజువల్స్, UI, మరియు ఇంటరాక్షన్లు స్థిరంగా మరియు సమగ్రంగా అనిపించేలా చూసుకోండి.
“మా ఇంజినీర్లు GPT-5.4 ను గుర్తించారు మునుపటి మోడళ్ల కంటే మరింత సహజంగా మరియు దృఢంగా . ఇది అస్పష్టమైన సమస్యలను తన నిర్ణయాన్ని తానే మళ్లీ సందేహించకుండా పరిష్కరిస్తూ ముందుకు సాగుతుంది, అలాగే పనులు ఆగకుండా సాగేందుకు పనిని ప్యారలల్గా చేయడంలో ముందస్తుగా చర్యలు తీసుకుంటుంది.”
GPT‑5.4 తో, మోడల్ ఎక్స్టర్నల్ టూల్స్తో ఎలా పని చేస్తాయో మేము గణనీయంగా మెరుగుపరిచాము. ఏజెంట్లు ఇప్పుడు పెద్ద టూల్ ఎకోసిస్టమ్ల అంతటా పనిచేయగలరు, సరైన టూల్స్ను మరింత నమ్మకంగా ఎంచుకోగలరు, మరియు తక్కువ ఖర్చు మరియు లేటెన్సీతో బహుళ-దశల వర్క్ఫ్లోలను పూర్తి చేయగలరు.
APIలో, GPT‑5.4 టూల్ సెర్చ్(కొత్త విండోలో తెరుచుకుంటుంది)ను పరిచయం చేస్తోంది, ఇది అనేక టూల్స్ ఇచ్చినప్పుడు మోడల్స్ సమర్థవంతంగా పని చేయడానికి అనుమతిస్తుంది.
గతంలో, ఒక మోడల్కు టూల్స్ ఇచ్చినప్పుడు, అన్ని టూల్ నిర్వచనాలు ముందుగానే ప్రాంప్ట్లో చేర్చబడేవి. అనేక టూల్స్ ఉన్న సిస్టమ్ల కోసం, ఇది ప్రతి రిక్వెస్ట్కు వేల—లేదా పదివేల—టోకెన్లను కూడా జోడించవచ్చు, ఖర్చును పెంచి, ప్రతిస్పందనలను నెమ్మదింపజేసి, మోడల్ ఎప్పటికీ ఉపయోగించకపోవచ్చు అనే సమాచారంతో కాంటెక్స్ట్ను నింపేస్తుంది.
టూల్ సెర్చ్తో, GPT‑5.4 బదులుగా అందుబాటులో ఉన్న టూల్స్ యొక్క తేలికపాటి జాబితాను, అలాగే టూల్ సెర్చ్ సామర్థ్యాన్ని పొందుతుంది. మోడల్కు ఒక టూల్ను ఉపయోగించాల్సిన అవసరం వచ్చినప్పుడు, అది ఆ టూల్ నిర్వచనాన్ని చూసి, ఆ క్షణంలోనే దాన్ని సంభాషణకు జోడించగలదు.
ఈ విధానం టూల్-హెవీ వర్క్ఫ్లోల కోసం అవసరమైన టోకెన్ల సంఖ్యను గణనీయంగా తగ్గిస్తుంది మరియు క్యాష్ను నిలుపుతుంది, దీని వల్ల రిక్వెస్టులు వేగంగా మరియు తక్కువ ఖర్చుతో పూర్తవుతాయి. ఇది ఏజెంట్లు పెద్ద టూల్ ఎకోసిస్టమ్లతో విశ్వసనీయంగా పని చేయడానికి వీలు కల్పిస్తుంది. టూల్ నిర్వచనాల కోసం పదివేలల టోకెన్లు కలిగి ఉండగల MCP సర్వర్లకు, సామర్థ్య పెరుగుదల గణనీయంగా ఉంటుంది.
సమర్థత పెరుగుదలలను చూపించడానికి, రెండు మోడ్లలో అన్ని 36 MCP సర్వర్లను ఎనేబుల్ చేసి Scale’s MCP Atlas(కొత్త విండోలో తెరుచుకుంటుంది) బెంచ్మార్క్ నుండి 250 టాస్క్లను మేము మూల్యాంకనం చేశాము: (1) ప్రతి MCP ఫంక్షన్ను నేరుగా మోడల్ కాంటెక్స్ట్లో ఎక్స్పోజ్ చేయడం, మరియు (2) అన్ని MCP సర్వర్లను టూల్ సెర్చ్ వెనుక ఉంచడం. టూల్-సెర్చ్ కాన్ఫిగరేషన్ అదే యాక్యురసీని సాధిస్తూ మొత్తం టోకెన్ల వినియోగాన్ని 47% తగ్గించింది.
ఉదాహరణ టోకెన్ లెక్కలు MCP-Atlas పబ్లిక్ డేటాసెట్లోని 250 టాస్క్ల సగటు ఆధారంగా వస్తాయి.
GPT‑5.4 కూడా టూల్ కాలింగ్ను మెరుగుపరుస్తుంది, ముఖ్యంగా APIలో, రిజనింగ్ సమయంలో టూల్స్ను ఎప్పుడు, ఎలా ఉపయోగించాలో నిర్ణయించేటప్పుడు దాన్ని మరింత ఖచ్చితంగా మరియు సమర్థవంతంగా చేస్తుంది. GPT‑5.2తో పోలిస్తే, Toolathlonలో తక్కువ టర్న్లలోనే ఇది అధిక ఖచ్చితత్వాన్ని సాధిస్తుంది; Toolathlon అనేది AI ఏజెంట్లు నిజ-ప్రపంచ టూల్స్ మరియు APIsను ఉపయోగించి బహుళ-దశల పనులను పూర్తి చేయడంలో ఎంత బాగా పనిచేస్తారో పరీక్షించే ఒక బెంచ్మార్క్. ఉదాహరణకు, ఒక ఏజెంట్ ఇమెయిల్లను చదవాలి, అసైన్మెంట్ అటాచ్మెంట్లను తీసుకోవాలి, వాటిని అప్లోడ్ చేయాలి, వాటికి గ్రేడ్ ఇవ్వాలి మరియు ఫలితాలను ఒక స్ప్రెడ్షీట్లో నమోదు చేయాలి.
టూల్ స్పందనల కోసం అసిస్టెంట్ వేచి ఉండేందుకు నియంత్రణను టూల్కు అప్పగించే సందర్భాన్ని టూల్ యీల్డ్ అంటారు. మూడు టూల్స్ను ఒకేసారి ప్యారలల్గా కాల్ చేసి, తర్వాత మరో మూడు టూల్స్ను కూడా ప్యారలల్గా కాల్ చేస్తే యీల్డ్ల సంఖ్య రెండు అవుతుంది. ప్యారలలైజేషన్ ప్రయోజనాలను ప్రతిబింబించే కారణంగా, టూల్ కాల్స్ కంటే టూల్ యీల్డ్లు లేటెన్సీకి మెరుగైన సూచికగా ఉంటాయి.
లేటెన్సీ-సెన్సిటివ్ యూజ్ కేసుల కోసం రిజనింగ్ ఎఫర్ట్ Noneకి ప్రాధాన్యం ఇచ్చే సందర్భాల్లో, GPT‑5.4 తన పూర్వ మోడళ్ల కంటే మరింత మెరుగుపడింది.
లో τ2-bench(కొత్త విండోలో తెరుచుకుంటుంది), కస్టమర్ సర్వీస్ టాస్క్ను పూర్తి చేయడానికి ఒక మోడల్ టూల్స్ను ఉపయోగించాలి, అక్కడ వరల్డ్ స్టేట్పై కమ్యూనికేట్ చేయగలిగే మరియు చర్యలు తీసుకోగల అనుకరణ యూజర్ ఉండవచ్చు. రిజనింగ్ ఎఫర్ట్ Noneగా సెట్ చేయబడింది.
GPT‑5.4 ఏజెంటిక్ వెబ్ సెర్చ్లో మెరుగ్గా ఉంది. BrowseCompలో, AI ఏజెంట్లు కష్టంగా దొరికే సమాచారాన్ని కనుగొనడానికి వెబ్ను నిరంతరంగా బ్రౌజ్ చేయగల సామర్థ్యాన్ని ఎంత బాగా కొలుస్తుందో అనే కొలమానంలో, GPT‑5.4, GPT‑5.2 కంటే 17%abs ముందుకు దూకుతుంది, మరియు GPT‑5.4 Pro 89.3%తో కొత్త అత్యాధునిక స్థాయిని నెలకొల్పింది.
ఆచరణలో, దీని అర్థం GPT‑5.4 వెబ్ అంతటా అనేక మూలాల నుండి సమాచారాన్ని కలిపి అవసరమయ్యే ప్రశ్నలకు సమాధానాలు ఇవ్వడంలో Thinking మరింత బలంగా ఉంటుంది. ఇది బహుళ రౌండ్లలో మరింత స్థిరంగా సెర్చ్ చేసి అత్యంత సంబంధిత సోర్స్లను గుర్తించగలదు, ముఖ్యంగా “పెద్ద గడ్డి గుట్టలో సూది వెతికినట్టుగా” ప్రశ్నల కోసం, మరియు వాటిని ఒక స్పష్టమైన, బాగా తర్కబద్ధమైన సమాధానంగా సమన్వయపరచగలదు.
BrowseCompలో, కలుషితం కాకుండా నిరోధించడానికి మరియు పనితీరును న్యాయంగా కొలవడానికి, మూల్యాంకనం నుంచి బెంచ్మార్క్ సమాధానాలు ఉన్న వెబ్సైట్లను మినహాయించే సెర్చ్ బ్లాక్లిస్ట్ను మేము ఉపయోగించాము. GPT‑5.4 ను GPT‑5.2 కంటే తరువాతి తేదీన కొలిచారు, కాబట్టి స్కోర్లు మోడల్, మా శోధన వ్యవస్థ, మరియు ఇంటర్నెట్ స్థితిలోని మార్పులను ప్రతిబింబిస్తాయి. GPT‑5.4ను మరింత పొడవైన, అప్డేట్ చేసిన బ్లాక్లిస్ట్తో పరీక్షించారు. మోడల్లు ChatGPT సెర్చ్ టూల్ను ఉపయోగిస్తాయి, ఇది API సెర్చ్తో పోలిస్తే చిన్న తేడాలు ఉండవచ్చు.
“GPT-5.4 xhigh బహుళ దశల టూల్ వినియోగానికి కొత్త state-of-the-art. Zapier పరిశ్రమలో అత్యంత కఠినమైన టూల్ వినియోగ బెంచ్మార్క్లలో కొన్ని నిర్వహిస్తుంది, వందలాది ఆధునిక నిజ జీవిత వర్క్ఫ్లోల్లో మోడళ్లను పరీక్షిస్తుంది. మునుపటి మోడళ్లు వదిలేసిన చోట GPT-5.4 పనిని పూర్తి చేసింది — ఇప్పటివరకు అత్యంత పట్టుదలగల మోడల్.”
Codex పని ప్రారంభించినప్పుడు తన విధానాన్ని ఎలా వివరంగా చూపిస్తుందో అదే విధంగా, GPT‑5.4 కూడా ChatGPTలో Thinking ఇప్పుడు పొడవైన, క్లిష్టమైన ప్రశ్నల కోసం ముందుమాటతో తన పని అవుట్లైన్ చేస్తుంది. మీరు ప్రతిస్పందన మధ్యలో కూడా సూచనలను జోడించవచ్చు లేదా దిశను సర్దుబాటు చేయవచ్చు. ఇది మళ్లీ మొదలుపెట్టకుండా లేదా అనేక అదనపు టర్న్లు అవసరం లేకుండా, మీరు కోరుకున్న ఖచ్చితమైన ఫలితానికి మోడల్ను మార్గనిర్దేశం చేయడం సులభం చేస్తుంది. ఈ ఫీచర్ ఇప్పుడు chatgpt.com(కొత్త విండోలో తెరుచుకుంటుంది) మరియు Android యాప్లో అందుబాటులో ఉంది, iOS యాప్కు త్వరలో రానుంది.
మోడల్ కఠినమైన టాస్క్లపై కూడా ఎక్కువసేపు ఆలోచించగలదు, అదే సమయంలో సంభాషణలోని ముందరి దశలపై మరింత బలమైన అవగాహనను కొనసాగిస్తుంది. ఇది పొడవైన వర్క్ఫ్లోలను మరియు మరింత క్లిష్టమైన ప్రాంప్ట్లను హ్యాండిల్ చేయడానికి అనుమతిస్తుంది, అలాగే మొత్తం సమయంలో సమాధానాలు పొందికగా మరియు సంబంధితంగా ఉండేలా చేస్తుంది.
ఈ వీడియోను దృష్టాంత ప్రయోజనాల కోసం వేగవంతం చేయబడింది.
గత కొన్ని నెలలుగా, GPT‑5.3‑Codexతో మేము ప్రవేశపెట్టిన రక్షణ చర్యలను మెరుగుపరుస్తూనే, GPT‑5.4ను డిప్లాయ్మెంట్ కోసం సిద్ధం చేస్తున్నాము. GPT‑5.3‑Codex మాదిరిగానే, మా ప్రిపేర్డ్నెస్ ఫ్రేమ్వర్క్ కింద GPT‑5.4ను మేము ఉన్నత సైబర్ సామర్థ్యంగా పరిగణిస్తున్నాము, మరియు సిస్టమ్ కార్డ్లో డాక్యుమెంట్ చేసినట్లుగా సంబంధిత రక్షణలతో దాన్ని మేము డిప్లాయ్ చేస్తున్నాము. వీటిలో విస్తరించిన సైబర్ సేఫ్టీ స్టాక్, మానిటరింగ్ సిస్టమ్స్, ట్రస్టెడ్ యాక్సెస్ కంట్రోల్స్, అలాగే జీరో డేటా రిటెన్షన్ (ZDR) సర్ఫేస్లపై ఉన్న కస్టమర్ల కోసం అధిక-ప్రమాదం ఉన్న రిక్వెస్ట్లకు అసింక్రోనస్ బ్లాకింగ్, అలాగే విస్తృత సెక్యూరిటీ ఎకోసిస్టమ్లో కొనసాగుతున్న పెట్టుబడులు కూడా ఉన్నాయి.
సైబర్సెక్యూరిటీ సామర్థ్యాలు స్వభావతా డ్యూయల్-యూజ్ కావడం వల్ల, మా విధానాలు మరియు క్లాసిఫైయర్లను మేము సరిచేస్తూనే డిప్లాయ్మెంట్ విషయంలో జాగ్రత్త చర్యలతో కూడిన అప్రోచ్ను కొనసాగిస్తున్నాము. ZDR సర్ఫేస్లపై కొందరు కస్టమర్ల కోసం, రిక్వెస్ట్ స్థాయి బ్లాకింగ్ మా సైబర్ రిస్క్ మిటిగేషన్ స్టాక్లో భాగంగా ఉంటుంది. క్లాసిఫైయర్లు ఇంకా మెరుగుపడుతున్నందున, ఈ రక్షణ చర్యలను మేము మెరుగుపరుస్తున్నప్పుడు కొన్ని తప్పు పాజిటివ్లు సంభవించవచ్చు. ఈ అప్డేట్స్ ప్రాక్టికల్గా సేఫ్గార్డ్స్ ఎలా పనిచేస్తాయో మెరుగుపరచడమే లక్ష్యంగా ఉన్నాయి; ఇందులో అనవసరమైన నిరాకరణలు మరియు అతిగా హెచ్చరికలతో కూడిన సమాధానాలను తగ్గించడం కూడా ఉంది, అదే సమయంలో దుర్వినియోగం నుంచి బలమైన రక్షణలను కొనసాగిస్తాయి.
మోడళ్లు ఎలా రీజన్ చేస్తాయో మెరుగ్గా అర్థం చేసుకోవడానికి మరియు సంభావ్య దుర్వినియోగాన్ని గుర్తించడంలో సహాయపడేందుకు, చెయిన్-ఆఫ్-థాట్ (CoT) మానిటరబిలిటీపై మా భద్రతా పరిశోధనను మేము కొనసాగించాము. ఈ పనిలో భాగంగా, మేము ఒక కొత్త ఓపెన్-సోర్స్ మూల్యాంకనాన్ని పరిచయం చేస్తున్నాం, CoT నియంత్రణ సామర్థ్యం, ఇది మోడల్స్ పర్యవేక్షణను తప్పించుకోవడానికి తమ రిజనింగ్ను ఉద్దేశపూర్వకంగా అస్పష్టంగా చేయగలవా లేదా అని కొలుస్తుంది. GPT‑5.4 అని మేము గుర్తించాము Thinking తన CoTను నియంత్రించే సామర్థ్యం తక్కువగా ఉంది, ఇది భద్రత కోసం ఒక సానుకూల లక్షణం; దీని ద్వారా మోడల్కు తన రిజనింగ్ను దాచే సామర్థ్యం లేదని, అలాగే CoT మానిటరింగ్ ప్రభావవంతమైన భద్రతా సాధనంగా కొనసాగుతుందని సూచిస్తుంది.
GPT‑5.4 ఈ రోజు ChatGPT మరియు Codex అంతటా దశలవారీగా రోల్అవుట్ అవుతోంది. APIలో, GPT‑5.4 ఇప్పుడు gpt-5.4గా అందుబాటులో ఉంది. GPT‑5.4 Pro APIలో కూడా gpt-5.4-pro గా అందుబాటులో ఉంది అత్యంత క్లిష్టమైన టాస్క్లపై గరిష్ట పనితీరు అవసరమైన డెవలపర్ల కోసం.
ChatGPTలో, GPT‑5.4 Thinking ఈ రోజు నుండి ChatGPT Plus, Team, మరియు Pro యూజర్లకు అందుబాటులో ఉంది, GPT‑5.2ను ప్రతిస్థాపిస్తోంది. Thinking. GPT‑5.2 Thinking చెల్లింపు యూజర్లకు మోడల్ పికర్ లోని Legacy Models సెక్షన్ కింద మూడు నెలల పాటు అందుబాటులో ఉంటుంది, అనంతరం ఇది June 5, 2026న రిటైర్ చేయబడుతుంది. Enterprise మరియు Edu ప్లాన్స్లో ఉన్నవారు అడ్మిన్ సెట్టింగ్స్ ద్వారా ముందస్తు యాక్సెస్ను ఎనేబుల్ చేయవచ్చు. GPT‑5.4 Pro, Pro మరియు Enterprise ప్లాన్లలో అందుబాటులో ఉంది. సందర్భ విండోలు(కొత్త విండోలో తెరుచుకుంటుంది) ChatGPTలో GPT‑5.4 కోసం Thinking GPT‑5.2 Thinking నుండి మార్పు లేకుండా ఉంటుంది.
GPT‑5.4 అనేది GPT‑5.3‑codex యొక్క అత్యాధునిక కోడింగ్ సామర్థ్యాలను కలుపుకున్న మా తొలి ప్రధాన శ్రేణి రిజనింగ్ మోడల్, మరియు అది ChatGPT, API మరియు Codex అంతటా రోల్అవుట్ అవుతోంది. ఆ పెద్ద పురోగతిని ప్రతిబింబించడానికి మరియు Codex ఉపయోగిస్తున్నప్పుడు మోడళ్ల మధ్య ఎంపికను సులభతరం చేయడానికి మేము దీనిని GPT‑5.4 అని పిలుస్తున్నాము. కాలక్రమేణా, మా Instant మోడల్స్ మరియు Thinking మోడల్స్ వేర్వేరు వేగాల్లో అభివృద్ధి చెందుతాయని మీరు ఆశించవచ్చు.
Codexలోని GPT‑5.4లో 1M కాంటెక్స్ట్ విండోకు ప్రయోగాత్మక మద్దతు ఉంది. డెవలపర్లు model_context_window మరియు model_auto_compact_token_limitలను కాన్ఫిగర్ చేయడం ద్వారా దీన్ని ప్రయత్నించవచ్చు. ప్రామాణిక 272K కాంటెక్స్ట్ విండోను మించే రిక్వెస్ట్లు వినియోగ పరిమితులలో సాధారణ రేటు కంటే 2x గా లెక్కించబడతాయి.
APIలో, GPT‑5.4ను GPT‑5.2 కంటే ప్రతి టోకెన్కు ఎక్కువ ధరగా నిర్ణయించారు, దాని మెరుగైన సామర్థ్యాలను ప్రతిబింబించడానికి, అయితే దాని మెరుగైన టోకెన్ సామర్థ్యం అనేక పనుల కోసం అవసరమైన మొత్తం టోకెన్ల సంఖ్యను తగ్గించడంలో సహాయపడుతుంది. Batch మరియు Flex ప్రైసింగ్ స్టాండర్డ్ API రేటు యొక్క సగం వద్ద అందుబాటులో ఉన్నాయి, కాగా ప్రాధాన్యత ప్రాసెసింగ్ స్టాండర్డ్ API రేటు యొక్క రెండింతల వద్ద అందుబాటులో ఉంది.
API మోడల్ | ఇన్పుట్ ధర | క్యాష్ చేయబడిన ఇన్పుట్ ధర | ఔట్పుట్ ధర |
gpt-5.2 | $1.75 / M టోకెన్లు | $0.175 / M టోకెన్లు | $14 / M టోకెన్లు |
gpt-5.4 | $2.50 / M టోకెన్లు | $0.25 / M టోకెన్లు | $15 / M టోకెన్లు |
gpt-5.2-pro | $21 / M టోకెన్లు | - | $168 / M టోకెన్లు |
gpt-5.4-pro | $30 / M టోకెన్లు | - | $180 / M టోకెన్లు |
ప్రొఫెషనల్
ఇవాల్ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
ఇన్వెస్ట్మెంట్ బ్యాంకింగ్ మోడలింగ్ టాస్క్స్ (అంతర్గత) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
కోడింగ్
ఇవాల్ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (పబ్లిక్) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
కంప్యూటర్ వినియోగం మరియు దృష్టి
ఇవాల్ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (టూల్స్ లేవు) | 81.2% | — | — | 79.5% | — |
MMMU Pro (టూల్స్తో) | 82.1% | — | — | 80.4% | — |
టూల్ వినియోగం
ఇవాల్ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-బెంచ్ టెలికాం | 98.9% | — | — | 98.7% | — |
అకాడెమిక్
ఇవాల్ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
అత్యాధునిక సైన్స్ పరిశోధన | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath స్థాయి 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath టియర్ 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
"GPQA డైమండ్" | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Humanity's Last Exam (no tools) | 39.8% | 42.7% | — | 34.5% | 36.6% |
Humanity's Last Exam (with tools) | 52.1% | 58.7% | — | 45.5% | 50.0% |
పొడవైన కాంటెక్స్ట్
ఇవాల్ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks parents 0–128K (ఖచ్చితత్వం) | 89.8% | — | — | 89.0% | — |
Graphwalks parents 256K–1M (ఖచ్చితత్వం) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
సారాంశాత్మక రిజనింగ్
ఇవాల్ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (ధృవీకరించబడింది) | 73.3% | 83.3% | — | 52.9% | 54.2% (high) |
రిజనింగ్ లేకుండా ఇవాల్స్
ఇవాల్ | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (నార్మలైజ్డ్ ఎడిట్ డిస్టెన్స్) | 0.109 | 0.140 | — |
Tau2-బెంచ్ టెలికాం | 64.3% | 57.2% | 43.6% |
వేరుగా పేర్కొన్న సందర్భాలు తప్ప, అన్ని ఈవాల్స్ను రీజనింగ్ ఎఫర్ట్ ను xhigh గా సెట్ చేసి నిర్వహించారు. బెంచ్మార్క్లు పరిశోధనా వాతావరణంలో నిర్వహించబడ్డాయి, ఇవి కొన్ని సందర్భాల్లో ప్రొడక్షన్ ChatGPT కంటే కొంచెం భిన్నమైన అవుట్పుట్ను అందించవచ్చు.
రచయిత
ఫుట్ నోట్స్
1 మానవ పనితీరు వివరాలు OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(కొత్త విండోలో తెరుచుకుంటుంది) లో నివేదించబడ్డాయి.


