အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

Introducing GPT‑5.4

Designed for professional work

ဖွင့်နေသည်…

Today, we’re releasing GPT‑5.4 in ChatGPT (as GPT‑5.4 Thinking), the API, and Codex. It’s our most capable and efficient frontier model for professional work. We’re also releasing GPT‑5.4 Pro in ChatGPT and the API, for people who want maximum performance on complex tasks.

GPT‑5.4 brings together the best of our recent advances in reasoning, coding, and agentic workflows into a single frontier model. It incorporates the industry-leading coding capabilities of GPT‑5.3‑Codex while improving how the model works across tools, software environments, and professional tasks involving spreadsheets, presentations, and documents. The result is a model that gets complex real work done accurately, effectively, and efficiently—delivering what you asked for with less back and forth.

In ChatGPT, GPT‑5.4 Thinking can now provide an upfront plan of its thinking, so you can adjust course mid-response while it’s working, and arrive at a final output that’s more closely aligned with what you need without additional turns. GPT‑5.4 Thinking also improves deep web research, particularly for highly specific queries, while better maintaining context for questions that require longer thinking. Together, these improvements mean higher-quality answers that arrive faster and stay relevant to the task at hand.

In Codex and the API, GPT‑5.4 is the first general-purpose model we’ve released with native, state-of-the-art computer-use capabilities, enabling agents to operate computers and carry out complex workflows across applications. It supports up to 1M tokens of context, allowing agents to plan, execute, and verify tasks across long horizons. GPT‑5.4 also improves how models work across large ecosystems of tools and connectors with tool search, helping agents find and use the right tools more efficiently without sacrificing intelligence. Finally, GPT‑5.4 is our most token efficient reasoning model yet, using significantly fewer tokens to solve problems when compared to GPT‑5.2—translating to reduced token usage and faster speeds.

Together with advances in general reasoning, coding, and professional knowledge work, GPT‑5.4 enables more reliable agents, faster developer workflows, and higher-quality outputs across ChatGPT, the API, and Codex.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (wins or ties)

83.0%

70.9%

70.9%

SWE-Bench Pro (Public)

57.7%

56.8%

55.6%

OSWorld-Verified

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.3%

65.8%

*Previously reported as 64.7%. GPT‑5.3‑Codex achieves 74.0% with a newly introduced API parameter that preserves the original image resolution.

Knowledge work

Building on GPT‑5.2’s general reasoning capabilities, GPT‑5.4 delivers even more consistent and polished results on real-world tasks that matter to professionals.

On GDPval, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.4 achieves a new state of the art, matching or exceeding industry professionals in 83.0% of comparisons, compared to 70.9% for GPT‑5.2.

GDPval တွင် မော်ဒယ်များသည် U.S. GDP တွင် အများဆုံးပါဝင်သော စက်မှုလုပ်ငန်း 9 ခု၏ occupation 44 ခုတစ်လျှောက် ကောင်းစွာ သတ်မှတ်ထားသော knowledge work ကို ကြိုးစားဆောင်ရွက်ရပါသည်။ Task များသည် sales presentation များ၊ accounting spreadsheet များ၊ urgent care schedule များ၊ manufacturing diagram များ သို့မဟုတ် short video များကဲ့သို့ တကယ့်အလုပ်ရလဒ်များကို တောင်းဆိုပါသည်။ GPT‑5.4 အတွက် reasoning effort ကို xhigh ဟု သတ်မှတ်ထားပြီး GPT‑5.2 အတွက် heavy ဟု သတ်မှတ်ထားပါသည် (ChatGPT တွင် အနည်းငယ်နိမ့်သော အဆင့်)။

“GPT-5.4 သည် ကျွန်ုပ်တို့ စမ်းဖူးသမျှထဲက အကောင်းဆုံး မော်ဒယ်ဖြစ်ပါသည်။ ၎င်းသည် ယခု ကျွန်ုပ်တို့၏ APEX-Agents benchmark တွင် leaderboard ထိပ်ဆုံးသို့ ရောက်ရှိနေပြီး၊ ၎င်း benchmark သည် professional services အလုပ်များအတွက် မော်ဒယ်၏ စွမ်းဆောင်ရည်ကို တိုင်းတာပါသည်။ Slide deck များ၊ ဘဏ္ဍာရေးမော်ဒယ်များ၊ ဥပဒေရေးရာ ခွဲခြမ်းစိတ်ဖြာမှုများကဲ့သို့ ရေရှည် deliverable များ ဖန်တီးရာတွင် ထူးချွန်ပြီး၊ ပြိုင်ဖက် စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များထက် ပိုမြန်ပြီး ကုန်ကျစရိတ်နည်းကာ ထိပ်တန်းစွမ်းဆောင်ရည်ကို ပေးပါသည်။”
— Brendan Foody, Mercor မှ CEO

We put a particular focus on improving GPT‑5.4’s ability to create and edit spreadsheets, presentations, and documents. On an internal benchmark of spreadsheet modeling tasks that a junior investment banking analyst might do, GPT‑5.4 achieves a mean score of 87.3%, compared to 68.4% for GPT‑5.2. On a set of presentation evaluation prompts, human raters preferred presentations from GPT‑5.4 68.0% of the time over those from GPT‑5.2 due to stronger aesthetics, greater visual variety, and more effective use of image generation.

GPT-5.2 နှင့် GPT-5.4 တို့၏ spreadsheet output များကို ဘေးချင်းယှဉ်ပြထားသော ဥပမာ

Document များကို reasoning effort ကို xhigh ဟုသတ်မှတ်ပြီး ဖန်တီးထားပါသည်

You can try these capabilities in ChatGPT using GPT‑5.4 Thinking or Pro. If you’re an Enterprise customer, we recommend using our newly released ChatGPT for Excel add-in(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်), which was also launched today. We've also updated our spreadsheet(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) and presentation skills(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) available in Codex and the API.

To make GPT‑5.4 better at real-world work, we continued our progress at driving down hallucinations and errors. GPT‑5.4 is our most factual model yet: on a set of de-identified prompts where users flagged factual errors, GPT‑5.4’s individual claims are 33% less likely to be false and its full responses are 18% less likely to contain any errors, relative to GPT‑5.2.

“GPT-5.4 သည် document-heavy legal work အတွက် စံသတ်မှတ်ချက်အသစ်တစ်ခုကို သတ်မှတ်ပေးပါသည်။ ကျွန်ုပ်တို့၏ BigLaw Bench eval တွင် 91% ရရှိခဲ့ပါသည်။ အခြားမော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် GPT-5.4 သည် ယခုအခါ ရှုပ်ထွေးသော transactional analysis ကို ဖွဲ့စည်းရာတွင်၊ ရှည်လျားသော contract များတစ်လျှောက် တိကျမှုထိန်းသိမ်းရာတွင်နှင့် ဥပဒေရေးရာ practitioner များ လိုအပ်သော အသေးစိတ်အဆင့်မြင့်မှုကို ပေးရာတွင် ပိုကောင်းပါသည်။”
— Niko Grupen, Harvey မှ Head of Applied Research

Computer use and vision

GPT‑5.4 is our first general-purpose model with native computer-use capabilities and marks a major step forward for developers and agents alike. It’s the best model currently available for developers building agents that complete real tasks across websites and software systems.

We’ve designed GPT‑5.4 to be performant across a wide range of computer-use workloads. It is excellent at writing code to operate computers via libraries like Playwright, as well as issuing mouse and keyboard commands in response to screenshots. Its behavior is steerable via developer messages, meaning that developers can adjust behavior to suit particular use cases. Developers can even configure the model’s safety behavior to suit different levels of risk tolerance by specifying custom confirmation policies.

The model’s performance and flexibility are reflected across benchmarks that test computer use across different settings. On OSWorld-Verified, which measures a model’s ability to navigate a desktop environment through screenshots and keyboard/mouse actions, GPT‑5.4 achieves a state-of-the-art 75.0% success rate, far exceeding GPT‑5.2’s 47.3%, and surpassing human performance at 72.4%.1

On WebArena-Verified, which tests browser use, GPT‑5.4 achieves a leading 67.3% success rate when using both DOM- and screenshot-driven interaction, compared to GPT‑5.2’s 65.4%. On Online-Mind2Web, which also tests browser use, GPT‑5.4 achieves a 92.8% success rate using screenshot-based observations alone, improving over ChatGPT Atlas’s Agent Mode, which achieves a success rate of 70.9%.

Tool yield ဆိုသည်မှာ assistant တစ်ခုက tool response များကို စောင့်ဆိုင်းရန် yield လုပ်သည့်အချိန်ကို ဆိုလိုပါသည်။ Tool 3 ခုကို တပြိုင်နက်ခေါ်ပြီး၊ ထို့နောက် နောက်ထပ် tool 3 ခုကိုလည်း တပြိုင်နက်ခေါ်ပါက yield အရေအတွက်မှာ 2 ဖြစ်ပါမည်။ Tool yield များသည် parallelization ၏ အကျိုးကျေးဇူးကို ထင်ဟပ်ပေးသောကြောင့် tool call များထက် latency ကို ပိုမိုကောင်းမွန်စွာ ကိုယ်စားပြုပါသည်။

GPT‑5.4 သည် browser interface ၏ screenshot များကို နားလည်ပြီး coordinate-based clicking ဖြင့် UI element များနှင့် အပြန်အလှန် လုပ်ဆောင်ကာ email များ ပို့ပြီး calendar event တစ်ခု စီစဉ်ပေးပါသည်။ Video ကို အမြန်မတင်ထားပါ။

GPT‑5.4’s improved computer use is built on the model’s improved general visual perception capabilities. On MMMU-Pro, a test of a model’s visual understanding and reasoning, GPT‑5.4 achieves an 81.2% success rate without tool use, an improvement over GPT‑5.2’s 79.5%. Improved visual perception also translates into better document parsing capabilities. On OmniDocBench, GPT‑5.4 without reasoning effort achieves an average error (measured by normalized edit distance between model prediction and ground truth) of 0.109, improved from GPT‑5.2’s 0.140.

MMMUPro ကို reasoning effort xhigh ဖြင့် လုပ်ဆောင်ထားပါသည်။ OmniDocBench ကို ကုန်ကျစရိတ်နည်း၊ latency နည်း performance ကို ထင်ဟပ်စေရန် reasoning effort none ဖြင့် လုပ်ဆောင်ထားပါသည်။

We’re also improving visual understanding for dense, high-resolution images where full fidelity matters. Starting with GPT‑5.4, we’re introducing an original image input detail(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) level which supports full-fidelity perception up to 10.24M total pixels or 6000-pixel maximum dimension, whichever is lower; the high image input detail level now supports up to 2.56M total pixels or a 2048-pixel maximum dimension. In early testing with API users, we observed strong gains in localization ability, image understanding, and click accuracy when using original or high detail.

“HOA နှင့် property tax portal ~30K တစ်လျှောက် computer use performance ကို တိုင်းတာသော ကျွန်ုပ်တို့၏ eval များတွင် GPT-5.4 သည် ပထမအကြိမ်ကြိုးပမ်းမှုတွင် 95% အောင်မြင်မှုနှုန်းနှင့် သုံးကြိမ်အတွင်း 100% အောင်မြင်မှု ရရှိခဲ့ပြီး၊ ယခင် CUA မော်ဒယ်များ၏ ~73–79% နှင့် နှိုင်းယှဉ်လျှင် ပိုကောင်းပါသည်။ ၎င်းသည် token ~70% နည်းစွာ အသုံးပြုရင်း session များကို ~3x ပိုမြန်စွာ ပြီးဆုံးစေခဲ့ပြီး၊ အရွယ်အစားကြီးစွာ လုပ်ဆောင်ရာတွင် ယုံကြည်စိတ်ချရမှုနှင့် ကုန်ကျစရိတ်ထိရောက်မှုကို ထင်ရှားစွာ တိုးတက်စေပါသည်။”
— Dod Fraser, Mainstay မှ CEO

In the API, developers can access these capabilities using the updated computer tool. Please see our updated documentation(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) for recommended best practices.

Coding

GPT‑5.4 combines the coding strengths of GPT‑5.3‑Codex with leading knowledge work and computer-use capabilities, which matter most on longer-running tasks where the model can use tools, iterate, and push work further with less manual intervention. It matches or outperforms GPT‑5.3‑Codex on SWE-Bench Pro while being lower latency across reasoning efforts.

Latency ကို ခန့်မှန်းရာတွင် ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ production behavior ကိုကြည့်ပြီး offline ဖြင့် simulation လုပ်ပါသည်။ Latency estimate တွင် tool call ကြာချိန် (code execution time), sampled tokens နှင့် input tokens တို့ ပါဝင်ပါသည်။ လက်တွေ့ကမ္ဘာ latency သည် အလွန်ကွာခြားနိုင်ပြီး၊ ကျွန်ုပ်တို့၏ simulation တွင် မဖမ်းယူထားသော အချက်များစွာအပေါ် မူတည်ပါသည်။ Reasoning effort ကို none မှ xhigh အထိ စမ်းသပ်ထားပါသည်။

When toggled on, /fast mode in Codex delivers up to 1.5x faster token velocity with GPT‑5.4. It’s the same model and the same intelligence, just faster. That means users can move through coding tasks, iteration, and debugging while staying in flow. Developers can access GPT‑5.4 at the same fast speeds via the API by using priority processing(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).

In evaluation and internal testing we found that GPT‑5.4 excels at complex frontend tasks, with noticeably more aesthetic and more functional results than any models we’ve launched previously.

As a demonstration of the model’s improved computer-use and coding capabilities working in tandem, we’re also releasing an experimental Codex skill called “Playwright (Interactive)(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)”. This allows Codex to visually debug web and Electron apps; it can even be used to test an app it’s building, as it’s building it.

Browser playtesting အတွက် Playwright Interactive နှင့် isometric asset set အတွက် ရုပ်ပုံ ထုတ်လုပ်မှုကို အသုံးပြုကာ ပေါ့ပေါ့ပါးပါး သတ်မှတ်ထားသော prompt တစ်ခုတည်းမှ GPT‑5.4 ဖြင့် ဖန်တီးထားသော theme park simulation ဂိမ်းဖြစ်ပါသည်။ Simulation တွင် tile-based path placement, ride နှင့် scenery construction, guest pathfinding, queueing နှင့် ride cycle များ ပါဝင်ပြီး money, guest count, happiness, cleanliness နှင့် rating ကဲ့သို့ park metric များသည် layout ၏ လုပ်ဆောင်ပုံနှင့် guest များ၏ တုံ့ပြန်မှုအပေါ် မူတည်ကာ တက်လာ သို့မဟုတ် ကျလာနိုင်ပါသည်။ Playwright ကို park တည်ဆောက်ခြင်းနှင့် ချဲ့ထွင်ခြင်း၊ path နှင့် attraction များ ထည့်ခြင်းဖြုတ်ခြင်း၊ camera navigation စစ်ဆေးခြင်းနှင့် guest, queue, ride state နှင့် UI metric များသည် play round အတော်များများတစ်လျှောက် မှန်ကန်စွာ update ဖြစ်နေကြောင်း အတည်ပြုခြင်းတို့ဖြင့် browser playtest များကို အလိုအလျောက်လုပ်ဆောင်ရန် အသုံးပြုခဲ့ပါသည်။

Prompt: $playwright-interactive နှင့် $imagegen ကို အသုံးပြုပါ။ Browser အတွင်း တည်ဆောက်နိုင်ပြီး သွားလာနိုင်မည့် interactive isometric theme park simulation ဂိမ်းတစ်ခု ဖန်တီးပါ။ ဂိမ်း၏ overall visual vision ကို သတ်မှတ်ရန်နှင့် ride, path, terrain, tree, water, food stall, decoration, building, icon နှင့် UI illustration များအပါအဝင် asset များကို ဖန်တီးရန် imagegen ကို အသုံးပြုပါ။ ကမ္ဘာကြီးသည် cohesive, polished ဖြစ်ပြီး isometric perspective မှ ကောင်းစွာ အလုပ်လုပ်သော premium art direction နှင့် visual richness ရှိရမည်။ Guest activity, ride status နှင့် park growth ကို စောင့်ကြည့်နေရင်း path များ ထည့်နိုင်ဖြုတ်နိုင်၊ attraction များ ထည့်နိုင်၊ scenery ကို နေရာချနိုင်ပြီး park အတွင်း ချောမွေ့စွာ သွားလာနိုင်စေပါ။ ယုံကြည်ဖွယ် guest movement၊ money, cleanliness, queueing နှင့် happiness ကဲ့သို့ simple park management system များ ပါဝင်ရမည်ဖြစ်ပြီး rough prototype တစ်ခုလိုမဟုတ်ဘဲ playful, clear, complete ဖြစ်စေရန် လုပ်ပါ။ Realism ထက် charm, readability နှင့် strong game feel ကို ဦးစားပေးပါ။

Play testing လုပ်သည့်အခါ park တစ်ခုကို play round များစွာတစ်လျှောက် တည်ဆောက် ချဲ့ထွင်ရန်၊ placement နှင့် navigation များ ချောမွေ့စွာ လုပ်ဆောင်နေကြောင်း စစ်ဆေးရန်၊ guest များက park layout နှင့် attraction များကို တုံ့ပြန်ကြောင်း အတည်ပြုရန်နှင့် visual, UI နှင့် interaction များ တည်ငြိမ်ပြီး cohesive ဖြစ်နေကြောင်း သေချာစေရန် မမေ့ပါနှင့်။

“GPT-5.4 သည် ယခုအခါ ကျွန်ုပ်တို့၏ အတွင်းပိုင်း benchmark များတွင် ဦးဆောင်နေပါသည်။ ကျွန်ုပ်တို့၏ engineer များက ၎င်းကို ယခင်မော်ဒယ်များထက် ပိုမိုသဘာဝဆန်ပြီး ယုံကြည်မှုရှိသည်ဟု တွေ့ရှိကြပါသည်။ ၎င်းသည် မရှင်းလင်းသော ပြဿနာများကို ကိုယ်တိုင်ကိုယ်ကျ သံသယမဝင်ဘဲ ဖြေရှင်းသွားနိုင်ပြီး၊ အလုပ်များ ဆက်လက်ရွေ့လျားနေစေရန် parallelization ကိုလည်း ကြိုတင်စီမံလုပ်ဆောင်ပေးပါသည်။”
— Lee Robinson, Cursor မှ VP of Developer Education

Tool use

With GPT‑5.4, we’ve significantly improved how models work with external tools. Agents can now operate across larger tool ecosystems, choose the right tools more reliably, and complete multi-step workflows with lower cost and latency.

In the API, GPT‑5.4 introduces tool search(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်), which allows models to work efficiently when given many tools.

Previously, when a model was given tools, all tool definitions were included in the prompt upfront. For systems with many tools, this could add thousands—or even tens of thousands—of tokens to every request, increasing cost, slowing responses, and crowding the context with information the model might never use.

With tool search, GPT‑5.4 instead receives a lightweight list of available tools along with a tool search capability. When the model needs to use a tool, it can look up that tool’s definition and append it to the conversation at that moment.

This approach dramatically reduces the number of tokens required for tool-heavy workflows and preserves the cache, making requests faster and cheaper. It also enables agents to reliably work with much larger tool ecosystems. For MCP servers that may contain tens of thousands of tokens of tool definitions, the efficiency gains can be substantial.

To demonstrate the efficiency gains, we evaluated 250 tasks from Scale’s MCP Atlas(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) benchmark with all 36 MCP servers enabled in two modes: (1) exposing every MCP function directly in the model context, and (2) placing all MCP servers behind tool search. The tool-search configuration reduced total token usage by 47% while achieving the same accuracy.

Token count ဥပမာများကို MCP-Atlas public dataset ရှိ task 250 ခု၏ ပျမ်းမျှမှ ယူထားပါသည်။

Agentic tool calling

GPT‑5.4 also improves tool calling, making it more accurate and efficient when deciding when and how to use tools during reasoning, particularly in the API.  Compared to GPT‑5.2, it achieves higher accuracy in fewer turns on Toolathlon, a benchmark that tests how well AI agents can use real-world tools and APIs to complete multi-step tasks. For example, an agent needs to read emails, extract assignment attachments, upload them, grade them and record results in a spreadsheet.

Tool yield ဆိုသည်မှာ assistant တစ်ခုက tool response များကို စောင့်ဆိုင်းရန် yield လုပ်သည့်အချိန်ကို ဆိုလိုပါသည်။ Tool 3 ခုကို တပြိုင်နက်ခေါ်ပြီး၊ ထို့နောက် နောက်ထပ် tool 3 ခုကိုလည်း တပြိုင်နက်ခေါ်ပါက yield အရေအတွက်မှာ 2 ဖြစ်ပါမည်။ Tool yield များသည် parallelization ၏ အကျိုးကျေးဇူးကို ထင်ဟပ်ပေးသောကြောင့် tool call များထက် latency ကို ပိုမိုကောင်းမွန်စွာ ကိုယ်စားပြုပါသည်။

For latency-sensitive use cases where reasoning effort None is preferred, GPT‑5.4 further improves upon its predecessors.

τ2-bench⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်တစ်ခုသည် customer service task တစ်ခုကို ပြီးမြောက်စေရန် tool များကို အသုံးပြုရပြီး၊ world state အပေါ် ဆက်သွယ်၍ အရေးယူနိုင်သော simulated user တစ်ဦး ပါဝင်နိုင်ပါသည်။ Reasoning effort ကို None ဟု သတ်မှတ်ထားပါသည်။

GPT‑5.4 is better at agentic web search. On BrowseComp, a measurement of how well AI agents can persistently browse the web to find hard-to-locate information, GPT‑5.4 leaps 17%abs over GPT‑5.2, and GPT‑5.4 Pro sets a new state of the art of 89.3%.

In practice, this means GPT‑5.4 Thinking is stronger at answering questions that require pulling together information from many sources on the web. It can more persistently search across multiple rounds to identify the most relevant sources, particularly for “needle-in-a-haystack” questions, and synthesize them into a clear, well-reasoned answer.

BrowseComp တွင် benchmark အဖြေများ ပါဝင်သော website များကို evaluation မှ ဖယ်ထုတ်ထားသော search blocklist ကို အသုံးပြုခဲ့ပြီး contamination ကို ကာကွယ်ကာ performance ကို မျှတစွာ တိုင်းတာနိုင်ရန် ဆောင်ရွက်ခဲ့ပါသည်။ GPT‑5.4 ကို GPT‑5.2 ထက် နောက်ပိုင်းရက်စွဲတွင် တိုင်းတာထားသဖြင့် score များမှာ မော်ဒယ်၊ ကျွန်ုပ်တို့၏ search system နှင့် internet အခြေအနေ ပြောင်းလဲမှုများကို ထင်ဟပ်ပါသည်။ GPT‑5.4 ကို ပိုရှည်ပြီး update လုပ်ထားသော blocklist ဖြင့် စမ်းသပ်ခဲ့ပါသည်။ မော်ဒယ်များသည် ChatGPT search tool ကို အသုံးပြုထားပြီး၊ API search နှင့် အနည်းငယ်ကွာခြားမှုများ ရှိနိုင်ပါသည်။

“GPT-5.4 xhigh သည် အဆင့်စုံ tool အသုံးပြုမှုအတွက် state of the art အသစ်ဖြစ်ပါသည်။ Zapier သည် စက်မှုလုပ်ငန်းအတွင်း အတင်းကျပ်ဆုံး tool-use benchmark များအချို့ကို လည်ပတ်နေပြီး၊ ရာနှင့်ချီသော တကယ့်ကမ္ဘာ workflow အဆင့်မြင့်များတစ်လျှောက် မော်ဒယ်များကို စမ်းသပ်ပါသည်။ ယခင်မော်ဒယ်များ လက်လျှော့သည့်နေရာတွင် GPT-5.4 သည် အလုပ်ပြီးဆုံးအောင် လုပ်ဆောင်နိုင်ခဲ့သည် - ယနေ့အထိ အတည်တကျဆုံး မော်ဒယ်ဖြစ်ပါသည်။”
— Wade, Zapier မှ CEO

Steerability

Similarly to how Codex outlines its approach when it starts working, GPT‑5.4 Thinking in ChatGPT will now outline its work with a preamble for longer, more complex queries. You can also add instructions or adjust its direction mid-response. This makes it easier to guide the model toward the exact outcome you want without starting over or requiring multiple additional turns. This feature is available now on chatgpt.com(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) and the Android app, coming soon to the iOS app.

The model can also think longer on difficult tasks while maintaining stronger awareness of earlier steps in the conversation. This allows it to handle longer workflows and more complex prompts while keeping answers coherent and relevant throughout.

ဤဗီဒီယိုကို ဥပမာပြရန်အတွက် အမြန်တင်ထားပါသည်။

Safety

Over recent months, we’ve continued improving the safeguards we introduced with GPT‑5.3‑Codex while preparing GPT‑5.4 for deployment. Similar to GPT‑5.3‑Codex, we are treating GPT‑5.4 as High cyber capability under our Preparedness Framework, and we are deploying it with the corresponding protections as documented in the system card(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်). These include an expanded cyber safety stack, including monitoring systems, trusted access controls, and asynchronous blocking for higher-risk requests for customers on Zero Data Retention (ZDR) surfaces, alongside ongoing investment in the broader security ecosystem.

Because cybersecurity capabilities are inherently dual-use, we maintain a precautionary approach to deployment while continuing to calibrate our policies and classifiers. For certain customers on ZDR surfaces, request-level blocking remains part of our cyber risk mitigation stack; because classifiers are still improving, some false positives may occur as we continue refining these safeguards. These updates aim to improve how safeguards operate in practice, including reducing unnecessary refusals and overly caveated responses, while preserving strong protections against misuse.

We’ve continued our safety research on Chain-of-Thought (CoT) monitorability to better understand how models reason and help detect potential misbehavior. As part of this work, we introduce a new open-source evaluation, CoT controllability,  measuring whether models can deliberately obfuscate their reasoning to evade monitoring. We find that GPT‑5.4 Thinking’s ability to control its CoT is low, which is a positive property for safety, suggesting that the model lacks the ability to hide its reasoning and that CoT monitoring remains an effective safety tool.

Availability and pricing

GPT‑5.4 is rolling out gradually today across ChatGPT and Codex. In the API, GPT‑5.4 is available now as gpt-5.4. GPT‑5.4 Pro is also available in the API as gpt-5.4-pro for developers who need maximum performance on the most complex tasks.

In ChatGPT, GPT‑5.4 Thinking is available starting today to ChatGPT Plus, Team, and Pro users, replacing GPT‑5.2 Thinking. GPT‑5.2 Thinking will remain available for three months for paid users in the model picker under the Legacy Models section, after which it will be retired on June 5, 2026. Those on Enterprise and Edu plans can enable early access via admin settings. GPT‑5.4 Pro is available to Pro and Enterprise plans. Context windows(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) in ChatGPT for GPT‑5.4 Thinking remain unchanged from GPT‑5.2 Thinking.

GPT‑5.4 is our first mainline reasoning model that incorporates the frontier coding capabilities of GPT‑5.3‑codex and that is rolling out across ChatGPT, the API and Codex. We're calling it GPT‑5.4 to reflect that jump, and to simplify the choice between models when using Codex. Over time, you can expect our Instant models and Thinking models to evolve at different speeds.

GPT‑5.4 in Codex includes experimental support for the 1M context window. Developers can try this by configuring model_context_window and model_auto_compact_token_limit. Requests that exceed the standard 272K context window count against usage limits at 2x the normal rate.

In the API, GPT‑5.4 is priced higher per token than GPT‑5.2 to reflect its improved capabilities, while its greater token efficiency helps reduce the total number of tokens required for many tasks. Batch and Flex pricing are available at half the standard API rate, while Priority processing is available at twice the standard API rate.

API မော်ဒယ်

Input စျေးနှုန်း

Cached input စျေးနှုန်း

Output စျေးနှုန်း

gpt-5.2

$1.75 / M tokens

$0.175 / M tokens

$14 / M tokens

gpt-5.4

$2.50 / M tokens

$0.25 / M tokens

$15 / M tokens

gpt-5.2-pro

$21 / M tokens

-

$168 / M tokens

gpt-5.4-pro

$30 / M tokens

-

$180 / M tokens

Evaluations

ပရော်ဖက်ရှင်နယ်

အကဲဖြတ်မှု

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

Investment Banking Modeling Tasks (အတွင်းပိုင်း)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

Coding

အကဲဖြတ်မှု

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Public)

57.7%

56.8%

55.6%

Terminal-Bench 2.0

75.1%

77.3%

62.2%

Computer use နှင့် vision

အကဲဖြတ်မှု

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75.0%

74.0%

47.3%

MMMU Pro (tools မပါ)

81.2%

79.5%

MMMU Pro (tools ဖြင့်)

82.1%

80.4%

Tool အသုံးပြုမှု

အကဲဖြတ်မှု

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

ပညာရေးဆိုင်ရာ

အကဲဖြတ်မှု

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Frontier Science Research

33.0%

36.7%

25.2%

FrontierMath Tier 1–3

47.6%

50.0%

40.7%

FrontierMath Tier 4

27.1%

38.0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

92.4%

93.2%

Humanity's Last Exam (tools မပါ)

39.8%

42.7%

34.5%

36.6%

Humanity's Last Exam (tools ဖြင့်)

52.1%

58.7%

45.5%

50.0%

ရှည်လျားသော context

အကဲဖြတ်မှု

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks parents 0–128K (တိကျမှု)

89.8%

89.0%

Graphwalks parents 256K–1M (တိကျမှု)

32.4%

OpenAI MRCR v2 8-needle 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-needle 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-needle 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-needle 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-needle 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-needle 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-needle 256K–512K

57.5%

OpenAI MRCR v2 8-needle 512K–1M

36.6%

အမူအရာအရ reasoning

အကဲဖြတ်မှု

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Verified)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (Verified)

73.3%

83.3%

52.9%

54.2% (high)

reasoning မပါသော eval များ

အကဲဖြတ်မှု

GPT‑5.4
(none)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (normalized edit distance)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

Evals were run with reasoning effort set to xhigh, except where specified otherwise. Benchmarks were conducted in a research environment, which may provide slightly different output from production ChatGPT in some cases.

စာရေးသူ

OpenAI

အောက်ခြေမှတ်စုများ