Responses API တွင် WebSockets ဖြင့် အေးဂျင့် workflow များကို ပိုမိုမြန်ဆန်စေခြင်း
နည်းပညာပိုင်းဆိုင်ရာဝန်ထမ်း Brian Yu နှင့် Ashwin Nathan မှ
Codex ကို bug တစ်ခု ပြင်ပေးရန် သင်တောင်းဆိုသောအခါ၊ ၎င်းသည် သင့် codebase ထဲမှ သက်ဆိုင်ရာ ဖိုင်များကို ရှာဖွေစစ်ဆေးကာ၊ context တည်ဆောက်ရန် ၎င်းတို့ကို ဖတ်ရှုသည်၊ ပြင်ဆင်မှုများလုပ်သည်၊ ထို့နောက် ပြင်ဆင်မှု အလုပ်ဖြစ်ခဲ့ကြောင်း အတည်ပြုရန် tests များကို chạy လုပ်သည်။ အတွင်းပိုင်းတွင်တော့ ၎င်းသည် အပြန်အလှန် Responses API requests ဒါဇင်များစွာကို ဆိုလိုသည်။ မော်ဒယ်၏ နောက်တစ်ဆင့် လုပ်ဆောင်ချက်ကို သတ်မှတ်ခြင်း၊ သင့်ကွန်ပျူတာပေါ်တွင် tool တစ်ခုကို run ခြင်း၊ tool output ကို API သို့ ပြန်ပို့ခြင်း၊ ထို့နောက် ထပ်ခါထပ်ခါ လုပ်ဆောင်ခြင်းတို့ ဖြစ်သည်။
ဤ requests များအားလုံး ပေါင်းလာသောအခါ Codex က ရှုပ်ထွေးသော tasks များကို ပြီးဆုံးအောင် လုပ်နေစဉ် အသုံးပြုသူများ စောင့်ဆိုင်းရသည့် အချိန်မှာ မိနစ်များအထိ ရှိလာနိုင်သည်။ latency ရှုထောင့်မှကြည့်လျှင် Codex အေးဂျင့် loop သည် ၎င်း၏ အချိန်အများစုကို အဓိက အဆင့်သုံးခုတွင် ကုန်ဆုံးသည်။ API services အတွင်း အလုပ်လုပ်ခြင်း (requests များကို validate လုပ်ပြီး process လုပ်ရန်)၊ model inference နှင့် client-side အချိန် (tools များ run ခြင်းနှင့် model context တည်ဆောက်ခြင်း) တို့ဖြစ်သည်။ Inference သည် မော်ဒယ်က GPUs ပေါ်တွင် run လုပ်ကာ တိုကင် အသစ်များ ထုတ်ပေးသည့် အဆင့်ဖြစ်သည်။ ယခင်က GPUs ပေါ်တွင် LLM inference ကို run လုပ်ခြင်းသည် အေးဂျင့် loop ၏ အနှေးဆုံး အပိုင်းဖြစ်သဖြင့် API service overhead ကို ဖုံးကွယ်ထားရန် လွယ်ကူခဲ့သည်။ Inference ပိုမိုမြန်လာသည်နှင့်အမျှ agentic rollout တစ်ခုမှ API overhead စုပေါင်းသက်ရောက်မှုသည် ပိုမို ထင်ရှားလာသည်။
ဤ post တွင် API ကို အသုံးပြုသော agent loops များကို end-to-end 40% ပိုမြန်အောင် ကျွန်ုပ်တို့ မည်သို့ပြုလုပ်ခဲ့သည်ကို ရှင်းပြပါမည်။ ထို့ကြောင့် အသုံးပြုသူများသည် inference speed သည် တစ်စက္ကန့်လျှင် 65 မှ တိုကင် 1,000 နီးပါးအထိ တိုးလာသည့် ခုန်တက်မှုကို တိုက်ရိုက် ခံစားနိုင်ခဲ့သည်။ ကျွန်ုပ်တို့သည် ၎င်းကို caching၊ မလိုအပ်သော network hops များကို ဖယ်ရှားခြင်း၊ ပြဿနာများကို လျင်မြန်စွာ flag လုပ်နိုင်ရန် safety stack ကို တိုးတက်ကောင်းမွန်စေခြင်း နှင့် အရေးအကြီးဆုံးအနေဖြင့် synchronous API calls စဉ်ဆက်မပြတ် ပြုလုပ်ရမည့်အစား Responses API သို့ persistent connection တစ်ခု တည်ဆောက်နိုင်သည့် နည်းလမ်းကို ဖန်တီးခြင်းတို့မှတဆင့် ဆောင်ရွက်ခဲ့သည်။

Responses API တွင် GPT‑5 နှင့် GPT‑5.2 ကဲ့သို့ ယခင် မူရင်း မော်ဒယ်များသည် တစ်စက္ကန့်လျှင် တိုကင် 65 ခန့် (TPS) ဖြင့် run လုပ်ခဲ့သည်။ လျင်မြန်သော coding မော်ဒယ် GPT‑5.3‑Codex‑Spark ကို launch လုပ်ရာတွင် ကျွန်ုပ်တို့၏ ရည်မှန်းချက်မှာ ထိုထက် အဆမတန် မြန်ရန်ဖြစ်ပြီး 1,000 TPS ကျော်ကို ရရှိရန် ဖြစ်သည်။ ၎င်းကို LLM inference အတွက် optimize လုပ်ထားသော အထူးပြု Cerebras hardware က အားပေးသည်။ အသုံးပြုသူများသည် ဤ မော်ဒယ် အသစ်၏ အမှန်တကယ် မြန်နှုန်းကို ခံစားနိုင်စေရန် API overhead ကို လျှော့ချရသည်။
2025 ခုနှစ် နိုဝင်ဘာလခန့်တွင် Responses API ပေါ်၌ performance sprint တစ်ခုကို စတင်ခဲ့ပြီး request တစ်ခုတည်း၏ critical-path latency ကို လျှော့ချရန် optimizations အများအပြား ထည့်သွင်းခဲ့သည်။
- multi-turn responses များအတွက် ကုန်ကျစရိတ်မြင့်သော တိုကင်လုပ်ခြင်း နှင့် network calls များကို ကျော်နိုင်ရန် rendered tokens များနှင့် model configuration ကို memory ထဲတွင် cache လုပ်ခြင်း
- အလယ်ခံ services များသို့ calls များကို ဖယ်ရှားခြင်းအားဖြင့် network hop latency ကို လျှော့ချပြီး (ဥပမာ image processing resolution) inference service ကို တိုက်ရိုက် ခေါ်ခြင်း
- conversations များကို ပိုမြန်စွာ flag လုပ်နိုင်ရန် safety stack ကို တိုးတက်စေပြီး classifiers အချို့ကို run လုပ်နိုင်ခြင်း
ဤတိုးတက်မှုများကြောင့် time to first token (TTFT) တွင် 45% နီးပါး တိုးတက်မှုကို ကျွန်ုပ်တို့ တွေ့မြင်ခဲ့သည်။ ၎င်းသည် API က မည်မျှ တုံ့ပြန်မြန်ဆန်သလဲကို ပြသသော်လည်း GPT‑5.3‑Codex‑Spark အတွက်တော့ လုံလောက်အောင် မမြန်သေးပါ။ ဤတိုးတက်မှုများ ရှိနေသော်လည်း Responses API overhead သည် မော်ဒယ်၏ မြန်နှုန်းနှင့် နှိုင်းယှဉ်လျှင် များလွန်းနေဆဲဖြစ်သည်။ ဆိုလိုသည်မှာ အသုံးပြုသူများသည် မော်ဒယ်ကို service ပေးနေသော GPUs များကို အသုံးမပြုမီ ကျွန်ုပ်တို့၏ API ကို run လုပ်နေသည့် CPUs များကို စောင့်ရသေးသည်။
ပိုမိုနက်ရှိုင်းသည့် ပြဿနာမှာ ဖွဲ့စည်းပုံဆိုင်ရာဖြစ်သည်။ Codex request တစ်ခုချင်းစီကို သီးခြားလွတ်လပ်သော request အဖြစ် သတ်မှတ်ထားပြီး follow-up request တိုင်းတွင် conversation state နှင့် ပြန်လည်အသုံးပြုနိုင်သော context များကို အမြဲ process လုပ်နေခဲ့သည်။ conversation အများစု မပြောင်းလဲသော်လည်း full history နှင့် ချိတ်ဆက်နေသော အလုပ်အတွက် ကုန်ကျစရိတ်ကို ပေးနေရဆဲ ဖြစ်သည်။ conversations များ ပိုရှည်လာသည့်အခါ ထပ်တလဲလဲ processing လုပ်ရခြင်းသည် ပိုမို ကုန်ကျလာသည်။
ဒီဇိုင်းကို ပိုမို တင်းကျပ်ကောင်းမွန်စေရန် transport protocol ကို ပြန်လည်စဉ်းစားခဲ့သည်။ HTTP ပေါ်တွင် connection အသစ်တစ်ခုကို request တိုင်းအတွက် ထပ်မံတည်ဆောက်ပြီး follow-up request တစ်ခုချင်းစီအတွက် conversation history အပြည့်အစုံကို ပို့နေမည့်အစား persistent connection တစ်ခုကို ထိန်းထားကာ state ကို cache လုပ်ထားနိုင်မလားဟု စဉ်းစားခဲ့သည်။ အကြံမှာ validate နှင့် process လုပ်ရန်လိုအပ်သည့် information အသစ်များကိုသာ ပို့ရန်နှင့် connection ၏ သက်တမ်းတစ်လျှောက် ပြန်လည်အသုံးပြုနိုင်သော state ကို memory ထဲတွင် cache လုပ်ထားရန် ဖြစ်သည်။ ၎င်းက ထပ်နေသော အလုပ်များကြောင့် ဖြစ်ပေါ်သည့် overhead ကို လျှော့ချပေးမည်ဖြစ်သည်။
WebSockets နှင့် gRPC bidirectional streaming အပါအဝင် နည်းလမ်းအမျိုးမျိုးကို စဉ်းစားခဲ့သည်။ နောက်ဆုံး WebSockets ကို ရွေးချယ်ခဲ့သည်။ အဘယ်ကြောင့်ဆိုသော် ရိုးရှင်းသော message transport protocol တစ်ခုဖြစ်သည့်အတွက် အသုံးပြုသူများသည် Responses API input နှင့် output shapes များကို ပြောင်းလဲရန် မလိုအပ်ပါ။ ၎င်းသည် developer-friendly ဖြစ်ပြီး ကျွန်ုပ်တို့၏ ရှိပြီးသား architecture နှင့်လည်း အနှောင့်အယှက် အနည်းငယ်ဖြင့် ကိုက်ညီသည်။
ပထမဆုံး WebSocket prototype သည် Responses API latency အတွက် ဖြစ်နိုင်ချေကို ကျွန်ုပ်တို့ ထင်ထားသည်ထက် ပြောင်းလဲသွားစေခဲ့သည်။ API stack တစ်လျှောက်တွင် နက်ရှိုင်းသော ကျွမ်းကျင်မှုရှိသည့် Codex team မှ engineer တစ်ဦးက Codex အေးဂျင့် တစ်ခုကို တစ်ညလုံး run လုပ်စေခြင်းဖြင့် prototype တစ်ခုကို အလျင်အမြန် ပေါင်းစည်းဖန်တီးခဲ့သည်။
ထို prototype တွင် agentic rollouts များကို ရှည်လျားစွာ run လုပ်သော Response တစ်ခုတည်းအဖြစ် model လုပ်ထားသည်။ asyncio features များကို အသုံးပြု၍ tool call တစ်ခု sample လုပ်ပြီးနောက် Responses API သည် sampling loop အတွင်း asynchronous အနေဖြင့် block လုပ်မည်ဖြစ်ပြီး၊ ထို့နောက် client သို့ response.done event ကို ပြန်ပို့မည်ဖြစ်သည်။ tool call ကို execute လုပ်ပြီးနောက် clients များသည် tool result နှင့်အတူ response.append event ကို ပြန်ပို့မည်ဖြစ်ပြီး၊ ၎င်းကြောင့် sampling loop ကို unblock လုပ်ကာ model ကို ဆက်လက် လုပ်ဆောင်ခွင့်ပေးသည်။
ဤနေရာတွင် ဥပမာတစ်ခုအဖြစ် local tool call ကို hosted tool call တစ်ခုလို သဘောထားခြင်းဖြစ်သည်။ မော်ဒယ်က web search ကို ခေါ်သောအခါ inference loop သည် block လုပ်ကာ web search service ကို ခေါ်ပြီး service response ကို model context ထဲသို့ ထည့်သည်။ ကျွန်ုပ်တို့၏ design တွင်လည်း ထိုနည်းအတိုင်းပင် လုပ်ဆောင်ခဲ့သည်။ သို့သော် remote service ကို ခေါ်မည့်အစား မော်ဒယ်၏ tool call ကို WebSocket မှတဆင့် client သို့ ပြန်ပို့ခဲ့သည်။ client က တုံ့ပြန်သောအခါ client ၏ tool call response ကို context ထဲတွင် ထည့်ကာ sampling ကို ဆက်လက် လုပ်ဆောင်ခဲ့သည်။
ဤ design သည် agent rollout တစ်လျှောက် API ၏ ထပ်တလဲလဲ အလုပ်များကို ဖယ်ရှားပေးခဲ့သောကြောင့် အလွန်ထိရောက်ခဲ့သည်။ preinference အလုပ်ကို တစ်ကြိမ်သာ လုပ်ပြီး tool execution အတွက် pause လုပ်ကာ postinference အလုပ်ကို အဆုံးတွင် တစ်ကြိမ်သာ လုပ်နိုင်ခဲ့သည်။
သို့သော် ၎င်းအတွက် ပေးဆပ်ရသည်မှာ ပိုမို မရင်းနှီးသေးသော၊ ပိုမို ရှုပ်ထွေးသော API shape ဖြစ်လာခြင်းဖြစ်သည်။ Developers များအနေဖြင့် interaction mode အသစ်တစ်ခုအတွက် API integration ကို အပြည့်အဝ ပြန်မရေးဘဲ WebSocket support ကို တိုက်ရိုက် ထည့်သွင်းနိုင်စေရန် ကျွန်ုပ်တို့ လိုလားခဲ့သည်။
ကျွန်ုပ်တို့ launch လုပ်ခဲ့သော version တွင် ရင်းနှီးသော shape သို့ ပြန်လည်ပြောင်းခဲ့သည်။ တူညီသော body ဖြင့် response.create ကို ဆက်လက် အသုံးပြုပြီး ယခင် response ၏ state မှ conversation context ကို ဆက်လက်အသုံးပြုရန် previous_response_id ကို သုံးသည်။
WebSocket connection တစ်ခုအပေါ်တွင် server သည် connection-scoped in-memory cache တစ်ခုအဖြစ် ယခင် response state ကို သိမ်းဆည်းထားသည်။ follow-up response.create တွင် previous_response_id ပါလာသောအခါ full conversation ကို အစမှ ပြန်တည်ဆောက်မည့်အစား ထို state ကို cache မှ ယူသုံးသည်။
ထို cached state တွင် အောက်ပါတို့ ပါဝင်သည်။
- ယခင်
responseobject - ယခင် input နှင့် output items များ
- Tool definitions နှင့် namespaces
- ယခင် render လုပ်ထားသော တိုကင်များကဲ့သို့ ပြန်လည်အသုံးပြုနိုင်သော sampling artifacts များ

In-memory ယခင် response state ကို ပြန်လည်အသုံးပြုခြင်းဖြင့် အရေးကြီးသော optimizations အများအပြားကို ကျွန်ုပ်တို့ ထည့်သွင်းနိုင်ခဲ့သည်။
- safety classifiers နှင့် request validators အချို့ကို full history တစ်ခုလုံးမဟုတ်ဘဲ input အသစ်များပေါ်တွင်သာ process လုပ်စေခြင်း
- မလိုအပ်သော တိုကင်လုပ်ခြင်းကို ကျော်နိုင်ရန် append လုပ်သွားနိုင်သော rendered tokens များအတွက် in-memory cache ကို ထိန်းထားခြင်း
- အောင်မြင်ခဲ့သော model resolution/routing logic ကို requests များအကြား ပြန်လည်အသုံးပြုခြင်း
- billing ကဲ့သို့ block မလုပ်သော postinference အလုပ်များကို နောက်ဆက်တွဲ requests များနှင့် overlap လုပ်ခြင်း
ရည်မှန်းချက်မှာ developers များ နားလည်ပြီးသား၊ အခြေခံပြီး တည်ဆောက်ထားပြီးသား API shape ကို ထိန်းသိမ်းထားစဉ် minimal-overhead prototype နှင့် အတတ်နိုင်ဆုံး နီးကပ်အောင် ဆောင်ရွက်ရန် ဖြစ်သည်။
WebSocket mode ကို တည်ဆောက်ရန် နှစ်လကြာ sprint တစ်ခုအပြီးတွင် coding agent startup များနှင့် alpha ကို launch လုပ်ခဲ့ပြီး ၎င်းတို့ infrastructure ထဲသို့ integrate လုပ်ကာ traffic ကို ဘေးကင်းစွာ တိုးမြှင့်နိုင်ရန် ခွင့်ပြုခဲ့သည်။ Alpha users များက ၎င်းကို အလွန် နှစ်သက်ကြပြီး ၎င်းတို့၏ agentic workflows တွင် 40% အထိ တိုးတက်မှု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ရရှိကြောင်း အစီရင်ခံခဲ့သည်။ အပြုသဘောဆောင်သော alpha feedback ကြောင့် launch လုပ်ရန် ကျွန်ုပ်တို့ အဆင်သင့်ဖြစ်ခဲ့သည်။
Launch ရလဒ်များသည် ချက်ချင်း ပေါ်ထွက်လာခဲ့သည်။ Codex သည် ၎င်းတို့၏ Responses API traffic အများစုကို WebSocket mode ပေါ်သို့ လျင်မြန်စွာ ပြောင်းရွှေ့ခဲ့ပြီး latency တိုးတက်မှု သိသိသာသာကို တွေ့မြင်ခဲ့သည်။ GPT‑5.3‑Codex‑Spark အတွက် ကျွန်ုပ်တို့၏ 1,000 TPS ရည်မှန်းချက်ကို ရရှိခဲ့ပြီး 4,000 TPS အထိ bursts များကိုလည်း တွေ့ခဲ့ရသည်။ ထို့ကြောင့် Responses API သည် အမှန်တကယ် production traffic တွင် ပိုမိုမြန်သော inference ကို လိုက်မီနိုင်ကြောင်း ပြသခဲ့သည်။ သက်ရောက်မှုသည် developer community ထဲတွင်လည်း လျင်မြန်စွာ ပေါ်လွင်လာခဲ့သည်။
- Codex သည် ၎င်းတို့၏ traffic အများစုကို WebSockets ပေါ်သို့ လျင်မြန်စွာ ပြောင်းရွှေ့ခဲ့သည်။ GPT‑5.3‑Codex(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်), GPT‑5.4(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် ထို့ထက် နောက်ဆုံးပေါ် မော်ဒယ်များကို run လုပ်နေသော Codex users များအားလုံး WebSocket mode ၏ မြန်နှုန်းမြှင့်တင်မှုမှ အကျိုးရရှိကြသည်။
- Vercel သည် WebSocket mode ကို AI SDK ထဲသို့ integrate လုပ်ခဲ့ပြီး latency သည် 40% အထိ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) လျော့နည်းသွားသည်။
- Cline ၏ multi-file workflows များသည် 39% ပိုမြန်လာသည်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)။
- Cursor ထဲရှိ OpenAI မော်ဒယ်များသည် 30% အထိ ပိုမြန်လာသည်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)။
WebSocket mode သည် 2025 ခုနှစ် မတ်လတွင် launch လုပ်ပြီးနောက် Responses API တွင် အရေးပါဆုံး စွမ်းရည်အသစ်များထဲမှ တစ်ခုဖြစ်သည်။ ကျွန်ုပ်တို့သည် OpenAI ၏ API နှင့် Codex teams များအကြား နီးကပ်သော ပူးပေါင်းဆောင်ရွက်မှုကြောင့် ရက်သတ္တပတ် အနည်းငယ်အတွင်း idea မှ production တွင် run နေသည့် အဆင့်သို့ ရောက်ရှိခဲ့သည်။ ၎င်းသည် agent rollout latency ကို သိသိသာသာ တိုးတက်စေရုံသာမက builders များအတွက် ကြီးထွားလာနေသော လိုအပ်ချက်တစ်ခုကိုလည်း ပံ့ပိုးပေးသည်။ model inference ပိုမိုမြန်လာသည်နှင့်အမျှ inference ကို ဝန်းရံထားသော services နှင့် systems များသည်လည်း ထိုတိုးတက်မှုများကို အသုံးပြုသူများထံ လွှဲပြောင်းပေးနိုင်ရန် ပိုမိုမြန်ဆန်လာရမည်ဖြစ်သည်။
ရေးသားသူများ
Brian Yuနှင့် Ashwin Nathan
ကျေးဇူးတင်လွှာ
WebSocket mode ကို ဖန်တီးရာတွင် လုပ်ဆောင်ခဲ့သော Responses API နှင့် Codex teams များအား အထူးကျေးဇူးတင်ရှိပါသည်။


