၂၀၂၅ မတ် ၁၁

New tools for building agents

A sleek, minimal interface displaying a task list for an AI agent, including ‘triage_agent,’ ‘guardrail,’ and ‘update_salesforce_record,’ over a fluid blue abstract background.

ယနေ့တွင် ဖွံ့ဖြိုးသူများနှင့် လုပ်ငန်းအဖွဲ့အစည်းများက အသုံးဝင်ပြီး ယုံကြည်စိတ်ချရသော အေးဂျင့်များကို တည်ဆောက်နိုင်ရန် အထောက်အကူပြုမည့် အခြေခံ building block များ၏ ပထမဆုံးအစုံကို ကျွန်ုပ်တို့ ထုတ်ပြန်လိုက်ပါသည်။ ကျွန်ုပ်တို့သည် အေးဂျင့်များကို သုံးစွဲသူများကိုယ်စား တာဝန်များကို လွတ်လပ်စွာ ဆောင်ရွက်နိုင်သော စနစ်များအဖြစ် သတ်မှတ်ကြည့်ရှုပါသည်။ လွန်ခဲ့သော တစ်နှစ်အတွင်း ကျွန်ုပ်တို့သည် အဆင့်မြင့် ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်များ၊ multimodal အပြန်အလှန်ဆက်သွယ်မှုများနှင့် လုံခြုံရေးနည်းပညာအသစ်များကဲ့သို့သော မော်ဒယ် စွမ်းဆောင်ရည်အသစ်များကို မိတ်ဆက်ပေးခဲ့ပြီး ၎င်းတို့သည် အေးဂျင့်များ တည်ဆောက်ရန် လိုအပ်သည့် ရှုပ်ထွေးပြီး အဆင့်များစွာပါသော တာဝန်များကို ကိုင်တွယ်နိုင်ရန် ကျွန်ုပ်တို့၏ မော်ဒယ်များအတွက် အခြေခံအုတ်မြစ် ချထားပေးခဲ့သည်။ သို့သော် သုံးစွဲသူများက ဤစွမ်းဆောင်ရည်များကို production-ready အေးဂျင့်များအဖြစ် ပြောင်းလဲရာတွင် ခက်ခဲနိုင်ကြောင်း မျှဝေခဲ့ပြီး၊ ၎င်းသည် လုံလောက်သော မြင်နိုင်စွမ်း သို့မဟုတ် built-in ပံ့ပိုးမှုမရှိဘဲ အကြိမ်ကြိမ် prompt ပြင်ဆင်ခြင်းနှင့် custom orchestration logic များကို များစွာလိုအပ်စေတတ်ပါသည်။

ဤစိန်ခေါ်မှုများကို ဖြေရှင်းရန် agentic application များ ဖွံ့ဖြိုးတည်ဆောက်မှုကို ရိုးရှင်းစေရန် အထူးဒီဇိုင်းထုတ်ထားသော API များနှင့် tool များ၏ အစုံအသစ်ကို ကျွန်ုပ်တို့ မိတ်ဆက်လိုက်ပါသည်:

အေးဂျင့်များ တည်ဆောက်ရန်အတွက် စကားပြောပြီးဆုံးခြင်း API ၏ ရိုးရှင်းမှုနှင့် Assistants API ၏ tool အသုံးပြုနိုင်စွမ်းကို ပေါင်းစပ်ထားသော Responses API⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အသစ်
web search⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)၊ file search⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် computer use⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အပါအဝင် built-in tool များ
single-agent နှင့် multi-agent workflow များကို orchestration လုပ်ရန် Agents SDK⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အသစ်
အေးဂျင့် workflow execution ကို trace လုပ်ပြီး စစ်ဆေးနိုင်ရန် ပေါင်းစည်းထားသော observability tool များ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)

ဤ tool အသစ်များသည် အေးဂျင့်၏ အဓိက logic၊ orchestration နှင့် အပြန်အလှန်လုပ်ဆောင်မှုများကို ရိုးရှင်းစေပြီး ဖွံ့ဖြိုးသူများအနေဖြင့် အေးဂျင့်များ တည်ဆောက်ရန် စတင်ရန် များစွာ လွယ်ကူစေပါသည်။ လာမည့် သီတင်းပတ်များနှင့် လများအတွင်း ကျွန်ုပ်တို့၏ platform ပေါ်တွင် agentic application များ တည်ဆောက်ခြင်းကို ပိုမိုရိုးရှင်းစေပြီး အရှိန်မြှင့်တင်နိုင်ရန် နောက်ထပ် tool များနှင့် စွမ်းဆောင်ရည်များကို ဆက်လက် ထုတ်ပြန်သွားရန် စီစဉ်ထားပါသည်။

Responses API ကို မိတ်ဆက်ခြင်း

Responses API သည် OpenAI ၏ built-in tool များကို အသုံးချပြီး အေးဂျင့်များ တည်ဆောက်ရန်အတွက် ကျွန်ုပ်တို့၏ API primitive အသစ်ဖြစ်ပါသည်။ ၎င်းသည် Chat Completions ၏ ရိုးရှင်းမှုနှင့် Assistants API ၏ tool-use စွမ်းဆောင်ရည်များကို ပေါင်းစပ်ထားပါသည်။ မော်ဒယ် စွမ်းဆောင်ရည်များ ဆက်လက်တိုးတက်လာသည်နှင့်အမျှ Responses API သည် agentic application များ တည်ဆောက်နေသော ဖွံ့ဖြိုးသူများအတွက် ပိုမိုပြောင်းလွယ်ပြင်လွယ်ရှိသော အခြေခံအုတ်မြစ်တစ်ခုကို ပေးမည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။ Responses API call တစ်ကြိမ်တည်းဖြင့် ဖွံ့ဖြိုးသူများသည် tool အများအပြားနှင့် model turn အများအပြားကို အသုံးပြုကာ ပိုမိုရှုပ်ထွေးလာသော task များကို ဖြေရှင်းနိုင်မည်ဖြစ်သည်။

အစပိုင်းတွင် Responses API သည် web search၊ file search နှင့် computer use ကဲ့သို့သော built-in tool အသစ်များကို ပံ့ပိုးပေးမည်ဖြစ်သည်။ ဤ tool များကို မော်ဒယ်များအား လက်တွေ့ကမ္ဘာနှင့် ချိတ်ဆက်ပေးပြီး task များ ပြီးမြောက်အောင် ဆောင်ရွက်ရာတွင် ပိုမိုအသုံးဝင်စေရန် အတူတကွ အလုပ်လုပ်နိုင်အောင် ဒီဇိုင်းထုတ်ထားပါသည်။ ထို့အပြင် unified item-based design၊ ပိုမိုရိုးရှင်းသော polymorphism၊ နားလည်ရလွယ်ကူသော streaming event များနှင့် မော်ဒယ်၏ text output ကို လွယ်ကူစွာ ရယူနိုင်ရန် response.output_text ကဲ့သို့ SDK helper များအပါအဝင် အသုံးပြုရလွယ်ကူမှု တိုးတက်ကောင်းမွန်မှုများစွာကိုလည်း ယူဆောင်လာပါသည်။

Responses API သည် OpenAI မော်ဒယ်များနှင့် built-in tool များကို ၎င်းတို့၏ app များထဲတွင် လွယ်ကူစွာ ပေါင်းစည်းလိုသည့် ဖွံ့ဖြိုးသူများအတွက် ဒီဇိုင်းထုတ်ထားခြင်းဖြစ်ပြီး API များစွာ သို့မဟုတ် external vendor များကို ပေါင်းစည်းရသည့် ရှုပ်ထွေးမှု မလိုအပ်ပါ။ ထို့အပြင် tracing နှင့် evaluations ကဲ့သို့သော အင်္ဂါရပ်များကို အသုံးပြု၍ အေးဂျင့် performance ကို အကဲဖြတ်နိုင်ရန် OpenAI ပေါ်တွင် data သိမ်းဆည်းခြင်းကိုလည်း API က ပိုမိုလွယ်ကူစေပါသည်။ သတိပေးလိုသည်မှာ data ကို OpenAI ပေါ်တွင် သိမ်းဆည်းထားသော်လည်း ပုံမှန်အားဖြင့် ကျွန်ုပ်တို့သည် စီးပွားရေး data ပေါ်တွင် ကျွန်ုပ်တို့၏ မော်ဒယ်များကို မလေ့ကျင့်ပါ။ API ကို ယနေ့မှစ၍ developer အားလုံးအတွက် အသုံးပြုနိုင်ပြီး သီးခြားကြေးကောက်ခံမည် မဟုတ်ပါ—token နှင့် tool များကို ကျွန်ုပ်တို့၏ pricing page⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် သတ်မှတ်ထားသော ပုံမှန်နှုန်းထားများအတိုင်း ကောက်ခံမည်ဖြစ်သည်။ ပိုမိုသိရှိရန် Responses API quickstart guide⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။

ရှိပြီးသား API များအတွက် အဓိပ္ပာယ်ရှိသည်များ

Chat Completions API⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်): Chat Completions သည် ယခုထိ ကျွန်ုပ်တို့၏ အကျယ်ပြန့်ဆုံး လက်ခံအသုံးပြုခံရသည့် API ဖြစ်ဆဲဖြစ်ပြီး မော်ဒယ်အသစ်များနှင့် စွမ်းဆောင်ရည်အသစ်များဖြင့် ၎င်းကို ဆက်လက်ပံ့ပိုးပေးရန် ကျွန်ုပ်တို့ အပြည့်အဝ ကတိပြုထားပါသည်။ built-in tool များ မလိုအပ်သော ဖွံ့ဖြိုးသူများသည် Chat Completions ကို ယုံကြည်စိတ်ချစွာ ဆက်လက် အသုံးပြုနိုင်ပါသည်။ ၎င်းတို့၏ စွမ်းဆောင်ရည်များသည် built-in tool များ သို့မဟုတ် မော်ဒယ်ခေါ်ဆိုမှုများစွာအပေါ် မမူတည်သရွေ့ Chat Completions သို့ မော်ဒယ်အသစ်များကို ကျွန်ုပ်တို့ ဆက်လက် ထုတ်ပြန်ပေးသွားမည်ဖြစ်သည်။ သို့သော် Responses API သည် တူညီသော အလွန်ကောင်းမွန်သည့် စွမ်းဆောင်ရည်နှင့်အတူ Chat Completions ၏ ပိုမိုပြည့်စုံသောဗားရှင်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ဖြစ်သောကြောင့် integration အသစ်များအတွက် Responses API ဖြင့် စတင်ရန် ကျွန်ုပ်တို့ အကြံပြုပါသည်။
Assistants API⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်): Assistants API beta အပေါ် ဖွံ့ဖြိုးသူများ၏ တုံ့ပြန်ချက်အပေါ် အခြေခံ၍ Responses API ထဲသို့ အဓိက တိုးတက်ကောင်းမွန်မှုများကို ကျွန်ုပ်တို့ ထည့်သွင်းထားပြီး ၎င်းကို ပိုမိုပြောင်းလွယ်ပြင်လွယ်ရှိစေကာ ပိုမိုမြန်ဆန်၍ အသုံးပြုရ ပိုမိုလွယ်ကူစေပါသည်။ Assistant ကဲ့သို့ object များနှင့် Thread ကဲ့သို့ object များအတွက် ပံ့ပိုးမှု၊ Code Interpreter tool တို့အပါအဝင် Assistants နှင့် Responses API တို့အကြား အင်္ဂါရပ်အပြည့်အစုံ တူညီမှု ရရှိစေရန် ကျွန်ုပ်တို့ လုပ်ဆောင်နေပါသည်။ ယင်းပြီးစီးသွားပါက 2026 နှစ်လယ်ခန့်ကို ရည်မှန်းထားသော sunset date နှင့်အတူ Assistants API ကို အသုံးမပြုတော့မည့်အကြောင်း တရားဝင် ကြေညာရန် ကျွန်ုပ်တို့ စီစဉ်ထားပါသည်။ အသုံးမပြုတော့မီတွင် ဖွံ့ဖြိုးသူများသည် ၎င်းတို့၏ data အားလုံးကို ထိန်းသိမ်းနိုင်ပြီး application များကို ရွှေ့ပြောင်းနိုင်ရန် Assistants API မှ Responses API သို့ ရှင်းလင်းသော migration guide တစ်ခုကို ကျွန်ုပ်တို့ ပံ့ပိုးပေးမည်ဖြစ်သည်။ အသုံးမပြုတော့မည့်အကြောင်းကို တရားဝင် မကြေညာမီအထိ Assistants API သို့ မော်ဒယ်အသစ်များကို ကျွန်ုပ်တို့ ဆက်လက် ပေးပို့သွားမည်ဖြစ်သည်။ Responses API သည် OpenAI တွင် အေးဂျင့်များ တည်ဆောက်ခြင်းအတွက် အနာဂတ်ဦးတည်ချက်ကို ကိုယ်စားပြုပါသည်။

Responses API အတွင်း built-in tool များကို မိတ်ဆက်ခြင်း

ဝဘ်ရှာဖွေမှု

ယခုအခါ ဖွံ့ဖြိုးသူများသည် ဝဘ်မှ ရှင်းလင်းပြီး သက်ဆိုင်ရာ citation များပါဝင်သော လျင်မြန်ပြီး နောက်ဆုံးပေါ် အဖြေများကို ရယူနိုင်ပြီဖြစ်သည်။ Responses API တွင် gpt-4o နှင့် gpt-4o-mini ကို အသုံးပြုသည့်အခါ web search ကို tool အဖြစ် အသုံးပြုနိုင်ပြီး အခြား tool များ သို့မဟုတ် function call များနှင့် တွဲဖက်အသုံးပြုနိုင်ပါသည်။

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

အစောပိုင်း စမ်းသပ်မှုအတွင်း shopping assistant များ၊ research အေးဂျင့်များနှင့် travel booking အေးဂျင့်များအပါအဝင် အသုံးချပုံအမျိုးမျိုးအတွက် ဖွံ့ဖြိုးသူများသည် web search ဖြင့် တည်ဆောက်နေသည်ကို ကျွန်ုပ်တို့ တွေ့မြင်ခဲ့ရပါသည်—ဝဘ်မှ အချိန်နှင့်တပြေးညီ အချက်အလက်လိုအပ်သော application မျိုးမဆိုအတွက် ဖြစ်ပါသည်။

ဥပမာအားဖြင့် Hebbia⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် asset manager များ၊ private equity နှင့် credit firm များ၊ law practice များကို အများပြည်သူနှင့် ကိုယ်ပိုင် dataset အများအပြားထံမှ လက်တွေ့အသုံးချနိုင်သော insight များကို လျင်မြန်စွာ ထုတ်ယူနိုင်ရန် web search tool ကို အသုံးချပါသည်။ ၎င်းတို့၏ research workflow များထဲသို့ real-time search စွမ်းရည်များကို ပေါင်းစည်းခြင်းအားဖြင့် Hebbia သည် ပိုမိုကြွယ်ဝပြီး context-specific ဖြစ်သော market intelligence ကို ပေးစွမ်းကာ ၎င်းတို့၏ analysis များ၏ တိကျမှုနှင့် သက်ဆိုင်မှုကို ဆက်လက်တိုးတက်စေပြီး လက်ရှိ benchmark များထက် ပိုမိုကောင်းမွန်သော ရလဒ်များ ရရှိစေပါသည်။

API အတွင်း web search ကို ChatGPT search တွင် အသုံးပြုသည့် မော်ဒယ်တူညီသည့် စွမ်းအားဖြင့် လုပ်ဆောင်ပါသည်။ LLM များက short factual question များကို ဖြေဆိုရာတွင် တိကျမှုကို အကဲဖြတ်သော benchmark တစ်ခုဖြစ်သည့် SimpleQA တွင် GPT‑4o search preview နှင့် GPT‑4o mini search preview တို့သည် သက်ဆိုင်ရာ 90% နှင့် 88% ရရှိပါသည်။

SimpleQA Accuracy (မြင့်လေလေ ပိုကောင်းလေ)

API အတွင်း web search ဖြင့် ထုတ်ပေးသော response များတွင် news article များနှင့် blog post များကဲ့သို့သော source link များ ပါဝင်ပြီး သုံးစွဲသူများကို ပိုမိုလေ့လာနိုင်မည့် နည်းလမ်းတစ်ခု ပေးပါသည်။ ဤရှင်းလင်းသော inline citation များဖြင့် သုံးစွဲသူများသည် အချက်အလက်များနှင့် နည်းလမ်းသစ်တစ်ရပ်ဖြင့် ထိတွေ့ဆက်ဆံနိုင်ပြီး content owner များအတွက်လည်း ပိုမိုကျယ်ပြန့်သော audience ထံ ရောက်ရှိနိုင်မည့် အခွင့်အလမ်းသစ်များ ရရှိစေပါသည်။

မည်သည့် website သို့မဟုတ် publisher မဆို API အတွင်း web search တွင် ပေါ်လာရန် ရွေးချယ်နိုင်သည်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)။

web search tool ကို Responses API တွင် developer အားလုံးအတွက် preview အဖြစ် အသုံးပြုနိုင်ပါသည်။ ထို့အပြင် Chat Completions API တွင် gpt-4o-search-preview နှင့် gpt-4o-mini-search-preview မှတစ်ဆင့် fine-tuned search model များကိုလည်း developer များအား တိုက်ရိုက် အသုံးပြုခွင့် ပေးနေပါသည်။ စျေးနှုန်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် GPT‑4o search နှင့် 4o-mini search အတွက် query တစ်ထောင်လျှင် သက်ဆိုင်ရာ $30 နှင့် $25 မှ စတင်ပါသည်။ Playground⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် web search ကို စမ်းသပ်ကြည့်ရှုပြီး ကျွန်ုပ်တို့၏ docs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ပိုမိုလေ့လာနိုင်ပါသည်။

ဖိုင်ရှာဖွေမှု

ယခုအခါ ဖွံ့ဖြိုးသူများသည် ပိုမိုကောင်းမွန်လာသော file search tool ကို အသုံးပြု၍ စာရွက်စာတမ်းပမာဏ အများအပြားမှ သက်ဆိုင်ရာအချက်အလက်များကို လွယ်ကူစွာ ပြန်လည်ရယူနိုင်ပါသည်။ file type အမျိုးအစားများစွာကို ပံ့ပိုးနိုင်ခြင်း၊ query optimization၊ metadata filtering နှင့် custom reranking တို့ကို ပံ့ပိုးပေးထားသဖြင့် ၎င်းသည် လျင်မြန်ပြီး တိကျသော ရှာဖွေမှုရလဒ်များကို ပေးစွမ်းနိုင်ပါသည်။ ထို့အပြင် Responses API ဖြင့် ပေါင်းစည်းအသုံးပြုရန် code အကြောင်းအရာ အနည်းငယ်သာ လိုအပ်ပါသည်။

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

file search tool ကို customer support အေးဂျင့်တစ်ဦးက FAQ များကို လွယ်ကူစွာ ရယူအသုံးပြုနိုင်စေရန်၊ ဥပဒေရေးရာ assistant တစ်ဦးက အရည်အချင်းပြည့်ဝသော professional တစ်ဦးအတွက် အတိတ် case များကို လျင်မြန်စွာ ကိုးကားနိုင်စေရန် ကူညီပေးခြင်းနှင့် coding အေးဂျင့်တစ်ခုက technical documentation ကို query လုပ်နိုင်စေရန် ပံ့ပိုးပေးခြင်းအပါအဝင် လက်တွေ့ကမ္ဘာ အသုံးချပုံအမျိုးမျိုးအတွက် အသုံးပြုနိုင်ပါသည်။ ဥပမာအားဖြင့် Navan⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် ၎င်း၏ AI-powered travel agent တွင် file search ကို အသုံးပြုကာ knowledge-base article များမှ (ဥပမာ ၎င်းတို့၏ company travel policy) သုံးစွဲသူများအား တိကျသော အဖြေများကို လျင်မြန်စွာ ပေးပါသည်။ built-in query optimization နှင့် reranking တို့ဖြင့် ၎င်းတို့သည် အပို tuning သို့မဟုတ် configuration မလိုဘဲ အားကောင်းသော RAG (retrieval-augmented generation) pipeline တစ်ခုကို တည်ဆောက်နိုင်ပါသည်။ user group တစ်ခုချင်းစီအတွက် သီးသန့် vector store များဖြင့် Navan သည် account setting နှင့် user role တစ်ဦးချင်းစီအလိုက် အဖြေများကို ညှိနှိုင်းပေးနိုင်ပြီး သုံးစွဲသူများနှင့် ၎င်းတို့၏ ဝန်ထမ်းများအတွက် အချိန်ကုန်သက်သာစေသည့်အပြင် တိကျပြီး personalized support ကို ပေးနိုင်ရန် ကူညီပေးပါသည်။

ဤ tool ကို Responses API တွင် developer အားလုံးအတွက် အသုံးပြုနိုင်ပါသည်။ အသုံးပြုမှု စျေးနှုန်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် query တစ်ထောင်လျှင် $2.50 ဖြစ်ပြီး file storage သည် $0.10/GB/day ဖြစ်ကာ ပထမဆုံး GB ကို အခမဲ့ ပေးပါသည်။ ဤ tool ကို Assistants API တွင်လည်း ဆက်လက် အသုံးပြုနိုင်ပါသည်။ နောက်ဆုံးအနေဖြင့် အခြား application များနှင့် API များတွင် အသုံးပြုရန် သင့် data ကို တိုက်ရိုက် query လုပ်နိုင်ရန် Vector Store API object များအတွက် search အဆုံးမှတ် အသစ်တစ်ခုကိုလည်း ကျွန်ုပ်တို့ ထည့်သွင်းထားပါသည်။ ပိုမိုသိရှိရန် ကျွန်ုပ်တို့၏ docs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ရှုပြီး Playground⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် စတင်စမ်းသပ်ပါ။

ကွန်ပျူတာ အသုံးပြုမှု

ကွန်ပျူတာတစ်လုံးပေါ်တွင် တာဝန်များ ပြီးမြောက်အောင် ဆောင်ရွက်နိုင်သည့် အေးဂျင့်များကို တည်ဆောက်ရန် ယခုအခါ ဖွံ့ဖြိုးသူများသည် Computer-Using Agent (CUA) model တူညီသည့် စွမ်းအားဖြင့် လုပ်ဆောင်သော Responses API အတွင်းရှိ computer use tool ကို အသုံးပြုနိုင်ပါသည်၊ ၎င်းမော်ဒယ်က Operator ကိုလည်း လုပ်ဆောင်နိုင်စေပါသည်။ ဤ research preview မော်ဒယ်သည် အကောင်းဆုံးစံချိန်သစ်တစ်ခုကို တင်ထားပြီး computer use task အပြည့်အစုံအတွက် OSWorld⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် 38.1%၊ WebArena⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် 58.1% နှင့် web အခြေပြု interaction များအတွက် WebVoyager⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် 87% အောင်မြင်မှု ရရှိခဲ့ပါသည်။

built-in computer use tool သည် မော်ဒယ်မှ ထုတ်လုပ်လိုက်သော mouse နှင့် keyboard လုပ်ဆောင်ချက်များကို ဖမ်းယူထားသောကြောင့် ဖွံ့ဖြိုးသူများအနေဖြင့် ယင်းလုပ်ဆောင်ချက်များကို ၎င်းတို့၏ environment များအတွင်း အကောင်အထည်ဖော်နိုင်သော command များအဖြစ် တိုက်ရိုက် ဘာသာပြန်ခြင်းဖြင့် computer use task များကို အလိုအလျောက်လုပ်ဆောင်နိုင်စေပါသည်။

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

ဖွံ့ဖြိုးသူများသည် browser အခြေပြု workflow များဖြစ်သည့် web app များတွင် quality assurance လုပ်ဆောင်ခြင်း သို့မဟုတ် legacy system များအနှံ့ data-entry တာဝန်များကို ဆောင်ရွက်ခြင်းတို့ကို အလိုအလျောက်လုပ်ဆောင်ရန် computer use tool ကို အသုံးပြုနိုင်ပါသည်။ ဥပမာအားဖြင့် Unify⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် ဝင်ငွေတိုးတက်စေရန် ရည်ရွယ်သည့် လုပ်ဆောင်ချက်စနစ်တစ်ခုဖြစ်ပြီး intent ကို ဖော်ထုတ်ရန်၊ account များကို သုတေသနလုပ်ရန်နှင့် ဝယ်ယူသူများနှင့် ထိတွေ့ဆက်ဆံရန် အေးဂျင့်များကို အသုံးပြုပါသည်။ OpenAI ၏ computer use tool ကို အသုံးပြုခြင်းဖြင့် Unify ၏ အေးဂျင့်များသည် ယခင်က API များမှတစ်ဆင့် မရောက်ရှိနိုင်ခဲ့သော အချက်အလက်များကို ရယူနိုင်ပါသည်—ဥပမာ property management company တစ်ခုအတွက် လုပ်ငန်းတစ်ခုက online map များမှတစ်ဆင့် ၎င်း၏ အိမ်ခြံမြေ အသုံးပြုနယ်ပယ်ကို တိုးချဲ့ထားခြင်း ရှိမရှိ စစ်ဆေးနိုင်စေခြင်းကဲ့သို့ဖြစ်သည်။ ဤသုတေသနသည် personalized outreach ကို စတင်စေသည့် custom signal အဖြစ် လုပ်ဆောင်ပြီး—ဈေးကွက်ဗျူဟာ အဖွဲ့များအား ဝယ်ယူသူများနှင့် တိကျမှုနှင့် scale တို့ဖြင့် ထိတွေ့ဆက်ဆံနိုင်စေရန် အားဖြည့်ပေးပါသည်။

နောက်ထပ်ဥပမာတစ်ခုအနေဖြင့် Luminai⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် API ရရှိနိုင်မှုနှင့် standardized data မရှိသော legacy system များရှိ ကြီးမားသော လုပ်ငန်းများအတွက် ရှုပ်ထွေးသည့် operational workflow များကို အလိုအလျောက်လုပ်ဆောင်ရန် computer use tool ကို ပေါင်းစည်းအသုံးပြုခဲ့သည်။ မကြာသေးမီက ကြီးမားသော community service organization တစ်ခုနှင့် ပြုလုပ်ခဲ့သော pilot တွင် Luminai သည် application processing နှင့် user enrollment process ကို ရက်အနည်းငယ်အတွင်း အလိုအလျောက်လုပ်ဆောင်နိုင်ခဲ့သည်—ယင်းသည် ရိုးရာ robotic process automation (RPA) က လပေါင်းများစွာ ကြိုးပမ်းခဲ့ပြီးနောက်တောင် အောင်မြင်ရန် ခက်ခဲခဲ့သောအရာတစ်ခုဖြစ်သည်။

မနှစ်က Operator တွင် CUA ကို မိတ်ဆက်မည့်အချိန်မတိုင်မီ ကျွန်ုပ်တို့သည် misuse၊ မော်ဒယ် အမှားများနှင့် ရှေ့ပြေးအန္တရာယ်များ ဟူသော အန္တရာယ်အဓိက ဧရိယာသုံးခုကို ကိုင်တွယ်ဖြေရှင်းရန် အကျယ်တဝင့် လုံခြုံရေးစမ်းသပ်မှုများနှင့် ထိုးဖောက်စမ်းသပ်ခြင်းများကို ဆောင်ရွက်ခဲ့ပါသည်။ API အတွင်းရှိ CUA မှတစ်ဆင့် Operator ၏ စွမ်းဆောင်ရည်များကို local operating system များထံ တိုးချဲ့ခြင်းနှင့် ဆက်စပ်သော အန္တရာယ်များကို ဖြေရှင်းရန် ကျွန်ုပ်တို့သည် နောက်ထပ် လုံခြုံရေးအကဲဖြတ်မှုများနှင့် ထိုးဖောက်စမ်းသပ်ခြင်းများကို ပြုလုပ်ခဲ့သည်။ ထို့အပြင် မကောင်းသော တုံ့ပြန်ညွှန်ကြားချက်များ ထည့်သွင်းခြင်းကို ကာကွယ်ရန် safety check များ၊ sensitive task များအတွက် confirmation prompt များ၊ ဖွံ့ဖြိုးသူများ၏ environment များကို သီးခြားခွဲထားနိုင်ရန် ကိရိယာများနှင့် မူဝါဒချိုးဖောက်နိုင်ခြေရှိမှုကို ပိုမိုကောင်းမွန်စွာ ရှာဖွေသိရှိနိုင်မှုတို့ အပါအဝင် ဖွံ့ဖြိုးသူများအတွက် mitigation များကိုလည်း ထည့်သွင်းပေးခဲ့သည်။ ဤ mitigation များက အန္တရာယ်ကို လျှော့ချရာတွင် အထောက်အကူပြုသော်လည်း မော်ဒယ်သည် အထူးသဖြင့် non-browser environment များတွင် မတော်တဆ အမှားများ ပြုလုပ်နိုင်ခြေရှိနေဆဲ ဖြစ်သည်။ ဥပမာအားဖြင့် AI အေးဂျင့်များ၏ လက်တွေ့ကမ္ဘာ့ တာဝန်များတွင် စွမ်းဆောင်ရည်ကို တိုင်းတာရန် ရည်ရွယ်သည့် benchmark တစ်ခုဖြစ်သော OSWorld ပေါ်တွင် CUA ၏ စွမ်းဆောင်ရည်သည် လက်ရှိ 38.1% သာရှိနေပြီး operating system များပေါ်ရှိ task များကို အလိုအလျောက်လုပ်ဆောင်ရာတွင် မော်ဒယ်သည် ယခုအချိန်အထိ အလွန်ယုံကြည်စိတ်ချရခြင်း မရှိသေးကြောင်း ဖော်ပြနေပါသည်။ ဤအခြေအနေများတွင် လူ့ကြီးကြပ်မှုကို အကြံပြုပါသည်။ API အတွက် သီးသန့် လုံခြုံရေးလုပ်ငန်းများအကြောင်း အသေးစိတ်ကို ကျွန်ုပ်တို့၏ အပ်ဒိတ်လုပ်ထားသော စနစ်ကဒ် တွင် ဖတ်ရှုနိုင်ပါသည်။

စံနှုန်းအမျိုးအစား	စမ်းသပ်မှု	ကွန်ပျူတာ အသုံးပြုမှု (အထွေထွေ အင်တာဖေ့စ်)		ဝဘ်ရှာဖွေကြည့်ရှုရေး အေးဂျင့်များ	လူသား
		OpenAI CUA	ယခင် SOTA	ယခင် SOTA
ကွန်ပျူတာ အသုံးပြုမှု	OSWorld	၃၈.၁%	၂၂.၀%	-	၇၂.၄%
ဘရောက်ဇာ အသုံးပြုမှု	WebArena	၅၈.၁%	၃၆.၂%	၅၇.၁%	၇၈.၂%
ဘရောက်ဇာ အသုံးပြုမှု	WebVoyager	၈၇.၀%	၅၆.၀%	၈၇.၀%	-

အကဲဖြတ်မှု အသေးစိတ်အချက်အလက်များကို ဤနေရာတွင်ဖော်ပြထားသည်

ယနေ့မှစ၍ computer use tool ကို usage tier 3-5⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ရှိ ရွေးချယ်ထားသော ဖွံ့ဖြိုးသူများအတွက် Responses API တွင် research preview အဖြစ် အသုံးပြုနိုင်ပါသည်။ အသုံးပြုမှု စျေးနှုန်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် input token 1M လျှင် $3 နှင့် output token 1M လျှင် $12 ဖြစ်ပါသည်။ ဤ tool ဖြင့် မည်သို့တည်ဆောက်ရမည်ကို ပြသထားသော sample application⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ရှုပြီး ကျွန်ုပ်တို့၏ docs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ပိုမိုလေ့လာနိုင်ပါသည်။

Agents SDK

အေးဂျင့်များ၏ အဓိက logic ကို တည်ဆောက်ပြီး အသုံးဝင်စေရန် tool များအသုံးပြုခွင့် ပေးရုံသာမက ဖွံ့ဖြိုးသူများသည် agentic workflow များကို orchestration လုပ်ရန်လည်း လိုအပ်ပါသည်။ ကျွန်ုပ်တို့၏ open-source Agents SDK အသစ်သည် multi-agent workflow များ၏ orchestration ကို ရိုးရှင်းစေပြီး မနှစ်က ကျွန်ုပ်တို့ ထုတ်ပြန်ခဲ့သော experimental SDK ဖြစ်သည့် Swarm⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ထက် သိသာထင်ရှားသော တိုးတက်ကောင်းမွန်မှုများကို ပေးပါသည်။ Swarm သည် developer community မှ အကျယ်ပြန့် လက်ခံအသုံးပြုခံခဲ့ရပြီး သုံးစွဲသူများစွာက အောင်မြင်စွာ deploy လုပ်ခဲ့ကြပါသည်။

တိုးတက်ကောင်းမွန်မှုများတွင် အောက်ပါတို့ ပါဝင်ပါသည်:

Agents: ရှင်းလင်းသော ညွှန်ကြားချက်များနှင့် built-in tool များပါဝင်သော အလွယ်တကူ configure လုပ်နိုင်သည့် LLM များ။
Handoffs: အေးဂျင့်များအကြား ထိန်းချုပ်မှုကို ဉာဏ်ရည်ရှိစွာ လွှဲပြောင်းပေးခြင်း။
Guardrails: input နှင့် output validation အတွက် configure လုပ်နိုင်သော safety check များ။
Tracing & Observability: debug လုပ်ရန်နှင့် performance ကို optimize လုပ်ရန် အေးဂျင့် execution trace များကို မြင်ကွင်းဖြင့် ပြသခြင်း။

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

Agents SDK သည် customer support automation၊ multi-step research၊ content generation၊ code review နှင့် sales prospecting အပါအဝင် လက်တွေ့ကမ္ဘာ အသုံးချပုံအမျိုးမျိုးအတွက် သင့်လျော်ပါသည်။ ဥပမာအားဖြင့် Coinbase⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် crypto wallet များနှင့် on-chain လုပ်ဆောင်ချက်အမျိုးမျိုးတို့နှင့် AI အေးဂျင့်များကို ချောမွေ့စွာ အပြန်အလှန်လုပ်ဆောင်နိုင်စေသော toolkit တစ်ခုဖြစ်သည့် AgentKit ကို လျင်မြန်စွာ prototype လုပ်ပြီး deploy လုပ်ရန် Agents SDK ကို အသုံးပြုခဲ့သည်။ နာရီအနည်းငယ်အတွင်း Coinbase သည် ၎င်းတို့၏ Developer Platform SDK မှ custom action များကို အပြည့်အဝ လုပ်ဆောင်နိုင်သော အေးဂျင့်တစ်ခုထဲသို့ ပေါင်းစည်းနိုင်ခဲ့သည်။ AgentKit ၏ ရိုးရှင်းသော architecture ကြောင့် agent action အသစ်များ ထည့်သွင်းသည့် လုပ်ငန်းစဉ် ပိုမိုလွယ်ကူလာပြီး ဖွံ့ဖြိုးသူများအနေဖြင့် အဓိပ္ပာယ်ရှိသော integration များအပေါ် ပိုမိုအာရုံစိုက်နိုင်ကာ ရှုပ်ထွေးသော agent setup များကို လမ်းညွှန်သွားလာရခြင်းအပေါ် အချိန်လျော့နည်းစေပါသည်။

ရက်အနည်းငယ်အတွင်း Box⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် web search နှင့် Agents SDK ကို အသုံးချသော အေးဂျင့်များကို လျင်မြန်စွာ ဖန်တီးနိုင်ခဲ့ပြီး Box အတွင်း သိမ်းဆည်းထားသော unstructured data နှင့် အများပြည်သူသုံး internet source များမှ ရှာဖွေခြင်း၊ မေးမြန်းခြင်းနှင့် insight များ ထုတ်ယူခြင်းတို့ကို လုပ်ငန်းများအတွက် လုပ်ဆောင်နိုင်စေခဲ့သည်။ ဤနည်းလမ်းကြောင့် သုံးစွဲသူများသည် နောက်ဆုံးပေါ် အချက်အလက်များကိုသာ မကဘဲ ၎င်းတို့၏ internal permission များနှင့် security policy များကို လိုက်နာသော လုံခြုံပြီး စိတ်ချရသည့် နည်းလမ်းဖြင့် ၎င်းတို့၏ ကိုယ်ပိုင် internal data ကိုလည်း ရှာဖွေနိုင်ပါသည်။ ဥပမာအားဖြင့် ဘဏ္ဍာရေးဝန်ဆောင်မှု ကုမ္ပဏီတစ်ခုသည် Box AI agent ကို ခေါ်ယူအသုံးပြုကာ Box ထဲရှိ ၎င်းတို့၏ internal market analysis များကို web မှ real-time news နှင့် economic data တို့နှင့် ပေါင်းစည်းပေးသည့် custom agent တစ်ခုကို တည်ဆောက်နိုင်ပြီး ၎င်းတို့၏ analyst များအား ရင်းနှီးမြှုပ်နှံမှု ဆုံးဖြတ်ချက်များအတွက် ပြည့်စုံသော အမြင်တစ်ခု ပေးစွမ်းနိုင်ပါသည်။

Agents SDK သည် Responses API နှင့် Chat Completions API တို့နှင့် အလုပ်လုပ်ပါသည်။ SDK သည် Chat Completions ပုံစံ API အဆုံးမှတ် ကို ပံ့ပိုးပေးသရွေ့ အခြား provider များမှ မော်ဒယ်များနှင့်လည်း အလုပ်လုပ်မည်ဖြစ်သည်။ ဖွံ့ဖြိုးသူများသည် ၎င်းကို ၎င်းတို့၏ Python codebase များတွင် ချက်ချင်း ပေါင်းစည်းနိုင်ပြီး Node.js ပံ့ပိုးမှုကို မကြာမီ ထပ်မံပေးမည်ဖြစ်သည်။ ပိုမိုသိရှိရန် ကျွန်ုပ်တို့၏ docs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။

Agents SDK ကို ဒီဇိုင်းထုတ်ရာတွင် ကျွန်ုပ်တို့၏ အဖွဲ့သည် community အတွင်းရှိ အခြားသူများ၏ အလွန်ကောင်းမွန်သော လုပ်ဆောင်မှုများဖြစ်သည့် Pydantic⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)၊ Griffe⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် MkDocs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တို့မှ လှုံ့ဆော်မှု ရရှိခဲ့ပါသည်။ ကျွန်ုပ်တို့၏ နည်းလမ်းကို community အတွင်းရှိ အခြားသူများက ဆက်လက် တိုးချဲ့နိုင်ရန် Agents SDK ကို open source framework အဖြစ် ဆက်လက်တည်ဆောက်သွားရန် ကျွန်ုပ်တို့ ကတိပြုထားပါသည်။

နောက်တစ်ဆင့် - အေးဂျင့်များအတွက် platform တည်ဆောက်ခြင်း

မကြာမီ အေးဂျင့်များသည် လုပ်သားအင်အား၏ အရေးပါသော အစိတ်အပိုင်းတစ်ရပ်ဖြစ်လာပြီး လုပ်ငန်းကဏ္ဍအမျိုးမျိုးတွင် ထုတ်လုပ်နိုင်စွမ်းကို အလွန်အမင်း မြှင့်တင်ပေးမည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။ ကုမ္ပဏီများက ရှုပ်ထွေးသော တာဝန်များအတွက် AI ကို ပိုမိုအသုံးချလိုလာသည့်အလျောက် လက်တွေ့ကမ္ဘာတွင် အကျိုးသက်ရောက်မှုရှိစေသော autonomous system များကို ဖန်တီးနိုင်ရန် ဖွံ့ဖြိုးသူများနှင့် လုပ်ငန်းအဖွဲ့အစည်းများကို အထောက်အကူပြုမည့် building block များကို ပံ့ပိုးပေးရန် ကျွန်ုပ်တို့ ကတိပြုထားပါသည်။

ယနေ့၏ ထုတ်ပြန်မှုများနှင့်အတူ ယုံကြည်စိတ်ချရပြီး စွမ်းဆောင်ရည်မြင့် AI အေးဂျင့်များကို ဖွံ့ဖြိုးသူများနှင့် လုပ်ငန်းအဖွဲ့အစည်းများက ပိုမိုလွယ်ကူစွာ တည်ဆောက်၊ deploy လုပ်ပြီး scale ချဲ့နိုင်ရန် အားဖြည့်ပေးမည့် ပထမဆုံး building block များကို ကျွန်ုပ်တို့ မိတ်ဆက်လိုက်ပါသည်။ မော်ဒယ် စွမ်းဆောင်ရည်များသည် ပိုမို agentic ဖြစ်လာသည်နှင့်အမျှ production တွင် အေးဂျင့်များကို deploy လုပ်ရန်၊ အကဲဖြတ်ရန်နှင့် optimize လုပ်ရန် အထောက်အကူပြုမည့် ကျွန်ုပ်တို့၏ API များအနှံ့ ပိုမိုနက်ရှိုင်းသော integration များနှင့် tool အသစ်များတွင် ကျွန်ုပ်တို့ ဆက်လက် ရင်းနှီးမြှုပ်နှံသွားမည်ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ရည်မှန်းချက်မှာ ဖွံ့ဖြိုးသူများအနေဖြင့် မည်သည့်လုပ်ငန်းကဏ္ဍတွင်မဆို တာဝန်မျိုးစုံကို ကူညီဆောင်ရွက်နိုင်သည့် အေးဂျင့်များကို တည်ဆောက်ရာတွင် seamless platform experience တစ်ခုကို ရရှိစေခြင်းဖြစ်ပါသည်။ ဖွံ့ဖြိုးသူများ နောက်ထပ် ဘာများတည်ဆောက်မလဲကို ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားစွာ စောင့်မျှော်နေပါသည်။ စတင်ရန် ကျွန်ုပ်တို့၏ docs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို လေ့လာပြီး မကြာမီလာမည့် update များကို စောင့်ကြည့်ပါ။

စာရေးသူများ

OpenAI