OpenAI o3 and o4-mini သည် ကျွန်ုပ်တို့၏ o-series ထဲမှ နောက်ဆုံးပေါ် visual reasoning မော်ဒယ်များ ဖြစ်ပါသည်။ ပထမဆုံးအကြိမ်အဖြစ် ကျွန်ုပ်တို့၏ မော်ဒယ်များသည် ပုံများကို မြင်ရုံသာမက ၎င်းတို့၏ အတွေးကွင်းဆက်အတွင်း ပုံများဖြင့် စဉ်းစားနိုင်ပါသည်။
ကျွန်ုပ်တို့၏ ယခင် OpenAI o1 မော်ဒယ်ကဲ့သို့ပင် o3 နှင့် o4-mini သည် အဖြေမပေးမီ ပိုကြာကြာ စဉ်းစားရန် လေ့ကျင့်ပေးထားပြီး—အသုံးပြုသူကို တုံ့ပြန်မီ ရှည်လျားသော အတွင်းပိုင်း အတွေးကွင်းဆက်ကို အသုံးပြုပါသည်။ o3 နှင့် o4-mini သည် tool များဖြင့် အသုံးပြုသူတင်ထားသော ပုံများကို ပြောင်းလဲအသုံးပြုခြင်းအားဖြင့် ၎င်းတို့၏ အတွေးကွင်းဆက်အတွင်း ပုံများဖြင့် စဉ်းစားနိုင်သည့် စွမ်းရည်ကို ထပ်မံချဲ့ထွင်ထားပြီး၊ ထိုကြောင့် crop လုပ်ခြင်း၊ zoom in လုပ်ခြင်း၊ လှည့်ခြင်းတို့အပြင် အခြား ရိုးရှင်းသော ပုံပြင်ဆင်မှု နည်းလမ်းများကိုလည်း အသုံးပြုနိုင်ပါသည်။ ပို၍ အရေးကြီးသည်မှာ ဤစွမ်းရည်များသည် သီးခြား အထူးပြု မော်ဒယ်များကို မမှီခိုဘဲ မူလတန်းအဖြစ် ပါဝင်လာခြင်း ဖြစ်ပါသည်။
ChatGPT ၏ တိုးမြှင့်ထားသော visual intelligence သည် ပုံများကို ယခင်ကထက် ပိုမိုစေ့စေ့စပ်စပ်၊ တိကျစွာနှင့် ယုံကြည်စိတ်ချစွာ ခွဲခြမ်းစိတ်ဖြာပေးခြင်းအားဖြင့် ပိုမိုခက်ခဲသော ပြဿနာများကို ဖြေရှင်းနိုင်စေပါသည်။ ၎င်းသည် web search နှင့် image manipulation ကဲ့သို့သော ကိရိယာများနှင့် အဆင့်မြင့် reasoning ကို သဘာဝကျကျ ပေါင်းစပ်နိုင်ပြီး—သင့်ပုံများကို အလိုအလျောက် zoom လုပ်ခြင်း၊ crop လုပ်ခြင်း၊ လှန်ခြင်း သို့မဟုတ် တိုးမြှင့်ပြင်ဆင်ခြင်းတို့ကို လုပ်ဆောင်ကာ မပြည့်စုံသော ဓာတ်ပုံများထံမှပင် insight များကို ရယူပေးနိုင်ပါသည်။ ဥပမာအားဖြင့် economics problem set ၏ ဓာတ်ပုံတစ်ပုံကို တင်ပြီး အဆင့်လိုက် ရှင်းလင်းချက်များ ရနိုင်သကဲ့သို့ build error ၏ screenshot တစ်ခုကို မျှဝေကာ အမြန်ဆုံး root-cause analysis ကိုလည်း ရယူနိုင်ပါသည်။
ဤနည်းလမ်းသည် စမ်းသပ်ချိန် compute scaling အတွက် visual reasoning နှင့် textual reasoning ကို သဘာဝကျကျ ရောနှောပေါင်းစပ်ပေးသော ဝင်ရိုးသစ်တစ်ခုကို ဖွင့်ပေးပြီး၊ multimodal benchmark များတစ်လျှောက် ၎င်းတို့၏ state-of-the-art စွမ်းဆောင်ရည်များတွင် ထင်ဟပ်နေသကဲ့သို့ multimodal reasoning သို့ ဦးတည်ရာတွင် အရေးပါသော ခြေလှမ်းတစ်ရပ်ကို မှတ်သားစေပါသည်။
ပုံများဖြင့် စဉ်းစားခြင်းက ChatGPT နှင့် ပိုမိုလွယ်ကူစွာ အပြန်အလှန် ဆက်သွယ်နိုင်စေပါသည်။ အရာဝတ္ထုများ၏ တည်နေရာကို စိတ်ပူစရာမလိုဘဲ—စာသားက ပြောင်းပြန်ဖြစ်နေသည်ဖြစ်စေ၊ ဓာတ်ပုံတစ်ပုံတည်းထဲတွင် physics ပြဿနာများစွာ ပါနေသည်ဖြစ်စေ—ဓာတ်ပုံရိုက်ပြီး မေးခွန်းများ မေးနိုင်ပါသည်။ အရာဝတ္ထုများကို ပထမတစ်ချက်ကြည့်ရုံဖြင့် မရှင်းလင်းသော်လည်း visual reasoning က မော်ဒယ်ကို ပိုမိုရှင်းလင်းစွာ မြင်နိုင်ရန် zoom in လုပ်ခွင့်ပေးပါသည်။
ဥပမာအားလုံးကို OpenAI o3 ဖြင့် ပြီးစီးစေခဲ့ပါသည်။
ကျွန်ုပ်တို့၏ နောက်ဆုံးပေါ် visual reasoning မော်ဒယ်များသည် Python data analysis၊ web search၊ ရုပ်ပုံ ထုတ်လုပ်မှု ကဲ့သို့သော အခြားကိရိယာများနှင့် တွဲဖက်လုပ်ဆောင်ကာ ပိုမိုရှုပ်ထွေးသော ပြဿနာများကို တီထွင်ဖန်တီးမှုရှိပြီး ထိရောက်စွာ ဖြေရှင်းပေးနိုင်ပြီး၊ အသုံးပြုသူများအတွက် ကျွန်ုပ်တို့၏ ပထမဆုံး multimodal အေးဂျင့် အတွေ့အကြုံကို ပေးစွမ်းပါသည်။
ကျွန်ုပ်တို့၏ ယခင် multimodal မော်ဒယ်များနှင့် နှိုင်းယှဉ်ရာတွင် visual reasoning တိုးတက်မှုကို မီးမောင်းထိုးပြရန် OpenAI o3 နှင့် o4-mini ကို လူသားစာမေးပွဲများနှင့် ML benchmark မျိုးစုံအပေါ် စမ်းသပ်ခဲ့ပါသည်။ ဤ visual reasoning မော်ဒယ်သစ်များသည် ကျွန်ုပ်တို့ စမ်းသပ်ခဲ့သော multimodal လုပ်ငန်းတာဝန် အားလုံး တွင် ၎င်းတို့၏ ယခင်မော်ဒယ်များထက် သိသိသာသာ ပိုကောင်းပါသည်။
မော်ဒယ်အားလုံးကို မြင့်မားသော ‘reasoning effort’ ဆက်တင်များဖြင့် အကဲဖြတ်ထားပြီး—ChatGPT ရှိ ‘o4-mini-high’ ကဲ့သို့သော မျိုးကွဲများနှင့် ဆင်တူပါသည်။
အထူးသဖြင့် browsing ကို မမှီခိုဘဲ ပုံများဖြင့် စဉ်းစားနိုင်ခြင်းက ကျွန်ုပ်တို့ အကဲဖြတ်ခဲ့သည့် perception benchmark အားလုံးတွင် သိသာသော တိုးတက်မှုများကို ရရှိစေပါသည်။ ကျွန်ုပ်တို့၏ မော်ဒယ်များသည် STEM မေးခွန်း-အဖြေ (MMMU, MathVista)၊ ဇယားဖတ်ရှုခြင်းနှင့် ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားခြင်း (CharXiv)၊ perception primitives (VLMs are Blind) နှင့် visual search (V*) တို့တွင် state-of-the-art စွမ်းဆောင်ရည်သစ်ကို သတ်မှတ်ထားပါသည်။ V* တွင် ကျွန်ုပ်တို့၏ visual reasoning နည်းလမ်းသည် တိကျမှု 95.7% ရရှိပြီး benchmark ကို အများအားဖြင့် ဖြေရှင်းနိုင်သည့်အဆင့်သို့ ရောက်ရှိစေပါသည်။
ပုံများဖြင့် စဉ်းစားခြင်းတွင် လက်ရှိ အောက်ပါ ကန့်သတ်ချက်များ ရှိပါသည်:
- အလွန်ရှည်လျားသော အတွေးကွင်းဆက်များ: မော်ဒယ်များသည် ထပ်နေသော သို့မဟုတ် မလိုအပ်သော tool call များနှင့် ပုံပြင်ဆင်မှုအဆင့်များကို လုပ်ဆောင်နိုင်ပြီး၊ ထို့ကြောင့် အတွေးကွင်းဆက်များ အလွန်ရှည်လျားသွားနိုင်ပါသည်။
- Perception အမှားများ: မော်ဒယ်များသည် အခြေခံ perception အမှားများကို ပြုလုပ်နိုင်ဆဲ ဖြစ်ပါသည်။ tool call များက ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားမှု လုပ်ငန်းစဉ်ကို မှန်ကန်စွာ ရှေ့ဆက်စေသော်လည်း၊ မြင်ကွင်းဆိုင်ရာ မှားယွင်းနားလည်မှုများကြောင့် နောက်ဆုံးအဖြေ မှားယွင်းနိုင်ပါသည်။
- ယုံကြည်စိတ်ချရမှု: မော်ဒယ်များသည် ပြဿနာတစ်ခုကို အကြိမ်များစွာ စမ်းသပ်ရာတွင် ကွဲပြားသော visual reasoning လုပ်ငန်းစဉ်များကို စမ်းကြည့်နိုင်ပြီး၊ ထိုအချို့သည် မမှန်သော ရလဒ်များသို့ ဦးတည်နိုင်ပါသည်။
OpenAI o3 နှင့် o4-mini သည် state-of-the-art visual reasoning စွမ်းရည်များကို သိသိသာသာ တိုးတက်စေပြီး ပိုမိုကျယ်ပြန့်သော multimodal reasoning သို့ ဦးတည်ရာတွင် အရေးပါသော ခြေလှမ်းတစ်ရပ်ကို ကိုယ်စားပြုပါသည်။ ဤမော်ဒယ်များသည် visual perception လုပ်ငန်းတာဝန်များတွင် အတန်းအစားအကောင်းဆုံး တိကျမှုကို ပေးစွမ်းကာ ယခင်က လက်လှမ်းမမီခဲ့သော မေးခွန်းများကို ဖြေရှင်းနိုင်စေပါသည်။
ကျွန်ုပ်တို့သည် ပုံများနှင့်ဆိုင်သော မော်ဒယ်၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားနိုင်စွမ်းကို ပိုမိုတိုတောင်းစေရန်၊ ထပ်ခါထပ်ခါ မဖြစ်စေရန်နှင့် ပိုမိုယုံကြည်စိတ်ချရစေရန် ဆက်လက် ပြင်ဆင်တိုးတက်လျက် ရှိပါသည်။ multimodal reasoning ဆိုင်ရာ ကျွန်ုပ်တို့၏ သုတေသနကို ဆက်လက်လုပ်ဆောင်ရန်နှင့် ဤတိုးတက်မှုများက လူများ၏ နေ့စဉ်အလုပ်များကို မည်သို့ မြှင့်တင်ပေးနိုင်မည်ကို စူးစမ်းလေ့လာကြရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားနေပါသည်။
ဧပြီ 16 ရက် အပ်ဒိတ်: Charxiv-r, Mathvista နှင့် vlmsareblind ပေါ်ရှိ o3 ရလဒ်များကို မူလအကဲဖြတ်မှုတွင် မပါဝင်ခဲ့သော system prompt ပြောင်းလဲမှုကို ထင်ဟပ်စေရန် အပ်ဒိတ်လုပ်ခဲ့ပါသည်။
စာရေးသူများ
ပါဝင်ကူညီသူများ
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








