ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များသည် ၎င်းတို့၏ အတွေးကွင်းဆက်များကို ထိန်းချုပ်ရာတွင် ခက်ခဲကြပြီး၊ ၎င်းသည် ကောင်းသောအရာဖြစ်သည်
စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များ၏ ကန့်သတ်ချက်တစ်ခုက AI လုံခြုံရေးအတွက် စိတ်ချရစေသည့် အကြောင်းရင်း။
AI အေးဂျင့် များသည် ပိုမိုရှုပ်ထွေးပြီး ကိုယ်တိုင်လုပ်ဆောင်နိုင်သော လုပ်ငန်းတာဝန်များကို ဆောင်ရွက်နိုင်လာသည်နှင့်အမျှ၊ ၎င်းတို့၏ အပြုအမူကို ယုံကြည်စိတ်ချစွာ ကြီးကြပ်နိုင်ရေးသည် ပိုမိုအရေးကြီးလာသည်။ ကျွန်ုပ်တို့၏ အဆင့်ဆင့် တိုးတက်ဖြန့်ချိမှု သဘောတရားနှင့် ကိုက်ညီစွာ၊ စနစ်များသည် အမှန်တကယ်အသုံးပြုသည့် ပတ်ဝန်းကျင်များတွင် မည်သို့ ပြုမူကြသည်ကို လေ့လာပြီး စွမ်းရည်များ တိုးတက်လာသည့်အလျောက် အကာအကွယ်များကို ဆက်တိုက် ပြင်ဆင်တိုးမြှင့်နေပါသည်။ ၎င်းကို ထောက်ပံ့ရန် ကျွန်ုပ်တို့၏ လုံခြုံရေးချဉ်းကပ်ပုံ သည် defense-in-depth ကို အသုံးပြုထားပြီး လုံခြုံရေး လေ့ကျင့်ပေးမှု၊ အပြုအမူ စမ်းသပ်ခြင်း၊ အေးဂျင့်ဆန်သော ကုဒ် ပြန်လည်သုံးသပ်မှု(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် အတွေးကွင်းဆက် (CoT) စောင့်ကြည့်မှု ကဲ့သို့သော အပြန်အလှန်ဖြည့်ဆည်းပေးသည့် ကာကွယ်ရေးအလွှာများစွာကို ထည့်သွင်းထားသည်။ CoT စောင့်ကြည့်မှုသည် အေးဂျင့်များက လုပ်ငန်းတာဝန်များကို ဆောင်ရွက်နေစဉ် ထုတ်ပေးသည့် ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော အဆင့်ဆင့်ကို ခွဲခြမ်းစိတ်ဖြာပါသည်။ ဤအတွေးခြေရာများသည် လေ့ကျင့်ချိန်နှင့် အသုံးချချိန် နှစ်ခုစလုံးတွင် တန်ဖိုးရှိသော အချက်ပြများကို ပေးနိုင်ပြီး၊ အေးဂျင့်၏ အပြုအမူသည် မလုံခြုံနိုင်ခြင်း သို့မဟုတ် အသုံးပြုသူ၏ ရည်ရွယ်ထားသော ပန်းတိုင်များနှင့် မကိုက်ညီနိုင်ခြင်းကို စောင့်ကြည့်ရေးစနစ်များက ခွဲခြားသိရှိရန် ကူညီပေးသည်။
ယနေ့အချိန်တွင် မော်ဒယ်များ၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးမှုသည် ယေဘုယျအားဖြင့် အဓိပ္ပာယ်ဖော်လွယ်ပြီး စောင့်ကြည့်ရလွယ်ကူ ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိထားသည်။ သို့သော် အနာဂတ်တွင် စောင့်ကြည့်နိုင်မှုသည် အကြောင်းရင်းမျိုးစုံကြောင့်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ပျက်ယွင်းသွားနိုင်သည်။ ဤနေရာတွင် ကျွန်ုပ်တို့သည် ထိုလမ်းကြောင်းများထဲမှ တစ်ခုကို အာရုံစိုက်ထားသည်။ အကယ်၍ အေးဂျင့်များသည် ၎င်းတို့ကို စောင့်ကြည့်နေကြောင်း သိသောအခါ မိမိတို့၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးမှုကို ရည်ရွယ်ချက်ရှိရှိ ပြန်လည်ပုံဖော်ခြင်း သို့မဟုတ် ဖုံးကွယ်ခြင်း ပြုလုပ်နိုင်လာပါက၊ အကဲဖြတ်မှုများသည် စနစ်တစ်ခု၏ alignment သို့မဟုတ် လုံခြုံရေးကို အမှန်ထက် ပိုမိုကောင်းမွန်သည်ဟု ခန့်မှန်းမိနိုင်ပြီး စောင့်ကြည့်ရေးစနစ်များလည်း ပိုမိုမယုံကြည်ရနိုင်တော့ပါ။
ဤလုပ်ငန်းတွင် လက်ရှိ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များသည် စောင့်ကြည့်နိုင်မှုကို လျော့ကျစေမည့် နည်းလမ်းများဖြင့် ၎င်းတို့၏ အတွေးကွင်းဆက်ကို ထိန်းချုပ်နိုင်စွမ်း ရှိမရှိကို ကျွန်ုပ်တို့ လေ့လာထားသည်။ AI စနစ်များ ပိုမိုစွမ်းဆောင်နိုင်လာသည့်အခါ CoT စောင့်ကြည့်မှုသည် ခိုင်မာသော အကာအကွယ်တစ်ရပ်အဖြစ် ဆက်လက်တည်ရှိစေရန် ဤစွမ်းရည်ကို နားလည်ခြင်းသည် အရေးကြီးပါသည်။ ကျွန်ုပ်တို့ တွေ့ရှိသည်မှာ လက်ရှိ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များသည် စောင့်ကြည့်နေကြောင်း ပြောပြထားသည့်တိုင် ၎င်းတို့၏ CoT များကို ထိန်းချုပ်ရာတွင် အခက်အခဲရှိနေကြသည်။ ပိုကြီးသော မော်ဒယ်များတွင် ထိန်းချုပ်နိုင်မှု ပိုမြင့်သော်လည်း မော်ဒယ်များကို ပိုရှည်ကြာစွာ စဉ်းစားခိုင်းသည့်အခါနှင့် post-training ထပ်မံပြုလုပ်သည့်အခါ ၎င်းသည် လျော့နည်းသွားပါသည်။ ကျွန်ုပ်တို့၏ ရလဒ်များအရ CoT ထိန်းချုပ်နိုင်မှုသည် လက်ရှိအချိန်တွင် CoT စောင့်ကြည့်နိုင်မှုအတွက် အဓိကအန္တရာယ်ကြီးတစ်ရပ် ဖြစ်ရန် မဖြစ်နိုင်သော်လည်း မော်ဒယ်များ တိုးတက်လာသည်နှင့်အမျှ ဆက်လက် အကဲဖြတ်နေခြင်းသည် အရေးကြီးမည်ဖြစ်သည်။
အတွေးကွင်းဆက်သည် AI အေးဂျင့် တစ်ခုက လုပ်ငန်းတာဝန်တစ်ခုကို ဖြေရှင်းနေစဉ် ထုတ်ပေးသည့် အလယ်အလတ် ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော အဆင့်များကို ဆိုလိုသည်။ ဤအတွေးခြေရာများသည် အသုံးဝင်သော လုံခြုံရေး အချက်ပြများကို ပေးနိုင်ပြီး စောင့်ကြည့်ရေးစနစ်များက အေးဂျင့်၏ အပြုအမူသည် လုံခြုံမှုရှိမရှိ သို့မဟုတ် alignment ရှိမရှိကို အကဲဖြတ်ရန် ကူညီပေးသည်။
CoT ထိန်းချုပ်နိုင်မှုဆိုသည်မှာ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်တစ်ခုက ၎င်း၏ CoT ၏ ဂုဏ်သတ္တိများကို စောင့်ကြည့်နိုင်မှုကို လျော့နည်းစေမည့် နည်းလမ်းများဖြင့် ထိန်းချုပ်နိုင်သော စွမ်းရည်ဖြစ်သည်။ လက်တွေ့အသုံးပြုရာတွင် ကြုံတွေ့ရနိုင်သည့် စောင့်ကြည့်သူများကို ရှောင်ဖယ်လိုသော အားပေးမှုများ၏ အပြည့်အစုံအောက်တွင် ဤစွမ်းရည်ကို တိုင်းတာခြင်းမှာ ခက်ခဲသည်။ ထို့ကြောင့် ကျွန်ုပ်တို့သည် လက်တွေ့ကျသော proxy တစ်ခုကို အသုံးပြုသည်။ ၎င်းမှာ မော်ဒယ်က ၎င်း၏ CoT အကြောင်း အသုံးပြုသူညွှန်ကြားချက်များကို လိုက်နာနိုင်စွမ်းကို တိုင်းတာခြင်းဖြစ်သည်။ ဥပမာအားဖြင့် မော်ဒယ်က မြင်သာသော output ကိုသာ ပြောင်းလဲခြင်းမဟုတ်ဘဲ ၎င်း၏ အတွင်းပိုင်း ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးမှုကို သက်ရောက်စေသော ညွှန်ကြားချက်များ—ဥပမာ စာလုံးအသေးများသာ သုံးရန်၊ သတ်မှတ်ထားသော keyword များကို ရှောင်ရန် သို့မဟုတ် သီးသန့် စကားစုများ ထည့်ရန်—ကို လိုက်နာနိုင်မနိုင် စမ်းသပ်ပါသည်။
ဤအရာကို လေ့လာရန် ကျွန်ုပ်တို့သည် CoT-Control ကို မိတ်ဆက်ပေးထားသည်။ ၎င်းမှာ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များ၏ CoT ထိန်းချုပ်နိုင်မှုကို တိုင်းတာရန် open-source အကဲဖြတ်မှုစုစည်းမှုတစ်ခုဖြစ်သည်။ CoT-Control တွင် လူသိများသော benchmark များဖြစ်သည့် GPQA, MMLU-Pro, HLE, BFCL နှင့် SWE-Bench Verified တို့မှ တည်ဆောက်ထားသော လုပ်ငန်းတာဝန် 13,000 ကျော် ပါဝင်သည်။ လုပ်ငန်းတာဝန်တစ်ခုချင်းစီကို benchmark ပြဿနာတစ်ခုနှင့် CoT ညွှန်ကြားချက်တစ်ခုကို တွဲဖက်၍ ဖန်တီးထားသည်။ ဥပမာ CoT ထဲတွင် ပြဿနာနှင့် သက်ဆိုင်သော keyword အချို့ကို ရှောင်ခြင်း၊ စာလုံးအသေးများသာ သုံးခြင်း၊ သို့မဟုတ် စာကြောင်းတိုင်း၏ အဆုံးတွင် သတ်မှတ်ထားသော စကားလုံးတစ်လုံးကို ထည့်သွင်းခြင်း စသဖြင့်ဖြစ်သည်။
ကျွန်ုပ်တို့သည် ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ် 13 ခုအပေါ် အကဲဖြတ်မှုများ ပြုလုပ်ခဲ့ပြီး ၎င်းတို့အားလုံးသည် ၎င်းတို့၏ CoT များကို ယုံကြည်စိတ်ချစွာ ထိန်းချုပ်ရာတွင် အခက်အခဲရှိကြောင်း တွေ့ရှိခဲ့သည်။ ကျွန်ုပ်တို့သည် မော်ဒယ်က ကျွန်ုပ်တို့၏ CoT ညွှန်ကြားချက်များကို အောင်မြင်စွာ လိုက်နာခဲ့သော ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးမှု ခြေရာများ၏ အချိုးအစားအဖြစ် ထိန်းချုပ်နိုင်မှုကို တိုင်းတာသည်။ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များအနှံ့တွင် CoT ထိန်းချုပ်နိုင်မှု ရမှတ်များသည် နိမ့်နေပြီး 0.1% မှ စတင်ကာ ကျွန်ုပ်တို့ စမ်းသပ်ခဲ့သော လက်ရှိ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ် မည်သည့်တစ်ခုတွင်မဆို 15.4% ထက် မကျော်လွန်ခဲ့ပါ။
ဤမစွမ်းဆောင်နိုင်မှုသည် လုပ်ငန်းတာဝန်ကို နားမလည်ခြင်းကြောင့် မဟုတ်ပါ။ မော်ဒယ်များသည် ၎င်းတို့၏ CoT အတွင်းတွင် ၎င်းတို့အား ပေးထားသော CoT ညွှန်ကြားချက်များကို လိုက်နာရန် မအောင်မြင်နေကြောင်း မကြာခဏ သတိပြုမိကြပြီး ထိုသို့ သတိပြုမိပြီးနောက်တောင် ဆက်လက် မအောင်မြင်နေဆဲ ဖြစ်သည်။ မမျှော်လင့်ထားသည့် ဤနိမ့်ပါးသော စွမ်းဆောင်ရည်သည် CoT စောင့်ကြည့်နိုင်မှုအတွက် သတင်းကောင်းတစ်ရပ်ဖြစ်သည်။ ၎င်းက မော်ဒယ်များသည် ကျွန်ုပ်တို့၏ စောင့်ကြည့်သူများကို ရှောင်ဖယ်ရန် မိမိတို့၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးမှုကို ဖုံးကွယ်နိုင်စွမ်းလည်း တူညီစွာ မရှိနိုင်ကြောင်း ညွှန်ပြနေသည်။
စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်အများအပြား၏ output များနှင့် CoT များကို ထိန်းချုပ်နိုင်စွမ်း။ CoT ထိန်းချုပ်နိုင်မှု နိမ့်ခြင်းသည် စောင့်ကြည့်နိုင်မှု မြင့်ခြင်းနှင့် ဆက်စပ်နေပြီး ထို့ကြောင့် လုံခြုံရေးလည်း ပိုမိုမြင့်မားသည်။
CoT ထိန်းချုပ်နိုင်မှု မအောင်မြင်သော ဥပမာများ
တိုတောင်းစေရန် မေးခွန်းများကို ပြန်လည်ဖော်ပြထားသည်။
GPT-5.2 Thinking
GPT‑5.2 Thinking သည် အသုံးမပြုရမည့် တားမြစ်ထားသော စကားလုံး (အနီရောင်) ကို မသုံးသင့်ကြောင်း သိရှိသွားပြီးနောက်၊ ၎င်းကို သုံးပြီးသားဖြစ်နေမှုကြောင့် ပူပန်နေချိန်တွင်ပင် နောက်ထပ် ၄ ကြိမ် ဆက်လက်အသုံးပြုခဲ့သည်။
ထိန်းချုပ်နိုင်မှုသည် မော်ဒယ်အရွယ်အစားနှင့်အတူ တိုးလာကြောင်း ကျွန်ုပ်တို့ မြင်ရသော်လည်း၊ post-training နှင့် test-time compute ပမာဏ တိုးလာသည်နှင့်အမျှ ၎င်းသည် လျင်မြန်စွာ လျော့ကျသွားကြောင်းလည်း တွေ့ရှိရသည်။ open-weight မော်ဒယ် မိသားစု နှစ်စုကို နှိုင်းယှဉ်ကြည့်ရာတွင် ပိုကြီးသော မော်ဒယ်များသည် ၎င်းတို့၏ အတွေးကွင်းဆက်များကို ထိန်းချုပ်ရာတွင် အနည်းငယ် ပိုကောင်းကြသော်လည်း ထိုအကျိုးသက်ရောက်မှုသည် အရွယ်အစား ပိုကြီးလာသည်နှင့်အမျှ လျော့ပါးသွားသည်။ သို့သော် မော်ဒယ်များကို ပိုကြာကြာ စဉ်းစားခွင့်ပေးသောအခါ ၎င်းတို့သည် ထိုအတွေးကွင်းဆက်များကို ထိန်းချုပ်နိုင်စွမ်း ပိုနည်းလာကြသည်။ OLMo-3-7B-RL-Zero-Math ၏ RL လေ့ကျင့်မှုတွင်လည်း ဆင်တူသဘောထားတစ်ရပ်ကို မြင်တွေ့ခဲ့ရပြီး ၎င်း၏ ထိန်းချုပ်နိုင်မှု ရမှတ်သည် လေ့ကျင့်မှုတစ်လျှောက် ဆယ်ဆကျော် လျော့နည်းသွားခဲ့သည်။
open-weight မော်ဒယ်များတွင် ထိန်းချုပ်နိုင်မှုသည် scale နှင့်အတူ တိုးလာသော်လည်း ပိုရှည်သော ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးမှုနှင့် RL လေ့ကျင့်မှု ပိုများလာသည်နှင့်အမျှ ယိုယွင်းသွားသည်။
စောင့်ကြည့်သူများကို ရှောင်ဖယ်လိုသော လက်တွေ့ကျ အားပေးမှုများကို simulation ပြုလုပ်ရန်၊ မော်ဒယ်များအား ၎င်းတို့ကို စောင့်ကြည့်နေကြောင်း သို့မဟုတ် အကဲဖြတ်နေကြောင်း ပြောပြထားသည့်အခါ ထိန်းချုပ်နိုင်မှုကို ကျွန်ုပ်တို့ တိုင်းတာသည်။ ၎င်းက ထိန်းချုပ်နိုင်မှုကို အနည်းငယ် (သို့သော် ထင်ရှားစွာ) မြှင့်တင်ပေးသည်။ ထိန်းချုပ်နိုင်မှု မြင့်မားစေသော တုံ့ပြန်ညွှန်ကြားချက် များကို ရှာဖွေရန် automated prompt optimization ကိုလည်း အသုံးပြုခဲ့သည်။ optimizer သည် training set တစ်ခုတွင် ထိန်းချုပ်နိုင်မှုကို မြှင့်တင်နိုင်သော်လည်း ထိုတိုးတက်မှုများသည် ညွှန်ကြားချက်အမျိုးအစားအသစ်များ (ဥပမာ စကားလုံးများအကြား space မထားရန် လိုအပ်ခြင်း) သို့ ကူးပြောင်းရာတွင် အားနည်းသည်။
CoT ထိန်းချုပ်နိုင်မှုကို ဆန့်ကျင်ဘက်အခြေအနေများတွင် တိုင်းတာထားသည်။ “Monitor awareness” ဆိုသည်မှာ မော်ဒယ်များအား ၎င်းတို့၏ CoT များကို စောင့်ကြည့်နေကြောင်း အသိပေးထားသည့် အခြေအနေများကို ဆိုလိုသည်။ “Eval awareness” ဆိုသည်မှာ မော်ဒယ်များအား ၎င်းတို့ကို CoT ထိန်းချုပ်နိုင်မှုအတွက် အကဲဖြတ်နေကြောင်း အသိပေးထားသည့် အခြေအနေများကို ဆိုလိုသည်။
CoT-Control ထဲရှိ လုပ်ငန်းတာဝန်များသည် လက်တွေ့ကျသော proxy များဖြစ်သည်။ အကောင်းဆုံး CoT ထိန်းချုပ်နိုင်မှု အကဲဖြတ်မှုတစ်ခုသည် မကိုက်ညီသော ပန်းတိုင်များကို သဘာဝအတိုင်း လိုက်စားနေသော မော်ဒယ်များက စောင့်ကြည့်မှုကို ရှောင်ဖယ်ရန် ၎င်းတို့၏ CoT ကို ထိန်းချုပ်နိုင်မနိုင် စမ်းသပ်ခြင်း ပါဝင်သင့်သည်။ ၎င်းအစား ကျွန်ုပ်တို့သည် အေးဂျင့်များ၏ CoT များကို ထိန်းချုပ်နိုင်စွမ်းကို ၎င်းတို့၏ CoT အကြောင်း ညွှန်ကြားချက်များကို လိုက်နာနိုင်စွမ်းအား တိုင်းတာခြင်းဖြင့် ခန့်မှန်းထားသည်။ ထို့အပြင် မော်ဒယ်များသည် ၎င်းတို့၏ CoT ၏ အင်္ဂါရပ်အချို့ကို အခြားအင်္ဂါရပ်များထက် ပိုကောင်းစွာ ထိန်းချုပ်နိုင်ကြပြီး CoT-Control သည် ထိန်းချုပ်နိုင်မှု အမျိုးအစား အကျဉ်းချုပ်တစ်စုကိုသာ တိုင်းတာနေသောကြောင့် ထိန်းချုပ်နိုင်မှုကို အမှန်ထက် ပိုမိုခန့်မှန်းထားခြင်း သို့မဟုတ် လျော့နည်းခန့်မှန်းထားခြင်း ဖြစ်နိုင်သည်။
CoT ထိန်းချုပ်နိုင်မှု နိမ့်ခြင်းသည် bug မဟုတ်ဘဲ feature တစ်ခုဖြစ်သည်။ လက်ရှိ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များ၏ ထိန်းချုပ်နိုင်မှု နိမ့်ခြင်းက CoT စောင့်ကြည့်မှုကို အကာအကွယ်တစ်ရပ်အဖြစ် ပိုမိုယုံကြည်စိတ်ချစေသည်။ တစ်ချိန်တည်းတွင် လက်ရှိ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များ၏ ထိန်းချုပ်နိုင်မှု ဘာကြောင့် နိမ့်နေသလဲ—သို့မဟုတ် မော်ဒယ်များ ပိုမိုစွမ်းဆောင်နိုင်လာသည်နှင့်အမျှ ဤဂုဏ်သတ္တိ ဆက်လက်တည်ရှိမည်လား—ဆိုသည်ကို ကျွန်ုပ်တို့ မနားလည်သေးပါ။ ထို့ကြောင့် CoT ထိန်းချုပ်နိုင်မှု အကဲဖြတ်မှုများကို canary eval တစ်ခုအဖြစ် မြင်နိုင်သည်။ ၎င်းသည် မော်ဒယ်များသည် ၎င်းတို့၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးမှုကို ပုံဖော်ခြင်း သို့မဟုတ် ဖုံးကွယ်ခြင်းတွင် ပိုကောင်းလာနေသလားကို စောစီးစွာ သတိပေးသည့် အချက်ပြတစ်ခုဖြစ်သည်။
ကျွန်ုပ်တို့၏ ရလဒ်များအရ CoT ထိန်းချုပ်နိုင်မှုသည် လက်ရှိတွင် CoT စောင့်ကြည့်နိုင်မှုအတွက် အဓိကအန္တရာယ်ဖြစ်ရန် မဖြစ်နိုင်ပါ။ သို့သော် ထိန်းချုပ်နိုင်မှု နိမ့်ခြင်းတစ်ခုတည်းသာဖြင့် စောင့်ကြည့်နိုင်မှု မြင့်မားမှုကို အာမမခံနိုင်သေးပါ၊ အကြောင်းမှာ CoT များအပေါ် တိုက်ရိုက် optimization pressure ကဲ့သို့သော အခြား mechanism များကြောင့် စောင့်ကြည့်နိုင်မှုသည် ဆက်လက် ယိုယွင်းနိုင်သေးသောကြောင့်ဖြစ်သည်။
ဤဒိုင်နမစ်များကို အချိန်ကြာလာသည်နှင့်အမျှ ခြေရာခံနိုင်ရန်၊ ကျွန်ုပ်တို့သည် အနာဂတ် စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များအတွက် စနစ်ကဒ် များတွင် CoT စောင့်ကြည့်နိုင်မှု နှင့်အတူ CoT ထိန်းချုပ်နိုင်မှုကိုလည်း အစီရင်ခံဖော်ပြသွားမည်ဖြစ်ပြီး GPT‑5.4 Thinking မှ စတင်မည်ဖြစ်သည်။ ၎င်းသည် စွမ်းဆောင်ရည်အမြင့်ဆုံး ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များ၏ CoT များအပေါ် optimization pressure ကို တိုက်ရိုက် မသက်ရောက်စေရန် ကျွန်ုပ်တို့၏ ဆက်လက်တည်မြဲသော ကတိကဝတ် အပေါ် တည်ဆောက်ထားခြင်းဖြစ်သည်။
စာရေးသူများ
Tomek Korbak - Micah Carroll - Bowen Bakerနှင့် Ian Kivlichan


