၂၀၂၄ ဇန်နဝါရီ ၂၅

New embedding models and API updates

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် မော်ဒယ်အသစ်များကို ထုတ်ပြန်နေပြီး၊ GPT‑3.5 Turbo အတွက် ဈေးနှုန်းများကို လျှော့ချနေသလို၊ developer များအတွက် API keys များကို စီမံခန့်ခွဲရန်နှင့် API အသုံးပြုမှုကို နားလည်ရန် နည်းလမ်းအသစ်များကိုလည်း မိတ်ဆက်ပေးနေပါသည်။ မော်ဒယ်အသစ်များတွင် အောက်ပါတို့ ပါဝင်ပါသည်-

embedding မော်ဒယ်အသစ် နှစ်ခု
အပ်ဒိတ်လုပ်ထားသော GPT‑4 Turbo အကြိုမြင်ကွင်း မော်ဒယ်
အပ်ဒိတ်လုပ်ထားသော GPT‑3.5 Turbo မော်ဒယ်
အပ်ဒိတ်လုပ်ထားသော စာသား moderation မော်ဒယ်

မူလသတ်မှတ်ချက်အနေဖြင့် OpenAI API သို့ ပို့သောဒေတာကို OpenAI မော်ဒယ်များကို လေ့ကျင့်ရန် သို့မဟုတ် တိုးတက်စေရန် အသုံးမပြုပါ။

ဈေးနှုန်းသက်သာသော embedding မော်ဒယ်အသစ်များ

embedding မော်ဒယ်အသစ် နှစ်ခုကို ကျွန်ုပ်တို့ မိတ်ဆက်နေပါသည်- ပိုသေးပြီး အလွန်ထိရောက်သော text-embedding-3-small မော်ဒယ်တစ်ခုနှင့် ပိုကြီးပြီး စွမ်းဆောင်ရည်ပိုမြင့်သော text-embedding-3-large မော်ဒယ်တစ်ခုဖြစ်ပါသည်။

embedding⁠ ဆိုသည်မှာ သဘာဝဘာသာစကား သို့မဟုတ် code ကဲ့သို့သော အကြောင်းအရာအတွင်းရှိ အယူအဆများကို ကိုယ်စားပြုသော ကိန်းဂဏန်းအစဉ်တစ်ခုဖြစ်ပါသည်။ Embeddings များသည် စက်သင်ယူမှု မော်ဒယ်များနှင့် အခြား algorithm များအတွက် အကြောင်းအရာများအကြား ဆက်နွယ်မှုများကို နားလည်စေရန် လွယ်ကူစေပြီး clustering သို့မဟုတ် retrieval ကဲ့သို့သော လုပ်ငန်းတာဝန်များကို ဆောင်ရွက်နိုင်စေပါသည်။ ၎င်းတို့သည် ChatGPT နှင့် Assistants API တို့တွင် knowledge retrieval အပါအဝင် application များစွာနှင့် retrieval augmented generation (RAG) developer tools များစွာကို မောင်းနှင်ပေးပါသည်။

ဖွင့်နေသည်...

စာသား embedding မော်ဒယ်အသေးအသစ်

text-embedding-3-small သည် ကျွန်ုပ်တို့၏ အသစ်သော အလွန်ထိရောက်သည့် embedding မော်ဒယ်ဖြစ်ပြီး 2022 ခုနှစ် ဒီဇင်ဘာလ⁠ တွင် ထုတ်ပြန်ခဲ့သော ၎င်း၏ ယခင်မော်ဒယ် text-embedding-ada-002 ထက် သိသာထင်ရှားသော တိုးတက်မှုကို ပေးစွမ်းပါသည်။

ပိုမိုကောင်းမွန်သော စွမ်းဆောင်ရည်။ text-embedding-ada-002 နှင့် text-embedding-3-small ကို နှိုင်းယှဉ်ကြည့်လျှင်၊ ဘာသာစုံ retrieval အတွက် အများအားဖြင့် အသုံးပြုသော benchmark (MIRACL⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)) တွင် ပျမ်းမျှရမှတ်သည် 31.4% မှ 44.0% သို့ မြင့်တက်လာခဲ့ပြီး၊ အင်္ဂလိပ်ဘာသာ လုပ်ငန်းများအတွက် အများအားဖြင့် အသုံးပြုသော benchmark (MTEB⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)) တွင် ပျမ်းမျှရမှတ်သည် 61.0% မှ 62.3% သို့ မြင့်တက်လာခဲ့ပါသည်။

ဈေးနှုန်း လျှော့ချထားသည်။ text-embedding-3-small သည် ယခင်မျိုးဆက် text-embedding-ada-002 မော်ဒယ်ထက်လည်း သိသိသာသာ ပိုမိုထိရောက်ပါသည်။ ထို့ကြောင့် text-embedding-3-small ၏ ဈေးနှုန်းကို text-embedding-ada-002 နှင့် နှိုင်းယှဉ်လျှင် 5 ဆ လျှော့ချထားပြီး 1k တိုကင်လျှင် $0.0001 မှ $0.00002 သို့ ကျဆင်းသွားပါသည်။

ကျွန်ုပ်တို့သည် text-embedding-ada-002 ကို deprecate မလုပ်သေးသောကြောင့်၊ မော်ဒယ်အသစ်ကို အကြံပြုသော်လည်း ဖောက်သည်များသည် ယခင်မျိုးဆက် မော်ဒယ်ကို ဆက်လက်အသုံးပြုနိုင်ပါသည်။

စာသား embedding မော်ဒယ်အကြီးအသစ်တစ်ခု- text-embedding-3-large

text-embedding-3-large သည် ကျွန်ုပ်တို့၏ နောက်မျိုးဆက် embedding မော်ဒယ်အကြီးအသစ်ဖြစ်ပြီး dimension 3072 အထိရှိသော embeddings များကို ဖန်တီးပေးနိုင်ပါသည်။

ပိုမိုကောင်းမွန်သော စွမ်းဆောင်ရည်။ text-embedding-3-large သည် လက်ရှိတွင် ကျွန်ုပ်တို့၏ စွမ်းဆောင်ရည်အကောင်းဆုံး မော်ဒယ်ဖြစ်ပါသည်။ text-embedding-ada-002 နှင့် text-embedding-3-large ကို နှိုင်းယှဉ်လျှင် MIRACL တွင် ပျမ်းမျှရမှတ်သည် 31.4% မှ 54.9% သို့ မြင့်တက်လာပြီး MTEB တွင် 61.0% မှ 64.6% သို့ မြင့်တက်လာခဲ့ပါသည်။

အကဲဖြတ် benchmark	ada v2	text-embedding-3-small	text-embedding-3-large
MIRACL ပျမ်းမျှ	31.4	44.0	54.9
MTEB ပျမ်းမျှ	61.0	62.3	64.6

text-embedding-3-large ၏ ဈေးနှုန်းမှာ 1k တိုကင်လျှင် $0.00013 ဖြစ်ပါမည်။

embedding မော်ဒယ်အသစ်များကို အသုံးပြုပုံအကြောင်း ပိုမိုလေ့လာလိုပါက ကျွန်ုပ်တို့၏ Embeddings guide⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ကြည့်ရှုနိုင်ပါသည်။

embeddings ကို အတိုချုံးရန် built-in အထောက်အပံ့

ပိုကြီးသော embeddings များကို အသုံးပြုခြင်းသည်၊ ဥပမာ retrieval အတွက် vector store တစ်ခုထဲတွင် သိမ်းဆည်းခြင်းကဲ့သို့၊ ပိုသေးသော embeddings များကို အသုံးပြုခြင်းထက် ယေဘုယျအားဖြင့် ကုန်ကျစရိတ်ပိုများပြီး compute၊ memory နှင့် storage ကို ပိုမိုသုံးစွဲရပါသည်။

ကျွန်ုပ်တို့၏ embedding မော်ဒယ်အသစ် နှစ်ခုစလုံးကို embeddings အသုံးပြုရာတွင် performance နှင့် cost အကြား အလဲအလှယ်လုပ်နိုင်စေသော technique^A ဖြင့် လေ့ကျင့်ထားပါသည်။ အထူးသဖြင့် developer များသည် dimensions API parameter ကို ပေးပို့ခြင်းအားဖြင့် embedding ၏ concept ကို ကိုယ်စားပြုနိုင်စွမ်း မပျောက်ဆုံးဘဲ embeddings ကို အတိုချုံးနိုင်သည် (ဆိုလိုသည်မှာ sequence ၏ အဆုံးဘက်မှ ကိန်းဂဏန်းအချို့ကို ဖယ်ရှားနိုင်သည်)။ ဥပမာ MTEB benchmark တွင် text-embedding-3-large embedding တစ်ခုကို size 256 အထိ အတိုချုံးထားသော်လည်း size 1536 ရှိ အတိုမချုံးထားသော text-embedding-ada-002 embedding ထက် စွမ်းဆောင်ရည် ပိုကောင်းနေဆဲ ဖြစ်ပါသည်။

ဖွင့်နေသည်...

၎င်းကြောင့် အလွန်ပြောင်းလွယ်ပြင်လွယ်သော အသုံးပြုမှုကို ရရှိစေပါသည်။ ဥပမာအားဖြင့် dimension 1024 အထိသာ ရှည်လျားသော embeddings များကို ထောက်ပံ့သော vector data store ကို အသုံးပြုနေချိန်တွင် developer များသည် ကျွန်ုပ်တို့၏ အကောင်းဆုံး embedding မော်ဒယ် text-embedding-3-large ကို ဆက်လက်အသုံးပြုနိုင်ပြီး dimensions API parameter အတွက် 1024 တန်ဖိုးကို သတ်မှတ်နိုင်ပါသည်။ ထိုသို့လုပ်ခြင်းဖြင့် embedding ကို 3072 dimensions မှ အတိုချုံးပေးမည်ဖြစ်ကာ၊ ပိုသေးသော vector size အတွက် တိကျမှုအချို့ကို လဲလှယ်ရမည်ဖြစ်ပါသည်။

အခြားမော်ဒယ်အသစ်များနှင့် ဈေးနှုန်းလျှော့ချမှု

အပ်ဒိတ်လုပ်ထားသော GPT-3.5 Turbo မော်ဒယ်နှင့် ဈေးနှုန်းလျှော့ချမှု

လာမည့်အပတ်တွင် gpt-3.5-turbo-0125 ဟုခေါ်သော GPT‑3.5 Turbo မော်ဒယ်အသစ်ကို ကျွန်ုပ်တို့ မိတ်ဆက်မည်ဖြစ်ပြီး၊ ပြီးခဲ့သော တစ်နှစ်အတွင်း တတိယအကြိမ်အဖြစ် ဖောက်သည်များ scale လုပ်နိုင်ရန် GPT‑3.5 Turbo ၏ ဈေးနှုန်းများကို လျှော့ချမည်ဖြစ်ပါသည်။ မော်ဒယ်အသစ်အတွက် input ဈေးနှုန်းများကို 50% လျှော့ချပြီး 1K တိုကင်လျှင် $0.0005 သို့ သတ်မှတ်ထားသလို output ဈေးနှုန်းများကို 25% လျှော့ချပြီး 1K တိုကင်လျှင် $0.0015 သို့ သတ်မှတ်ထားပါသည်။ ဤမော်ဒယ်တွင် တောင်းဆိုထားသော format များဖြင့် တုံ့ပြန်ရာတွင် ပိုမိုတိကျမှုရှိလာခြင်းနှင့် အင်္ဂလိပ်မဟုတ်သော ဘာသာစကား function call များအတွက် text encoding ပြဿနာ ဖြစ်စေခဲ့သော bug တစ်ခု⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ပြင်ဆင်ထားခြင်း အပါအဝင် တိုးတက်မှုများစွာလည်း ပါဝင်ပါသည်။

unpinned gpt-3.5-turbo မော်ဒယ် alias ကို အသုံးပြုနေသော ဖောက်သည်များသည် ဤမော်ဒယ် စတင်ပြီး နှစ်ပတ်အကြာတွင် gpt-3.5-turbo-0613 မှ gpt-3.5-turbo-0125 သို့ အလိုအလျောက် အဆင့်မြှင့်တင်ခံရမည်ဖြစ်ပါသည်။

အပ်ဒိတ်လုပ်ထားသော GPT-4 Turbo အကြိုမြင်ကွင်း

GPT‑4 API ကို အသုံးပြုသည့် ဖောက်သည်များမှ တောင်းဆိုမှုများ၏ 70% ကျော်သည် ထုတ်ပြန်ပြီးကတည်းက GPT‑4 Turbo သို့ ပြောင်းရွှေ့ထားပြီးဖြစ်သည်၊ developer များက ၎င်း၏ အပ်ဒိတ်လုပ်ထားသော knowledge cutoff၊ ပိုမိုကြီးမားသည့် 128k context window များနှင့် ဈေးနှုန်းသက်သာမှုကို အသုံးချနေကြသောကြောင့်ဖြစ်သည်။

ယနေ့တွင် အပ်ဒိတ်လုပ်ထားသော GPT‑4 Turbo အကြိုမြင်ကွင်း မော်ဒယ်အသစ် gpt-4-0125-preview ကို ကျွန်ုပ်တို့ ထုတ်ပြန်လိုက်ပါသည်။ ဤမော်ဒယ်သည် code ထုတ်လုပ်ခြင်းကဲ့သို့သော အလုပ်များကို ယခင် preview မော်ဒယ်ထက် ပိုမိုပြည့်စုံစွာ ဆောင်ရွက်ပေးနိုင်ပြီး၊ မော်ဒယ်က အလုပ်တစ်ခုကို မပြီးစီးဘဲ နေတတ်သည့် “ပျင်းရိမှု” အခြေအနေများကို လျှော့ချရန် ရည်ရွယ်ထားပါသည်။ မော်ဒယ်အသစ်တွင် အင်္ဂလိပ်မဟုတ်သော UTF-8 generation များအပေါ် သက်ရောက်နေသည့် bug ကိုလည်း ပြင်ဆင်ထားပါသည်။

GPT‑4 Turbo preview ဗားရှင်းအသစ်များသို့ အလိုအလျောက် အဆင့်မြှင့်လိုသူများအတွက်၊ အမြဲတမ်း နောက်ဆုံး GPT‑4 Turbo preview မော်ဒယ်ကို ညွှန်ပြမည့် gpt-4-turbo-preview မော်ဒယ်အမည် alias အသစ်ကိုလည်း မိတ်ဆက်ပေးနေပါသည်။

လာမည့် လများအတွင်း vision ပါသော GPT‑4 Turbo ကို general availability အဖြစ် စတင်မိတ်ဆက်ရန် ကျွန်ုပ်တို့ စီစဉ်ထားပါသည်။

အပ်ဒိတ်လုပ်ထားသော moderation မော်ဒယ်

အခမဲ့ Moderation API သည် developer များအား အန္တရာယ်ဖြစ်စေနိုင်သော စာသားကို ခွဲခြားသိရှိနိုင်စေပါသည်။ ကျွန်ုပ်တို့၏ ဆက်လက်လုပ်ဆောင်နေသော ဘေးကင်းရေးလုပ်ငန်းစဉ်၏ တစ်စိတ်တစ်ပိုင်းအဖြစ် ယနေ့အထိ အခိုင်မာဆုံး moderation မော်ဒယ်ဖြစ်သည့် text-moderation-007 ကို ထုတ်ပြန်လိုက်ပါသည်။ text-moderation-latest နှင့် text-moderation-stable alias များကိုလည်း ၎င်းကို ညွှန်ပြရန် အပ်ဒိတ်လုပ်ထားပါသည်။ ကျွန်ုပ်တို့၏ safety best practices guide⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မှတစ်ဆင့် ဘေးကင်းသော AI စနစ်များ တည်ဆောက်ပုံအကြောင်း ပိုမိုလေ့လာနိုင်ပါသည်။

API အသုံးပြုမှုကို နားလည်ရန်နှင့် API keys များကို စီမံခန့်ခွဲရန် နည်းလမ်းအသစ်များ

developer များအတွက် ၎င်းတို့၏ အသုံးပြုမှုအပေါ် မြင်နိုင်စွမ်း ပိုမိုရရှိစေရန်နှင့် API keys များအပေါ် ထိန်းချုပ်နိုင်စွမ်း ပိုမိုရရှိစေရန် platform တိုးတက်မှု နှစ်ခုကို ကျွန်ုပ်တို့ မိတ်ဆက်နေပါသည်။

ပထမဦးစွာ developer များသည် ယခုအခါ API keys page⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မှ API keys များအတွက် ခွင့်ပြုချက်များ သတ်မှတ်ပေးနိုင်ပါပြီ။ ဥပမာအားဖြင့် key တစ်ခုကို အတွင်းပိုင်း tracking dashboard တစ်ခုအတွက် read-only access ဖြင့် သတ်မှတ်နိုင်သလို၊ အချို့သော အဆုံးမှတ် များကိုသာ ဝင်ရောက်နိုင်ရန် ကန့်သတ်နိုင်ပါသည်။

ဒုတိယအနေဖြင့် usage dashboard နှင့် usage export function သည် tracking ကို ဖွင့်ထားပြီးနောက်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) API key အဆင့်အလိုက် metrics များကို ယခု ဖော်ပြပေးပါသည်။ ထို့ကြောင့် feature၊ team၊ product သို့မဟုတ် project တစ်ခုချင်းစီအလိုက် usage ကို ကြည့်ရှုရန် ရိုးရှင်းလာပြီး၊ အဲဒီတစ်ခုချင်းစီအတွက် API keys သီးခြားထားရုံဖြင့် ပြုလုပ်နိုင်ပါသည်။

လာမည့် လများအတွင်း developer များအနေဖြင့် ၎င်းတို့၏ API အသုံးပြုမှုကို ကြည့်ရှုနိုင်ခြင်းနှင့် API keys များကို စီမံခန့်ခွဲနိုင်ခြင်းကို၊ အထူးသဖြင့် အဖွဲ့အစည်းကြီးများတွင်၊ ပိုမိုကောင်းမွန်အောင် ဆက်လက်တိုးတက်အောင် လုပ်ဆောင်ရန် ကျွန်ုပ်တို့ စီစဉ်ထားပါသည်။

OpenAI ၏ API များဆိုင်ရာ နောက်ဆုံးအပ်ဒိတ်များကို သိရှိလိုပါက X တွင် @OpenAIDevs⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို လိုက်နာပါ။

မှတ်စုများ

A
Matryoshka Representation Learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)

စာရေးသူ

OpenAI

ကျေးဇူးတင်လွှာ

Juntang Zhuang, Paul Baltescu, Joy Jiao, Arvind Neelakantan, Andrew Braunstein, Jeff Harris, Logan Kilpatrick, Leher Pathak, Enoch Cheung, Ted Sanders, Yutian Liu, Anushree Agrawal, Andrew Peng, Ian Kivlichan, Mehmet Yatbaz, Madelaine Boyd, Anna-Luisa Brakman, Florencia Leoni Aleman, Henry Head, Molly Lin, Meghan Shah, Chelsea Carlson, Sam Toizer, Ryan Greene, Alison Harmon, Denny Jin, Karolis Kosas, Marie Inuzuka, Peter Bakkum, Barret Zoph, Luke Metz, Jiayi Weng, Randall Lin, Yash Patil, Mianna Chen, Andrew Kondrich, Brydon Eastman, Liam Fedus, John Schulman, Vlad Fomenko, Andrej Karpathy, Aidan Clark, Owen Campbell-Moore

ဆက်စပ် ဆောင်းပါးများ

အားလုံးကို ကြည့်ရန်

ကမ္ဘာလုံးဆိုင်ရာ သတင်းမိတ်ဖက်များ - Le Monde နှင့် Prisa Media

ကုမ္ပဏီ၂၀၂၄ မတ် ၁၃

News > Company carousel > Review completed > Media

သုံးသပ်မှု ပြီးစီးပြီ — Altman နှင့် Brockman တို့သည် OpenAI ကို ဆက်လက် ဦးဆောင်မည်

ကုမ္ပဏီ၂၀၂၄ မတ် ၈

OpenAI က ဒါရိုက်တာအဖွဲ့ဝင်အသစ်များကို ကြေညာ

ကုမ္ပဏီ၂၀၂၄ မတ် ၈