
မော်ဒယ်အသစ် text-embedding-ada-002 သည် စာသားရှာဖွေမှု၊ စာသားတူညီမှု နှင့် ကုဒ်ရှာဖွေမှုအတွက် သီးခြားမော်ဒယ် ၅ ခုကို အစားထိုးထားပြီး လုပ်ငန်းအများစုတွင် ယခင်က ကျွန်ုပ်တို့၏ စွမ်းရည်အမြင့်ဆုံး မော်ဒယ်ဖြစ်သော Davinci ထက် ပိုကောင်းစွာ လုပ်ဆောင်သည့်အပြင် စျေးနှုန်းမှာ 99.8% ပိုနိမ့်ပါသည်။
Embeddings သည် အယူအဆများကို ကိန်းဂဏန်းအစဉ်လိုက်များအဖြစ် ပြောင်းလဲထားသော ကိန်းဂဏန်းကိုယ်စားပြုမှုများဖြစ်ပြီး ထိုအယူအဆများအကြား ဆက်နွယ်မှုများကို ကွန်ပျူတာများက နားလည်ရန် လွယ်ကူစေပါသည်။ OpenAI ၏ /embeddings(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အဆုံးမှတ် ကို စတင်မိတ်ဆက်ခဲ့ချိန် မှစ၍ application များစွာတွင် embeddings ကို ထည့်သွင်းအသုံးပြုပြီး အကြောင်းအရာများကို ကိုယ်ပိုင်သတ်မှတ်ပေးခြင်း၊ အကြံပြုခြင်း နှင့် ရှာဖွေခြင်းတို့ကို ပြုလုပ်လျက်ရှိပါသည်။
ယခင်မော်ဒယ်များနှင့် ပြုလုပ်နိုင်ခဲ့သကဲ့သို့ ကျွန်ုပ်တို့၏ OpenAI Python Library(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြုပြီး code နှစ်ကြောင်းဖြင့် မော်ဒယ်အသစ်အတွက် /embeddings(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အဆုံးမှတ် ကို query လုပ်နိုင်ပါသည်-
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)ပိုမိုကောင်းမွန်သော စွမ်းဆောင်ရည်။ text-embedding-ada-002 သည် စာသားရှာဖွေမှု၊ ကုဒ်ရှာဖွေမှု နှင့် ဝါကျတူညီမှု လုပ်ငန်းများတွင် embedding မော်ဒယ်ဟောင်းအားလုံးထက် ပိုကောင်းပြီး စာသားအမျိုးအစားခွဲခြားမှုတွင်လည်း နှိုင်းယှဉ်နိုင်သော စွမ်းဆောင်ရည်ကို ရရှိပါသည်။ လုပ်ငန်းအမျိုးအစားတစ်ခုစီအတွက် embedding ဟောင်းများ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် အသုံးပြုထားသော dataset များပေါ်တွင် မော်ဒယ်များကို ကျွန်ုပ်တို့ အကဲဖြတ်ပါသည်။
| မော်ဒယ် | စွမ်းဆောင်ရည် |
| text-embedding-ada-002 | ၅၃.၃ |
| text-search-davinci-*-001 | ၅၂.၈ |
| text-search-curie-*-001 | ၅၀.၉ |
| text-search-babbage-*-001 | ၅၀.၄ |
| text-search-ada-*-001 | ၄၉.၀ |
စွမ်းရည်များကို ပေါင်းစည်းခြင်း။ အထက်တွင် ဖော်ပြထားသော သီးခြားမော်ဒယ် ၅ ခု (text-similarity, text-search-query, text-search-doc, code-search-text နှင့် code-search-code) ကို မော်ဒယ်အသစ်တစ်ခုတည်းအဖြစ် ပေါင်းစည်းခြင်းအားဖြင့် /embeddings(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အဆုံးမှတ် ၏ interface ကို ကျွန်ုပ်တို့ အလွန်ရိုးရှင်းစေခဲ့ပါသည်။ ဤကိုယ်စားပြုမှုတစ်ခုတည်းသည် စာသားရှာဖွေမှု၊ ဝါကျတူညီမှု နှင့် ကုဒ်ရှာဖွေမှု benchmark အမျိုးမျိုးတစ်လျှောက် ကျွန်ုပ်တို့၏ ယခင် embedding မော်ဒယ်များထက် ပိုကောင်းစွာ လုပ်ဆောင်ပါသည်။
ပိုရှည်သော context။ မော်ဒယ်အသစ်၏ context length ကို 2048 မှ 8192 အထိ လေးဆတိုးမြှင့်ထားသဖြင့် document ရှည်များနှင့် အလုပ်လုပ်ရာတွင် ပိုမိုအဆင်ပြေစေပါသည်။
ပိုသေးသော embedding အရွယ်အစား။ embedding အသစ်များတွင် dimensions 1536 သာရှိပြီး davinci-001 embeddings အရွယ်အစား၏ ရှစ်ပုံတစ်ပုံသာ ဖြစ်သဖြင့် vector databases များနှင့် အလုပ်လုပ်ရာတွင် ကုန်ကျစရိတ်ပိုမိုသက်သာစေပါသည်။
စျေးနှုန်းလျှော့ချခြင်း။ အရွယ်အစားတူ မော်ဒယ်ဟောင်းများနှင့် နှိုင်းယှဉ်လျှင် embedding မော်ဒယ်အသစ်များ၏ စျေးနှုန်းကို 90% လျှော့ချထားပါသည်။ မော်ဒယ်အသစ်သည် ယခင် Davinci မော်ဒယ်များကဲ့သို့ သို့မဟုတ် ပိုကောင်းသော စွမ်းဆောင်ရည်ကို 99.8% ပိုနိမ့်သော စျေးနှုန်းဖြင့် ရရှိစေပါသည်။
စုစုပေါင်းအားဖြင့် embedding မော်ဒယ်အသစ်သည် သဘာဝဘာသာစကားဆိုင်ရာ လုပ်ငန်းများနှင့် ကုဒ်ဆိုင်ရာ လုပ်ငန်းများအတွက် ပိုမိုစွမ်းအားကြီးသော ကိရိယာတစ်ခုဖြစ်ပါသည်။ ကျွန်ုပ်တို့၏ ဖောက်သည်များက ၎င်းကို အသုံးပြုပြီး ၎င်းတို့၏ သက်ဆိုင်ရာ နယ်ပယ်များတွင် ပိုမိုစွမ်းရည်မြင့်သော application များကို မည်သို့ ဖန်တီးမည်ကို မြင်တွေ့ရရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားနေပါသည်။
အသစ်ဖြစ်သော text-embedding-ada-002 မော်ဒယ်သည် SentEval linear probing classification benchmark တွင် text-similarity-davinci-001 ထက် စွမ်းဆောင်ရည်မပိုကောင်းပါ။ classification prediction အတွက် embedding vectors များအပေါ်တွင် အလေးချိန်ပေါ့ပါးသော linear layer တစ်ခုကို လေ့ကျင့်ရန်လိုအပ်သော လုပ်ငန်းများအတွက် text-similarity-davinci-001 နှင့် မော်ဒယ်အသစ်ကို နှိုင်းယှဉ်ပြီး အကောင်းဆုံး စွမ်းဆောင်ရည်ပေးသည့် မော်ဒယ်ကို ရွေးချယ်ရန် အကြံပြုပါသည်။
ကျွန်ုပ်တို့၏ embedding မော်ဒယ်များ၏ ယေဘုယျ ကန့်သတ်ချက်များအတွက် embeddings documentation ထဲရှိ ကန့်သတ်ချက်များနှင့် အန္တရာယ်များ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အပိုင်းကို ကြည့်ပါ။
Kalendar AI(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် profile 340M ပါဝင်သော dataset တစ်ခုအတွင်းမှ သင့်တော်သော sales pitch ကို သင့်တော်သော ဖောက်သည်များနှင့် ကိုက်ညီစေရန် embeddings ကို အသုံးပြုသော sales outreach ထုတ်ကုန်တစ်ခုဖြစ်သည်။ ဤအလိုအလျောက်လုပ်ဆောင်မှုသည် ဖောက်သည် profile များ၏ embeddings နှင့် sales pitch များ၏ embeddings တို့အကြား ဆင်တူမှုကို အခြေခံပြီး အသင့်တော်ဆုံး ကိုက်ညီမှုများကို အဆင့်သတ်မှတ်ပေးကာ ၎င်းတို့၏ ယခင်နည်းလမ်းနှင့် နှိုင်းယှဉ်လျှင် မလိုလားအပ်သော targeting ကို 40–56% လျှော့ချပေးပါသည်။
Notion(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် အွန်လိုင်း အလုပ်နေရာ ကုမ္ပဏီဖြစ်ပြီး ယနေ့ရှိ keyword matching systems များထက် ကျော်လွန်၍ Notion search ကို တိုးတက်စေရန် OpenAI ၏ embedding အသစ်များကို အသုံးပြုမည်ဖြစ်သည်။


