၂၀၂၂ ဒီဇင်ဘာ ၁၅

New and improved embedding model

အစိမ်းရောင် ရှေ့မြင်ကွင်း၊ pastel ပန်းရောင်နှင့် beige ရောင်လယ်ကွင်းတစ်ခု၊ တောက်ပသော ပန်းရောင်နှင့် အပြာနုရောင် ကောင်းကင်အောက်ရှိ အဝေးတောင်တန်းများကို ဖော်ပြထားသော ပျော့ပျောင်းသော focus ပါ ရှုခင်းပန်းချီတစ်ခု။

ဖွင့်နေသည်…

မော်ဒယ်အသစ် text-embedding-ada-002 သည် စာသားရှာဖွေမှု၊ စာသားတူညီမှု နှင့် ကုဒ်ရှာဖွေမှုအတွက် သီးခြားမော်ဒယ် ၅ ခုကို အစားထိုးထားပြီး လုပ်ငန်းအများစုတွင် ယခင်က ကျွန်ုပ်တို့၏ စွမ်းရည်အမြင့်ဆုံး မော်ဒယ်ဖြစ်သော Davinci ထက် ပိုကောင်းစွာ လုပ်ဆောင်သည့်အပြင် စျေးနှုန်းမှာ 99.8% ပိုနိမ့်ပါသည်။

Embeddings သည် အယူအဆများကို ကိန်းဂဏန်းအစဉ်လိုက်များအဖြစ် ပြောင်းလဲထားသော ကိန်းဂဏန်းကိုယ်စားပြုမှုများဖြစ်ပြီး ထိုအယူအဆများအကြား ဆက်နွယ်မှုများကို ကွန်ပျူတာများက နားလည်ရန် လွယ်ကူစေပါသည်။ OpenAI ၏ /embeddings⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အဆုံးမှတ် ကို စတင်မိတ်ဆက်ခဲ့ချိန်⁠ မှစ၍ application များစွာတွင် embeddings ကို ထည့်သွင်းအသုံးပြုပြီး အကြောင်းအရာများကို ကိုယ်ပိုင်သတ်မှတ်ပေးခြင်း၊ အကြံပြုခြင်း နှင့် ရှာဖွေခြင်းတို့ကို ပြုလုပ်လျက်ရှိပါသည်။

ဖွင့်နေသည်...

ယခင်မော်ဒယ်များနှင့် ပြုလုပ်နိုင်ခဲ့သကဲ့သို့ ကျွန်ုပ်တို့၏ OpenAI Python Library⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြုပြီး code နှစ်ကြောင်းဖြင့် မော်ဒယ်အသစ်အတွက် /embeddings⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အဆုံးမှတ် ကို query လုပ်နိုင်ပါသည်-

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

မော်ဒယ် တိုးတက်မှုများ

ပိုမိုကောင်းမွန်သော စွမ်းဆောင်ရည်။ text-embedding-ada-002 သည် စာသားရှာဖွေမှု၊ ကုဒ်ရှာဖွေမှု နှင့် ဝါကျတူညီမှု လုပ်ငန်းများတွင် embedding မော်ဒယ်ဟောင်းအားလုံးထက် ပိုကောင်းပြီး စာသားအမျိုးအစားခွဲခြားမှုတွင်လည်း နှိုင်းယှဉ်နိုင်သော စွမ်းဆောင်ရည်ကို ရရှိပါသည်။ လုပ်ငန်းအမျိုးအစားတစ်ခုစီအတွက် embedding ဟောင်းများ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် အသုံးပြုထားသော dataset များပေါ်တွင် မော်ဒယ်များကို ကျွန်ုပ်တို့ အကဲဖြတ်ပါသည်။

မော်ဒယ်	စွမ်းဆောင်ရည်
`text-embedding-ada-002`	၅၃.၃
`text-search-davinci-*-001`	၅၂.၈
`text-search-curie-*-001`	၅၀.၉
`text-search-babbage-*-001`	၅၀.၄
`text-search-ada-*-001`	၄၉.၀

ဒေတာအစု- BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

စွမ်းရည်များကို ပေါင်းစည်းခြင်း။ အထက်တွင် ဖော်ပြထားသော သီးခြားမော်ဒယ် ၅ ခု (text-similarity, text-search-query, text-search-doc, code-search-text နှင့် code-search-code) ကို မော်ဒယ်အသစ်တစ်ခုတည်းအဖြစ် ပေါင်းစည်းခြင်းအားဖြင့် /embeddings⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အဆုံးမှတ် ၏ interface ကို ကျွန်ုပ်တို့ အလွန်ရိုးရှင်းစေခဲ့ပါသည်။ ဤကိုယ်စားပြုမှုတစ်ခုတည်းသည် စာသားရှာဖွေမှု၊ ဝါကျတူညီမှု နှင့် ကုဒ်ရှာဖွေမှု benchmark အမျိုးမျိုးတစ်လျှောက် ကျွန်ုပ်တို့၏ ယခင် embedding မော်ဒယ်များထက် ပိုကောင်းစွာ လုပ်ဆောင်ပါသည်။

ပိုရှည်သော context။ မော်ဒယ်အသစ်၏ context length ကို 2048 မှ 8192 အထိ လေးဆတိုးမြှင့်ထားသဖြင့် document ရှည်များနှင့် အလုပ်လုပ်ရာတွင် ပိုမိုအဆင်ပြေစေပါသည်။

ပိုသေးသော embedding အရွယ်အစား။ embedding အသစ်များတွင် dimensions 1536 သာရှိပြီး davinci-001 embeddings အရွယ်အစား၏ ရှစ်ပုံတစ်ပုံသာ ဖြစ်သဖြင့် vector databases များနှင့် အလုပ်လုပ်ရာတွင် ကုန်ကျစရိတ်ပိုမိုသက်သာစေပါသည်။

စျေးနှုန်းလျှော့ချခြင်း။ အရွယ်အစားတူ မော်ဒယ်ဟောင်းများနှင့် နှိုင်းယှဉ်လျှင် embedding မော်ဒယ်အသစ်များ၏ စျေးနှုန်းကို 90% လျှော့ချထားပါသည်။ မော်ဒယ်အသစ်သည် ယခင် Davinci မော်ဒယ်များကဲ့သို့ သို့မဟုတ် ပိုကောင်းသော စွမ်းဆောင်ရည်ကို 99.8% ပိုနိမ့်သော စျေးနှုန်းဖြင့် ရရှိစေပါသည်။

စုစုပေါင်းအားဖြင့် embedding မော်ဒယ်အသစ်သည် သဘာဝဘာသာစကားဆိုင်ရာ လုပ်ငန်းများနှင့် ကုဒ်ဆိုင်ရာ လုပ်ငန်းများအတွက် ပိုမိုစွမ်းအားကြီးသော ကိရိယာတစ်ခုဖြစ်ပါသည်။ ကျွန်ုပ်တို့၏ ဖောက်သည်များက ၎င်းကို အသုံးပြုပြီး ၎င်းတို့၏ သက်ဆိုင်ရာ နယ်ပယ်များတွင် ပိုမိုစွမ်းရည်မြင့်သော application များကို မည်သို့ ဖန်တီးမည်ကို မြင်တွေ့ရရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားနေပါသည်။

ကန့်သတ်ချက်များ

အသစ်ဖြစ်သော text-embedding-ada-002 မော်ဒယ်သည် SentEval linear probing classification benchmark တွင် text-similarity-davinci-001 ထက် စွမ်းဆောင်ရည်မပိုကောင်းပါ။ classification prediction အတွက် embedding vectors များအပေါ်တွင် အလေးချိန်ပေါ့ပါးသော linear layer တစ်ခုကို လေ့ကျင့်ရန်လိုအပ်သော လုပ်ငန်းများအတွက် text-similarity-davinci-001 နှင့် မော်ဒယ်အသစ်ကို နှိုင်းယှဉ်ပြီး အကောင်းဆုံး စွမ်းဆောင်ရည်ပေးသည့် မော်ဒယ်ကို ရွေးချယ်ရန် အကြံပြုပါသည်။

ကျွန်ုပ်တို့၏ embedding မော်ဒယ်များ၏ ယေဘုယျ ကန့်သတ်ချက်များအတွက် embeddings documentation ထဲရှိ ကန့်သတ်ချက်များနှင့် အန္တရာယ်များ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အပိုင်းကို ကြည့်ပါ။

လုပ်ဆောင်နေသော embeddings API ဥပမာများ

Kalendar AI⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် profile 340M ပါဝင်သော dataset တစ်ခုအတွင်းမှ သင့်တော်သော sales pitch ကို သင့်တော်သော ဖောက်သည်များနှင့် ကိုက်ညီစေရန် embeddings ကို အသုံးပြုသော sales outreach ထုတ်ကုန်တစ်ခုဖြစ်သည်။ ဤအလိုအလျောက်လုပ်ဆောင်မှုသည် ဖောက်သည် profile များ၏ embeddings နှင့် sales pitch များ၏ embeddings တို့အကြား ဆင်တူမှုကို အခြေခံပြီး အသင့်တော်ဆုံး ကိုက်ညီမှုများကို အဆင့်သတ်မှတ်ပေးကာ ၎င်းတို့၏ ယခင်နည်းလမ်းနှင့် နှိုင်းယှဉ်လျှင် မလိုလားအပ်သော targeting ကို 40–56% လျှော့ချပေးပါသည်။

Notion⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် အွန်လိုင်း အလုပ်နေရာ ကုမ္ပဏီဖြစ်ပြီး ယနေ့ရှိ keyword matching systems များထက် ကျော်လွန်၍ Notion search ကို တိုးတက်စေရန် OpenAI ၏ embedding အသစ်များကို အသုံးပြုမည်ဖြစ်သည်။

မှတ်တမ်းကို ဖတ်ရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)

စာရေးသူများ

Ryan Greene - Ted Sanders - Lilian Wengနှင့် Arvind Neelakantan

ဆက်စပ်ဆောင်းပါးများ

အားလုံးကို ကြည့်ရန်

ကမ္ဘာလုံးဆိုင်ရာ သတင်းမိတ်ဖက်များ - Le Monde နှင့် Prisa Media

ကုမ္ပဏီ၂၀၂၄ မတ် ၁၃

News > Company carousel > Review completed > Media

သုံးသပ်မှု ပြီးစီးပြီ — Altman နှင့် Brockman တို့သည် OpenAI ကို ဆက်လက် ဦးဆောင်မည်

ကုမ္ပဏီ၂၀၂၄ မတ် ၈

OpenAI က ဒါရိုက်တာအဖွဲ့ဝင်အသစ်များကို ကြေညာ

ကုမ္ပဏီ၂၀၂၄ မတ် ၈