15 ડિસેમ્બર, 2022

New and improved embedding model

સોફ્ટ-ફોકસ લેન્ડસ્કેપ પેઇન્ટિંગ જેમાં લીલું અગ્રભાગ, પેસ્ટલ ગુલાબી અને બેજ મેદાન, અને તેજસ્વી ગુલાબી તથા આછા વાદળી આકાશ નીચે દૂરના ટેકરીઓ દર્શાવવામાં આવ્યા છે.

લોડિંગ…

નવું મોડલ, text-embedding-ada-002, ટેક્સ્ટ શોધ, ટેક્સ્ટ સમાનતા અને કોડ શોધ માટેના પાંચ અલગ મોડલ્સને બદલે છે, અને મોટાભાગના કાર્યોમાં અમારા અગાઉના સૌથી સક્ષમ મોડલ Davinci કરતાં વધુ સારું પ્રદર્શન કરે છે, જ્યારે તેની કિંમત 99.8% ઓછી છે.

Embeddings એ સંકલ્પનાઓના આંકડાકીય પ્રતિનિધિત્વ છે, જેને સંખ્યાક્રમોમાં રૂપાંતરિત કરવામાં આવે છે, જેના કારણે કમ્પ્યુટરો માટે તે સંકલ્પનાઓ વચ્ચેના સંબંધોને સમજવું સરળ બને છે. OpenAI /embeddings⁠(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટના પ્રારંભિક લોન્ચ⁠ પછીથી, ઘણી એપ્લિકેશન્સે સામગ્રીને વ્યક્તિગત બનાવવા, ભલામણ કરવા અને શોધવા માટે embeddings નો સમાવેશ કર્યો છે.

લોડ થઈ રહ્યું છે...

તમે અમારા OpenAI Python Library⁠(નવી વિન્ડોમાં ખૂલે છે) નો ઉપયોગ કરીને, અગાઉના મોડલ્સની જેમ જ, કોડની બે લાઇનમાં નવા મોડલ માટે /embeddings⁠(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટને ક્વેરી કરી શકો છો.

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

મોડલ સુધારાઓ

વધુ મજબૂત પ્રદર્શન. text-embedding-ada-002 ટેક્સ્ટ શોધ, કોડ શોધ અને વાક્ય સમાનતા કાર્યોમાં બધા જૂના embedding મોડલ્સ કરતાં વધુ સારું પ્રદર્શન કરે છે અને ટેક્સ્ટ વર્ગીકરણમાં સરખામણીયોગ્ય પ્રદર્શન આપે છે. દરેક કાર્ય શ્રેણી માટે, અમે જૂના embeddings⁠(નવી વિન્ડોમાં ખૂલે છે) માં વપરાયેલા ડેટાસેટ્સ પર મોડલ્સનું મૂલ્યાંકન કરીએ છીએ.

મોડલ	પર્ફોમન્સ
`text-embedding-ada-002`	53.3
`text-search-davinci-*-001`	52.8
`text-search-curie-*-001`	50.9
`text-search-babbage-*-001`	50.4
`text-search-ada-*-001`	49.0

ડેટાસેટ: બીઈઆઈઆર (આરગુએના,ક્લાઈમેટ ફેવર, ડીબી પેડિયા, ફેવર, એફઆઈક્યુએ2018, હોટપોટક્યુએ, એનએફકોરપસ, ક્યુરારેટ્રીવલ, સાયફેક્ટ, ટ્રેકકોવ આઈડી, ટચ2020)

ક્ષમતાઓનું એકીકરણ. અમે ઉપર દર્શાવેલા પાંચ અલગ મોડલ્સ (text-similarity, text-search-query, text-search-doc, code-search-text અને code-search-code) ને એક નવા મોડલમાં મર્જ કરીને /embeddings⁠(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટનું ઇન્ટરફેસ નોંધપાત્ર રીતે સરળ બનાવ્યું છે. આ એકમાત્ર પ્રતિનિધિત્વ વિવિધ પ્રકારના ટેક્સ્ટ શોધ, વાક્ય સમાનતા અને કોડ શોધ બેન્ચમાર્ક્સ પર અમારા અગાઉના embedding મોડલ્સ કરતાં વધુ સારું પ્રદર્શન કરે છે.

લાંબો સંદર્ભ. નવા મોડલની સંદર્ભ લંબાઈ ચાર ગણીએ વધારીને 2048 માંથી 8192 કરવામાં આવી છે, જેથી લાંબા દસ્તાવેજો સાથે કામ કરવું વધુ અનુકૂળ બને છે.

નાનું embedding કદ. નવા embeddings માં ફક્ત 1536 dimensions છે, જે davinci-001 embeddings ના કદના આઠમા ભાગ જેટલા છે, જેથી vector databases સાથે કામ કરતી વખતે નવા embeddings વધુ ખર્ચ-અસરકારક બને છે.

ઘટાડેલી કિંમત. સમાન કદના જૂના મોડલ્સની સરખામણીમાં અમે નવા embedding મોડલ્સની કિંમત 90% ઘટાડી છે. નવું મોડલ જૂના Davinci મોડલ્સ કરતાં 99.8% ઓછી કિંમતે વધુ સારું અથવા સમાન પ્રદર્શન આપે છે.

કુલ મળીને, નવું embedding મોડલ નૈસર્ગિક ભાષા પ્રક્રિયા અને કોડ કાર્યો માટે ઘણું વધુ શક્તિશાળી સાધન છે. અમારા ગ્રાહકો તેમના પોતાના ક્ષેત્રોમાં વધુ સક્ષમ એપ્લિકેશન્સ બનાવવા માટે તેનો કેવી રીતે ઉપયોગ કરશે તે જોવા અમે ઉત્સાહિત છીએ.

મર્યાદાઓ

નવું text-embedding-ada-002 મોડલ SentEval લીનીયર પ્રોબિંગ વર્ગીકરણ બેન્ચમાર્ક પર text-similarity-davinci-001 કરતાં વધુ સારું પ્રદર્શન કરતું નથી. એવા કાર્યો માટે, જેમાં વર્ગીકરણ આગાહી માટે embedding vectors પર હલકી લીનીયર લેયર ટ્રેન કરવાની જરૂર પડે, અમે નવું મોડલ text-similarity-davinci-001 સાથે સરખાવવાની અને જે મોડલ શ્રેષ્ઠ પ્રદર્શન આપે તે પસંદ કરવાની ભલામણ કરીએ છીએ.

અમારા embedding મોડલ્સની સામાન્ય મર્યાદાઓ માટે embeddings દસ્તાવેજીકરણમાં મર્યાદાઓ અને જોખમો⁠(નવી વિન્ડોમાં ખૂલે છે) વિભાગ જુઓ.

ક્રિયામાં embeddings API ના ઉદાહરણો

Kalendar AI⁠(નવી વિન્ડોમાં ખૂલે છે) એક sales outreach પ્રોડક્ટ છે જે embeddings નો ઉપયોગ કરીને 340M પ્રોફાઇલ્સ ધરાવતા ડેટાસેટમાંથી યોગ્ય sales pitch ને યોગ્ય ગ્રાહકો સાથે મેળવે છે. આ automation ગ્રાહક પ્રોફાઇલ્સ અને sales pitches ના embeddings વચ્ચેની સમાનતા પર આધાર રાખે છે જેથી સૌથી યોગ્ય મેળાપોને ક્રમમાં મૂકી શકાય, અને તેમની જૂની પદ્ધતિની સરખામણીમાં 40–56% અનિચ્છનીય ટાર્ગેટિંગ દૂર થાય છે.

Notion⁠(નવી વિન્ડોમાં ખૂલે છે), online વર્કસ્પેસ કંપની, આજની keyword matching systems કરતાં આગળ જઈ Notion શોધને સુધારવા OpenAI ના નવા embeddings નો ઉપયોગ કરશે.

દસ્તાવેજીકરણ વાંચો(નવી વિન્ડોમાં ખૂલે છે)

લેખકો

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan

સંબંધિત લેખો

બધું જુઓ

વૈશ્વિક સમાચાર ભાગીદારીઓ: Le Monde અને Prisa Media

કંપની13 માર્ચ, 2024

News > Company carousel > Review completed > Media

સમીક્ષા પૂર્ણ થઈ અને Altman, Brockman OpenAIનું નેતૃત્વ ચાલુ રાખશે

કંપની8 માર્ચ, 2024

OpenAI બોર્ડ ઓફ ડિરેક્ટર્સમાં નવા સભ્યોની જાહેરાત કરે છે

કંપની8 માર્ચ, 2024