
નવું મોડલ, text-embedding-ada-002, ટેક્સ્ટ શોધ, ટેક્સ્ટ સમાનતા અને કોડ શોધ માટેના પાંચ અલગ મોડલ્સને બદલે છે, અને મોટાભાગના કાર્યોમાં અમારા અગાઉના સૌથી સક્ષમ મોડલ Davinci કરતાં વધુ સારું પ્રદર્શન કરે છે, જ્યારે તેની કિંમત 99.8% ઓછી છે.
Embeddings એ સંકલ્પનાઓના આંકડાકીય પ્રતિનિધિત્વ છે, જેને સંખ્યાક્રમોમાં રૂપાંતરિત કરવામાં આવે છે, જેના કારણે કમ્પ્યુટરો માટે તે સંકલ્પનાઓ વચ્ચેના સંબંધોને સમજવું સરળ બને છે. OpenAI /embeddings(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટના પ્રારંભિક લોન્ચ પછીથી, ઘણી એપ્લિકેશન્સે સામગ્રીને વ્યક્તિગત બનાવવા, ભલામણ કરવા અને શોધવા માટે embeddings નો સમાવેશ કર્યો છે.
તમે અમારા OpenAI Python Library(નવી વિન્ડોમાં ખૂલે છે) નો ઉપયોગ કરીને, અગાઉના મોડલ્સની જેમ જ, કોડની બે લાઇનમાં નવા મોડલ માટે /embeddings(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટને ક્વેરી કરી શકો છો.
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)વધુ મજબૂત પ્રદર્શન. text-embedding-ada-002 ટેક્સ્ટ શોધ, કોડ શોધ અને વાક્ય સમાનતા કાર્યોમાં બધા જૂના embedding મોડલ્સ કરતાં વધુ સારું પ્રદર્શન કરે છે અને ટેક્સ્ટ વર્ગીકરણમાં સરખામણીયોગ્ય પ્રદર્શન આપે છે. દરેક કાર્ય શ્રેણી માટે, અમે જૂના embeddings(નવી વિન્ડોમાં ખૂલે છે) માં વપરાયેલા ડેટાસેટ્સ પર મોડલ્સનું મૂલ્યાંકન કરીએ છીએ.
| મોડલ | પર્ફોમન્સ |
| text-embedding-ada-002 | 53.3 |
| text-search-davinci-*-001 | 52.8 |
| text-search-curie-*-001 | 50.9 |
| text-search-babbage-*-001 | 50.4 |
| text-search-ada-*-001 | 49.0 |
ક્ષમતાઓનું એકીકરણ. અમે ઉપર દર્શાવેલા પાંચ અલગ મોડલ્સ (text-similarity, text-search-query, text-search-doc, code-search-text અને code-search-code) ને એક નવા મોડલમાં મર્જ કરીને /embeddings(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટનું ઇન્ટરફેસ નોંધપાત્ર રીતે સરળ બનાવ્યું છે. આ એકમાત્ર પ્રતિનિધિત્વ વિવિધ પ્રકારના ટેક્સ્ટ શોધ, વાક્ય સમાનતા અને કોડ શોધ બેન્ચમાર્ક્સ પર અમારા અગાઉના embedding મોડલ્સ કરતાં વધુ સારું પ્રદર્શન કરે છે.
લાંબો સંદર્ભ. નવા મોડલની સંદર્ભ લંબાઈ ચાર ગણીએ વધારીને 2048 માંથી 8192 કરવામાં આવી છે, જેથી લાંબા દસ્તાવેજો સાથે કામ કરવું વધુ અનુકૂળ બને છે.
નાનું embedding કદ. નવા embeddings માં ફક્ત 1536 dimensions છે, જે davinci-001 embeddings ના કદના આઠમા ભાગ જેટલા છે, જેથી vector databases સાથે કામ કરતી વખતે નવા embeddings વધુ ખર્ચ-અસરકારક બને છે.
ઘટાડેલી કિંમત. સમાન કદના જૂના મોડલ્સની સરખામણીમાં અમે નવા embedding મોડલ્સની કિંમત 90% ઘટાડી છે. નવું મોડલ જૂના Davinci મોડલ્સ કરતાં 99.8% ઓછી કિંમતે વધુ સારું અથવા સમાન પ્રદર્શન આપે છે.
કુલ મળીને, નવું embedding મોડલ નૈસર્ગિક ભાષા પ્રક્રિયા અને કોડ કાર્યો માટે ઘણું વધુ શક્તિશાળી સાધન છે. અમારા ગ્રાહકો તેમના પોતાના ક્ષેત્રોમાં વધુ સક્ષમ એપ્લિકેશન્સ બનાવવા માટે તેનો કેવી રીતે ઉપયોગ કરશે તે જોવા અમે ઉત્સાહિત છીએ.
નવું text-embedding-ada-002 મોડલ SentEval લીનીયર પ્રોબિંગ વર્ગીકરણ બેન્ચમાર્ક પર text-similarity-davinci-001 કરતાં વધુ સારું પ્રદર્શન કરતું નથી. એવા કાર્યો માટે, જેમાં વર્ગીકરણ આગાહી માટે embedding vectors પર હલકી લીનીયર લેયર ટ્રેન કરવાની જરૂર પડે, અમે નવું મોડલ text-similarity-davinci-001 સાથે સરખાવવાની અને જે મોડલ શ્રેષ્ઠ પ્રદર્શન આપે તે પસંદ કરવાની ભલામણ કરીએ છીએ.
અમારા embedding મોડલ્સની સામાન્ય મર્યાદાઓ માટે embeddings દસ્તાવેજીકરણમાં મર્યાદાઓ અને જોખમો(નવી વિન્ડોમાં ખૂલે છે) વિભાગ જુઓ.
Kalendar AI(નવી વિન્ડોમાં ખૂલે છે) એક sales outreach પ્રોડક્ટ છે જે embeddings નો ઉપયોગ કરીને 340M પ્રોફાઇલ્સ ધરાવતા ડેટાસેટમાંથી યોગ્ય sales pitch ને યોગ્ય ગ્રાહકો સાથે મેળવે છે. આ automation ગ્રાહક પ્રોફાઇલ્સ અને sales pitches ના embeddings વચ્ચેની સમાનતા પર આધાર રાખે છે જેથી સૌથી યોગ્ય મેળાપોને ક્રમમાં મૂકી શકાય, અને તેમની જૂની પદ્ધતિની સરખામણીમાં 40–56% અનિચ્છનીય ટાર્ગેટિંગ દૂર થાય છે.
Notion(નવી વિન્ડોમાં ખૂલે છે), online વર્કસ્પેસ કંપની, આજની keyword matching systems કરતાં આગળ જઈ Notion શોધને સુધારવા OpenAI ના નવા embeddings નો ઉપયોગ કરશે.


