મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI
લોડિંગ…

નવું મોડલ, text-embedding-ada-002, ટેક્સ્ટ શોધ, ટેક્સ્ટ સમાનતા અને કોડ શોધ માટેના પાંચ અલગ મોડલ્સને બદલે છે, અને મોટાભાગના કાર્યોમાં અમારા અગાઉના સૌથી સક્ષમ મોડલ Davinci કરતાં વધુ સારું પ્રદર્શન કરે છે, જ્યારે તેની કિંમત 99.8% ઓછી છે.

Embeddings એ સંકલ્પનાઓના આંકડાકીય પ્રતિનિધિત્વ છે, જેને સંખ્યાક્રમોમાં રૂપાંતરિત કરવામાં આવે છે, જેના કારણે કમ્પ્યુટરો માટે તે સંકલ્પનાઓ વચ્ચેના સંબંધોને સમજવું સરળ બને છે. OpenAI /embeddings(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટના પ્રારંભિક લોન્ચ પછીથી, ઘણી એપ્લિકેશન્સે સામગ્રીને વ્યક્તિગત બનાવવા, ભલામણ કરવા અને શોધવા માટે embeddings નો સમાવેશ કર્યો છે.

લોડ થઈ રહ્યું છે...

તમે અમારા OpenAI Python Library(નવી વિન્ડોમાં ખૂલે છે) નો ઉપયોગ કરીને, અગાઉના મોડલ્સની જેમ જ, કોડની બે લાઇનમાં નવા મોડલ માટે /embeddings(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટને ક્વેરી કરી શકો છો.

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

મોડલ સુધારાઓ

વધુ મજબૂત પ્રદર્શન. text-embedding-ada-002 ટેક્સ્ટ શોધ, કોડ શોધ અને વાક્ય સમાનતા કાર્યોમાં બધા જૂના embedding મોડલ્સ કરતાં વધુ સારું પ્રદર્શન કરે છે અને ટેક્સ્ટ વર્ગીકરણમાં સરખામણીયોગ્ય પ્રદર્શન આપે છે. દરેક કાર્ય શ્રેણી માટે, અમે જૂના embeddings(નવી વિન્ડોમાં ખૂલે છે) માં વપરાયેલા ડેટાસેટ્સ પર મોડલ્સનું મૂલ્યાંકન કરીએ છીએ.

મોડલપર્ફોમન્સ
text-embedding-ada-002
53.3
text-search-davinci-*-001
52.8
text-search-curie-*-001
50.9
text-search-babbage-*-001
50.4
text-search-ada-*-001
49.0
ડેટાસેટ: બીઈઆઈઆર (આરગુએના,ક્લાઈમેટ ફેવર, ડીબી પેડિયા, ફેવર, એફઆઈક્યુએ2018, હોટપોટક્યુએ, એનએફકોરપસ, ક્યુરારેટ્રીવલ, સાયફેક્ટ, ટ્રેકકોવ આઈડી, ટચ2020)

ક્ષમતાઓનું એકીકરણ. અમે ઉપર દર્શાવેલા પાંચ અલગ મોડલ્સ (text-similarity, text-search-query, text-search-doc, code-search-text અને code-search-code) ને એક નવા મોડલમાં મર્જ કરીને /embeddings(નવી વિન્ડોમાં ખૂલે છે) એન્ડપોઇન્ટનું ઇન્ટરફેસ નોંધપાત્ર રીતે સરળ બનાવ્યું છે. આ એકમાત્ર પ્રતિનિધિત્વ વિવિધ પ્રકારના ટેક્સ્ટ શોધ, વાક્ય સમાનતા અને કોડ શોધ બેન્ચમાર્ક્સ પર અમારા અગાઉના embedding મોડલ્સ કરતાં વધુ સારું પ્રદર્શન કરે છે.

લાંબો સંદર્ભ. નવા મોડલની સંદર્ભ લંબાઈ ચાર ગણીએ વધારીને 2048 માંથી 8192 કરવામાં આવી છે, જેથી લાંબા દસ્તાવેજો સાથે કામ કરવું વધુ અનુકૂળ બને છે.

નાનું embedding કદ. નવા embeddings માં ફક્ત 1536 dimensions છે, જે davinci-001 embeddings ના કદના આઠમા ભાગ જેટલા છે, જેથી vector databases સાથે કામ કરતી વખતે નવા embeddings વધુ ખર્ચ-અસરકારક બને છે.

ઘટાડેલી કિંમત. સમાન કદના જૂના મોડલ્સની સરખામણીમાં અમે નવા embedding મોડલ્સની કિંમત 90% ઘટાડી છે. નવું મોડલ જૂના Davinci મોડલ્સ કરતાં 99.8% ઓછી કિંમતે વધુ સારું અથવા સમાન પ્રદર્શન આપે છે.

કુલ મળીને, નવું embedding મોડલ નૈસર્ગિક ભાષા પ્રક્રિયા અને કોડ કાર્યો માટે ઘણું વધુ શક્તિશાળી સાધન છે. અમારા ગ્રાહકો તેમના પોતાના ક્ષેત્રોમાં વધુ સક્ષમ એપ્લિકેશન્સ બનાવવા માટે તેનો કેવી રીતે ઉપયોગ કરશે તે જોવા અમે ઉત્સાહિત છીએ.

મર્યાદાઓ

નવું text-embedding-ada-002 મોડલ SentEval લીનીયર પ્રોબિંગ વર્ગીકરણ બેન્ચમાર્ક પર text-similarity-davinci-001 કરતાં વધુ સારું પ્રદર્શન કરતું નથી. એવા કાર્યો માટે, જેમાં વર્ગીકરણ આગાહી માટે embedding vectors પર હલકી લીનીયર લેયર ટ્રેન કરવાની જરૂર પડે, અમે નવું મોડલ text-similarity-davinci-001 સાથે સરખાવવાની અને જે મોડલ શ્રેષ્ઠ પ્રદર્શન આપે તે પસંદ કરવાની ભલામણ કરીએ છીએ.

અમારા embedding મોડલ્સની સામાન્ય મર્યાદાઓ માટે embeddings દસ્તાવેજીકરણમાં મર્યાદાઓ અને જોખમો(નવી વિન્ડોમાં ખૂલે છે) વિભાગ જુઓ.

ક્રિયામાં embeddings API ના ઉદાહરણો

Kalendar AI(નવી વિન્ડોમાં ખૂલે છે) એક sales outreach પ્રોડક્ટ છે જે embeddings નો ઉપયોગ કરીને 340M પ્રોફાઇલ્સ ધરાવતા ડેટાસેટમાંથી યોગ્ય sales pitch ને યોગ્ય ગ્રાહકો સાથે મેળવે છે. આ automation ગ્રાહક પ્રોફાઇલ્સ અને sales pitches ના embeddings વચ્ચેની સમાનતા પર આધાર રાખે છે જેથી સૌથી યોગ્ય મેળાપોને ક્રમમાં મૂકી શકાય, અને તેમની જૂની પદ્ધતિની સરખામણીમાં 40–56% અનિચ્છનીય ટાર્ગેટિંગ દૂર થાય છે.

Notion(નવી વિન્ડોમાં ખૂલે છે), online વર્કસ્પેસ કંપની, આજની keyword matching systems કરતાં આગળ જઈ Notion શોધને સુધારવા OpenAI ના નવા embeddings નો ઉપયોગ કરશે.

લેખકો

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan