ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI
ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਨਵਾਂ ਮਾਡਲ, text-embedding-ada-002, ਟੈਕਸਟ ਖੋਜ, ਟੈਕਸਟ ਸਮਾਨਤਾ ਅਤੇ ਕੋਡ ਖੋਜ ਲਈ ਪੰਜ ਵੱਖਰੇ ਮਾਡਲਾਂ ਦੀ ਥਾਂ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਜ਼ਿਆਦਾਤਰ ਕੰਮਾਂ ਵਿੱਚ ਸਾਡੇ ਪਹਿਲਾਂ ਦੇ ਸਭ ਤੋਂ ਸਮਰੱਥ ਮਾਡਲ Davinci ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਜਦਕਿ ਇਸ ਦੀ ਕੀਮਤ 99.8% ਘੱਟ ਹੈ.

ਐਂਬੈਡਿੰਗਾਂ ਧਾਰਣਾਵਾਂ ਦੀਆਂ ਅੰਕਗਣਿਤ ਨੁਮਾਇੰਦਗੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਜੋ ਨੰਬਰ ਕ੍ਰਮਾਂ ਵਿੱਚ ਬਦਲੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਕੰਪਿਊਟਰਾਂ ਲਈ ਉਹਨਾਂ ਧਾਰਣਾਵਾਂ ਦੇ ਆਪਸੀ ਸੰਬੰਧ ਸਮਝਣਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ. OpenAI /embeddings(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਐਂਡਪੌਇੰਟ ਦੇ ਸ਼ੁਰੂਆਤੀ ਲਾਂਚ ਤੋਂ ਬਾਅਦ, ਕਈ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੇ ਸਮੱਗਰੀ ਨੂੰ ਵਿਅਕਤੀਗਤ ਬਣਾਉਣ, ਸਿਫਾਰਸ਼ ਕਰਨ ਅਤੇ ਖੋਜਣ ਲਈ ਐਂਬੈਡਿੰਗਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਤੁਸੀਂ ਸਾਡੇ OpenAI Python Library(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੇਵਲ ਦੋ ਲਾਈਨਾਂ ਦੇ ਕੋਡ ਨਾਲ ਨਵੇਂ ਮਾਡਲ ਲਈ /embeddings(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਐਂਡਪੌਇੰਟ ਨੂੰ ਕਵੈਰੀ ਕਰ ਸਕਦੇ ਹੋ, ਬਿਲਕੁਲ ਉਸੇ ਤਰ੍ਹਾਂ ਜਿਵੇਂ ਤੁਸੀਂ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲ ਕਰ ਸਕਦੇ ਸੀ.

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

ਮਾਡਲ ਸੁਧਾਰ

ਹੋਰ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ. text-embedding-ada-002 ਟੈਕਸਟ ਖੋਜ, ਕੋਡ ਖੋਜ ਅਤੇ ਵਾਕ ਸਮਾਨਤਾ ਕੰਮਾਂ ਵਿੱਚ ਸਭ ਪੁਰਾਣੇ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਅਤੇ ਟੈਕਸਟ ਵਰਗੀਕਰਨ ਵਿੱਚ ਤੁਲਨਾਤਮਕ ਪ੍ਰਦਰਸ਼ਨ ਦਿੰਦਾ ਹੈ. ਹਰ ਕੰਮ ਸ਼੍ਰੇਣੀ ਲਈ, ਅਸੀਂ ਪੁਰਾਣੀਆਂ ਐਂਬੈਡਿੰਗਾਂ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਵਰਤੇ ਡਾਟਾਸੈੱਟਾਂ 'ਤੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ.

ਮਾਡਲਪ੍ਰਦਰਸ਼ਨ
text-embedding-ada-002
53.3
text-search-davinci-*-001
52.8
text-search-curie-*-001
50.9
text-search-babbage-*-001
50.4
text-search-ada-*-001
49.0
ਡੇਟਾਸੈੱਟ: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

ਸਮਰੱਥਾਵਾਂ ਦਾ ਏਕੀਕਰਨ. ਅਸੀਂ ਉੱਪਰ ਦਰਸਾਏ ਪੰਜ ਵੱਖਰੇ ਮਾਡਲਾਂ (text-similarity, text-search-query, text-search-doc, code-search-text ਅਤੇ code-search-code) ਨੂੰ ਇੱਕੋ ਨਵੇਂ ਮਾਡਲ ਵਿੱਚ ਜੋੜ ਕੇ /embeddings(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਐਂਡਪੌਇੰਟ ਦਾ ਇੰਟਰਫੇਸ ਕਾਫੀ ਸਰਲ ਬਣਾ ਦਿੱਤਾ ਹੈ. ਇਹ ਇਕੱਲੀ ਪ੍ਰਤੀਨਿਧਤਾ ਟੈਕਸਟ ਖੋਜ, ਵਾਕ ਸਮਾਨਤਾ ਅਤੇ ਕੋਡ ਖੋਜ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਵੱਖ-ਵੱਖ ਸਮੂਹ ਵਿੱਚ ਸਾਡੇ ਪਿਛਲੇ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀ ਹੈ.

ਲੰਮਾ ਸੰਦਰਭ. ਨਵੇਂ ਮਾਡਲ ਦੀ ਸੰਦਰਭ ਲੰਬਾਈ 2048 ਤੋਂ 8192 ਤੱਕ, ਯਾਨੀ ਚਾਰ ਗੁਣਾ ਵਧਾਈ ਗਈ ਹੈ, ਜਿਸ ਨਾਲ ਲੰਮੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਕੰਮ ਕਰਨਾ ਹੋਰ ਸੁਵਿਧਾਜਨਕ ਬਣਦਾ ਹੈ.

ਛੋਟੀ ਐਂਬੈਡਿੰਗ ਆਕਾਰ. ਨਵੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਵਿੱਚ ਕੇਵਲ 1536 ਮਾਪ ਹਨ, ਜੋ davinci-001 ਐਂਬੈਡਿੰਗਾਂ ਦੇ ਆਕਾਰ ਦਾ ਅੱਠਵਾਂ ਹਿੱਸਾ ਹਨ, ਜਿਸ ਨਾਲ ਵੇਕਟਰ ਡਾਟਾਬੇਸਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਵੇਲੇ ਇਹ ਨਵੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਹੋਰ ਕਿਫਾਇਤੀ ਬਣਦੀਆਂ ਹਨ.

ਘੱਟ ਕੀਮਤ. ਅਸੀਂ ਇੱਕੋ ਆਕਾਰ ਵਾਲੇ ਪੁਰਾਣੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਨਵੇਂ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਦੀ ਕੀਮਤ 90% ਘਟਾ ਦਿੱਤੀ ਹੈ. ਨਵਾਂ ਮਾਡਲ ਪੁਰਾਣੇ Davinci ਮਾਡਲਾਂ ਵਰਗਾ ਜਾਂ ਉਸ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ 99.8% ਘੱਟ ਕੀਮਤ 'ਤੇ ਹਾਸਲ ਕਰਦਾ ਹੈ.

ਕੁੱਲ ਮਿਲਾ ਕੇ, ਨਵਾਂ ਐਂਬੈਡਿੰਗ ਮਾਡਲ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਕੋਡ ਕੰਮਾਂ ਲਈ ਕਾਫੀ ਵਧੇਰੇ ਤਾਕਤਵਰ ਸੰਦ ਹੈ. ਅਸੀਂ ਇਹ ਦੇਖਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ ਕਿ ਸਾਡੇ ਗਾਹਕ ਆਪਣੇ-ਆਪਣੇ ਖੇਤਰਾਂ ਵਿੱਚ ਇਸਦੀ ਵਰਤੋਂ ਕਰਕੇ ਹੋਰ ਵੀ ਸਮਰੱਥ ਐਪਲੀਕੇਸ਼ਨ ਕਿਵੇਂ ਬਣਾਉਣਗੇ.

ਸੀਮਾਵਾਂ

ਨਵਾਂ text-embedding-ada-002 ਮਾਡਲ SentEval ਲਿਨੀਅਰ ਪ੍ਰੋਬਿੰਗ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਬੈਂਚਮਾਰਕ ਉੱਤੇ text-similarity-davinci-001 ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਨਹੀਂ ਕਰ ਰਿਹਾ. ਉਹਨਾਂ ਕੰਮਾਂ ਲਈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਭਵਿੱਖਬਾਣੀ ਲਈ ਐਂਬੈਡਿੰਗ ਵੇਕਟਰਾਂ ਦੇ ਉੱਪਰ ਇੱਕ ਹਲਕੀ-ਭਾਰ ਵਾਲੀ ਲਿਨੀਅਰ ਲੇਅਰ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਸੀਂ text-similarity-davinci-001 ਨਾਲ ਨਵੇਂ ਮਾਡਲ ਦੀ ਤੁਲਨਾ ਕਰਨ ਅਤੇ ਜੋ ਵੀ ਮਾਡਲ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦੇਵੇ ਉਹ ਚੁਣਨ ਦੀ ਸਲਾਹ ਦਿੰਦੇ ਹਾਂ.

ਸਾਡੇ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਦੀਆਂ ਆਮ ਸੀਮਾਵਾਂ ਲਈ ਐਂਬੈਡਿੰਗ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਵਿੱਚ ਸੀਮਾਵਾਂ ਅਤੇ ਖਤਰੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਭਾਗ ਵੇਖੋ.

ਕਾਰਵਾਈ ਵਿੱਚ embeddings API ਦੇ ਉਦਾਹਰਨ

Kalendar AI(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਇੱਕ ਸੇਲਜ਼ ਆਉਟਰੀਚ ਉਤਪਾਦ ਹੈ ਜੋ 340M ਪ੍ਰੋਫਾਈਲਾਂ ਵਾਲੇ ਡਾਟਾਸੈੱਟ ਵਿੱਚੋਂ ਸਹੀ ਵਿਕਰੀ ਪੇਸ਼ਕਸ਼ ਨੂੰ ਸਹੀ ਗਾਹਕਾਂ ਨਾਲ ਮਿਲਾਉਣ ਲਈ ਐਂਬੈਡਿੰਗਾਂ ਵਰਤਦਾ ਹੈ. ਇਹ ਆਟੋਮੇਸ਼ਨ ਸਭ ਤੋਂ ਉਚਿਤ ਮੇਲਾਂ ਨੂੰ ਰੈਂਕ ਕਰਨ ਲਈ ਗਾਹਕ ਪ੍ਰੋਫਾਈਲਾਂ ਅਤੇ ਵਿਕਰੀ ਪੇਸ਼ਕਸ਼ਾਂ ਦੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਵਿਚਲੀ ਸਮਾਨਤਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਹਨਾਂ ਦੇ ਪੁਰਾਣੇ ਤਰੀਕੇ ਦੇ ਮੁਕਾਬਲੇ 40–56% ਅਣਚਾਹੀ ਟਾਰਗੇਟਿੰਗ ਖਤਮ ਹੋ ਜਾਂਦੀ ਹੈ.

Notion(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਆਨਲਾਈਨ ਵਰਕਸਪੇਸ ਕੰਪਨੀ, ਅੱਜ ਦੇ ਕੀਵਰਡ ਮੈਚਿੰਗ ਸਿਸਟਮਾਂ ਤੋਂ ਅੱਗੇ Notion ਖੋਜ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ OpenAI ਦੀਆਂ ਨਵੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਵਰਤੇਗੀ.

ਲੇਖਕ

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan