15 ਦਸੰਬਰ 2022

New and improved embedding model

ਇੱਕ ਨਰਮ-ਫੋਕਸ ਲੈਂਡਸਕੇਪ ਪੇਂਟਿੰਗ ਜਿਸ ਵਿੱਚ ਹਰਾ ਅਗਲਾ ਹਿੱਸਾ, ਪਾਸਟਲ ਗੁਲਾਬੀ ਅਤੇ ਬੇਜ ਖੇਤ, ਅਤੇ ਚਟਕੀਲੇ ਗੁਲਾਬੀ ਤੇ ਹਲਕੇ ਨੀਲੇ ਆਸਮਾਨ ਹੇਠਾਂ ਦੂਰਲੇ ਟਿੱਬੇ ਦਰਸਾਏ ਗਏ ਹਨ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਨਵਾਂ ਮਾਡਲ, text-embedding-ada-002, ਟੈਕਸਟ ਖੋਜ, ਟੈਕਸਟ ਸਮਾਨਤਾ ਅਤੇ ਕੋਡ ਖੋਜ ਲਈ ਪੰਜ ਵੱਖਰੇ ਮਾਡਲਾਂ ਦੀ ਥਾਂ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਜ਼ਿਆਦਾਤਰ ਕੰਮਾਂ ਵਿੱਚ ਸਾਡੇ ਪਹਿਲਾਂ ਦੇ ਸਭ ਤੋਂ ਸਮਰੱਥ ਮਾਡਲ Davinci ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਜਦਕਿ ਇਸ ਦੀ ਕੀਮਤ 99.8% ਘੱਟ ਹੈ.

ਐਂਬੈਡਿੰਗਾਂ ਧਾਰਣਾਵਾਂ ਦੀਆਂ ਅੰਕਗਣਿਤ ਨੁਮਾਇੰਦਗੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਜੋ ਨੰਬਰ ਕ੍ਰਮਾਂ ਵਿੱਚ ਬਦਲੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਕੰਪਿਊਟਰਾਂ ਲਈ ਉਹਨਾਂ ਧਾਰਣਾਵਾਂ ਦੇ ਆਪਸੀ ਸੰਬੰਧ ਸਮਝਣਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ. OpenAI /embeddings⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਐਂਡਪੌਇੰਟ ਦੇ ਸ਼ੁਰੂਆਤੀ ਲਾਂਚ⁠ ਤੋਂ ਬਾਅਦ, ਕਈ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੇ ਸਮੱਗਰੀ ਨੂੰ ਵਿਅਕਤੀਗਤ ਬਣਾਉਣ, ਸਿਫਾਰਸ਼ ਕਰਨ ਅਤੇ ਖੋਜਣ ਲਈ ਐਂਬੈਡਿੰਗਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਤੁਸੀਂ ਸਾਡੇ OpenAI Python Library⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੇਵਲ ਦੋ ਲਾਈਨਾਂ ਦੇ ਕੋਡ ਨਾਲ ਨਵੇਂ ਮਾਡਲ ਲਈ /embeddings⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਐਂਡਪੌਇੰਟ ਨੂੰ ਕਵੈਰੀ ਕਰ ਸਕਦੇ ਹੋ, ਬਿਲਕੁਲ ਉਸੇ ਤਰ੍ਹਾਂ ਜਿਵੇਂ ਤੁਸੀਂ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲ ਕਰ ਸਕਦੇ ਸੀ.

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

ਮਾਡਲ ਸੁਧਾਰ

ਹੋਰ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ. text-embedding-ada-002 ਟੈਕਸਟ ਖੋਜ, ਕੋਡ ਖੋਜ ਅਤੇ ਵਾਕ ਸਮਾਨਤਾ ਕੰਮਾਂ ਵਿੱਚ ਸਭ ਪੁਰਾਣੇ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਅਤੇ ਟੈਕਸਟ ਵਰਗੀਕਰਨ ਵਿੱਚ ਤੁਲਨਾਤਮਕ ਪ੍ਰਦਰਸ਼ਨ ਦਿੰਦਾ ਹੈ. ਹਰ ਕੰਮ ਸ਼੍ਰੇਣੀ ਲਈ, ਅਸੀਂ ਪੁਰਾਣੀਆਂ ਐਂਬੈਡਿੰਗਾਂ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਵਰਤੇ ਡਾਟਾਸੈੱਟਾਂ 'ਤੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ.

ਮਾਡਲ	ਪ੍ਰਦਰਸ਼ਨ
`text-embedding-ada-002`	53.3
`text-search-davinci-*-001`	52.8
`text-search-curie-*-001`	50.9
`text-search-babbage-*-001`	50.4
`text-search-ada-*-001`	49.0

ਡੇਟਾਸੈੱਟ: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

ਸਮਰੱਥਾਵਾਂ ਦਾ ਏਕੀਕਰਨ. ਅਸੀਂ ਉੱਪਰ ਦਰਸਾਏ ਪੰਜ ਵੱਖਰੇ ਮਾਡਲਾਂ (text-similarity, text-search-query, text-search-doc, code-search-text ਅਤੇ code-search-code) ਨੂੰ ਇੱਕੋ ਨਵੇਂ ਮਾਡਲ ਵਿੱਚ ਜੋੜ ਕੇ /embeddings⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਐਂਡਪੌਇੰਟ ਦਾ ਇੰਟਰਫੇਸ ਕਾਫੀ ਸਰਲ ਬਣਾ ਦਿੱਤਾ ਹੈ. ਇਹ ਇਕੱਲੀ ਪ੍ਰਤੀਨਿਧਤਾ ਟੈਕਸਟ ਖੋਜ, ਵਾਕ ਸਮਾਨਤਾ ਅਤੇ ਕੋਡ ਖੋਜ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਵੱਖ-ਵੱਖ ਸਮੂਹ ਵਿੱਚ ਸਾਡੇ ਪਿਛਲੇ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀ ਹੈ.

ਲੰਮਾ ਸੰਦਰਭ. ਨਵੇਂ ਮਾਡਲ ਦੀ ਸੰਦਰਭ ਲੰਬਾਈ 2048 ਤੋਂ 8192 ਤੱਕ, ਯਾਨੀ ਚਾਰ ਗੁਣਾ ਵਧਾਈ ਗਈ ਹੈ, ਜਿਸ ਨਾਲ ਲੰਮੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਕੰਮ ਕਰਨਾ ਹੋਰ ਸੁਵਿਧਾਜਨਕ ਬਣਦਾ ਹੈ.

ਛੋਟੀ ਐਂਬੈਡਿੰਗ ਆਕਾਰ. ਨਵੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਵਿੱਚ ਕੇਵਲ 1536 ਮਾਪ ਹਨ, ਜੋ davinci-001 ਐਂਬੈਡਿੰਗਾਂ ਦੇ ਆਕਾਰ ਦਾ ਅੱਠਵਾਂ ਹਿੱਸਾ ਹਨ, ਜਿਸ ਨਾਲ ਵੇਕਟਰ ਡਾਟਾਬੇਸਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਵੇਲੇ ਇਹ ਨਵੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਹੋਰ ਕਿਫਾਇਤੀ ਬਣਦੀਆਂ ਹਨ.

ਘੱਟ ਕੀਮਤ. ਅਸੀਂ ਇੱਕੋ ਆਕਾਰ ਵਾਲੇ ਪੁਰਾਣੇ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਨਵੇਂ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਦੀ ਕੀਮਤ 90% ਘਟਾ ਦਿੱਤੀ ਹੈ. ਨਵਾਂ ਮਾਡਲ ਪੁਰਾਣੇ Davinci ਮਾਡਲਾਂ ਵਰਗਾ ਜਾਂ ਉਸ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ 99.8% ਘੱਟ ਕੀਮਤ 'ਤੇ ਹਾਸਲ ਕਰਦਾ ਹੈ.

ਕੁੱਲ ਮਿਲਾ ਕੇ, ਨਵਾਂ ਐਂਬੈਡਿੰਗ ਮਾਡਲ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਕੋਡ ਕੰਮਾਂ ਲਈ ਕਾਫੀ ਵਧੇਰੇ ਤਾਕਤਵਰ ਸੰਦ ਹੈ. ਅਸੀਂ ਇਹ ਦੇਖਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ ਕਿ ਸਾਡੇ ਗਾਹਕ ਆਪਣੇ-ਆਪਣੇ ਖੇਤਰਾਂ ਵਿੱਚ ਇਸਦੀ ਵਰਤੋਂ ਕਰਕੇ ਹੋਰ ਵੀ ਸਮਰੱਥ ਐਪਲੀਕੇਸ਼ਨ ਕਿਵੇਂ ਬਣਾਉਣਗੇ.

ਸੀਮਾਵਾਂ

ਨਵਾਂ text-embedding-ada-002 ਮਾਡਲ SentEval ਲਿਨੀਅਰ ਪ੍ਰੋਬਿੰਗ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਬੈਂਚਮਾਰਕ ਉੱਤੇ text-similarity-davinci-001 ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਨਹੀਂ ਕਰ ਰਿਹਾ. ਉਹਨਾਂ ਕੰਮਾਂ ਲਈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਭਵਿੱਖਬਾਣੀ ਲਈ ਐਂਬੈਡਿੰਗ ਵੇਕਟਰਾਂ ਦੇ ਉੱਪਰ ਇੱਕ ਹਲਕੀ-ਭਾਰ ਵਾਲੀ ਲਿਨੀਅਰ ਲੇਅਰ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਸੀਂ text-similarity-davinci-001 ਨਾਲ ਨਵੇਂ ਮਾਡਲ ਦੀ ਤੁਲਨਾ ਕਰਨ ਅਤੇ ਜੋ ਵੀ ਮਾਡਲ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦੇਵੇ ਉਹ ਚੁਣਨ ਦੀ ਸਲਾਹ ਦਿੰਦੇ ਹਾਂ.

ਸਾਡੇ ਐਂਬੈਡਿੰਗ ਮਾਡਲਾਂ ਦੀਆਂ ਆਮ ਸੀਮਾਵਾਂ ਲਈ ਐਂਬੈਡਿੰਗ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਵਿੱਚ ਸੀਮਾਵਾਂ ਅਤੇ ਖਤਰੇ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਭਾਗ ਵੇਖੋ.

ਕਾਰਵਾਈ ਵਿੱਚ embeddings API ਦੇ ਉਦਾਹਰਨ

Kalendar AI⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਇੱਕ ਸੇਲਜ਼ ਆਉਟਰੀਚ ਉਤਪਾਦ ਹੈ ਜੋ 340M ਪ੍ਰੋਫਾਈਲਾਂ ਵਾਲੇ ਡਾਟਾਸੈੱਟ ਵਿੱਚੋਂ ਸਹੀ ਵਿਕਰੀ ਪੇਸ਼ਕਸ਼ ਨੂੰ ਸਹੀ ਗਾਹਕਾਂ ਨਾਲ ਮਿਲਾਉਣ ਲਈ ਐਂਬੈਡਿੰਗਾਂ ਵਰਤਦਾ ਹੈ. ਇਹ ਆਟੋਮੇਸ਼ਨ ਸਭ ਤੋਂ ਉਚਿਤ ਮੇਲਾਂ ਨੂੰ ਰੈਂਕ ਕਰਨ ਲਈ ਗਾਹਕ ਪ੍ਰੋਫਾਈਲਾਂ ਅਤੇ ਵਿਕਰੀ ਪੇਸ਼ਕਸ਼ਾਂ ਦੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਵਿਚਲੀ ਸਮਾਨਤਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਹਨਾਂ ਦੇ ਪੁਰਾਣੇ ਤਰੀਕੇ ਦੇ ਮੁਕਾਬਲੇ 40–56% ਅਣਚਾਹੀ ਟਾਰਗੇਟਿੰਗ ਖਤਮ ਹੋ ਜਾਂਦੀ ਹੈ.

Notion⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਆਨਲਾਈਨ ਵਰਕਸਪੇਸ ਕੰਪਨੀ, ਅੱਜ ਦੇ ਕੀਵਰਡ ਮੈਚਿੰਗ ਸਿਸਟਮਾਂ ਤੋਂ ਅੱਗੇ Notion ਖੋਜ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ OpenAI ਦੀਆਂ ਨਵੀਆਂ ਐਂਬੈਡਿੰਗਾਂ ਵਰਤੇਗੀ.

ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਪੜ੍ਹੋ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)

ਲੇਖਕ

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan

ਸੰਬੰਧਿਤ ਲੇਖ

ਸਭ ਵੇਖੋ

ਗਲੋਬਲ ਖ਼ਬਰ ਭਾਈਵਾਲੀਆਂ: Le Monde ਅਤੇ Prisa Media

ਕੰਪਨੀ13 ਮਾਰਚ 2024

News > Company carousel > Review completed > Media

ਸਮੀਖਿਆ ਪੂਰੀ ਹੋਈ ਅਤੇ Altman, Brockman OpenAI ਦੀ ਅਗਵਾਈ ਜਾਰੀ ਰੱਖਣਗੇ

ਕੰਪਨੀ8 ਮਾਰਚ 2024

OpenAI ਨੇ ਬੋਰਡ ਆਫ ਡਾਇਰੈਕਟਰਜ਼ ਵਿੱਚ ਨਵੇਂ ਮੈਂਬਰਾਂ ਦਾ ਐਲਾਨ ਕੀਤਾ

ਕੰਪਨੀ8 ਮਾਰਚ 2024