2022 ж. 15 желтоқсан

New and improved embedding model

Жұмсақ фокуста салынған пейзаж суретінде жасыл алдыңғы жоспар, пастель қызғылт және беж түсті алқап, сондай-ақ ашық қызғылт және ашық көк аспан астындағы алыстағы төбелер бейнеленген.

Жүктелуде…

text-embedding-ada-002 жаңа моделі мәтіндік іздеу, мәтін ұқсастығы және код іздеу үшін бөлек бес модельдің орнын басады және көптеген тапсырмаларда бұрынғы ең қабілетті моделіміз Davinci-ден озады, сонымен қатар бағасы 99,8% төмен.

Ендірулер — ұғымдар арасындағы қатынастарды компьютерлердің түсінуін жеңілдететін, сан тізбектеріне айналдырылған ұғымдардың сандық көрсетілімдері. OpenAI /embeddings⁠(жаңа терезеде ашылады) соңғы нүктесі алғаш іске қосылғаннан⁠ бері көптеген қолданбалар ендірулерді контентті даралау, ұсыну және іздеу үшін енгізді.

Жүктелуде...

Алдыңғы модельдердегідей, біздің OpenAI Python Library⁠(жаңа терезеде ашылады) арқылы жаңа модель үшін /embeddings⁠(жаңа терезеде ашылады) соңғы нүктесіне екі жол кодпен сұрау жібере аласыз:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Модель жақсартулары

Күштірек өнімділік. text-embedding-ada-002 мәтіндік іздеу, код іздеу және сөйлем ұқсастығы тапсырмаларында барлық ескі ендіру модельдерінен озады және мәтіндік жіктеуде салыстырмалы нәтиже көрсетеді. Әр тапсырма санаты үшін модельдерді ескі ендірулерде⁠(жаңа терезеде ашылады) қолданылған деректер жиынтықтарында бағалаймыз.

модель	Өнімділік
`text-embedding-ada-002`	53,3
`text-search-davinci-*-001`	52,8
`text-search-curie-*-001`	50,9
`text-search-babbage-*-001`	50,4
`text-search-ada-*-001`	49,0

Деректер жиыны: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Мүмкіндіктерді біріктіру. Жоғарыда көрсетілген бес бөлек модельді (text-similarity, text-search-query, text-search-doc, code-search-text және code-search-code) бір жаңа модельге біріктіру арқылы /embeddings⁠(жаңа терезеде ашылады) соңғы нүктесінің интерфейсін едәуір жеңілдеттік. Бұл бірыңғай ұсыну мәтіндік іздеу, сөйлем ұқсастығы және код іздеу бенчмарктарының алуан жиынтығында алдыңғы ендіру модельдерімізден жақсырақ нәтиже көрсетеді.

Ұзағырақ контекст. Жаңа модельдің контекст ұзындығы төрт есе ұлғайып, 2048-ден 8192-ге жетті, бұл ұзын құжаттармен жұмыс істеуді ыңғайлырақ етеді.

Ендіру өлшемі кішірек. Жаңа ендірулердің өлшемі небәрі 1536, бұл davinci-001 ендірулерінің сегізден бірі, сондықтан жаңа ендірулерді векторлық дерекқорлармен жұмыс істеуде тиімдірек етеді.

Бағаның төмендеуі. Біз жаңа ендіру модельдерінің бағасын сол өлшемдегі ескі модельдермен салыстырғанда 90%-ға төмендеттік. Жаңа модель ескі Davinci модельдерімен салыстырғанда 99,8% төмен бағамен жақсырақ немесе ұқсас нәтиже береді.

Жалпы алғанда, жаңа ендіру моделі табиғи тілді өңдеу мен код тапсырмалары үшін анағұрлым қуатты құрал. Клиенттеріміз оны өз салаларында одан да қабілетті қосымшалар жасау үшін қалай пайдаланатынын көруге қуаныштымыз.

Шектеулер

Жаңа text-embedding-ada-002 моделі SentEval сызықтық зондтау арқылы жіктеу бенчмаркында text-similarity-davinci-001 моделінен озып тұрған жоқ. Жіктеу болжамы үшін ендіру векторларының үстіне жеңіл сызықтық қабатты үйретуді қажет ететін тапсырмаларда жаңа модельді text-similarity-davinci-001 үлгісімен салыстырып, өнімділігі оңтайлысын таңдауды ұсынамыз.

Ендіру модельдеріміздің жалпы шектеулері туралы білу үшін ендірулер құжаттамасындағы Шектеулер мен тәуекелдер⁠(жаңа терезеде ашылады) бөлімін қараңыз.

Embeddings API қолданылуының мысалдары

Kalendar AI⁠(жаңа терезеде ашылады) — 340M профиль бар деректер жинағынан дұрыс сату ұсынысын дұрыс клиенттерге сәйкестендіру үшін ендірулерді пайдаланатын сату аутрич өнімі. Бұл автоматтандыру клиент профильдері мен сату ұсыныстарының ендірулері арасындағы ұқсастыққа сүйеніп, ең қолайлы сәйкестіктерді жоғары қояды және ескі тәсілмен салыстырғанда қажетсіз нысаналауды 40–56% азайтады.

Notion⁠(жаңа терезеде ашылады), онлайн жұмыс кеңістігі компаниясы, бүгінгі кілтсөз сәйкестендіру жүйелерінен тыс іздеуді жақсарту үшін OpenAI жаңа ендірулерін қолданады.

Құжаттаманы оқу(жаңа терезеде ашылады)

Авторлар

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan

Қатысты мақалалар

Барлығын қарау

Жаһандық жаңалық серіктестіктері: Le Monde және Prisa Media

Компания2024 ж. 13 нау.

News > Company carousel > Review completed > Media

Тексеру аяқталды, Altman мен Brockman OpenAI-ды басқаруды жалғастырады

Компания2024 ж. 8 нау.

OpenAI директорлар кеңесіне жаңа мүшелердің қосылғанын хабарлайды

Компания2024 ж. 8 нау.