15. децембар 2022.

New and improved embedding model

Пејзажна слика меког фокуса која приказује зелени предњи план, пастелно розе и беж поље и удаљена брда испод јарко ружичастог и светлоплавог неба.

Учитавање…

Нови модел, text-embedding-ada-002, замењује пет засебних модела за претрагу текста, сличност текста и претрагу кода, и надмашује наш претходни најспособнији модел, Davinci, у већини задатака, уз цену нижу за 99,8%.

Уграђивања су нумеричке репрезентације појмова претворених у низове бројева, што рачунарима олакшава да разумеју односе између тих појмова. Од почетног представљања⁠ OpenAI крајње тачке /embeddings⁠(отвара се у новом прозору), многе апликације су уградиле уграђивања ради персонализације, препорука и претраге садржаја.

Учитавање...

Можете да упитате крајњу тачку /embeddings⁠(отвара се у новом прозору) за нови модел са две линије кода користећи нашу OpenAI Python Library⁠(отвара се у новом прозору), баш као што сте могли и са претходним моделима:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Побољшања модела

Боље перформансе. text-embedding-ada-002 надмашује све старе моделе уграђивања у задацима претраге текста, претраге кода и сличности реченица, а постиже упоредиве перформансе у класификацији текста. За сваку категорију задатака оцењујемо моделе на скуповима података коришћеним у старим уграђивањима⁠(отвара се у новом прозору).

Модел	Учинак
`text-embedding-ada-002`	53,3
`text-search-davinci-*-001`	52,8
`text-search-curie-*-001`	50,9
`text-search-babbage-*-001`	50,4
`text-search-ada-*-001`	49,0

Скуп података: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Обједињавање могућности. Знатно смо поједноставили интерфејс крајње тачке /embeddings⁠(отвара се у новом прозору) спајањем пет засебних модела приказаних изнад (text-similarity, text-search-query, text-search-doc, code-search-text и code-search-code) у један нови модел. Ова јединствена репрезентација даје боље резултате од наших претходних модела уграђивања на разноврсном скупу референтних тестова за претрагу текста, сличност реченица и претрагу кода.

Дужи контекст. Дужина контекста новог модела повећана је четири пута, са 2048 на 8192, што олакшава рад са дугим документима.

Мања величина уграђивања. Нова уграђивања имају само 1536 димензија, што је једна осмина величине уграђивања davinci-001, па су нова уграђивања исплативија за рад са векторским базама података.

Нижа цена. Снизили смо цену нових модела уграђивања за 90% у поређењу са старим моделима исте величине. Нови модел постиже боље или сличне перформансе као стари Davinci модели уз 99,8% нижу цену.

Све у свему, нови модел уграђивања је много моћнији алат за обраду природног језика и задатке везане за код. Радујемо се што ћемо видети како ће га наши корисници користити за креирање још способнијих апликација у својим областима.

Ограничења

Нови модел text-embedding-ada-002 не надмашује text-similarity-davinci-001 на SentEval референтном тесту линеарне пробе за класификацију. За задатке који захтевају тренирање лаганог линеарног слоја над векторима уграђивања ради предвиђања класификације, предлажемо да упоредите нови модел са text-similarity-davinci-001 и одаберете онај модел који даје оптималне перформансе.

Погледајте одељак Ограничења и ризици⁠(отвара се у новом прозору) у документацији за embeddings за општа ограничења наших модела уграђивања.

Примери embeddings API-ја у пракси

Kalendar AI⁠(отвара се у новом прозору) је производ за продајни outreach који користи уграђивања да повеже праву продајну понуду са правим купцима у скупу података који садржи 340 милиона профила. Ова аутоматизација се ослања на сличност између уграђивања профила купаца и продајних понуда како би рангирала најпогоднија поклапања, елиминишући 40–56% нежељеног циљања у поређењу са њиховим старим приступом.

Notion⁠(отвара се у новом прозору), компанија за онлајн радни простор, користиће OpenAI-јева нова уграђивања да унапреди Notion претрагу изван данашњих система за подударање кључних речи.

Прочитајте документацију(отвара се у новом прозору)

Аутори

Ryan Greene, Ted Sanders, Lilian Weng и Arvind Neelakantan

Повезани чланци

Прикажи све

Globalna partnerstva u oblasti vesti: Le Monde i Prisa Media

Компанија13. мар 2024.

News > Company carousel > Review completed > Media

Ревизија завршена, Алтман и Брокман настављају да воде OpenAI

Компанија8. мар 2024.

OpenAI objavljuje nove članove odbora direktora

Компанија8. мар 2024.