Salta al contingut principal
OpenAI

15 de desembre del 2022

Producte

New and improved embedding model

Una pintura de paisatge amb focus suau que representa un primer pla verd, un camp rosa pastel i beix, i turons llunyans sota un cel rosa viu i blau clar.
S'està carregant…

El nou model, text-embedding-ada-002, substitueix cinc models separats per a cerca de text, similitud de text i cerca de codi, i supera el nostre model anterior més capaç, Davinci, en la majoria de tasques, amb un preu un 99,8% inferior.

Els embeddings són representacions numèriques de conceptes convertides en seqüències de nombres, que faciliten als ordinadors entendre les relacions entre aquests conceptes. Des del llançament inicial del punt final /embeddings(s'obre en una finestra nova) d'OpenAI, moltes aplicacions han incorporat embeddings per personalitzar, recomanar i cercar contingut.

S'està carregant...

Podeu consultar el punt final /embeddings(s'obre en una finestra nova) per al nou model amb dues línies de codi fent servir la nostra OpenAI Python Library(s'obre en una finestra nova), igual que amb els models anteriors:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Millores del model

Rendiment superior. text-embedding-ada-002 supera tots els antics models d'embedding en tasques de cerca de text, cerca de codi i similitud de frases, i obté un rendiment comparable en classificació de text. Per a cada categoria de tasca, avaluem els models amb els conjunts de dades utilitzats a embeddings antics(s'obre en una finestra nova).

ModelRendiment
text-embedding-ada-002
53,3
text-search-davinci-*-001
52,8
text-search-curie-*-001
50,9
text-search-babbage-*-001
50,4
text-search-ada-*-001
49,0
Conjunt de dades: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Unificació de capacitats. Hem simplificat significativament la interfície del punt final /embeddings(s'obre en una finestra nova) fusionant els cinc models separats que es mostren més amunt (text-similarity, text-search-query, text-search-doc, code-search-text i code-search-code) en un únic model nou. Aquesta representació única funciona millor que els nostres models d'embedding anteriors en un conjunt divers de benchmarks de cerca de text, similitud de frases i cerca de codi.

Context més llarg. La longitud de context del nou model s'ha multiplicat per quatre, de 2048 a 8192, cosa que fa més còmode treballar amb documents llargs.

Mida d'embedding més petita. Els nous embeddings només tenen 1536 dimensions, una vuitena part de la mida dels embeddings de davinci-001, fet que els fa més rendibles quan es treballa amb bases de dades vectorials.

Preu reduït. Hem reduït el preu dels nous models d'embedding un 90% en comparació amb els models antics de la mateixa mida. El nou model aconsegueix un rendiment millor o similar al dels antics models Davinci amb un preu un 99,8% inferior.

En conjunt, el nou model d'embedding és una eina molt més potent per al processament del llenguatge natural i les tasques de codi. Ens fa il·lusió veure com els nostres clients l'utilitzaran per crear aplicacions encara més capaces en els seus respectius camps.

Limitacions

El nou model text-embedding-ada-002 no supera text-similarity-davinci-001 en el benchmark de classificació amb sondatge lineal SentEval. Per a tasques que requereixen entrenar una capa lineal lleugera sobre vectors d'embedding per a la predicció de classificació, suggerim comparar el nou model amb text-similarity-davinci-001 i triar el model que ofereixi un rendiment òptim.

Consulteu la secció Limitacions i riscos(s'obre en una finestra nova) de la documentació d'embeddings per conèixer les limitacions generals dels nostres models d'embedding.

Exemples de l'API d'embeddings en acció

Kalendar AI(s'obre en una finestra nova) és un producte d'abast comercial que utilitza embeddings per fer coincidir el discurs de venda adequat amb els clients adequats dins d'un conjunt de dades que conté 340 M de perfils. Aquesta automatització es basa en la similitud entre embeddings de perfils de clients i discursos de venda per classificar les coincidències més adequades, i elimina entre el 40 i el 56% de la segmentació no desitjada en comparació amb el seu enfocament anterior.

Notion(s'obre en una finestra nova), l'empresa d'espais de treball en línia, utilitzarà els nous embeddings d'OpenAI per millorar la cerca de Notion més enllà dels sistemes actuals de coincidència per paraules clau.

Autors

Ryan Greene, Ted Sanders, Lilian Weng i Arvind Neelakantan