Léim go dtí an príomhábhar
OpenAI

15 Nollaig 2022

Táirge

New and improved embedding model

Péintéireacht tírdhreacha le fócas bog a léiríonn tulra glas, páirc phaistéil bhándearg agus bhéasaí, agus cnoic i bhfad i gcéin faoi spéir gheal bhándearg agus ghorm éadrom.
Ag lódáil…

Tagann an tsamhail nua, text-embedding-ada-002, in ionad cúig shamhail ar leith do chuardach téacs, cosúlacht téacs agus cuardach cóid, agus sáraíonn sí ár múnla is cumasaí roimhe seo, Davinci, ar fhormhór na dtascanna, agus a praghas 99.8% níos ísle.

Is léirithe uimhriúla de choincheapa iad leabuithe a thiontaítear ina seichimh uimhreacha, rud a fhágann gur furasta do ríomhairí na gaolta idir na coincheapa sin a thuiscint. Ón seoladh tosaigh de dheireadhphointe /embeddings(osclaíonn i bhfuinneog nua) OpenAI, tá leabuithe ionchorpraithe ag go leor feidhmchlár chun ábhar a phearsantú, a mholadh agus a chuardach.

Ag lódáil...

Is féidir leat an deireadhphointe /embeddings(osclaíonn i bhfuinneog nua) a cheistiú don tsamhail nua le dhá líne chóid ag úsáid ár OpenAI Python Library(osclaíonn i bhfuinneog nua), díreach mar a d’fhéadfá le samhlacha roimhe seo:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Feabhsuithe samhla

Feidhmíocht níos láidre. Sáraíonn text-embedding-ada-002 gach seanmhúnla leabaithe ar thascanna cuardaigh téacs, cuardaigh cóid agus cosúlachta abairte agus baineann sí feidhmíocht inchomparáide amach ar aicmiú téacs. I gcás gach catagóire tasc, déanaimid measúnú ar na samhlacha ar na tacair sonraí a úsáideadh in seanleabuithe(osclaíonn i bhfuinneog nua).

SamhailFeidhmíocht
text-embedding-ada-002
53.3
text-search-davinci-*-001
52.8
text-search-curie-*-001
50.9
text-search-babbage-*-001
50.4
text-search-ada-*-001
49.0
Tacar sonraí: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Aontú cumas. Tá comhéadan an deiridhphointe /embeddings(osclaíonn i bhfuinneog nua) simplithe go mór againn trí na cúig shamhail ar leith a thaispeántar thuas (text-similarity, text-search-query, text-search-doc, code-search-text agus code-search-code) a chumasc in aon tsamhail nua amháin. Feidhmíonn an léiriú aonair seo níos fearr ná ár samhlacha leabaithe roimhe seo thar réimse éagsúil tagarmharcanna cuardaigh téacs, cosúlachta abairte agus cuardaigh cóid.

Comhthéacs níos faide. Tá fad comhthéacs na samhla nua méadaithe faoi fhachtóir ceithre, ó 2048 go 8192, rud a fhágann go bhfuil sé níos áisiúla oibriú le cáipéisí fada.

Méid leabaithe níos lú. Níl ach 1536 toise ag na leabuithe nua, ochtú cuid de mhéid leabuithe davinci-001, rud a fhágann go bhfuil na leabuithe nua níos costéifeachtaí agus iad á n-úsáid le bunachair shonraí veicteora.

Praghas laghdaithe. Tá praghas samhlacha nua leabaithe laghdaithe 90% againn i gcomparáid le seanmhúnlaí den mhéid céanna. Baineann an tsamhail nua feidhmíocht níos fearr nó cosúil le seanmhúnlaí Davinci amach ar phraghas atá 99.8% níos ísle.

Ar an iomlán, is uirlis i bhfad níos cumhachtaí í an tsamhail nua leabaithe do phróiseáil teanga nádúrtha agus do thascanna cóid. Táimid ar bís a fheiceáil conas a úsáidfidh ár gcustaiméirí í chun feidhmchláir níos cumasaí fós a chruthú ina réimsí féin.

Teorainneacha

Níl an tsamhail nua text-embedding-ada-002 ag sárú text-similarity-davinci-001 ar thagarmharc aicmithe lineach SentEval. I gcás tascanna a éilíonn ciseal líneach éadrom a oiliúint ar bharr veicteoirí leabaithe le haghaidh tuarthachta aicmithe, molaimid an tsamhail nua a chur i gcomparáid le text-similarity-davinci-001 agus cibé samhail a thugann an fheidhmíocht is fearr a roghnú.

Féach an rannán Teorainneacha & Rioscaí(osclaíonn i bhfuinneog nua) sa cháipéisíocht leabuithe le haghaidh theorainneacha ginearálta ár samhlacha leabaithe.

Samplaí den API leabuithe i mbun gnímh

Kalendar AI(osclaíonn i bhfuinneog nua) is táirge for-rochtana díolacháin é a úsáideann leabuithe chun an pháirc díolacháin cheart a mheaitseáil leis na custaiméirí cearta as tacar sonraí ina bhfuil 340M próifíl. Braitheann an uathoibriú seo ar chosúlacht idir leabuithe phróifílí custaiméirí agus páirceanna díolacháin chun na meaitseanna is oiriúnaí a rangú, rud a chuireann deireadh le 40–56% den spriocdhíriú gan iarraidh i gcomparáid lena seanchur chuige.

Úsáidfidh Notion(osclaíonn i bhfuinneog nua), an comhlacht spás oibre ar líne, leabuithe nua OpenAI chun cuardach Notion a fheabhsú thar chórais mheaitseála eochairfhocal an lae inniu.

Údair

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan