15 Desember 2022

New and improved embedding model

Lukisan lanskap fokus alus sing nggambarake latar ngarep ijo, lapangan pastel jambon lan krem, lan bukit-bukit adoh ing sangisore langit jambon padhang lan biru enom.

Lagi dimuat…

Model anyar, text-embedding-ada-002, ngganti limang model kapisah kanggo panelusuran teks, kamiripan teks, lan panelusuran kode, lan ngluwihi model sadurunge sing paling mumpuni, Davinci, ing akèh tugas, kanthi rega 99.8% luwih murah.

Embeddings yaiku representasi numerik saka konsep sing diowahi dadi urutan angka, sing nggampangake komputer mangerteni hubungan antarane konsep-konsep kasebut. Wiwit peluncuran awal⁠ titik pungkasan OpenAI /embeddings⁠(mbukak ing jendhela anyar), akeh aplikasi wis nggabungake embeddings kanggo nggawe personalisasi, rekomendasi, lan panelusuran konten.

Lagi dimuat...

Sampeyan bisa ngquery titik pungkasan /embeddings⁠(mbukak ing jendhela anyar) kanggo model anyar mung nganggo rong larik kode nganggo OpenAI Python Library⁠(mbukak ing jendhela anyar), kaya nalika nganggo model sadurungé:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Pangapikan model

Kinerja luwih kuwat. text-embedding-ada-002 ngluwihi kabeh model embedding lawas ing tugas panelusuran teks, panelusuran kode, lan kamiripan ukara, lan menehi kinerja sing sebanding ing klasifikasi teks. Kanggo saben kategori tugas, kita ngevaluasi model-model kasebut ing dataset sing digunakake ing embedding lawas⁠(mbukak ing jendhela anyar).

Model	Kinerja
`text-embedding-ada-002`	53,3
`text-search-davinci-*-001`	52,8
`text-search-curie-*-001`	50,9
`text-search-babbage-*-001`	50,4
`text-search-ada-*-001`	49,0

Set data: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Panyawijian kapabilitas. Kita wis nyederhanakake antarmuka titik pungkasan /embeddings⁠(mbukak ing jendhela anyar) kanthi nggabungake limang model kapisah sing dituduhake ing ndhuwur (text-similarity, text-search-query, text-search-doc, code-search-text lan code-search-code) dadi siji model anyar. Representasi tunggal iki nduweni kinerja luwih apik tinimbang model embedding sadurunge ing macem-macem tolok ukur panelusuran teks, kamiripan ukara, lan panelusuran kode.

Konteks luwih dawa. Dawane konteks model anyar ditambah kaping papat, saka 2048 dadi 8192, supaya luwih trep kanggo nggarap dokumen dawa.

Ukuran embedding luwih cilik. Embedding anyar mung nduweni 1536 dimensi, saprawolu ukuran embedding davinci-001, dadi embedding anyar luwih irit biaya nalika nggarap basis data vektor.

Rega luwih murah. Kita wis nyuda rega model embedding anyar nganti 90% dibandhingake model lawas kanthi ukuran sing padha. Model anyar ngasilake kinerja sing luwih apik utawa padha karo model Davinci lawas kanthi rega 99.8% luwih murah.

Sakabèhé, model embedding anyar iki minangka piranti sing luwih kuat kanggo pangolahan basa alami lan tugas kode. Kita bungah ndeleng carane para pelanggan bakal nggunakake iki kanggo nggawe aplikasi sing luwih mumpuni ing bidangé masing-masing.

Watesan

Model anyar text-embedding-ada-002 ora ngluwihi kinerja text-similarity-davinci-001 ing tolok ukur klasifikasi linear probing SentEval. Kanggo tugas sing mbutuhake latihan lapisan linear entheng ing ndhuwur vektor embedding kanggo prediksi klasifikasi, disaranake mbandhingake model anyar karo text-similarity-davinci-001 lan milih model sing menehi kinerja paling optimal.

Priksa bagean Watesan & Risiko⁠(mbukak ing jendhela anyar) ing dokumentasi embeddings kanggo watesan umum saka model embedding kita.

Conto panggunaan API embeddings

Kalendar AI⁠(mbukak ing jendhela anyar) yaiku produk sales outreach sing nggunakake embeddings kanggo nyocogake pitch sales sing pas karo pelanggan sing pas saka dataset sing ngemot 340M profil. Otomatisasi iki gumantung marang kamiripan antarane embedding profil pelanggan lan pitch sales kanggo menehi peringkat cocog sing paling pas, saengga ngilangi 40–56% penargetan sing ora dikarepake dibandhingake pendekatan lawasé.

Notion⁠(mbukak ing jendhela anyar), perusahaan papan kerja online, bakal nggunakake embeddings anyar saka OpenAI kanggo nambah panelusuran Notion ngluwihi sistem pencocokan tembung kunci saiki.

Waca dokumentasi(mbukak ing jendhela anyar)

Panulis

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan

New and improved embedding model

Pangapikan model

Watesan

Conto panggunaan API embeddings

Panulis

Artikel terkait