2022 оны арван хоёрдугаар сарын 15

New and improved embedding model

Зөөлөн фокустай энэ ландшафт зурагт ногоон урд хэсэг, пастель ягаан ба шаргал талбай, мөн тод ягаан, цайвар цэнхэр тэнгэрийн доорх алсын толгодыг дүрсэлжээ.

Ачаалж байна…

text-embedding-ada-002 шинэ загвар нь текст хайлт, текстийн төстэй байдал, код хайлтад зориулсан таван тусдаа загварыг орлож, ихэнх даалгаварт манай өмнөх хамгийн чадвартай Davinci загвараас илүү үзүүлэлттэй атлаа үнэ нь 99.8%-иар хямд юм.

Embeddings нь ойлголтуудыг тоон дараалалд хөрвүүлсэн тоон дүрслэлүүд бөгөөд ингэснээр компьютерууд тэдгээр ойлголтуудын хоорондын хамаарлыг ойлгоход хялбар болдог. OpenAI-ийн /embeddings⁠(шинэ цонхонд нээгдэнэ) эцсийн цэг анх нэвтэрснээс⁠ хойш олон аппликейшн embeddings-ийг ашиглан контентыг хувьчлах, санал болгох, хайх боломжийг нэвтрүүлсэн.

Ачаалж байна...

Манай OpenAI Python Library⁠(шинэ цонхонд нээгдэнэ)-г ашиглан өмнөх загваруудын адил хоёр мөр кодоор шинэ загварт зориулж /embeddings⁠(шинэ цонхонд нээгдэнэ) эцсийн цэгт хүсэлт илгээж болно:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Загварын сайжруулалтууд

Илүү хүчтэй гүйцэтгэл. text-embedding-ada-002 нь текст хайлт, код хайлт, өгүүлбэрийн төстэй байдлын даалгаврууд дээр бүх хуучин embedding загваруудаас илүү үзүүлэлттэй бөгөөд текст ангилал дээр ойролцоо гүйцэтгэл үзүүлдэг. Даалгаврын ангилал бүрийн хувьд бид загваруудыг хуучин embeddings⁠(шинэ цонхонд нээгдэнэ)-д ашигласан өгөгдлийн багцууд дээр үнэлдэг.

Загвар	Гүйцэтгэл
`text-embedding-ada-002`	53.3
`text-search-davinci-*-001`	52.8
`text-search-curie-*-001`	50.9
`text-search-babbage-*-001`	50.4
`text-search-ada-*-001`	49.0

Өгөгдлийн багц: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Чадваруудыг нэгтгэсэн нь. Бид дээр үзүүлсэн таван тусдаа загварыг (text-similarity, text-search-query, text-search-doc, code-search-text болон code-search-code) нэг шинэ загварт нэгтгэснээр /embeddings⁠(шинэ цонхонд нээгдэнэ) эцсийн цэгийн интерфэйсийг ихээхэн хялбарчилсан. Энэ нэг төлөөлөл нь текст хайлт, өгүүлбэрийн төстэй байдал, код хайлтын олон төрлийн benchmark дээр манай өмнөх embedding загваруудаас илүү сайн ажилладаг.

Урт контекст. Шинэ загварын контекстийн урт 2048-аас 8192 хүртэл, дөрөв дахин нэмэгдсэн тул урт баримт бичигтэй ажиллахад илүү тохиромжтой болсон.

Жижиг embedding хэмжээ. Шинэ embeddings нь ердөө 1536 хэмжээстэй бөгөөд davinci-001 embeddings-ийн наймны нэг хэмжээтэй. Ингэснээр вектор өгөгдлийн сантай ажиллахад шинэ embeddings нь зардлын хувьд илүү үр ашигтай болсон.

Үнэ буурсан. Бид ижил хэмжээтэй хуучин загваруудтай харьцуулахад шинэ embedding загваруудын үнийг 90%-иар бууруулсан. Шинэ загвар нь хуучин Davinci загваруудтай харьцуулахад 99.8%-иар хямд үнээр илүү сайн эсвэл ойролцоо гүйцэтгэл үзүүлдэг.

Ерөнхийдөө шинэ embedding загвар нь байгалийн хэл боловсруулалт болон кодын даалгавруудад зориулсан 훨씬 илүү хүчирхэг хэрэгсэл юм. Манай хэрэглэгчид үүнийг өөрсдийн салбарт бүр ч илүү чадвартай аппликейшн бүтээхэд хэрхэн ашиглахыг харахдаа бид баяртай байна.

Хязгаарлалт

Шинэ text-embedding-ada-002 загвар нь SentEval-ийн шугаман probing ангиллын benchmark дээр text-similarity-davinci-001-ээс илүү үзүүлэлттэй биш байна. Ангиллын таамаглалд зориулж embedding векторуудын дээр хөнгөн жинтэй шугаман давхарга сургах шаардлагатай даалгавруудын хувьд шинэ загварыг text-similarity-davinci-001-тэй харьцуулж, хамгийн оновчтой гүйцэтгэл өгч буй загварыг сонгохыг зөвлөж байна.

Манай embedding загваруудын ерөнхий хязгаарлалтуудыг embeddings баримт бичгийн Хязгаарлалт ба эрсдэлүүд⁠(шинэ цонхонд нээгдэнэ) хэсгээс үзнэ үү.

Embeddings API-ийн хэрэглээний жишээнүүд

Kalendar AI⁠(шинэ цонхонд нээгдэнэ) нь 340 сая профайл агуулсан өгөгдлийн сангаас зөв борлуулалтын санал зөв хэрэглэгчидтэй тааруулахын тулд embeddings ашигладаг борлуулалтын outreach бүтээгдэхүүн юм. Энэхүү автоматжуулалт нь хэрэглэгчийн профайл болон борлуулалтын саналын embeddings-ийн төстэй байдалд тулгуурлан хамгийн тохиромжтой таарцуудыг эрэмбэлдэг бөгөөд өмнөх арга барилтай нь харьцуулахад хүсээгүй онилолтыг 40–56%-иар бууруулдаг.

Notion⁠(шинэ цонхонд нээгдэнэ) хэмээх онлайн ажлын талбарын компани OpenAI-ийн шинэ embeddings-ийг ашиглан Notion-ийн хайлтыг өнөөгийн түлхүүр үг тааруулах системээс давуулан сайжруулах болно.

Баримт бичиг унших(шинэ цонхонд нээгдэнэ)

Зохиогчид

Ryan Greene, Ted Sanders, Lilian Weng, Arvind Neelakantan

Холбоотой нийтлэлүүд

Бүгдийг үзэх

Дэлхийн мэдээний түншлэл: Le Monde ба Prisa Media

Компани2024 оны 3-р сарын 13

News > Company carousel > Review completed > Media

Шалгалт дууссан бөгөөд Алтман, Брокман OpenAI-ийг үргэлжлүүлэн удирдана

Компани2024 оны 3-р сарын 8

OpenAI ТУЗ-ийн шинэ гишүүдээ танилцууллаа

Компани2024 оны 3-р сарын 8