15 დეკემბერი, 2022

New and improved embedding model

რბილი ფოკუსის პეიზაჟური ნახატი, რომელზეც გამოსახულია მწვანე წინა პლანი, პასტელური ვარდისფერი და ბეჟი მინდორი და შორეული ბორცვები კაშკაშა ვარდისფერი და ღია ცისფერი ცის ქვეშ.

იტვირთება…

ახალი მოდელი, text-embedding-ada-002, ტექსტური ძიების, ტექსტის მსგავსებისა და კოდის ძიებისთვის განკუთვნილ ხუთ ცალკეულ მოდელს ცვლის და ამოცანების უმეტესობაში ჩვენს წინა ყველაზე შესაძლებლობიან მოდელს, Davinci-ს, აჭარბებს, თან მისი ფასი 99.8%-ით დაბალია.

Embeddings არის ცნებების რიცხვითი წარმოდგენები, რომლებიც რიცხვების მიმდევრობებად გარდაიქმნება, რაც კომპიუტერებს ამ ცნებებს შორის ურთიერთობების გაგებას უადვილებს. OpenAI-ის /embeddings⁠(იხსნება ახალ ფანჯარაში) საბოლოო წერტილის საწყისი გაშვების⁠ შემდეგ, ბევრმა აპლიკაციამ embeddings გამოიყენა კონტენტის პერსონალიზებისთვის, რეკომენდაციისთვის და საძიებლად.

იტვირთება...

შეგიძლიათ ახალი მოდელისთვის მიმართოთ /embeddings⁠(იხსნება ახალ ფანჯარაში) საბოლოო წერტილს ჩვენი OpenAI Python Library⁠(იხსნება ახალ ფანჯარაში)-ის გამოყენებით, კოდის მხოლოდ ორი ხაზით, ისევე როგორც წინა მოდელებთან შეგეძლოთ:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

მოდელის გაუმჯობესებები

უფრო ძლიერი წარმადობა. text-embedding-ada-002 ტექსტური ძიების, კოდის ძიებისა და წინადადებების მსგავსების ამოცანებში ყველა ძველ embedding მოდელს აჭარბებს და ტექსტის კლასიფიკაციაში შედარებად შედეგს აჩვენებს. თითოეული ამოცანის კატეგორიისთვის ჩვენ მოდელებს ძველი embeddings⁠(იხსნება ახალ ფანჯარაში)-ში გამოყენებულ მონაცემთა ნაკრებებზე ვაფასებთ.

მოდელი	მოდელის ეფექტურობა
`text-embedding-ada-002`	53,3
`text-search-davinci-*-001`	52,8
`text-search-curie-*-001`	50,9
`text-search-babbage-*-001`	50,4
`text-search-ada-*-001`	49,0

მონაცემთა ნაკრები: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

შესაძლებლობების გაერთიანება. ჩვენ მნიშვნელოვნად გავამარტივეთ /embeddings⁠(იხსნება ახალ ფანჯარაში) საბოლოო წერტილის ინტერფეისი იმ ხუთი ცალკეული მოდელის, რომლებიც ზემოთაა ნაჩვენები (text-similarity, text-search-query, text-search-doc, code-search-text და code-search-code), ერთ ახალ მოდელში გაერთიანებით. ეს ერთიანი წარმოდგენა ჩვენს წინა embedding მოდელებზე უკეთ მუშაობს ტექსტური ძიების, წინადადებების მსგავსებისა და კოდის ძიების ბენჩმარკების მრავალფეროვან ნაკრებზე.

უფრო გრძელი კონტექსტი. ახალი მოდელის კონტექსტის სიგრძე ოთხჯერ გაიზარდა — 2048-დან 8192-მდე, რაც გრძელ დოკუმენტებთან მუშაობას უფრო მოსახერხებელს ხდის.

უფრო მცირე embedding ზომა. ახალ embeddings-ს მხოლოდ 1536 განზომილება აქვს, რაც davinci-001 embeddings-ის ზომის მერვედია და ახალ embeddings-ს ვექტორულ მონაცემთა ბაზებთან მუშაობისას უფრო ეკონომიურს ხდის.

შემცირებული ფასი. ახალი embedding მოდელების ფასი იმავე ზომის ძველ მოდელებთან შედარებით 90%-ით შევამცირეთ. ახალი მოდელი ძველ Davinci მოდელებთან შედარებით უკეთეს ან მსგავს შედეგს 99.8%-ით უფრო დაბალ ფასად აღწევს.

საერთო ჯამში, ახალი embedding მოდელი ბუნებრივი ენის დამუშავებისა და კოდთან დაკავშირებული ამოცანებისთვის ბევრად უფრო ძლიერი ინსტრუმენტია. მოხარულები ვართ ვნახოთ, როგორ გამოიყენებენ მას ჩვენი მომხმარებლები თავიანთ სფეროებში კიდევ უფრო შესაძლებლობიანი აპლიკაციების შესაქმნელად.

შეზღუდვები

ახალი text-embedding-ada-002 მოდელი SentEval-ის linear probing კლასიფიკაციის ბენჩმარკში text-similarity-davinci-001-ს არ აჯობებს. ამოცანებისთვის, რომლებიც კლასიფიკაციის პროგნოზირებისთვის embedding ვექტორებზე მსუბუქი ხაზოვანი ფენის გაწვრთნას მოითხოვს, გირჩევთ, ახალი მოდელი text-similarity-davinci-001-ს შეადაროთ და აირჩიოთ ის მოდელი, რომელიც ოპტიმალურ წარმადობას იძლევა.

ჩვენი embedding მოდელების ზოგადი შეზღუდვებისთვის embeddings დოკუმენტაციაში იხილეთ განყოფილება შეზღუდვები და რისკები⁠(იხსნება ახალ ფანჯარაში).

embeddings API-ის გამოყენების მაგალითები

Kalendar AI⁠(იხსნება ახალ ფანჯარაში) არის გაყიდვების აუთრიჩის პროდუქტი, რომელიც embeddings-ს იყენებს, რათა 340 მლნ პროფილის შემცველი მონაცემთა ნაკრებიდან სწორ მომხმარებლებს სწორად შეუხამოს გაყიდვების შეთავაზება. ეს ავტომატიზაცია ეყრდნობა მომხმარებლის პროფილებისა და გაყიდვების შეთავაზებების embeddings-ებს შორის მსგავსებას, რათა ყველაზე შესაფერისი დამთხვევები დაარანჟიროს, და მათ ძველ მიდგომასთან შედარებით არასასურველი დამიზნების 40–56% გამორიცხოს.

Notion⁠(იხსნება ახალ ფანჯარაში), ონლაინ სამუშაო სივრცის კომპანია, OpenAI-ის ახალ embeddings-ს გამოიყენებს, რათა Notion-ის ძიება დღევანდელი საკვანძო სიტყვებზე დამყარებული სისტემების ფარგლებს გასცდეს.

დოკუმენტაციის ნახვა(იხსნება ახალ ფანჯარაში)

ავტორები

Ryan Greene, Ted Sanders, Lilian Weng და Arvind Neelakantan

დაკავშირებული სტატიები

ყველას ნახვა

გლობალური საინფორმაციო პარტნიორობები: Le Monde და Prisa Media

კომპანია13 მარ. 2024

News > Company carousel > Review completed > Media

მიმოხილვა დასრულდა და ალტმანი, ბროკმანი კვლავ განაგრძობენ OpenAI-ის ხელმძღვანელობას

კომპანია8 მარ. 2024

OpenAI დირექტორთა საბჭოს ახალ წევრებს აცხადებს

კომპანია8 მარ. 2024