2022年12月15日

改善された新たな埋め込みモデル

A soft-focus landscape painting depicting a green foreground, a pastel pink and beige field, and distant hills beneath a bright pink and light blue sky.

読み込んでいます...

新たなモデルである「text-embedding-ada-002」は、テキスト検索とテキスト類似性、およびコード検索のための5つのモデルを置き換え、これまで最も高性能だったモデルである Davinci をほとんどのタスクで上回りながらも、コストが99.8%低くなりました。

埋め込みとは、概念を数値で表現したものを数値の列に変換することです。こうすることによって、コンピューターが各概念間の関係性を理解しやすくなります。OpenAI の /embeddings⁠（新しいウィンドウで開く）エンドポイントが初公開⁠されて以来、多くのアプリケーションでカスタマイズや、推奨、およびコンテンツ検索のために埋め込みが導入されてきました。

読み込み中...

新しいモデルのために /embeddings⁠（新しいウィンドウで開く）エンドポイントをクエリする場合は、これまでのモデルでするのと同じように、当社の OpenAI Python Library⁠（新しいウィンドウで開く）を使って以下のような2行のコードで行うことができます：

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

モデルの改善

更に高いパフォーマンス。text-embedding-ada-002 は、テキスト検索とコード検索、そして文章類似性タスクで、これまでのすべての旧モデルを上回り、テキストの分類では同等のパフォーマンスを発揮しました。各タスクカテゴリーでは、旧埋め込み⁠（新しいウィンドウで開く）で使用されたデータセットでモデルの評価が行われました。

モデル	パフォーマンス
`text-embedding-ada-002`	53.3
`text-search-davinci-*-001`	52.8
`text-search-curie-*-001`	50.9
`text-search-babbage-*-001`	50.4
`text-search-ada-*-001`	49.0

データセット：BEIR （ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020）

機能の統合。/embeddings⁠（新しいウィンドウで開く）エンドポイントのインターフェースは、上で示した5つのモデル（text-similarity 、text-search-query、text-search-doc、code-search-text、および code-search-code）を新たな1つのモデルに統合するすることによって著しく簡素化されました。このように1つに統合することによって、テキスト検索と、文章類似性、およびコード検索に関する多様なデータセットの全体に渡るベンチマークにおいて、これまでの各種埋め込みモデルよりも高いパフォーマンスを発揮できるようになりました。

より長いテキスト。 この新たなモデルのコンテクスト長は2048から8192という4倍まで増加したので、長い文書の処理がしやすくなりました。

より小さな埋め込みサイズ。 この新たな埋め込みにはわずか1536の次元しかなく、これは davinci-001 の埋め込みサイズの8分の1なので、ベクトルデータベースで使用する場合に更に費用対効果が高くなっています。

コストの低下。 新たな埋め込みモデルのコストは、同一サイズの旧モデルと比較して90%低下しています。この新たなモデルは、かつての Davinci モデルと同等以上のパフォーマンスを99.8%低いコストで達成しています。

全体として、この新たなモデルは、自然言語の処理とコード関連タスクで遥かに強力なツールであると言えます。当社サービスをご利用の皆様が、それぞれの分野で更に高性能なアプリケーションを作り出すために、このモデルをどのように活用していただけるか非常に楽しみにしています。

限界

この新たな text-embedding-ada-002 モデルは、SentEval の線形プロービング分類ベンチマークでは、text-similarity-davinci-001 を上回っていません。この新たなモデルは、分類の予測をするために埋め込みベクトルに加えて軽量線形レイヤーの学習が必要なタスクについては、text-similarity-davinci-001 と比較し、どちらであれ最適なパフォーマンスを発揮したモデルを選ぶことをお勧めします。

当社の埋め込みモデルの一般的な限界に関する参考資料については、限界とリスク⁠（新しいウィンドウで開く）のセクションをご確認ください。

埋め込み API の実例

Kalendar AI⁠（新しいウィンドウで開く）は営業アウトリーチ製品で、3億4000万件のプロファイルを含むデータセットから、適切な顧客と適切な営業戦略をマッチングさせるために埋め込みモデルを活用しています。この自動化は、最も適切なマッチングをランキングし、旧アプローチと比較して望ましくない標的設定を40%～56%排除するために、顧客プロファイルと営業戦略の埋め込みモデルとの間にある類似性に依拠しています。

オンラインワークプレイス企業である Notion⁠（新しいウィンドウで開く）は OpenAI の新たな埋め込みモデルを使って、自社の検索を現在のキーワードマッチングシステムを超えるものに改善しました。