OpenAI は、インテリジェンスを可能な限り広く利用できるようにすることを約束します。本日、当社で最も費用効率の高い小型モデルである GPT‑4o mini を発表します。GPT‑4o mini によってインテリジェンスをより手頃な料金設定にすることで、AI で構築されるアプリケーションの範囲が大きく広がっていくものと期待しています。GPT‑4o mini は MMLU で82%のスコアを記録し、現在LMSYS リーダーボード(新しいウィンドウで開く)ではチャットの選好において GPT‑41 を上回っています。料金は、100万入力トークンあたり15セント、100万出力トークンあたり60セントで、これまでのフロンティアモデルよりも桁違いに手頃であり、GPT‑3.5 Turbo よりも60%以上安価です。
GPT‑4o mini は、低コスト・低遅延で幅広いタスクを可能にします。複数のモデル呼び出しを連鎖または並列化する(複数の API の呼び出しなど)、大量のコンテキストをモデルに渡す(完全なコードベースや会話履歴など)、高速かつリアルタイムのテキスト応答を通じて顧客と対話する(カスタマーサポートのチャットボットなど)といったアプリケーションに応用できます。
現在、GPT‑4o mini は API でテキストと視覚をサポートしており、将来的にはテキスト、画像、映像、音声の入出力をサポートする予定です。このモデルは12.8万トークンのコンテキストウィンドウを持ち、リクエストあたり最大1.6万出力トークンをサポートし、2023年10月までの知識を習得しています。GPT‑4o と共有されている改良版トークナイザーにより、英語以外のテキスト処理の費用効率がさらに向上しました。
優れたテキスト知能とマルチモーダルリーズニングを備えた小型モデル
テキストインテリジェンスとマルチモーダルリーズニングの学術的ベンチマークにおいて、GPT‑4o mini は GPT‑3.5 Turbo や他の小型モデルを上回り、GPT‑4o と同じ言語をサポートしています。また、関数呼び出しにおいても優れた性能を発揮し、これにより開発者はデータを取得したり外部システムと連携したりするアプリケーションを構築できるようになります。また、GPT‑3.5 Turbo と比較して、長文コンテキストの処理性能が向上しています。
GPT‑4o mini は複数の主要ベンチマーク2で評価されています。
論理的思考タスク:GPT‑4o mini は、テキストと視覚の両方を含む論理的思考タスクで他の小型モデルよりも優れています。テキスト知能と論理的思考のベンチマークである MMLU では、Gemini Flash の77.9%、Claude Haiku の73.8%に対し、GPT‑4o mini は82.0%を獲得しました。
数学およびコーディング能力:GPT‑4o mini は、数学的リーズニングとコーディングのタスクに優れており、市場に存在する従来の小型モデルを凌駕します。数学的リーズニング能力を測定する MGSM では、Gemini Flash の75.5%、Claude Haiku の71.7%に対し、GPT‑4o mini は87.0%を得点しました。コーディング能力を測定する HumanEval では、Gemini Flash の71.5%、Claude Haiku の75.9%に対し、GPT‑4o mini は87.2%となりました。
マルチモーダルリーズニング:GPT‑4o mini は、マルチモーダルリーズニングを評価する MMMU でも高い性能を示し、Gemini Flash の56.1%、Claude Haiku の50.2%に対し、59.4%となりました。
モデル評価スコア
モデル開発プロセスの一環として、GPT‑4o mini のユースケースと限界をさらに把握すべく、いくつかの信頼できるパートナーと協力しました。Ramp(新しいウィンドウで開く) や Superhuman(新しいウィンドウで開く) などの企業と協働した結果、GPT‑4o mini は、領収書ファイルから構造化されたデータを抽出したり、スレッド履歴が提供された場合に高品質の電子メール応答を生成したりするタスクにおいて、GPT‑3.5 Turbo の性能を大幅に上回ることを確認しました。
内蔵された安全対策
安全性は当初から当社のモデルに組み込まれており、開発プロセスの段階ごとに強化されています。事前学習では、ヘイトスピーチやアダルトコンテンツ、主として個人情報を収集するサイト、スパムなど、モデルに学習させたくないか出力させたくない情報を除外しています(新しいウィンドウで開く)。事後学習では、人間のフィードバックによる強化学習(RLHF)などの技術を使用してモデルの行動を当社のポリシーに合致させ、モデルの応答の精度と信頼性を向上させています。
GPT‑4o mini には、GPT‑4o と同じ安全対策が組み込まれています。これは、当社の Preparedness Framework に従い、また自主的コミットメントに沿って自動評価および人的評価の両方を用いて慎重に評価したものです。社会心理学や誤報などの分野における70人以上の外部専門家が GPT‑4o をテストし、潜在的なリスクを特定しました。これに当社が対処し、今後発表予定の GPT‑4o System Card と Preparedness スコアカードで詳細を共有する予定です。こうした専門家の評価から得られた知見により、GPT‑4o と GPT‑4o mini 両方の安全性が向上しています。
また、これらの学習をもとに、当社のチームは、当社の研究から生まれた新たな方法で GPT‑4o mini の安全性向上に取り組みました。API の GPT‑4o mini は、当社の命令階層(新しいウィンドウで開く)メソッドを適用した最初のモデルであり、ジェイルブレイク、プロンプトインジェクション、システムプロンプト抽出に対するモデルの耐性を向上させています。これにより、モデルの応答の信頼性が上がり、大規模な用途での安全性が高まります。
引き続き GPT‑4o mini の使用状況を監視し、新たなリスクを特定次第モデルの安全性を改善していきます。
種類と料金
GPT‑4o mini は、現在 Assistants API、Chat Completions API、Batch API にてテキストおよびビジョンモデルをご用意しています。開発者向けの料金は、100万入力トークンあたり15セント、100万出力トークンあたり60セント(標準的な書籍の約2500ページに相当)です。近日中に GPT‑4o mini のファインチューニングを行う予定です。
ChatGPT では、本日より Free、Plus、Team ユーザーが GPT‑3.5 を置き換え GPT‑4o mini にアクセスできるようになります。AI の恩恵を全ての人が享受できるようにするというミッションに沿い、Enterprise ユーザーも来週よりアクセス可能になります。
今後の展望
ここ数年で、AI のインテリジェンスは目覚ましい進歩を遂げ、コストも大幅に削減されています。例えば、GPT‑4o mini のトークン単価は、2022年に導入され性能が限定的なモデルだった text-davinci-003 から99%下がりました。モデル能力を強化しながらコストを削減するというこの軌道を今後も継続していきます。
当社は、モデルがあらゆるアプリやウェブサイトにシームレスに統合される未来を描いています。GPT‑4o mini は、開発者が強力な AI アプリケーションをより効率的かつ手頃なコストで構築し、拡張できる道を拓いてきます。AI の未来は、より身近で信頼できるものとなり、日々のデジタル体験に組み込まれつつあります。当社は、その先導者になれることに大きな期待感を持っています。
著者
OpenAI謝辞
責任者:Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such
プログラム責任者:Mianna Chen
脚注
- 1
2024年7月18日時点で、GPT-4o mini の初期バージョンは GPT-4T 01-25 を上回っています。
- 2
GPT-4o mini の評価値は、API アシスタントシステムのメッセージプロンプトで simple-evals(新しいウィンドウで開く) リポジトリを使用して計算されています。競合他社のモデルについては、報告された数値(取得可能な場合)の最大値、HELM(新しいウィンドウで開く) のリーダーボード、simple-evals を介した当社による再現を採用しています。