2024年8月20日

GPT‑4o でファインチューニングが利用できるようになりました

GPT‑4o のカスタムバージョンをファインチューニングして、アプリケーションのパフォーマンスと精度を向上させます。

画像は、温かみのある黄色、オレンジ、ピンクに、涼しげな青や紫が散りばめられた、縦線と横線による格子状のパターンが特徴の抽象画を示しています。カラフルな長方形と線が鮮やかなレイヤー効果を生み出しています。

読み込んでいます...

2026年5月8日の更新：OpenAIはファインチューニングプラットフォームを段階的に終了しています。このプラットフォームは新規ユーザーには利用できなくなりましたが、既存のファインチューニングプラットフォームユーザーは、今後数か月間トレーニングジョブを作成できます。すべてのファインチューニング済みモデルは、そのベースモデルが非推奨⁠（新しいウィンドウで開く）になるまで推論に利用できます。全体のタイムラインはこちら⁠（新しいウィンドウで開く）です。

本日、開発者から最もリクエストの多かった機能の1つであるGPT‑4o⁠のファインチューニングを開始します。また、2023年9月23日まで、すべての組織に対して1日あたり1Mの学習トークンを無料で提供しています。

開発者は GPT‑4o をカスタムデータセットでファインチューニングすることで、特定のユースケースにおいて、より高いパフォーマンスを低コストで実現できます。ファインチューニングを行うことで、モデルは回答の構造やトーンをカスタマイズしたり、複雑なドメイン固有の指示に対応したりすることが可能になります。開発者はすでに、わずか数十例の学習データセットを使用して、アプリケーションにおいて優れた結果を生み出すことが可能です。

コーディングから創作的な文章作成に至るまで、ファインチューニングはさまざまな分野でモデルの性能に大きな影響を与える可能性があります。これはあくまで第一歩です。当社は引き続き、開発者向けのモデルカスタマイズ⁠オプションを拡大していきます。

始める

GPT‑4o ファインチューニングは本日から、すべての有料使用ティア⁠（新しいウィンドウで開く）で、すべての開発者に提供開始されます。

使用を開始するには、ファインチューニングダッシュボード⁠（新しいウィンドウで開く）にアクセスし、作成をクリックし、ベースモデルドロップダウンから gpt-4o-2024-08-06 を選択します。GPT‑4o ファインチューニングの学習料金は100万トークンあたり25ドルであり、推論の料金は100万入力トークンあたり3.75ドル、100万出力トークンあたり15ドルです。

GPT‑4o mini のファインチューニングも、すべての有料使用ティアで、すべての開発者に提供開始されます。ファインチューニングダッシュボードにアクセスし、ベースモデルドロップダウンから gpt-4o-mini-2024-07-18 を選択します。GPT‑4o mini では、9月23日まで1日2Mの学習トークンを無料で提供します。

ファインチューニングの使い方の詳細については、資料⁠（新しいウィンドウで開く）をご覧ください。

GPT-4o ファインチューニングで最先端のパフォーマンスを達成する

過去数か月間、当社は GPT‑4o ファインチューニングをテストし、信頼できる一握りのパートナーと協力してユースケースについて学びました。成功例をいくつか紹介します。

Cosine は SWE-bench ベンチマークで最先端の結果を達成

Cosine⁠（新しいウィンドウで開く）の Genie は、ユーザーと協力して自律的にバグを特定および解決し、機能を構築し、コードをリファクタリングできる AI ソフトウェアエンジニアリングアシスタントです。複雑な技術的問題について論理的に思考し、より高い精度と少ないトークンでコードに変更を加えることができます。Genie は、実際のソフトウェアエンジニアの成果物に基づいて学習され、ファインチューニングされた GPT‑4o モデルを使用しているため、モデルは特定の方法で回答するための学習を行うことができます。また、このモデルは、コードベースに簡単にコミットできるパッチなど、特定の形式で出力できるようにするための学習も行っています。

Genie は、ファインチューニングされた GPT‑4o モデルを使用して、新しい SWE-bench⁠（新しいウィンドウで開く）の検証されたベンチマークで43.8%の SOTA スコアを達成したことが、先週火曜日に発表⁠されました。Genie はまた、SWE-bench Full で30.08%の SOTA スコアを保持しており、以前の SOTA スコア19.27%を上回り、このベンチマークで過去最大の改善となりました。

Distyl が BIRD-SQL ベンチマークで1位を獲得

フォーチュン500企業の AI ソリューションパートナーである Distyl⁠（新しいウィンドウで開く）は、最近、主要 text-to-SQL ベンチマークである BIRD-SQL⁠（新しいウィンドウで開く）ベンチマークで1位を獲得しました。Distyl のファインチューニングされた GPT‑4o は、リーダーボードで 71.83% の実行精度を達成し、クエリ改質、インテント分類、Chain-of-Thought、自己修正などのタスクで優れており、特に SQL 生成で高いパフォーマンスを発揮しました。

リーダーボードは、「ヒューマンパフォーマンス」の実行精度（EX）が92.96%であることを示しています。それに次ぐランクの AI モデルは、「Distillery + GPT-4o」（71.83%）、「ExSL + granite-34b-code」（70.37%）、「RECAP + Gemini」（69.03%）、「ByteBrain」（68.87%）などです。

データのプライバシーとセキュリティ

ファインチューニングされたモデルは全体的に管理でき、すべての入力と出力を含むビジネスデータの所有権を完全に維持できます。そのため、データが共有されたり、他のモデルの学習に使用されたりすることはありません。

また、当社は、ファインチューニングされたモデルが悪用されないようにするため、多層的な安全性対策を実装しました。たとえば、ファインチューニングされたモデルに対して自動化された安全性評価を継続的に実行し、アプリケーションが確実に使用ポリシーを遵守するようにするため使用を監視しています。

GPT‑4o のファインチューニングによって何が生み出されるのか、非常に楽しみです。より多くのモデルカスタマイズオプションについてお知りになりたい場合は、当社の営業担当にお問い合わせください⁠。喜んでサポートさせていただきます！

著者

Andrew Peng、John Allard、Steven Heidel

謝辞

Adam Wells、Alec Gorge、Andrew Peng、Beth Hoover、Cary Hudson、Derek Chen、Dev Valladares、Elie Georges、Eric Wallace、Freddie Sulit、John Allard、Karen Li、Kevin Whinnery、Krithika Muthukumar、Lauren Workman、Leher Pathak、Lilian Weng、Lindsay McCallum、Lucy Chen、Michael Kolhede、Miles Brundage、Nick Pyne、Olivier Godement、Owen Cambpell-Moore、Pedro Aguilar、Ravi Teja Mullapudi、Scott Lessans、Sean Chang、Shyamal Anadkat、Steven Heidel、Tabarak Khan、Will Hang