
本日、開発者や企業で本番環境に対応できる信頼性の高い音声エージェントを構築するための新機能を広く提供する Realtime API を公開します。この API は、リモート MCP サーバー、画像入力、セッション開始プロトコル(SIP)経由の電話通話に対応でき、追加ツールやコンテキストへのアクセスを通じて音声エージェントの能力を向上させます。
また、これまでで最も高度な音声変換(STS)モデル、gpt-realtime も併せてリリースします。この新しいモデルでは、複雑な指示への追従、ツールの呼び出し精度、より自然で表現力豊かな音声の生成などの機能が向上しています。システムメッセージや開発者プロンプトの解釈に優れ、サポートコールで免責事項のスクリプトを逐語的に読み上げたり、英数字を繰り返したり、文章の途中で言語をシームレスに切り替えたりできます。加えて、「Cedar」と「Marin」という2つの新しい音声もリリースします。これらの音声は、Realtime API 限定で本日よりご利用いただけます。
昨年10月に Realtime API を公開ベータ版として初めて導入して以来、何千人もの開発者がこの API を使用して開発を行い、本日リリースする改良点の策定にご協力くださいました。こうした改良を経て、音声エージェントを本番環境に導入できるように信頼性が最適化され、低レイテンシ、高品質を実現しています。音声認識(STT)や音声合成(TTS)の複数のモデルを連結する従来のパイプラインとは異なり、Realtime API は単一のモデルと API で音声を直接的に処理し、生成します。これにより、レイテンシが短縮され、音声のニュアンスを保持でき、より自然で表現力豊かな回答が生成されます。
「OpenAI の Realtime API の新しい音声変換(STS)モデルは、より強力な推論機能とより自然な音声を備えており、ライフスタイルのニーズに応じてリストを絞り込んだり、BuyAbility スコアなどのツールを使用して可用性に関する話し合いを進めたりするなど、複雑な複数のステップからなるリクエストを処理できます。これにより、Zillow で家を探したり、資金調達のオプションを検討したりすることが、友人と会話するのと同じくらい自然に感じられるようになり、家の購入、売却、賃貸などの決定をシンプルに行うことができます」
– Zillow、AI 責任者、Josh Weisberg 氏
新しい音声変換(STS)モデル、gpt-realtime は、当社で最も先進的で、本番環境に対応する音声モデルです。開発者が音声エージェントを構築・展開する方法に合わせてモデルが調整され、ユーザーとの緊密なコラボレーションによる学習から、カスタマーサポートやパーソナルアシスタンス、教育などの現実世界でのタスクにおいて優れた成果を上げることができます。このモデルでは、音声品質、インテリジェンス、指示への追従、Function Calling の領域が改善されています。
現実世界で音声エージェントを展開するには、より自然な会話が欠かせません。楽しい体験を生み出してユーザーとの継続的な会話を進めるには、モデルが人間のイントネーション、感情、ペースで話すようにする必要があります。gpt-realtime は、より自然に聞こえ、「速くプロフェッショナルに話す」、「フランス語のアクセントで共感的に話す」などの詳細な指示に従うことができ、より高品質の音声が生成されるように学習が行われました。
この度、自然な音声の実現を最も重視して改善された2種類の新しい音声、Marin と Cedar を API でリリースします。また、既存の 8 音声も適用された改善点を活かせるように更新しています。
gpt-realtime はインテリジェンスが向上し、ネイティブ音声を理解する精度が上がりました。このモデルは、非言語的なきっかけ(笑い声など)を捉え、文の途中で言語を切り替えられるほか、口調(「勤務中のようなきびきびした感じ」vs.「親切で共感的」)も調整できます。社内評価によると、このモデルはスペイン語、中国語、日本語、フランス語などの言語においても、英数字シーケンス(電話番号、VIN など)の検出でより正確なパフォーマンスを発揮しています。Big Bench Audio による推論機能を測定する評価では、gpt-realtime は82.8%の精度を記録し、以前の2024年12月モデルの精度65.6%を上回っています。
Big Bench Audio(新しいウィンドウで開く) ベンチマークは、音声入力をサポートする言語モデルの推論機能を評価する評価データセットです。このデータセットは、高度な推論を厳密にテストするために選ばれた Big Bench Hard からの質問を音声ドメインに適合させます。
音声変換(STS)アプリケーションを構築する際、開発者はどのように話すか、特定の状況で何を言うか、何をして何をしないかなど、動作に関する一連の指示をモデルに与えます。これらの指示の順守に重きを置いて、軽微な指示でもモデルに多くの信号を伝えられるように改善しました。指示への追従の精度を測定する MultiChallenge の音声ベンチマークで gpt-realtime のスコアは30.5%となり、以前の2024年12月モデルのスコア、20.6%と比べて大幅に向上しています。
MultiChallenge(新しいウィンドウで開く) は、LLM が人間との多方向の会話をどれだけうまく処理できるかを評価します。特に、現在のフロンティアモデルが取り組む4つの現実的な課題のカテゴリに重点を置いています。これらの課題を解決するには、モデルで、指示への追従、コンテキスト管理に加え、コンテキスト内での推論を同時に組み合わせる必要があります。この評価の音声バージョンを作成するために、当社ではテスト問題の音声対応サブセットを音声合成(TTS)から変換しました。
音声変換(STS)モデルを使用して有能な音声エージェントを構築するには、モデルが適切なツールを適切なタイミングで呼び出せるようにして、本番環境で活用できるようにする必要があります。当社では、呼び出される関数の妥当性、呼び出しの適時性、さらに適切な引数による呼び出し(精度の向上を可能にする)の3本の軸で Function Calling を改善しました。ComplexFuncBench の音声評価で Function Calling パフォーマンスを測定すると、以前の2024年12月モデルのスコアが49.7%だったのに対し、gpt-realtime のスコアは66.5%でした。
また、非同期の Function Calling(新しいウィンドウで開く) にも改善を加えました。長時間実行される Function Calling によってセッションの流れが中断されることはなくなり、モデルは結果の待機中であってもスムーズな会話を継続できます。この機能は gpt-realtime でネイティブに利用できるため、開発者はコードを更新する必要はありません。
ComplexFuncBench(新しいウィンドウで開く) は、モデルが難しい Function Calling のタスクをどれだけ適切に処理できるかを測定します。マルチステップ呼び出し、制約または暗黙的なパラメーターに関する推論、非常に長い入力の処理などのシナリオ全体にわたり、パフォーマンスを評価します。モデルへの評価を構築するために、オリジナルのテキストプロンプトを音声に変換して用いました。
リモート MCP サーバーの URL をセッション構成に渡すことで、Realtime API セッションでの MCP のサポートが可能になります。接続が完了すると、API がツール呼び出しを自動的に処理するため、統合を手動で設定する必要がなくなります。
この設定により、新しい機能を利用してエージェントを簡単に拡張できます。セッションで別の MCP サーバーを指示するだけで、ツールをすぐに使用できます。Realtime を使用した MCP 構成の詳細については、こちらのガイド(新しいウィンドウで開く)をご覧ください。
gpt-realtime で画像入力をサポートするようになりました。これにより、音声やテキストとともに画像、写真、スクリーンショットを Realtime API セッションに追加できます。このモデルでは、ユーザーが実際に見ているものに基づいて会話できるため、ユーザーは「何が見える?」「このスクリーンショットのテキストを読んで」といった質問ができます。
このシステムは、画像をライブの動画ストリーミングのように扱うのではなく、画像・映像を会話に追加するかのように扱います。アプリから、モデルと共有する画像と、その共有タイミングを決定でき、モデルが何を認識し、いつ反応するかを制御できます。
画像入力の開始の際は、ドキュメント(新しいウィンドウで開く)をご確認ください。
Realtime API の統合を簡単にし、本番環境での利用の柔軟性を高めるため、他にもいくつかの機能が追加されています。
- セッション開始プロトコル(SIP)のサポート:Realtime API の直接サポートを利用して、アプリを公衆電話網、PBX システム、卓上電話、その他の SIP エンドポイントに接続できます。ドキュメントで詳細をお読みください。(新しいウィンドウで開く)
- 使い回しのきくプロンプト:Responses API と同様に、開発者メッセージやツール、変数、ユーザー/アシスタントメッセージのサンプルで構成されるプロンプトを、Realtime API セッション全体で保存して再利用できるようになりました。詳細については、ドキュメントをご覧ください。(新しいウィンドウで開く)
不正使用を防ぐために、Realtime API には安全対策と緩和策が複数のレイヤーとして組み込まれています。当社の安全へのアプローチと System Card の詳細については、ベータ版の発表ブログをご覧ください。Realtime API セッションではアクティブな分類機能が採用され、当社の有害なコンテンツに関するガイドラインに違反していると検出された会話を停止することができます。開発者は、Agents SDK(新しいウィンドウで開く) を使用して独自の安全性ガードレールを簡単に追加することもできます。
当社の利用規定は、当社のサービスからの出力をスパム、欺瞞、その他の有害な目的のために再利用または配布することを禁止しています。コンテキストからすでに明らかな場合を除き、開発者はエンドユーザーが AI と対話するときにその旨を明確に伝える必要があります。Realtime API は、悪意のある人物によるなりすましを防止するために、プリセット音声を使用します。
Realtime API は、EU 拠点のアプリケーションの EU データレジデンシー(新しいウィンドウで開く)を完全にサポートしており、当社のエンタープライズプライバシーへのコミットメントの適用対象です。
一般提供されている Realtime API と新しい gpt-realtime モデルは、本日よりすべての開発者にご利用いただけます。gpt-realtime の料金については、gpt-4o-realtime-preview と比較して20%引き下げられ、100万個の音声入力トークンあたり32ドル(キャッシュされた入力トークンの場合は0.40ドル)、100万個の音声出力トークンあたり64ドル(料金の詳細(新しいウィンドウで開く)を参照)としました。会話コンテキストのきめ細かな制御も追加され、開発者がインテリジェントなトークン制限を設定し、一度に複数のターンを切り捨てられるようになりました。これにより、長時間にわたるセッションの費用を大幅に削減できます。
開始する際は、Realtime API ドキュメント(新しいウィンドウで開く)を参照し、Playground(新しいウィンドウで開く) で新しいモデルをテストしてください。また、Realtime API プロンプトガイド(新しいウィンドウで開く)も参照してください。


