画像を使って考える
OpenAI o3 と o4-mini は、Chain-of-Thought に画像を用いた論理的思考を行うことで、視覚認識に大きなブレークスルーをもたらします。
OpenAI o3 と o4-mini は、o シリーズ最新のビジュアルリーズニングモデルです。当社のモデルは、初めて、見るだけでなく Chain-of-Thought の中で画像を使って思考できるようになりました。
従来の OpenAI o1 モデルと同様に、o3 と o4-mini は、答える前により長い時間考えるように学習が施され、ユーザーに応答する前に内部で長い Chain-of-Thought を使用します。o3 と o4-mini は、Chain-of-Thought の中で画像を使って思考することで、この機能をさらに拡張しています。これは、ユーザーがアップロードした画像をツールで変換することで実現され、他の簡単な画像処理技術に加えて、トリミング、ズーム、回転を可能にします。さらに重要なのは、これらの機能が個別の専用モデルに依存することなく、ネイティブで提供されることです。
ChatGPT の強化されたビジュアルインテリジェンスは、これまで以上に徹底的に、正確かつ確実に画像を分析することで、より困難な問題を解決するのに役立ちます。高度なリーズニングとウェブ検索や画像操作などのツールをシームレスに組み合わせることができ、画像を自動的にズーム、クロップ、反転、強調して、不完全な写真からでも洞察を抽出することができます。たとえば、経済学の問題セットの写真をアップロードして順を追って説明を受けたり、ビルドエラーのスクリーンショットを共有して根本原因分析をすばやく取得したりできます。
このアプローチは、視覚的リーズニングとテキストリーズニングをシームレスに融合するテスト時コンピューティングスケーリングの新しい軸を可能にし、マルチモーダルベンチマークにおける最先端のパフォーマンスに反映されているように、マルチモーダルリーズニングへの大きな一歩を示すものです。
画像を使って考えることで、ChatGPT とより簡単に対話できます。文字が逆さまでも、1枚の写真に複数の物理学的な問題があっても、オブジェクトの位置を気にせずに写真を撮ることで質問できます。オブジェクトが一目でわからなくても、視覚的リーズニングによってモデルは拡大してよりはっきりと見ることができます。
すべての例は OpenAI o3 で行いました。
最新のビジュアルリーズニングモデルは、Python のデータ分析、ウェブ検索、画像生成などの他のツールと連携して、より複雑な問題を創造的かつ効果的に解決し、ユーザーに初めてのマルチモーダルエージェント体験を提供します。
従来のマルチモーダルモデルと比較して視覚的リーズニングの改善を示すために、OpenAI o3 と o4-mini を多様な人間用試験と ML ベンチマークでテストしました。これらの新しいビジュアルリーズニングモデルは、当社がテストしたすべてのマルチモーダルタスクにおいて、従来のモデルを大幅に上回りました。
すべてのモデルは、ChatGPT の「o4-mini-high」のようなバージョンと同様に、高い「論理的思考努力」設定で評価されます。
特に、ブラウジングに頼らずに画像を使って考えることは、評価したすべての知覚ベンチマークで大きな向上につながります。当社のモデルは、STEM 問題解答(MMMU、MathVista)、図表の読み取りと論理的思考(CharXiv)、知覚プリミティブ(VLMs are Blind)、視覚探索(V *)において、新しい最先端の性能を打ち立てました。V* では、視覚的リーズニングアプローチにより95.7%の精度を達成し、ベンチマークをほぼ解きました。
画像を使った思考には、現在以下の限界があります。
- リーズニングチェーンが非常に長い:モデルは冗長あるいは不必要なツール呼び出しや画像操作ステップを実行し、Chain-of-Thought が過度に長くなる可能性があります。
- 知覚エラー:モデルはまだ基本的な認識の間違いを犯す可能性があります。ツール呼び出しが正しくリーズニングプロセスを進めた場合でも、視覚的な解釈の誤りによって最終的な解答が正しくないことがあります。
- 信頼性:モデルは、問題の複数の試行間で異なる視覚的リーズニングプロセスを試みることがあり、そのうちのいくつかは誤った結果をもたらす可能性があります。
OpenAI o3 と o4-mini は、最先端のビジュアルリーズニング機能を大幅に進化させ、より広範なマルチモーダルリーズニングへの重要な一歩を踏み出しました。これらのモデルは、視覚知覚タスクにおいてクラス最高の精度を実現し、これまで手の届かなかった問題を解くことを可能にします。
より簡潔で、冗長でなく、信頼できるように、画像によるモデルの論理的思考能力を継続的に改良しています。マルチモーダルリーズニングの研究を続け、これらの改良が日常業務をどのように向上させることができるかを探求していただけることを楽しみにしています。
4月16日更新:Charxiv-r、Mathvista、vlmsareblind での o3 の結果が更新され、当初の評価にはなかったシステムプロンプトの変更が反映されました。
著者
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








