GPT-4.5 が登場
最強の GPT モデルのリサーチプレビューを公開しました。本日より世界中の Pro ユーザーと開発者が利用可能です。
これまでで最も大規模かつ高性能なチャット向けモデルの GPT‑4.5 の研究プレビューを公開します。GPT‑4.5 は、事前学習と事後学習のスケーリングを前進させたモデルです。教師なし学習をスケールアップし、パターン認識や関連性の整理、またリーズニングを介さずに創造的な洞察を生成する能力を向上させました。
初期テストでは、GPT‑4.5 との対話がより自然に感じられることが示されています。より広い知識ベース、ユーザーの意図を汲み取る能力の向上、そして進化した「EQ(心の知能指数)」により、文章作成、プログラミングの向上、実用的な問題解決など、多様なタスクに役立つことが期待されています。また、誤った情報を生成する「ハルシネーション」の頻度が低減することも期待されています。
私たちは、GPT‑4.5 の強みと限界をより深く理解するために、研究プレビューとしてこのモデルを公開します。このモデルが持つ可能性をさらに探求するとともに、私たちが予想もしなかった方法で皆さまに活用されることを楽しみにしています。
私たちは、AI の能力を向上させるために、教師なし学習とリーズニングという2つの補完的なパラダイムをスケールアップしています。これらは、知能を支える2つの軸となります。
- リーズニングのスケールアップ(新しいウィンドウで開く): モデルが応答する前に思考の連鎖(Chain of Thought)を学習させることで、複雑なSTEM(科学・技術・工学・数学)や論理的な問題の解決できるようにします。OpenAI o1 や OpenAI o3‑mini などのモデルは、このリーズニングの強化を目的としたモデルです。
- 教師なし学習のスケールアップ: 「世界モデル」(現実世界の知識)の精度と直感を向上させます。
GPT‑4.5 は、コンピューティングリソースとデータの拡張に加え、アーキテクチャと最適化の革新によって教師なし学習のスケールアップを実現した例です。その結果、幅広い知識と深い世界理解を備えたモデルが生まれ、ハルシネーションの低減や、幅広いトピックにおける信頼性の向上が実現しています。
GPT の進化と拡張
より深い世界理解
SimpleQA Accuracy (higher is better)
SimpleQA Hallucination Rate (lower is better)
SimpleQA は、LLM(大規模言語モデル)の事実性を、単純ながらも難易度の高い知識問題で測定します。
モデルが拡大し、より複雑な問題を解決できるようになるにつれて、人間のニーズや意図を深く理解する能力を向上させることがますます重要になります。GPT‑4.5 では、より小規模なモデルから得られるデータを活用し、大規模かつ高性能なモデルを効率的にトレーニングするための新たなスケーラブルな技術を導入しました。これにより、GPT‑4.5 の制御性、微妙なニュアンスの理解力、そして自然な会話能力が向上しています。
Comparative evaluations with human testers
人間の好みを測定する指標であり、テスターが GPT‑4o よりも GPT‑4.5 を好んだクエリの割合を示します。
世界に対する深い理解と協調性の向上を組み合わせることで、アイデアを自然に統合し、温かみのある直感的な会話を実現するモデルとなります。GPT‑4.5 は、人間の意図をより正確に理解し、微妙なニュアンスや暗黙の期待を高度な「EQ」で読み取ることができます。また、美的感覚や創造性にも優れ、特に文章作成やデザインの支援において高い能力を発揮します。
ユースケース
GPT-4.5
GPT‑4.5 shows greater “EQ” and knows when to invite further conversation versus when to provide the user with extensive information.
GPT‑4.5 は、応答する前に深く思考する訳ではないため、その強みは OpenAI o1 のようなリーズニングモデルとは異なります。OpenAI o1や OpenAI o3‑mini と比較すると、GPT‑4.5はより汎用的かつ直感的に賢いモデルだと言えます。私たちはリーズニングが将来モデルの中核となる性能であると位置づけ、今後これら2つのアプローチ(事前学習とリーズニング)が互いを補完していくと期待しています。GPT‑4.5 のようなモデルが、事前学習を通じてより高度な知識と知性を獲得することで、将来的にはリーズニングやツール活用能力を持つエージェントの、より強固な基盤となることが期待されます。
モデルの能力が向上するたびに、より安全な AI を実現する機会も生まれます。GPT‑4.5 は、新たな監督手法を取り入れた学習を実施しており、従来の教師ありファインチューニング(SFT)や、人間のフィードバックを活用した強化学習(RLHF)と組み合わせています。これらは、GPT‑4o のトレーニングでも使用された手法です。この取り組みが、さらに高度な未来のモデルを適切に調整するための基盤となることを期待します。
私たちは、改善点を厳しくテストするために、公開前に一連の安全性テストを実施しました。これらのテストは、Preparedness Framework(新しいウィンドウで開く) に基づいて行われます。その結果、GPT のパラダイムのスケーリングが、評価全体において能力向上に貢献していることが確認されました。これらの評価の詳細な結果については、付属のシステムカードで公開しています。
現在、GPT‑4.5 は ChatGPT Pro プランのユーザー向けに提供されています。これは、GPT‑4.5が多くのコンピューティングリソースを必要とするためです。私たちは現在、より広範な知識、強化された直感力、そして向上した「EQ」といったGPT‑4.5 の特長を、将来のモデルを通じてすべてのユーザーに提供できるよう取り組んでいます。
GPT‑4.5 は、最新の情報にアクセスできる検索機能を備えており、ファイルや画像のアップロードにも対応しています。また、キャンバス機能を使ってライティングやコーディングの作業を進めることも可能です。しかし、現時点では音声モード、動画、画面共有などのマルチモーダル機能には対応していません。Pro ユーザーは、本日より GPT‑4.5 をウェブ・モバイル・デスクトップ版のモデルピッカーから利用可能です。今後は、AI がより自然に機能し、シンプルに活用できるユーザー体験の実現に向けて取り組んでいきます。
GPT‑4.5 は、Chat Completions API、Assistants API、Batch API において、すべての有料利用ティア(新しいウィンドウで開く)の開発者向けにプレビュー提供されています。このモデルは、関数呼び出し、Structured Outputs、ストリーミング、システムメッセージといった主な機能に対応しています。さらに、画像入力を活用したビジョン機能もサポートしています。
初期テストの結果、GPT‑4.5 は特に感情知能と創造性の高さを活かしたアプリケーションに適していることが分りました。文章作成支援やコミュニケーション、学習、コーチング、ブレインストーミングなどの分野での有用性が期待されます。また、エージェント的な計画立案や実行能力にも優れており、複数ステップのコーディングワークフローや複雑なタスクの自動化にも対応できる強みを持ちます。
GPT‑4.5 は非常に大規模で計算負荷の高いモデルであり、GPT‑4o の代替ではなく、コストも GPT‑4o 以上にかかります。そのため、現在の能力を維持しつつ将来のモデル開発を進める中で、API での長期提供を継続するかどうかを検討しています。実際の環境での活用を通じて、その強みや能力、潜在的な応用範囲についてさらに理解を深めていくことを期待しています。もし GPT‑4.5 が特定のユースケースで独自の価値を提供できる場合、皆さまからのフィードバック(新しいウィンドウで開く)が今後の判断において重要な役割を果たします。
計算能力が桁違いに向上するたびに、新たな可能性が生まれます。GPT‑4.5 は、教師なし学習の最前線のモデルであり、その限界を押し広げています。私たちは、皆さまの創造力によって、新たな能力や想定外の活用方法が次々と発見されることに驚かされ続けています。GPT‑4.5 とともに、教師なし学習の最先端を探求しながら、これまでにない新たな能力を私たちと一緒に見つけていきましょう。
以下に、GPT‑4.5 が標準的な学術ベンチマークで示した結果を掲載し、リーズニングに関連するタスクにおける現在の性能を示します。GPT‑4.5 は、教師なし学習の単純なスケーリングによっても、GPT‑4o などの従来モデルと比較して向上を示しています。ただし、学術ベンチマークの結果だけでは、モデルの能力や実用性を完全に把握することはできません。今回の公開を通じて、より多くの知見を得られることを期待します。
Model evaluation scores
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (high) | |
GPQA (science) | 71.4% | 53.6% | 79.7% |
AIME ‘24 (math) | 36.7% | 9.3% | 87.3% |
MMMLU (multilingual) | 85.1% | 81.5% | 81.1% |
MMMU (multimodal) | 74.4% | 69.1% | - |
SWE-Lancer Diamond (coding)* | 32.6% $186,125 | 23.3% $138,750 | 10.8% $89,625 |
SWE-Bench Verified (coding)* | 38.0% | 30.7% | 61.0% |
*Numbers shown represent best internal performance.
Authors
OpenAIFoundational contributors
Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin, Yunxing Dai
Research
Core contributors
Aiden Low, Alec Radford, Alex Carney, Alex Nichol, Alexis Conneau, Ananya Kumar, Ben Wang, Charlotte Cole , Elizabeth Yang, Gabriel Goh, Hadi Salman, Haitang Hu, Heewoo Jun, Ian Sohl, Ishaan Gulrajani, Jacob Coxon, James Betker, Jamie Kiros, Jessica Landon, Kyle Luther, Lia Guy, Lukas Kondraciuk, Lyric Doshi, Mikhail Pavlov, Qiming Yuan, Reimar Leike, Rowan Zellers, Sean Metzger, Shengjia Zhao, Spencer Papay, Tao Wang
Contributors
Adam Lerer, Adrien Ecoffet, Aidan McLaughlin, Alexander Prokofiev, Alexandra Barr, Allan Jabri, Andrew Gibiansky, Andrew Schmidt, Casey Chu, Chak Li, Chelsea Voss, Chris Hallacy, Chris Koch, Christine McLeavey, David Mely, Dimitris Tsipras, Eric Sigler, Erin Kavanaugh, Farzad Khorasani, Huiwen Chang, Ilya Kostrikov, Ishaan Singal, Ji Lin, Jiahui Yu, Jing Yu Zhang, John Rizzo, Jong Wook Kim, Joyce Lee, Juntang Zhuang, Leo Liu, Li Jing, Long Ouyang, Louis Feuvrier, Mo Bavarian, Nick Stathas, Nitish Keskar, Oleg Murk, Preston Bowman, Scottie Yan, SQ Mah, Tao Xu, Taylor Gordon, Valerie Qi, Wenda Zhou, Yu Zhang
Scaling
Core contributors
Adam Goucher, Alex Chow, Alex Renzin, Aleksandra Spyra, Avi Nayak, Ben Leimberger, Christopher Hesse, Duc Phong Nguyen, Dinghua Li, Eric Peterson, Francis Zhang, Gene Oden, Kai Fricke, Kai Hayashi, Larry Lv, Leqi Zou, Lin Yang, Madeleine Thompson, Michael Petrov, Miguel Castro, Natalia Gimelshein, Phil Tillet, Reza Zamani, Ryan Cheu Stanley Hsieh, Steve Lee, Stewart Hall, Thomas Raoux, Tianhao Zheng, Vishal Kuo, Yongjik Kim, Yuchen Zhang, Zhuoran Liu
Contributors
Alvin Wan, Andrew Cann, Andrew Codispoti, Antoine Pelisse, Anuj Kalia, Aaron Hurst, Avital Oliver, Brad Barnes, Brian Hsu, Chen Ding, Chen Shen, Cheng Chang, Christian Gibson, Christopher Berner, Duncan Findlay, Fan Wang, Fangyuan Li, Gianluca Borello, Heather Schmidt, Henrique Ponde de Oliveira Pinto, Ikai Lan, Jiayi Weng, James Crooks, Jos Kraaijeveld, Junru Shao, Kenny Hsu, Kenny Nguyen, Kevin King, Leah Burkhardt, Leo Chen, Linden Li, Lu Zhang, Mahmoud Eariby, Marat Dukhan, Mateusz Litwin, Miki Habryn, Natan LaFontaine, Pavel Belov, Peng Su, Prasad Chakka, Rachel Lim, Rajkumar Samuel, Renaud Gaubert, Rory Carmichael, Sarah Dong, Shantanu Jain, Shuaiqi Xia, Stephen Logsdon, Todd Underwood, Tony Zhao, Weixing Zhang, Will Sheu, Weiyi Zheng, Yinghai Lu, Yunqiao Zhang
Safety Systems
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng , Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou, Yunyun Wang
Deployment
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit, Zhi Bie
Executive Leadership
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan, Tal Broda