我們正式發佈 GPT‑4.5 的研究預覽版,這是我們迄今在對話應用中規模最大、效能最卓越的模型。GPT‑4.5 標誌著我們在預訓練與後訓練擴展方面邁出的重要一步。透過擴展無監督學習,GPT‑4.5 提升了模式辨識、連結建立與創意解析的效能,且無需進行推理。
初期測試顯示,與 GPT‑4.5 的互動感覺較為自然。它擁有更為廣泛的知識庫、更精確的使用者意圖理解能力,以及更高的情緒智商,因而在改善寫作、程式設計與解決各類實際問題方面表現得更加出色。捏造內容的出現頻率預計也會降低。
我們推出了 GPT‑4.5 的研究預覽版,旨在進一步了解其優勢與潛在限制。我們仍在釐清 GPT‑4.5 的各項潛能,也期待看到大家以出乎我們意料的方式加以運用。
為了提升人工智慧的能力,我們擴展兩種互補的範式:無監督學習與推理,它們分別代表智慧的兩大面向。
- 無監督學習可提高世界模型的精確度和直覺性。GPT‑3.5、GPT‑4 及 GPT‑4.5 等模型推進了這種範式。
- 擴展推理規模則教導模型在作答前先進行思考,產生「思考鏈」,讓它們能處理更複雜的 STEM 或邏輯問題。像 OpenAI o1 及 OpenAI o3‑mini 這類模型推動了這種範式。
GPT‑4.5 是透過擴大運算及資料規模,並結合架構及改善創新來擴展無監督學習的範例。GPT‑4.5 是在 Microsoft Azure AI 超級電腦上訓練而成。結果是一個知識更全面、理解更深入的模型,其捏造內容的機率降低,也在各種主題上展現出更高的可靠性。
擴展 GPT 範式
更深度的世界知識
SimpleQA 準確率 (越高越好)
SimpleQA 虛構率 (越低越好)
SSimpleQA 測量大型語言模型 (large language model) 回答簡單但具挑戰性的知識問題時的事實準確度。
隨著模型規模的擴展,並被應用於解決更複雜的問題,教導它們更深入理解人類的需求與意圖變得愈發重要。我們針對 GPT‑4.5 開發了一套全新且可擴展的技術,能夠利用較小模型的資料來訓練更大型、更強大的模型。這些技術提升了 GPT‑4.5 在可導向性、語意細節理解以及自然對話上的表現。
測試人員比較評估
在人類偏好評估中,GPT‑4.5 在回答查詢方面獲得測試人員偏好的比例高於 GPT‑4o。
因結合了對世界更深的理解與更高的協作能力,我們打造出一個能在溫暖、流暢的對話中彙整想法,並更符合人類協作需求的模型。GPT‑4.5 能更深入理解人類的真正意圖,以更細膩的方式及更高的「情商」詮釋微妙線索或隱含期待。GPT‑4.5 也展現出更強的美學直覺及創造力。它在協助寫作及設計方面的表現相當優異。
使用案例
GPT-4.5
GPT‑4.5 展現更高的「情商」,懂得何時邀請進一步對話,何時向用戶提供詳盡資訊。
GPT‑4.5 不進行回應前的思考流程,因此其強項與 OpenAI o1 等注重推理過程的模型截然不同。相較於 OpenAI o1 和 o3‑mini,GPT‑4.5 是一個更通用、在本質智慧上也更為強大的模型。我們相信推理將成為未來模型的核心能力,而預訓練與推理這兩種擴展方法將相輔相成。隨著 GPT‑4.5 等模型透過預訓練變得更聰明、知識更豐富,它們也將為推理和工具使用代理提供更強大的基礎。
模型能力的每一次提升,也同時是增強模型安全性的機會。GPT‑4.5 在訓練時運用結合了傳統監督微調 (SFT) 及人類回饋強化學習 (RLHF) 等方法的全新監督技術,與 GPT‑4o 採用的方法類似。我們希望這項工作能為調校更強大的未來模型奠定基礎。
為了進行改善項目的壓力測試,我們在部署前依照應變整備框架(在新視窗中開啟)進行了各項安全測試。我們發現擴展 GPT 範式能提升它在各項評估中的表現能力。我們將在隨附的系統說明卡中公布這些評估的詳細結果。
從今天開始,ChatGPT Pro 用戶可以在網頁版、行動版及桌面版的模型選擇器中選用 GPT‑4.5。我們將於下週開始向 Plus 及 Team 用戶推出,並於下下週擴展至 Enterprise 及 Edu 用戶。
GPT‑4.5 能透過搜尋獲取最新資訊,支援檔案與圖片上傳,並可利用畫布功能進行寫作及程式碼處理。不過,GPT‑4.5 目前尚不支援 ChatGPT 中的多模態功能,如語音模式、視訊及畫面分享。未來,我們將持續簡化用戶體驗,讓 AI「只為您運作」。
我們目前也為所有付費使用方案(在新視窗中開啟)的開發人員提供 GPT‑4.5 的 Chat Completions API、Assistants API 及 Batch API 預覽功能。該模型支援函式呼叫、結構化輸出、串流式輸出及系統訊息等主要功能。它也支援視覺能力,可透過圖片輸入進行理解。
根據早期測試,開發人員可能會發現 GPT‑4.5 在需要較高情緒智商及創造力的應用中特別有用,如寫作協助、溝通、學習、指導及腦力激盪等領域。它在代理規劃及執行層面也展現傑出效能,包括多步驟程式設計工作流程及複雜任務自動化。
GPT‑4.5 是一個非常大型、對運算資源需求極高的模型,成本也高於 GPT‑4o,並非 GPT‑4o 的替代品。因此,我們正在評估是否要長期在 API 中持續提供此模型,因為我們需要在支援現有功能與開發未來模型之間取得平衡。我們期待能進一步了解其在實際應用環境中的優勢、能力及潛在應用。如果 GPT‑4.5 能為您的使用情境帶來獨特價值,您的意見回饋(在新視窗中開啟)將在我們的決策中扮演重要角色。
每當運算能力大幅提升,嶄新功能便隨之誕生。GPT‑4.5 是由無監督學習領域最尖端技術打造的模型,而社群在發掘其新能力及各種意想不到的使用情境上展現的創造力,更讓我們驚喜不已。透過 GPT‑4.5,我們邀請您攜手探索無監督學習的尖端領域,共同發掘嶄新的功能。
以下提供 GPT‑4.5 在標準學術基準測試中的結果,說明該模型在傳統推理相關任務上的表現。即使只透過擴大無監督學習的規模,GPT‑4.5 在效能上仍較 GPT‑4o 等先前模型有明顯提升。儘管如此,我們仍期待藉由這次發佈更深入了解 GPT‑4.5 的能力,因為我們明白學術基準測試有時無法完全反映真實世界的實用性。
模型評估分數
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (高) | |
GPQA (科學) | 71.4% | 53.6% | 79.7% |
AIME 2024 (數學) | 36.7% | 9.3% | 87.3% |
MMMLU (多語言) | 85.1% | 81.5% | 81.1% |
MMMU (多模態) | 74.4% | 69.1% | - |
SWE-Lancer Diamond (程式設計)* | 32.6% 186,125 美元 | 23.3% 138,750 美元 | 10.8% 89,625 美元 |
SWE-bench 已驗證 (程式設計)* | 38.0% | 30.7% | 61.0% |
*所示數字代表最佳內部表現。
作者
基礎貢獻者
Adam Goucher、Alex Paino、Ali Kamali、Amin Tootoonchian、Andrew Tulloch、Ben Sokolowsky、Clemens Winter、Colin Wei、Daniel Kappler、Daniel Levy、Felipe Petroski Such、Geoff Salmon、Ian O’Connell、Jason Teplitz、Kai Chen、Nik Tezak、Prafulla Dhariwal、Rapha Gontijo Lopes、Sam Schoenholz、Youlong Cheng、Yujia Jin和Yunxing Dai
研究
核心貢獻者
Aiden Low、Alec Radford、Alex Carney、Alex Nichol、Alexis Conneau、Ananya Kumar、Ben Wang、Charlotte Cole 、Elizabeth Yang、Gabriel Goh、Hadi Salman、Haitang Hu、Heewoo Jun、Ian Sohl、Ishaan Gulrajani、Jacob Coxon、James Betker、Jamie Kiros、Jessica Landon、Kyle Luther、Lia Guy、Lukas Kondraciuk、Lyric Doshi、Mikhail Pavlov、Qiming Yuan、Reimar Leike、Rowan Zellers、Sean Metzger、Shengjia Zhao、Spencer Papay、Tao Wang
貢獻者
Adam Lerer、Adrien Ecoffet、Aidan McLaughlin、Alexander Prokofiev、Alexandra Barr、Allan Jabri、Andrew Gibiansky、Andrew Schmidt、Casey Chu、Chak Li、Chelsea Voss、Chris Hallacy、Chris Koch、Christine McLeavey、David Mely、Dimitris Tsipras、Eric Sigler、Erin Kavanaugh、Farzad Khorasani、Huiwen Chang、Ilya Kostrikov、Ishaan Singal、Ji Lin、Jiahui Yu、Jing Yu Zhang、John Rizzo、Jong Wook Kim、Joyce Lee、Juntang Zhuang、Leo Liu、Li Jing、Long Ouyang、Louis Feuvrier、Mo Bavarian、Nick Stathas、Nitish Keskar、Oleg Murk、Preston Bowman、Scottie Yan、SQ Mah、Tao Xu、Taylor Gordon、Valerie Qi、Wenda Zhou、Yu Zhang
擴展技術
核心貢獻者
Alex Chow、Alex Renzin、Aleksandra Spyra、Avi Nayak、Ben Leimberger、Christopher Hesse、Duc Phong Nguyen、Dinghua Li、Eric Peterson、Francis Zhang、Gene Oden、Kai Fricke、Kai Hayashi、Larry Lv、Leqi Zou、Lin Yang、Madeleine Thompson、Michael Petrov、Miguel Castro、Natalia Gimelshein、Phil Tillet、Reza Zamani、Ryan Cheu Stanley Hsieh、Steve Lee、Stewart Hall、Thomas Raoux、Tianhao Zheng、Vishal Kuo、Yongjik Kim、Yuchen Zhang、Zhuoran Liu
貢獻者
Alvin Wan、Andrew Cann、Andrew Codispoti、Antoine Pelisse、Anuj Kalia、Aaron Hurst、Avital Oliver、Brad Barnes、Brian Hsu、Chen Ding、Chen Shen、Cheng Chang、Christian Gibson、Christopher Berner、Duncan Findlay、Fan Wang、Fangyuan Li、Gianluca Borello、Heather Schmidt、Henrique Ponde de Oliveira Pinto、Ikai Lan、Jiayi Weng、James Crooks、Jos Kraaijeveld、Junru Shao、Kenny Hsu、Kenny Nguyen、Kevin King、Leah Burkhardt、Leo Chen、Linden Li、Lu Zhang、Mahmoud Eariby、Marat Dukhan、Mateusz Litwin、Miki Habryn、Natan LaFontaine、Pavel Belov、Peng Su、Prasad Chakka、Rachel Lim、Rajkumar Samuel、Renaud Gaubert、Rory Carmichael、Sarah Dong、Shantanu Jain、Shuaiqi Xia、Stephen Logsdon、Todd Underwood、Tony Zhao、Weixing Zhang、Will Sheu、Weiyi Zheng、Yinghai Lu、Yunqiao Zhang
安全系統
Andrea Vallone、Andy Applebaum、Cameron Raymond、Chong Zhang、Dan Mossing、Elizabeth Proehl、Eric Wallace、Evan Mays、Grace Zhao、Ian Kivlichan、Irina Kofman、Joel Parish、Kevin Liu、Keren Gu-Lemberg、Kristen Ying、Lama Ahmad、Lilian Weng、Leon Maksin、Leyton Ho、Meghan Shah、Michael Lampe、Michele Wang、Miles Wang、Olivia Watkins、Phillip Guo、Samuel Miserendino、Sam Toizer、Sandhini Agarwal、Tejal Patwardhan、Tom Dupré la Tour、Tong Mu、Tyna Eloundou和Yunyun Wang
部署
Adam Brandon、Adam Perelman、Adele Li、Akshay Nathan、Alan Hayes、Alfred Xue、Alison Ben、Alec Gorge、Alex Guziel、Alex Iftimie、Ally Bennett、Andrew Chen、Andy Wang、Andy Wood、Angad Singh、Anoop Kotha、Antonia Woodford、Anuj Saharan、Ashley Tyra、Atty Eleti、Ben Schneider、Bessie Ji、Beth Hoover、Bill Chen、Blake Samic、Britney Smith、Brian Yu、Caleb Wang、Cary Bassin、Cary Hudson、Charlie Jatt、Chengdu Huang、Chris Beaumont、Christina Huang、Cristina Scheau、Dana Palmie、Daniel Levine、Daryl Neubieser、Dave Cummings、David Sasaki、Dibya Bhattacharjee、Dylan Hunn、Edwin Arbus、Elaine Ya Le、Enis Sert、Eric Kramer、Fred von Lohmann、Freddie Sulit、Gaby Janatpour、Garrett McGrath、Garrett Ollinger、Gary Yang、Hao Sheng、Harold Hotelling、Janardhanan Vembunarayanan、Jeff Harris、Jeffrey Sabin Matsumoto、Jennifer Robinson、Jessica Liang、Jessica Shieh、Jiacheng Yang、Joel Morris、Joseph Florencio、Josh Kaplan、Kan Wu、Karan Sharma、Karen Li、Katie Pypes、Kendal Simon、Kendra Rimbach、Kevin Park、Kevin Rao、Laurance Fauconnet、Lauren Workman、Leher Pathak、Liang Wu、Liang Xiong、Lien Mamitsuka、Lindsay McCallum、Lukas Gross、Manoli Liodakis、Matt Nichols、Michelle Fradin、Minal Khan、Mingxuan Wang、Nacho Soto、Natalie Staudacher、Nikunj Handa、Niko Felix、Ning Liu、Olivier Godement、Oona Gleeson、Philip Pronin、Raymond Li、Reah Miyara、Robert Xiong、Rohan Nuttall、R.J. Marsan、Sara Culver、Scott Ethersmith、Sean Fitzgerald、Shamez Hemani、Sherwin Wu、Shiao Lee、Shuyang Cheng、Siyuan Fu、Spug Golden、Steve Coffey、Steven Heidel、Sundeep Tirumalareddy、Tabarak Khan、Thomas Degry、Thomas Dimson、Tom Stasi、Tomo Hiratsuka、Trevor Creech、Uzair Navid Iftikhar、Victoria Chernova、Victoria Spiegel、Wanning Jiang、Wenlei Xie、Yaming Lin、Yara Khakbaz、Yilei Qian、Yilong Qin、Yo Shavit和Zhi Bie
高層領導團隊
Aidan Clark、Bob McGrew、David Farhi、Greg Brockman、Hannah Wong、Jakub Pachocki、Johannes Heidecke、Joanne Jang、Kate Rouch、Kevin Weil、Lauren Itow、Liam Fedus、Mark Chen、Mia Glaese、Mira Murati、Nick Ryder、Sam Altman、Srinivas Narayanan和Tal Broda