跳到主要內容
OpenAI

2025年2月27日

發佈產品

GPT‑4.5 登場

這是我們最強大 GPT 模型的研發預覽版本。供全球 Pro 版用戶和開發人員使用。

正在載入...

隆重推出 GPT‑4.5 的研究預覽版——這是我們迄今為止規模最大、效能最佳的聊天模型。GPT‑4.5 是前期訓練和後期訓練擴展方面的一大進步。GPT‑4.5 可透過擴展無監督學習,提升其辨識模式、建立關聯和無需推理即可生成創意分析資料的能力。

早期測試顯示與 GPT‑4.5 的互動感覺更自然。GPT‑4.5 的知識庫更廣泛、理解用戶意圖的能力更佳,同時有更高「情緒智商」(EQ),因此在改善寫作、程式設計和解決實際問題等任務上效能更強大。我們也預期 GPT‑4.5 能減少產生「幻覺」。

我們以研究預覽版本方式推出 GPT‑4.5,以進一步了解其優點和限制。我們仍在探索此模型的能力,並期待看到用戶開創令人意想不到的新用途。

擴展無監督學習範圍

我們藉由擴展兩種互補的範例來提升 AI 的能力:無監督學習和推理。這代表智能的兩個軸向。

  1. 無監督學習可以提高世界模型的準確性和直覺。GPT‑3.5、GPT‑4 以及 GPT‑4.5 等模型推進了這方面的發展。
  2. 另一方面,擴展推理則教導模型在回應之前先思考並產生思路鏈,讓模型能解決複雜的 STEM 或邏輯問題。OpenAI o1 和 OpenAI o3‑mini 等模型推進了這方面的發展。

GPT‑4.5 是透過擴展運算和資料,以及架構和優化創新來擴展無監督學習範圍的好例子。GPT‑4 以 Microsoft Azure AI 超級電腦進行訓練,因此模型擁有更廣泛的知識,對世界的理解亦更加深入,從而減少產生「幻覺」,在不同話題上都更為可靠。

擴展 GPT 範例

What was the first language?

We don't know exactly what the first language was, and scientists believe we'll probably never know for sure because spoken languages appeared long before written records existed.

Here's what we do know:

  • No single "first language": Languages likely developed gradually in different groups of humans around the same time, tens or even hundreds of thousands of years ago.
  • Origin in Africa: Most scientists agree that spoken language probably first emerged among humans in Africa, perhaps over 100,000 years ago.
  • Proto-languages: Rather than a single language, humans likely started with simple communication that evolved into more complex languages. The earliest forms of language probably included gestures, sounds, and signals to express basic ideas and emotions.
  • Lost to history: Because speech leaves no direct fossil record, and writing emerged relatively recently (around 5,000 years ago), we have no way to know exactly how the earliest languages sounded.

Today, linguists study existing languages to understand how they evolved over thousands of years, but the exact identity of humanity’s very first language remains—and will likely always remain—a mystery.

世界知識更深入

SimpleQA 準確度(越高越好)
62.5%38.2%47%15%準確度
SimpleQA 幻覺發生率(越低越好)
37.1%61.8%44%80.3%幻覺發生率

SimpleQA 是衡量 LLM(大型語言模型)在回答簡單但具挑戰性的知識性問題時能否提供正確事實的方法。

專門訓練以進行人類協作

隨著我們擴展模型以及解決更複雜問題的能力,教導模型更深入地理解人類需求和意圖越來越重要。我們針對 GPT‑4.5 開發新的可擴展技術,能夠使用源自較小模型的資料來訓練規模更大、威力更強的模型。這些技術提高 GPT‑4.5 的可操控性、對細微之處的理解以及自然對話。

與真人測試人員的比較評估
56.8%63.2%57.0%GPT-4.5 與 GPT-4o 勝率比較

人類喜好量度測試人員在各種查詢中,更傾向 GPT‑4.5 的回覆多於 GPT‑4o 回覆的百分比。

結合對世界的深度理解和經改善的協作能力,令模型可以在自覺化的溫和對話中自然整合各種想法,因而更能適應人類協作。GPT‑4.5 更能掌握人類語言背後的真意,並能以更靈敏的反應和高「情緒智商」來解讀微妙的暗示或情感訊號。GPT‑4.5 也展現出更強的審美直覺和創造力,在協助寫作和設計方面的能力出眾。

用例

GPT-4.5

I’m going through a tough time after failing a test

Aw, I'm really sorry to hear that. Failing a test can feel pretty tough and discouraging, but remember, it's just one moment—not a reflection of who you are or your capabilities. Want to talk about what happened, or do you just need a distraction? I'm here either way.

I’m going through a tough time after failing a test

I'm really sorry to hear that you're going through a tough time. Here are a few things you might consider:

1. Reflect and Understand: Try to analyze what might have gone wrong. Was it a lack of preparation, time management during the test, or perhaps misunderstanding the material? Understanding the root cause can help you address it in the future.

2. Seek Support: Talk to someone you trust—friends, family, or a school counselor. They can offer a different perspective and sometimes just talking about your feelings can be alleviating.

3. Speak with Your Teacher or Professor: They can provide insights into where you might have gone wrong and offer advice on how to improve. They might also offer opportunities for make-up work or extra credit.

4. Develop a Study Plan: Based on your reflections, create a plan to improve your study habits. This might include setting regular study times, breaking down material into manageable portions, or finding new study methods that work better for you.

5. Stay Positive and Forgive Yourself: Mistakes and setbacks are a part of life. It’s important to be kind to yourself and recognize that failure is a stepping stone to success.

6. Focus on the Bigger Picture: Remember that one test is just one part of your educational journey. There will be many more opportunities to do well.

If you need further support or resources, consider reaching out to educational support services at your institution, or mental health resources if you’re feeling particularly overwhelmed. You’re not alone in this, and things can get better with time and effort.

GPT‑4.5 展現出更高的「情緒智商」,知道何時該進一步對話,何時向用戶提供大量資訊。

更強推理能力,指日可待

GPT‑4.5 在回應前不會思考,因此其優勢與像 OpenAI o1 這樣的推理模型截然不同。相較於 OpenAI o1 和 OpenAI o3‑mini,GPT‑4.5 是一個更通用、天生更聰明的模型。我們相信推理將是未來模型的核心能力,並且前期訓練和邏輯推理這兩種擴展方法將會相輔相成。隨著像 GPT‑4.5 這樣的模型透過前期訓練變得更聰明、知識更淵博,它們將為推理和工具使用型代理程式提供更強大的基礎。

安全機制

模型能力的每一次提升也是讓模型更安全的機會。GPT‑4.5 採用新的監督技術進行訓練,這些技術結合傳統的監督式微調 (SFT),和 GPT‑4o 所使用的那些人類回饋強化學習 (RLHF) 方法。我們期望這些研究成果能為協調未來更強大的模型奠定基礎。

為了對功能改善進行壓力測試,我們按照防範應對架構(在新視窗中開啟)在部署前進行了一系列安全測試。我們發現擴展 GPT 範例有助於我們評估能力的提升。我們在隨附的系統卡中發佈了這些評估的詳細結果。

如何透過 ChatGPT 使用 GPT-4.5

自今日起,ChatGPT Pro 版用戶將能在網頁版、流動版和桌面版的模型選擇器中選取 GPT‑4.5。我們將於下週開始向 Plus 和團隊版用戶推出,隨後一週向企業版和教育版用戶推出。

GPT‑4.5 能透過搜尋存取最新的即時資訊,支援檔案和圖像上載,並能使用 Canvas 進行寫作和編碼。然而,GPT‑4.5 目前不支援 ChatGPT 中的多模態功能,例如語音模式、影片和螢幕分享。未來,我們會繼續簡化用戶體驗,讓 AI 更貼合您心。

如何透過 API 使用 GPT-4.5

我們也向所有付費使用層級的開發人員提供聊天完成 API、助理 API 和批次 API 中的 GPT‑4.5 預覽。這款模型支援函數呼叫、結構化輸出、串流和系統訊息等關鍵功能,同時透過圖像輸入支援視覺功能。

根據早期測試,開發人員可能會發現,GPT‑4.5 特別適用於可發揮其較高情商和創作力的應用程式,例如寫作輔助、溝通、學習、指導和集思廣益。模型它在代理規劃和執行方面也表現出強大的能力,包括多步驟編碼工作流程,和複雜任務自動化。

GPT‑4.5 是一款非常龐大且運算密集的模型,所以比 GPT‑4o 更昂貴,同時不應作為 GPT‑4o 的代替品。因此,我們正在評估是否在 API 中長期提供此服務,同時平衡支援現有功能與架設未來模型。我們期待在實際應用中了解模型的優勢、能力以及潛在的應用方式。如果 GPT‑4.5 為您的用例帶來獨特價值,我們期待您與我們分享意見(在新視窗中開啟),這將有助指引我們的未來決策。

總結

每增加一個運算量級,都會帶來嶄新能力。GPT‑4.5 是無監督式學習領域的領先模型。社群不斷展現創意,發掘模型的新能力和令人意想不到的用例,帶來無數驚喜。我們邀請您透過 GPT‑4.5,與我們一起探索無監督學習的疆界,並發掘嶄新的能力。

附錄

我們在下方提供 GPT‑4.5 在標準學術基準上的結果,以說明它目前在傳統上與推理相關任務上的表現。即使僅透過純粹擴展無監督學習,GPT‑4.5 也比先前的模型(如 GPT‑4o)展現出顯著的改進。儘管如此,我們仍期待透過本次發佈,更全面地了解 GPT‑4.5 的能力,因為我們認識到學術基準未必一定能反映實際應用價值。

模型評估分數

GPT‑4.5

GPT‑4o

OpenAI o3‑mini(高)

GPQA (科學)

71.4%

53.6%

79.7%

AIME ‘24 (數學)

36.7%

9.3%

87.3%

MMMLU(多語言)

85.1%

81.5%

81.1%

MMMU(多模態)

74.4%

69.1%

-

SWE-Lancer Diamond(編碼)*

32.6%

$186,125

23.3%

$138,750

10.8%

$89,625

通過 SWE-bench 驗證(編碼)*

38.0%

30.7%

61.0%

*所示數字代表最佳內部表現。

作者

OpenAI

基礎貢獻者

Adam Goucher、Alex Paino、Ali Kamali、Amin Tootoonchian、Andrew Tulloch、Ben Sokolowsky、Clemens Winter、Colin Wei、Daniel Kappler、Daniel Levy、Felipe Petroski Such、Geoff Salmon、Ian O’Connell、Jason Teplitz、Kai Chen、Nik Tezak、Prafulla Dhariwal、Rapha Gontijo Lopes、Sam Schoenholz、Youlong Cheng、Yujia Jin及Yunxing Dai

研究

核心貢獻者

Aiden Low、Alec Radford、Alex Carney、Alex Nichol、Alexis Conneau、Ananya Kumar、Ben Wang、Charlotte Cole、Elizabeth Yang、Gabriel Goh、Hadi Salman、Haitang Hu、Heewoo Jun、Ian Sohl、Ishaan Gulrajani、Jacob Coxon、James Betker、Jamie Kiros、Jessica Landon、Kyle Luther、Lia Guy、Lukas Kondraciuk、Lyric Doshi、Mikhail Pavlov、Qiming Yuan、Reimar Leike、Rowan Zellers、Sean Metzger、Shengjia Zhao、Spencer Papay、Tao Wang

項目貢獻者

Adam Lerer、Adrien Ecoffet、Aidan McLaughlin、Alexander Prokofiev、Alexandra Barr、Allan Jabri、Andrew Gibiansky、Andrew Schmidt、Casey Chu、Chak Li、Chelsea Voss、Chris Hallacy、Chris Koch、Christine McLeavey、David Mely、 Dimitris Tsipras、Eric Sigler、Erin Kavanaugh、Farzad Khorasani、Huiwen Chang、Ilya Kostrikov、Ishaan Singal、Ji Lin、Jiahui Yu、Jing Yu Zhang、John Rizzo、Jong Wook Kim、Joyce Lee、Juntang Zhuang、Leo Liu、Li Jing、Long Ouyang、Louis Feuvrier、Mo Bavarian、Nick Stathas、Nitish Keskar、Oleg Murk、 Preston Bowman、Scottie Yan、SQ Mah、Tao Xu、Taylor Gordon、Valerie Qi、 Wenda Zhou、Yu Zhang

規模擴展

核心貢獻者

Alex Chow、Alex Renzin、Aleksandra Spyra、Avi Nayak、Ben Leimberger、 Christopher Hesse、Duc Phong Nguyen、Dinghua Li、Eric Peterson、Francis Zhang、Gene Oden、Kai Fricke、Kai Hayashi、Larry Lv、Leqi Zou、Lin Yang、Madeleine Thompson、Michael Petrov、Miguel Castro、Natalia Gimelshein、Phil Tillet、Reza Zamani、Ryan Cheu Stanley Hsieh、Steve Lee、Stewart Hall、Thomas Raoux、Tianhao Zheng、Vishal Kuo、Yongjik Kim、Yuchen Zhang、Zhuoran Liu

項目貢獻者

Alvin Wan、Andrew Cann、Andrew Codispoti、Antoine Pelisse、Anuj Kalia、Aaron Hurst、Avital Oliver、Brad Barnes、Brian Hsu、Chen Ding、Chen Shen、Cheng Chang、Christian Gibson、Christopher Berner,、Duncan Findlay、Fan Wang、 Fangyuan Li、Gianluca Borello、Heather Schmidt、Henrique Ponde de Oliveira Pinto、Ikai Lan、Jiayi Weng、James Crooks、Jos Kraaijeveld、Junru Shao、Kenny Hsu、Kenny Nguyen、Kevin King、Leah Burkhardt、Leo Chen、Linden Li、Lu Zhang、Mahmoud Eariby、Marat Dukhan、Mateusz Litwin、Miki Habryn、Natan LaFontaine、Pavel Belov、Peng Su、Prasad Chakka、Rachel Lim、Rajkumar Samuel、Renaud Gaubert、Rory Carmichael、Sarah Dong、Shantanu Jain、Shuaiqi Xia、Stephen Logsdon、Todd Underwood、Tony Zhao、Weixing Zhang、Will Sheu、Weiyi Zheng、Yinghai Lu、Yunqiao Zhang

安全系統

Andrea Vallone、Andy Applebaum、Cameron Raymond、Chong Zhang、Dan Mossing、Elizabeth Proehl、Eric Wallace、Evan Mays、Grace Zhao、Ian Kivlichan、Irina Kofman、Joel Parish、Kevin Liu、Keren Gu-Lemberg、Kristen Ying、Lama Ahmad、Lilian Weng、Leon Maksin、Leyton Ho、Meghan Shah、Michael Lampe、Michele Wang、Miles Wang、Olivia Watkins、Phillip Guo、Samuel Miserendino、Sam Toizer、Sandhini Agarwal、Tejal Patwardhan、Tom Dupré la Tour、Tong Mu、Tyna Eloundou及Yunyun Wang

部署

Adam Brandon、Adam Perelman、Adele Li、Akshay Nathan、Alan Hayes、Alfred Xue、Alison Ben、Alec Gorge、Alex Guziel、Alex Iftimie、Ally Bennett、Andrew Chen、Andy Wang、Andy Wood、Angad Singh、Anoop Kotha、Antonia Woodford、Anuj Saharan、Ashley Tyra、Atty Eleti、Ben Schneider、Bessie Ji、Beth Hoover、Bill Chen、Blake Samic、Britney Smith、Brian Yu、Caleb Wang、Cary Bassin、Cary Hudson、Charlie Jatt、Chengdu Huang、Chris Beaumont、Christina Huang、Cristina Scheau、Dana Palmie、Daniel Levine、Daryl Neubieser、Dave Cummings、David Sasaki、Dibya Bhattacharjee、Dylan Hunn、Edwin Arbus、Elaine Ya Le、Enis Sert、Eric Kramer、Fred von Lohmann、Freddie Sulit、Gaby Janatpour、Garrett McGrath、Garrett Ollinger、Gary Yang、Hao Sheng、Harold Hotelling、Janardhanan Vembunarayanan、Jeff Harris、Jeffrey Sabin Matsumoto、Jennifer Robinson、Jessica Liang、Jessica Shieh、Jiacheng Yang、Joel Morris、Joseph Florencio、Josh Kaplan、Kan Wu、Karan Sharma、Karen Li、Katie Pypes、Kendal Simon、Kendra Rimbach、Kevin Park、Kevin Rao、Laurance Fauconnet、Lauren Workman、Leher Pathak、Liang Wu、Liang Xiong、Lien Mamitsuka、Lindsay McCallum、Lukas Gross、Manoli Liodakis、Matt Nichols、Michelle Fradin、Minal Khan、Mingxuan Wang、Nacho Soto、Natalie Staudacher、Nikunj Handa、Niko Felix、Ning Liu、Olivier Godement、Oona Gleeson、Philip Pronin、Raymond Li、Reah Miyara、Robert Xiong、Rohan Nuttall、R.J. Marsan、Sara Culver、Scott Ethersmith、Sean Fitzgerald、Shamez Hemani、Sherwin Wu、Shiao Lee、Shuyang Cheng、Siyuan Fu、Spug Golden、Steve Coffey、Steven Heidel、Sundeep Tirumalareddy、Tabarak Khan、Thomas Degry、Thomas Dimson、Tom Stasi、Tomo Hiratsuka、Trevor Creech、Uzair Navid Iftikhar、Victoria Chernova、Victoria Spiegel、Wanning Jiang、Wenlei Xie、Yaming Lin、Yara Khakbaz、Yilei Qian、Yilong Qin、Yo Shavit及Zhi Bie

行政領導

Aidan Clark、Bob McGrew、David Farhi、Greg Brockman、Hannah Wong、Jakub Pachocki、Johannes Heidecke、Joanne Jang、Kate Rouch、Kevin Weil、Lauren Itow、Liam Fedus、Mark Chen、Mia Glaese、Mira Murati、Nick Ryder、Sam Altman、Srinivas Narayanan及Tal Broda