我們已打造出 GPT‑4,這是 OpenAI 在擴展深度學習方面最新的里程碑。GPT‑4 是一款大型多模態模型 (可接受圖片及文字輸入,並產生文字輸出)。雖然它在許多真實世界情境中的能力尚未達到人類水平,但在多項專業和學術基準測試中已展現出媲美人類的表現。舉例來說,GPT‑4 在一項模擬長條圖考試中表現優異,得分位居前 10% 的考生之列;而 GPT‑3.5 的成績則約落在後 10%。我們花了 6 個月時間,根據對抗性測試計畫及 ChatGPT 的實際經驗,反覆調校 GPT‑4,使其在事實性、可引導性以及拒絕超出防護範圍的能力上,達到迄今為止最佳的成果 (雖尚未完美)。
過去兩年中,我們重建了整個深度學習的技術堆疊,並與 Azure 合作,從零開始共同設計了一套超級電腦以支援我們的工作負載。一年前,我們完成了 GPT‑3.5 系統的「首次測試版本」訓練。我們找出並修正了部分未知問題,並強化了理論基礎。因此,我們的 GPT‑4 在訓練測試中展現了前所未有的穩定性 (至少對我們而言),成為首款能讓我們準確預測訓練表現的大型模型。在持續追求穩定擴展的同時,我們也積極優化方法學,讓我們能更早預測未來功能並做好準備,這對確保安全至關重要。
我們正在透過 ChatGPT 及 API (採候補機制) 釋出 GPT‑4 的文字輸入功能。為了提高圖片輸入功能的普及度,我們正與單一夥伴(在新視窗中開啟)密切合作以便啟動此功能。我們也開放了 OpenAI Evals 貢獻計畫(在新視窗中開啟)的原始碼,這是我們用來自動評估 AI 模型表現的架構,讓任何人都能回報模型的不足之處,協助推動持續改進。
在一般對話中,GPT‑3.5 和 GPT‑4 之間的差異可能不太明顯。真正的差別通常出現在任務較為複雜的情況下;GPT‑4 在這類情境中表現得更穩定、更具創造力,也能處理比 GPT‑3.5 更細緻的指令。
為了比較這兩個模型的差異,我們測試了各項基準指標,包括模擬原本為人類所設計的考試。我們採用最新可公開取得的試題 (如奧林匹亞競賽和大學先修課程的自由作答題),或購買 2022–2023 年版的模擬考題進行測試。這些考試在訓練期間並未特別納入模型的訓練資料。雖然模型在訓練期間可能接觸過少數試題,但我們認為整體測試結果仍具代表性;詳情請參閱我們的技術報告(在新視窗中開啟)。
內部參考資料 1
我們也在傳統的機器學習基準測試中評估了 GPT‑4。GPT‑4 的出色表現超越了現有的大型語言模型與多數先進 (SOTA) 模型,即便這些模型可能已針對特定基準進行過調整,或採用了額外的訓練程序:
現在許多機器學習基準測試均以英文編寫。為了初步了解模型在其他語言中的能力,我們將 MMLU 基準測試 (涵蓋 57 個科目、共 14,000 題選擇題) 翻譯成多種語言,並使用 Azure Translate 處理翻譯 (詳見附錄)。在 26 種受測語言中,GPT‑4 有 24 種語言的表現超越了 GPT‑3.5 以及其他大型語言模型 (如 Chinchilla 和 PaLM) 在英文版本中的表現,就連在拉脫維亞語、威爾斯語及斯瓦希里語這類低資源語言中也同樣展現出色實力。
我們也在 OpenAI 內部廣泛應用 GPT‑4,並已在客服支援、銷售、內容審查與程式開發等多項職能中展現出顯著效益。此外,我們也使用 GPT‑4 協助人員評估 AI 輸出,這是我們第二階段對齊策略的內容。
GPT‑4 可接受包含文字與圖片的提示輸入,讓使用者能像使用純文字模式一樣,指定各種視覺或語言任務。具體來說,當輸入內容包含交錯的文字與圖片時,GPT‑4 可產生文字輸出 (自然語言、程式碼等)。在各種領域中 (包括含有文字及照片、圖表或截圖的文件),GPT‑4 展現出的能力與處理純文字輸入時相當。此外,它也能結合純文字語言模型測試期間所開發的技術加以強化,例如少量示範提示與思維鏈(在新視窗中開啟)提示。圖片輸入功能目前仍在研究預覽階段,尚未正式對外釋出。
我們透過一組有限的標準學術視覺基準測試來評估,初步預覽 GPT‑4 的表現。不過,這些資料無法完整展現 GPT‑4 的能力範圍,原因是我們持續發現這個模型能處理的任務新穎又令人振奮。我們計畫近期釋出更多分析與評估資料,以及對測試時期技術效果的深入研究。
內部註腳A
我們一直在推進先前所發佈的 定義 AI 行為相關計畫中的各個面向,其中也包括可引導性。開發人員 (不久之後還包括 ChatGPT 使用者) 都可以透過「系統」訊息描述相關指示,來設定 AI 的語氣、風格與任務,而不再受限於 ChatGPT 傳統固定的冗長程度、語調與風格。系統訊息讓 API 使用者能在一定範圍(在新視窗中開啟)內,大幅自訂其使用者的使用體驗。我們會持續改進這部分的功能,尤其是目前我們已知「系統」訊息仍是繞過模型限制 (即「越獄」) 最簡單的方式之一,代表模型對限制邊界的遵守尚未完善。但我們仍鼓勵您親自試用,並不吝提供意見回饋。
雖然 GPT‑4 模型功能強大,但仍和先前的 GPT 模型有著相似的限制 。最重要的是,它仍非百分百可靠 (會「憑空捏造」事實並出現推理錯誤)。使用大型語言模型的輸出內容時務必謹慎 (特別是在高風險情境中),應根據具體的使用案例需求,採取精確的處理辦法 (例如人工審閱、補充額外背景資訊,或完全避免用於高風險情境)。
但與先前的模型相比,GPT‑4 在這方面已有明顯改善,隨著每次模型的迭代升級,整體表現也持續進化。在我們內部的真實性對抗評估中,GPT‑4 模型的分數比最新的 GPT‑3.5 模型高出 40%:
我們在 TruthfulQA 這類外部基準測試中的表現也有所提升 (該測試旨在評估模型分辨事實與對抗性錯誤陳述的能力)。這些問題均搭配了統計上看似合理但實際錯誤的答案。
該模型的輸出內容能存在各種偏見——我們在這方面已取得進展,但仍有改善空間。根據我們最近的部落格文章,我們的目標是打造具備合理預設行為的 AI 系統,這些行為能反映廣大使用者的價值觀,同時允許在一定範圍內進行客製化,並針對這些界限的設定廣泛徵求公眾意見。
GPT‑4 通常不了解大部分資料的截止時間 (2021 年 9 月) 之後發生的事件,也無法從經驗中學習。它有時會犯一些簡單的推理錯誤 (這與其在眾多領域展現的能力不符),或者過於輕信使用者明顯錯誤的陳述。有時它也會像人類一樣,無法解決困難的問題,例如在生成的程式碼中引入安全漏洞。
GPT‑4 在預測時也可能自信滿滿卻錯誤百出,在容易出錯時不會謹慎地重複檢查自己的工作。有趣的是,基礎預訓練模型的校準度相當高 (它對答案的信心預測通常與實際正確率相符),但經過我們現行的後訓練流程後,這種校準度反而會下降。
我們從訓練初期便持續優化 GPT‑4,以提升其安全性與一致性;這些努力涵蓋預訓練資料的挑選與篩選、各項評估與專家參與、模型的安全性強化,以及監控與執行機制。
GPT‑4 帶來的風險與先前的模型類似,例如產生有害建議、有錯誤的程式碼或不準確的資訊等。然而,GPT‑4 其他的功能帶來了新的風險面向。為了了解這些風險的嚴重程度,我們邀請來自 AI 對齊風險、網路安全、生物風險、信任與安全、國際安全等領域的逾 50 位專家,對模型進行對抗性測試。他們的發現讓我們能在需要專業知識才能評估的高風險領域測試模型行為。這些專家提供的回饋與資料,促使我們對模型進行緩解措施與改進;例如,我們收集了額外資料,以提升 GPT‑4 拒絕處理合成危險化學物質相關請求的能力。
GPT‑4 在 RLHF 訓練期間納入了額外的安全獎勵信號,透過訓練模型拒絕此類內容的請求以減少有害輸出 (定義請見我們的使用準則(在新視窗中開啟))。這個獎勵是由 GPT‑4 零樣本分類器提供,該分類器會針對安全相關提示判斷安全邊界和完成風格。為了防止模型拒絕有效請求,我們從各種來源收集多樣化的資料集 (例如標記的生產資料、人工紅隊測試、模型生成的提示),並在允許和不允許的類別上都應用安全獎勵信號 (正值或負值)。
我們的緩解措施大幅改善了 GPT‑4 的許多安全特性,較 GPT‑3.5 大幅提升不少。相較於 GPT‑3.5,我們將模型回應不當內容請求的可能性降低了 82%;同時,GPT‑4 在處理敏感請求 (例如醫療建議與自我傷害) 時,依照我們政策回應的頻率提高了 29%。
整體而言,我們在模型層面採取的干預措施,已有效提升引發不當行為的難度,但仍無法完全杜絕相關行為的發生。此外,仍存在透過「越獄」等手段,產出違反我們使用準則的內容的可能性。隨著 AI 系統的「token 風險密度」逐漸升高,在各項干預措施中實現高度可靠性變得尤為重要。目前的重點在於透過部署階段的安全技術 (例如濫用監控機制) 來補強這些限制。
GPT‑4 和後續模型有可能對社會產生重大影響,其中正面與負面影響皆有可能。我們正在與外部研究人員合作,以改善我們對潛在影響的理解與評估方式,並建立針對未來系統中可能出現的危險能力的評估機制。我們即將分享更多關於 GPT‑4 以及其他 AI 系統可能帶來的社會與經濟影響的見解。
如同先前的 GPT 模型,GPT‑4 基礎模型經過訓練來預測文件中的下一個詞,訓練時使用了公開可取得的資料 (如網路資料) 以及我們授權取得的資料。這些資料是網路規模的語料庫,包含數學問題的正確和錯誤解答、薄弱和有力的推理、自相矛盾和一致的陳述,並代表了各種不同的意識形態和觀點。
因此當被提問時,基礎模型可能以數種不同的方式回應,而這些回應可能與使用者的意圖相去甚遠。為了在安全範圍內讓模型與使用者意圖一致,我們使用人類回饋強化學習 (RLHF) 來微調模型的行為。
需要注意的是,模型的能力似乎主要來自預訓練過程,RLHF 並不會提升考試表現 (如果不刻意努力,實際上還會降低表現)。但模型的引導來自於訓練後的程序:基礎模型需要透過提示工程,才能理解應該回答這些問題。
GPT‑4 專案的一大重點,是建立具備可預測擴展性的深度學習技術架構。主要原因是,對於 GPT‑4 這種大規模訓練來說,大量調校特定模型並不可行。我們開發的基礎設施和最佳化方法,在不同規模所展現的行為,可預測度都相當高。為了驗證這種擴展性,我們事先準確預測了 GPT‑4 在內部程式碼庫(未包含於訓練資料中)的最終損失值,預測方法是基於使用相同技術但算力低一萬倍的模型進行外推:
現在,我們能準確預測訓練期間最佳化的指標 (損失值) 後,便開始制定方法來預測更易解讀的指標。例如,我們成功預測了 HumanEval(在新視窗中開啟) 資料集子集的通過率,這是從算力低一千倍的模型外推得出:
部分能力仍然難以預測。例如,「逆向擴展獎」是一項競賽,旨在找出那些隨著模型算力增加反而表現變差的指標,其中一個獲獎項目就是「後見忽略(在新視窗中開啟)」。就像另一項近期結果(在新視窗中開啟)一樣,GPT‑4 扭轉了這個趨勢:
我們認為準確預測未來機器學習能力是安全性的重要環節,但相對於其潛在影響,人們對這個領域的關注還不夠 (不過各家機構的努力令我們感到欣慰)。我們正在加大力度發展相關方法,為社會大眾提供更完善的指引,幫助大家理解未來系統的預期表現,希望這能成為整個領域共同努力的方向。
我們開放了 OpenAI Evals 貢獻計畫(在新視窗中開啟)的原始碼,這是我們的軟體架構,用以建立及執行基準測試來評估 GPT‑4 等模型,同時逐一檢視它們的表現樣本。我們使用 Evals 架構來指導模型開發 (既找出不足之處,也防止效能倒退),使用者則可以利用它追蹤各個模型版本的效能 (這些版本現在會定期發佈) 以及不斷演進的產品整合表現。例如,Stripe 使用 Evals 來配合他們的人工評估,衡量 GPT 文件工具的準確性。
由於程式碼的原始碼完全開放,Evals 支援撰寫新的類別來實作客製化評估邏輯(在新視窗中開啟)。不過根據我們的經驗,許多基準測試都採用少數幾種「範本」,所以我們也收錄了內部最好用的範本(在新視窗中開啟) (包括「模型評分評估」範本——我們發現 GPT‑4 檢查自己工作的能力意外地優異)。一般來說,建立新評估(在新視窗中開啟)最有效的方法是使用其中一個範本並提供資料。我們期待看到其他人運用這些範本和 Evals 所開發的成果。
我們希望 Evals 能成為分享和群眾外包基準測試的平台,涵蓋最廣泛的失效模式和困難任務。我們設計了一項邏輯謎題(在新視窗中開啟)評測做為示範,裡面包含十個 GPT‑4 無法正確解答的題目。Evals 也相容於執行現有的基準測試;我們提供了數個 notebook(在新視窗中開啟) 範例,展示如何執行學術基準測試,以及部分整合 CoQA(在新視窗中開啟) (小型子集) 的變化版本做為示範。
我們邀請所有人使用 Evals 來測試我們的模型,並提交最有趣的範例。我們相信 Evals 將成為使用我們模型以及在其基礎上開發應用的重要一環,並歡迎各界踴躍提供貢獻、問題與回饋(在新視窗中開啟)。
ChatGPT Plus 訂閱用戶可在 chatgpt.com(在新視窗中開啟) 使用 GPT‑4,但有使用量限制。我們會視實際需求和系統效能來調整具體的使用量限制,但預期將面臨嚴重的資源短缺 (不過我們預計在接下來幾個月內擴大規模並提升效能)。
根據流量狀況,我們可能推出新的訂閱方案來滿足 GPT‑4 的大量使用需求;我們也希望未來能提供一定額度的免費 GPT‑4 查詢,讓沒有訂閱的用戶也有機會體驗。
要取得 GPT‑4 API 的使用權限 (使用與 gpt-3.5-turbo 相同的 ChatCompletions API(在新視窗中開啟)),請註冊我們的候補名單。我們將從現在起開始邀請部分開發人員加入,並會視資源與需求的平衡情況逐步擴大開放。如果您是研究 AI 社會影響或 AI 對齊問題的研究人員,也可以透過我們的研究人員使用計畫申請補助式使用權限。
獲得存取權限後,您就可以向 gpt-4 模型發送純文字請求 (目前圖片輸入仍處於有限的初期測試階段)。我們會隨著新版本推出,自動將其更新為建議使用的穩定模型 (如果您希望固定使用目前版本,也可以指定 gpt-4-0314,我們將支援至 6 月 14 日)。定價為每千個提示 token 收費 0.03 美元,每千個完成 token 收費 0.06 美元。預設速率限制為每分鐘 40,000 個 token,每分鐘 200 個請求。
gpt-4 的上下文長度為 8,192 個 token。我們也提供 gpt-4-32k 的有限使用權,支援最多 32,768 個上下文長度 (約 50 頁文字)。此版本會自動隨新版本更新 (目前版本 gpt-4-32k-0314 將支援至 6 月 14 日)。定價為每千個提示 token 收費 0.06 美元,每千個完成 token 收費 0.12 美元。我們還在持續強化模型處理長上下文的能力,歡迎提供實際使用的意見回饋。我們會根據可用資源,以不同處理速度審核 8K 與 32K 引擎的使用申請,因此您可能會在不同時間獲得這兩個版本的使用權限。
我們期盼 GPT‑4 能成為提升大眾生活的重要工具,為各種應用提供強大支援效能。我們的路還很長,也期待透過社群的共同努力 (不管是開發應用、深入探索,還是參與貢獻),持續強化這個模型。
以下是 MMLU 題目的範例,已翻譯為其他語言。請注意,我們使用一致的選項標記 (A–D):
註腳
- A
我們使用「思路鏈」提示,搭配訓練資料中的 4 個範例作為上下文,來評估這項基準測試。同時,透過驗證集調整該特定提示。
參考資料
- 1
P. Arredondo (Casetext/Stanford CodeX)、D. Katz (Stanford CodeX)、M. Bommarito (Stanford CodeX)、S. Gao (Casetext)。深入分析請參閱本篇論文(在新視窗中開啟)。


