跳到主要內容
OpenAI

我們創造了 GPT‑4,這是 OpenAI 在擴展深度學習方面最新的一個突破。GPT‑4 是一款大型多模態模型(接受圖像和文字輸入,發出文字輸出),雖然它在許多現實場景中的能力不如人類,但在各種專業和學術基準測試中上都展現出人類水準的表現。例如,它以大約前 10% 應試者的成績通過律師資格模擬考試;相較之下,GPT‑3.5 的成績大約為後 10%。我們花了 6 個月時間,利用對抗性測試計劃以及 ChatGPT 的經驗,迭代地對齊 GPT‑4,在事實性、可操控性以及拒絕逾越防線方面,取得了有史以來最佳的成果(雖然算不上完美)。

我們在過去兩年間重建整個深度學習堆疊,並與 Azure 一起為我們的工作負載從頭設計一台超級電腦。一年前,我們訓練 GPT‑3.5 作為系統的首次「試運行」。我們發現並修正了一些錯誤,並且改進了我們的理論基礎。結果,我們的 GPT‑4 訓練運行(至少對我們而言!)空前穩定,成為我們的第一款能提前準確預測訓練表現的大型模型。我們持續專注穩健的擴展,並致力於優化方法論,以便更早預測和準備未來能力,這對安全至關重要。

現已透過 ChatGPT 和 API 發行 GPT‑4 文字輸入功能(需先加入候補名單)。為了讓圖像輸入功能更廣泛可用,我們正與單一合作夥伴(在新視窗中開啟)密切合作以展開這項工作。我們也將開放 OpenAI Evals(在新視窗中開啟) 原始碼,我們用於人工智能模型效能自動評估的架構,讓任何人都能報告我們模型的缺點,以協助後續改進。

功能

GPT‑3.5 和 GPT‑4 在進行隨意交談時的區別可能並不明顯。但當任務的複雜度達到一定門檻時,GPT‑4 比起 GPT‑3.5 更為可靠、富有創意,且能處理更為細膩和複雜的指令。

為了理解這兩種模型之間的差異,我們測試了各種基準,包括模擬最初為人類設計的考試。我們使用最新的公開測試(奧林匹克和 AP 自由作答題)或購買 2022-2023 年版的模擬考試進行測試。我們沒有針對這些考試進行任何特定的訓練。模型在訓練期間曾經看過考試中的少數問題,但我們認為結果具有代表性——詳情請參閱我們的技術報告(在新視窗中開啟)

內部參考 1

正在載入...
正在載入...

我們也在為機器學習模型設計的傳統基準上評估了 GPT‑4。GPT‑4 的表現明顯勝過現有的所有大型語言模型,並超越多數經過基準調整或額外訓練的最先進 (SOTA) 的模型。

正在載入...

許多現有的機器學習基準都是用英文編寫的。為了初步了解其他語言的能力,我們使用 Azure Translate 將 MMLU 基準(一個包含 57 個科目、14,000 個選擇題的問題集)翻譯成多種語言(參見附錄)。在測試的 26 種語言中,GPT‑4 有 24 種超越 GPT‑3.5 和其他大型語言模型(Chinchilla、PaLM)的英語表現,包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言:

正在載入...

我們在公司內部也使用 GPT‑4,對支援、銷售、內容審核和程式設計等功能產生了很大的影響。我們也用它來協助人類評估人工智能輸出,展開我們的對齊性策略第二階段。

視覺輸入

GPT‑4 可以接受文字和圖像的提示,與純文字設定平行,讓用戶指定任何視覺或語言任務。具體來說,它能根據夾雜文字和圖像的輸入產生文字輸出(自然語言、程式碼等)。在一系列領域(包括包含文字和照片、圖表或螢幕截圖的文件)中,GPT‑4 展現出與處理純文字輸入時類似的功能。此外,還可以結合在純文字語言模型中開發的測試階段技術,包括少量示例提示和思路鏈(在新視窗中開啟)提示,來增強模型表現。圖像輸入仍處於研究預覽階段,尚未公開發行。

正在載入...

我們透過評估 GPT‑4 在一系列標準學術視覺基準上的表現來預覽其效能。這些數據並未全面反映模型的潛力,隨著不斷的探索,我們發現它能處理越來越多令人驚喜的任務。我們計劃盡快發佈進一步的分析和評估數據,以及徹底調查測試時間技術的效果。

內部註腳A

正在載入...

可操縱性

我們一直在致力於我們關於定義人工智能行為的文章中概述的每個計劃層面,包括可操縱性。開發人員(以及很快的 ChatGPT 用戶)現在可以在「系統」訊息中描述這些指示來指定人工智能的風格和任務,而不是經典 ChatGPT 具有固定囉嗦程度、語氣和風格的個性。系統訊息允許 API 用戶在範圍內(在新視窗中開啟)顯著客製化其用戶體驗。我們將持續做出改進(並且特別了解系統訊息是從目前模型「越獄」最簡單的方法,即並未完美遵守範圍界線),但我們鼓勵你嘗試並告訴我們你的想法。

正在載入...

限制

儘管 GPT‑4 功能強大,但它與早期的 GPT 模型有類似的限制。最重要的是,它仍然不可完全可靠(它會「產生幻覺」並出現推理錯誤)。使用語言模型輸出時應格外小心,尤其是在高風險情境中,並應根據特定用例的需求,採用確切的協議(例如人工審核、與額外上下文進行驗證,或完全避免高風險用途)。

儘管這仍然是一個現實問題,但相較於之前的模型(這些模型本身在每次迭代中都在改進),GPT‑4 顯著減少了幻覺。在我們的內部對抗性事實評估中,GPT‑4 比我們最新的 GPT‑3.5 高出 40%:

正在載入...

我們在 TruthfulQA(評估模型分辨事實與對抗性選擇的錯誤陳述的能力)等外部基準測試上取得了進展。這些問題與統計上具吸引力的錯誤答案配對。

正在載入...

GPT‑4 基礎模型運行此任務的效能只比 GPT‑3.5 好一點;然而,經過 RLHF 後訓練(應用與 GPT‑3.5 相同的流程)之後,卻產生了很大差距。檢查下面的一些例子,GPT‑4 會避免選擇俗話(老狗學不會新把戲),但它仍然會遺漏細微的細節(貓王不是某個演員的兒子)。

正在載入...

模型的輸出可能存在各種偏差——我們在這方面取得了進展,但仍有更多工作要做。根據我們最近的部落格文章,我們的目標是讓我們建立的人工智能系統具有合理的預設行為,反映廣泛用戶的價值觀,允許這些系統在廣泛範圍內進行客製化,並針對這些範圍的界限徵求公眾意見。

GPT‑4 通常對其絕大多數資料截止日期(2021 年 9 月)之後發生的事件缺乏了解,並且不會從經驗中吸取教訓。它有時會犯簡單的推理錯誤,這似乎與它在許多領域的能力不符,或者過於輕信用戶明顯錯誤的陳述。有時候它也會像人類一樣被難題難倒,例如在它產生的程式碼中引入安全漏洞。

GPT‑4 的預測很可能是錯的,在可能犯錯時不仔細核對。有趣的是,基礎預訓練模型具有高度校準性(對答案的預測置信度通常與正確的可能性相符)。然而,通過我們目前的後訓練流程,校準性會降低。

正在載入...

風險與緩解措施

我們從訓練開始就一直在對 GPT‑4 進行迭代,使它更安全和更對齊,其中包括預訓練資料的選擇和篩選、評估和專家參與、模型安全改進以及監控和執行。

GPT‑4 帶來與先前模型類似的風險,例如產生不良建議、錯誤的程式碼或不準確的資訊。然而,GPT‑4 的額外功能帶來了新的風險領域。為了了解這些風險的程度,我們邀請來自人工智能對齊風險、網路安全、生物風險、信任與安全以及國際安全等不同領域的 50 多位專家,對模型進行對抗性測試。他們的發現特別使我們能在需要專業知識評估的高風險領域測試模型行為。我們將這些專家所提供的反饋和資料納入模型的緩解和改進措施中;例如,我們收集額外的資料以提高 GPT‑4 拒絕合成危險化學品要求的能力。

GPT‑4 在 RLHF 訓練期間納入額外的安全獎勵訊號,透過訓練模型拒絕此類內容的要求來減少不良輸出(根據我們的使用準則(在新視窗中開啟)定義)。獎勵由 GPT‑4 零樣本分類器提供,用以判斷安全相關提示的安全界限和回答風格。為了防止模型拒絕有效要求,我們從各種來源(例如:標記的生產資料、人類紅隊測試、模型產生的提示)收集多樣化的資料集,並對允許和不允許的類別應用安全獎勵訊號(帶有正值或負值)。 

相較於 GPT‑3.5,我們的緩解措施顯著改善 GPT‑4 的許多安全屬性。與 GPT‑3.5 相比,我們已將模型回應禁用內容要求的傾向降低了 82%,且 GPT‑4 根據我們的政策回應敏感要求(例如:醫療建議和自殘)的頻率增加了 29%。

正在載入...
正在載入...

整體而言,雖然我們對模型的調整提高了引發不當行為的難度,但這種行為依然可能發生。此外,仍然存在足以產生違反我們的使用準則內容的「越獄」情況。隨著每個人工智能系統「每個行動所帶來的風險」越來越高,干預措施實現極高的可靠性將變得至關重要;而目前,則應當結合部署階段的安全技術,例如監測濫用行為,以彌補現有限制。

GPT‑4 及後繼模型有可能以有益和有害的方式顯著影響社會。我們正在與外部研究人員合作,以改進我們理解和評估潛在影響的方式,並為未來系統中可能出現的危險能力建立評估。我們很快即將分享關於 GPT‑4 及其他人工智能系統潛在社會和經濟影響的更多思考。

訓練流程

如同先前的 GPT 模型,GPT‑4 基礎模型經過訓練,能預測文件中下一個字,並使用公開可用的資料(例如網上資料)以及我們已取得授權的資料進行訓練。這些資料是一個網路規模的資料語料庫,包括數學問題的正確和錯誤解答、薄弱與強烈的推理、自相矛盾與一致的陳述,並代表著各種各樣的思想和觀點。

因此,當被提問時,基礎模型可能會以多種方式回應,而這些回應可能與用戶的意圖相去甚遠。為了使模型在安全防護措施內與用戶意圖對齊,我們利用人類反饋強化學習 (RLHF) 來微調它的行為。

請注意,模型的功能主要似乎來自於預訓練流程——RLHF 不能提高考試成績(在沒有積極努力的情況下,它反而會降低它的考試表現)。但模型的引導則來自於後訓練流程——基礎模型需要提示工程,才能知道它應該回答的問題。

可預測的擴展性

GPT‑4 項目的一個重點是建立一個能夠隨著規模擴大,而效能穩定且可預測的深度學習架構。主要原因是像 GPT‑4 這樣的大規模訓練進行針對模型本身的廣泛調整並不現實。我們開發了在多個規模下都具有可預測行為的基礎設施,並進行優化。為了驗證這種可擴展性,我們從使用相同方法,但計算量減少 10,000 倍的模型進行外推,準確地預測 GPT‑4 在我們內部程式碼庫(不屬於訓練集的一部分)上的最終損失:

正在載入...

現在我們既然已經能夠準確預測訓練期間最佳化的指標(損失),便開始開發預測更可解釋指標的方法。例如,我們成功預測了 HumanEval(在新視窗中開啟) 資料集子集上的通過率,從計算量減少 1,000 倍的模型進行外推:

正在載入...

有些功能仍然難以預測。反向擴展獎勵是一場競賽,旨在找出隨著模型計算資源增加而效能下降的評量指標,而忽略後見之明(在新視窗中開啟)是其中的獲勝方案之一。就像最近的另一個結果(在新視窗中開啟)一樣,GPT‑4 逆轉了這種趨勢:

正在載入...

我們認為,準確預測未來的機器學習能力是安全的重要組成部分,但相對於其潛在影響,它並沒有得到足夠的重視(儘管我們一直受到多家機構努力的鼓舞)。我們正在加強努力,開發能為社會提供關於未來系統預期狀況更好指導的方法,我們希望這成為該領域的一個共同目標。

OpenAI Evals

我們正在開放 OpenAI Evals(在新視窗中開啟) 原始碼,這是我們用於為評估像 GPT‑4 這樣的模型建立和運行基準,同時逐一檢查樣本效能的軟體架構。我們使用 Evals 來指導模型開發(包括辨識缺點和防止退步),而我們的用戶可以將它應用於追蹤不同模型版本(現在將定期發佈)和不斷發展的產品整合的效能。例如,Stripe 已使用 Evals 來輔助人工評估,衡量以 GPT 為核心的文件工具的準確性。

由於程式碼都是開源的,Evals 支援編寫新類別以實現自訂評估邏輯(在新視窗中開啟)。然而,根據我們自己的經驗,許多基準遵循少數幾種「範本」,因此我們也包含了在內部最有用的範本(在新視窗中開啟)(包括用於「模型評分評估」的範本——我們發現 GPT‑4 在檢查自己的工作方面出奇地有效)。通常,最有效的建立新評估(在新視窗中開啟)的方式,是實例化這些範本之一並提供資料。我們很高興看到其他人能用這些範本以及更廣泛的 Eval 來建立些東西。

我們希望 Evals 能成為分享和眾包基準的工具,代表最大範圍的失敗模式和困難任務。作為一個可供遵循的範例,我們建立了一個邏輯謎題(在新視窗中開啟)評估,其中包含十個 GPT‑4 失敗的提示。Evals 也與實現現有基準相容;我們包含幾個實現學術基準的筆記本(在新視窗中開啟),以及一些整合 CoQA(在新視窗中開啟) 的變體(小部分)作為範例。

我們邀請所有人使用 Evals 來測試我們的模型並提交最有趣的範例。我們相信 Evals 將是使用和基於我們的模型進行構建的過程中不可或缺的一部分,我們歡迎直接貢獻、提問和反饋(在新視窗中開啟)

ChatGPT Plus

ChatGPT Plus 訂閱者將透過 chatgpt.com(在新視窗中開啟) 取得 GPT‑4 的存取權,但有使用上限。我們將會根據實際需求和系統效能,調整確切的使用上限,但我們預計容量將會受到嚴重限制(儘管我們將在未來幾個月內擴充並優化)。

根據我們觀察到的流量模式,我們可能會為更高用量的 GPT‑4 使用引入新的訂閱等級;我們也希望在某個時候,提供一定數量的免費 GPT‑4 查詢,好讓沒有訂閱的人也能嘗試。

API

若要取得 GPT‑4 API 的存取權(使用與 gpt-3.5-turbo 相同的 ChatCompletions API(在新視窗中開啟)),請註冊我們的候補名單。我們將於今日開始邀請部分開發人員,並逐步擴展以平衡容量與需求。如果你是研究人工智能社會影響或人工智能對齊性問題的研究人員,也可以透過我們的研究人員存取計劃申請補助存取權。

一旦獲得存取權,你就能對 gpt-4 模型發出僅限文字的要求(圖像輸入仍處於受限的 alpha 階段),隨著我們不斷製作新版本,它會自動更新至我們推薦的穩定模型(你可以呼叫 gpt-4-0314 來固定目前我們支援至 6 月 14 日的版本)。定價為每 1 千個輸入 Token 收費 0.03 美元,每 1 千個輸出 Token 收費 0.06 美元。預設速率限制為每分鐘 40,000 個 Token 和 200 次要求。

GPT‑4 一次能處理 8,192 個 Token 的語境長度。我們也提供一款語境容量為 32,768 個字元(約 50 頁文字)的 GPT‑4 版本 gpt-4-32k,並會定期自動更新。目前最新版本為 gpt-4-32k-0314,支援期限至 6 月 14 日。定價為每 1 千個輸入 Token 收費 0.06 美元,每 1 千個輸出 Token 收費 0.12 美元。我們仍在改進長語境的模型品質,並希望獲得關於它在你的用例中表現如何的反饋。我們根據容量以不同的速率處理 8K 和 32K 引擎的要求,因此你可能會在不同的時間取得它們的存取權限。

結論

我們期待 GPT‑4 能藉由驅動許多應用程式,成為改善人們生活的重要工具。仍有許多工作要做,我們期待透過社群在模型之上進行建構、探索和貢獻的集體努力來改進這個模型。

附錄

MMLU 問題範例,翻譯成其他語言。請注意,我們使用一致的選項 Token (A–D):

正在載入...

註腳

  1. A

    我們利用思路鏈,以 4 個根據情境的訓練組例子來進行基準測試評估。具體提示在驗證組中再進行微調。

參考文獻

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext).進一步分析可參閱研究論文(在新視窗中開啟)

作者

OpenAI