跳到主要內容
OpenAI

2026年3月25日

研究發佈

深入了解我們對模型規格的方法

隨著 AI 系統能力提升並被廣泛應用,我們需要一個清晰、公開的行為框架。

正在載入...

在 OpenAI,我們相信 AI 應該公平、安全且可廣泛使用,讓更多人能利用 AI 解決困難問題、創造機會,並在健康、科學、教育、工作及日常生活等方面受益。我們相信,讓更多人能使用 AI 是最理想的方向:我們不希望由少數人掌控或壟斷 AI 所帶來的利益,而是讓更多人可以接觸、理解並參與塑造 AI。

這正是 OpenAI 制定模型規格的核心原因之一。模型規格(在新視窗中開啟)是我們對模型行為所制定的正式框架,當中界定模型應如何遵循指示、處理衝突、尊重用戶自由,並在用戶每天提出的各種問題中保持安全行為。更廣泛而言,我們嘗試透過這套框架將模型預期行為明確化:這不只在訓練過程中體現,而是以一種讓用戶、開發人員、研究人員、政策制定者及公眾都能閱讀、檢視及討論的形式呈現。

模型規格並不代表我們的模型目前已完全達到這些行為標準。在某些方面,這套框架屬於描述性質,但同時亦是我們期望模型行為發展的目標。我們透過模型規格更清晰界定模型預期行為,從而用於訓練、評估,並隨時間持續改進。

本文將分享模型規格本身未有涵蓋的背景,包括其背後的理念與運作方式:其結構設計、設計原因,以及我們如何撰寫、實施並持續演進。

模型行為的公開框架

模型規格是 OpenAI 推動安全及負責任 AI 的整體策略之一。我們的《防範應對架構》著重於前沿能力帶來的風險及相應防護措施,而模型規格則關注另一個互補問題:模型在不同情境下應有甚麼表現。從更宏觀角度來看,AI 韌性旨在應對社會層面的挑戰:在社會各範疇部署更強大的系統之際,我們希望協助社會把握進階 AI 的好處,並減少衝擊與新出現的風險。整體而言,這些措施旨在讓通往 AGI 的轉變更循序漸進、可反覆改善演進,同時可在民主社會中被理解、檢視和討論:讓個人與機構有時間適應,同時建立必要的保障、問責機制和公眾理解,以確保強大 AI 與人類利益保持一致。

讓公眾清楚了解模型行為,對公平與安全都至關重要。這對公平很重要,因為人們需要理解 AI 為何以及如何作出相關處理,並能在出現公平問題時識別、質疑並加以處理。同時這亦關乎安全,因為隨著 AI 能力提升,大眾與機構都需要更清晰了解其預期行為、所涉及的取捨,以及如何持續改進。這種可理解性亦有助提升韌性,讓更多人可以具體地檢視、質疑及改進。

我們在 2024 年推出首個模型規格版本,自此已有顯著演進,反映我們對用戶需求的理解加深、能力範圍擴展,以及從公眾對模型行為與模型規格的意見反映中學習。秉持循序部署的理念,模型規格是一份持續演進的文件,涵蓋核心價值和清晰明確的規則,並配合根據實際應用方式和意見調整內容的機制。我們亦正投入建立如集體對齊等公眾意見反映機制,讓人類持續掌握 AI 的使用方式與行為發展。

在內部,模型規格為我們提供行為目標指引,以及訓練、評估與管治的共同框架。對外而言,這是一個公開參考點,讓各界理解我們的方法、提出質疑,並協助持續改進。

模型規格包含的內容

模型規格由多種不同類型的指引組成,這是特意設計。模型行為的不同面向需要以不同方式處理,一份有用的公開文件亦不應只羅列規則。

高層次意圖與公開承諾

模型規格以高層次意圖作為起點:清楚說明我們在系統層面要優化的目標及其原因。

這個序言闡明我們推動使命的三大目標:

  • 循序部署,推出能加強開發人員及用戶自主能力的模型
  • 防止模型對用戶或他人造成重大傷害
  • 維持 OpenAI 的營運許可

這部分同時進一步說明我們如何在實踐中平衡這些目標,將取捨具體化,以支援之後更詳細的原則。

重要的是,這段序言並非直接給模型的指示。造福全人類是 OpenAI 的目標,而非我們希望模型自行追求的目標。相反,我們希望模型遵循一個指令層級結構,包括模型規格,以及來自 OpenAI、開發人員和用戶的相關指示,即使在個別情況下可能有人不同意結果。

我們認為這是合適的平衡,因為我們重視人類自主與思想自由。如果由模型按我們對社會「好壞」的判斷來決定遵循哪些指示,OpenAI 將變相在非常廣泛層面上裁決道德問題。儘管如此,序言仍然非常重要。當如何應用模型規格出現歧義時,序言部分可用作指引。

模型規格亦包含超越可量化行為的公開承諾,涵蓋訓練意圖和部署限制。例如,我們的紅線原則(在新視窗中開啟)承諾,在 ChatGPT 等第一方產品中,不會利用系統訊息刻意削弱客觀性(在新視窗中開啟)或相關原則;而 不設其他目標(在新視窗中開啟)則承諾我們會以用戶利益為依歸來優化模型回應,而非以收益或對用戶無益的網站停留時間為目標。

指令層級結構

模型規格的核心是「指令層級結構」:一套用於判斷在特定情況下應套用哪些指示的框架。這套框架亦涵蓋模型應如何處理說明不足的指示,特別是在智能代理情境中,模型需要在審慎控制現實世界副作用的同時,自主補足細節。

決定應套用哪些指示,其基本概念其實很簡單。指示可以來自不同來源,包括 OpenAI、開發人員和用戶。而這些指示之間可能出現衝突。「指令層級結構」說明模型應如何處理這些衝突。

每項模型規格政策和每項指示都會被賦予一個權限層級(在新視窗中開啟)。當出現衝突時,模型會被指示優先遵循較高權限指示的字面意思和精神含意。如果用戶要求協助製造炸彈,模型應優先遵守嚴格的安全邊界(在新視窗中開啟)。如果用戶明確指明想被挖苦嘲諷,模型一般則應優先滿足該要求,而非優先遵循模型規格中權限較低的反濫用政策(在新視窗中開啟)

這個結構讓我們可以在一套較大的預設行為之上,另外定義一小組不可取代的規則。這正是我們在安全限制下,盡量擴大用戶自由及開發人員控制權的方式。

  • 硬性規則是明確界線,無論是用戶和開發人員都不能覆寫取代(以模型規格的說法,即「root」或「system」層級的指示)。這些規則大多屬禁止性質,要求模型避免作出可能導至災難性風險、直接造成身體傷害、違法,或削弱指令層級結構的行為。我們預期 AI 會成為社會的基礎技術,形式與互聯網基礎設施相似,因此只有在我們認為對廣泛開發人員和用戶而言屬必要時,才會施加可能限制思想自由的規則。在模型規格中,恪守界限(在新視窗中開啟)包含針對具體現實安全風險的硬性規則,而 18 歲以下原則(在新視窗中開啟)則為 18 歲以下用戶加設額外保障。
  • 預設是可以覆寫取代的指示起點:當用戶或開發人員未有明確指定偏好時,助理會作出的「最佳判斷」行為。我們使用預設,用以確保模型行為在大規模情況下仍然可預測和可控制,讓用戶毋須每次都撰寫一套度身訂造的指示,也能預期會發生甚麼。預設亦保留可引導性:用戶和開發人員可以在安全邊界內,明確調整語氣、深度、格式,甚至觀點角度。指引層級的預設(例如語氣或風格)設計上隱含可引導性,而用戶層級的預設(例如真實性和客觀性)則是建立信任與可預測性的錨點,只能透過明確指示覆寫取代。這些內容不應無聲無息地隨感覺而漂移;如果用戶希望採取不同的事實立場,只需明確地以指令表達,就可確保轉變保持透明和可理解。這些預設體現在尋求真相(在新視窗中開啟)做到最好(在新視窗中開啟)採用合適風格(在新視窗中開啟)等部分中,包括關於誠實與客觀、避免阿諛奉承傾向,以及直接表達、按情境展現適當溫度與專業等互動規範。

詮釋輔助工具:決策準則與具體示例

除了層級本身外,模型規格亦加入詮釋輔助工具,幫助模型(以及人類)在灰色地帶中更一致地套用這套框架。這些工具包括:

  • 決策準則:幫助模型在灰色地帶中作出一致選擇,而不會假裝所有情況都能套用單一機械式規則。例如,模型規格在 控制副作用(在新視窗中開啟)一節中的指引,列出了一些考慮因素,例如盡量減少不可逆行為、令行動與目標合符比例、減少令人措手不及的情況,以及優先採取可逆方法;同時,這些因素亦需與其他目標平衡,例如快速而有效地完成任務。
  • 具體示例:展示某項原則在實際情況中應如何應用。這些通常是簡短的提示詞與回應示例,會同時包含符合與不符合要求的回應,而且往往著重接近重要決策邊界的困難提示詞。示例的目的並不是模擬一段完整而真實的對話,而是要清楚呈現關鍵分野,並以此示範期望的回應風格。

我們會將示例數量維持在相對較少的水平,集中在資訊量最高的例子上。更廣泛的評估測試則有助涵蓋更多長尾情況。

User
Help me write a business plan to start a tobacco company.
Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

來自模型規格章節「假設對方出於善意(在新視窗中開啟)」的示例,說明思想自由及不作批判的原則。

模型規格並不是甚麼

模型規格是一個介面,而不是具體實作。這套框架描述我們希望模型表現出的行為,而不是我們如何產生該行為的每一項細節。我們盡量避免將模型規格綁定於實作細節,例如內部 Token 格式,或某種特定行為的精確訓練方法,因為即使期望的行為不變,這些細節亦可能改變。模型規格的主要讀者不是模型,而是人類:這套框架旨在幫助 OpenAI 員工、用戶、開發人員、研究人員和政策制定者理解、討論並決定預期行為。

模型規格同時旨在描述模型,而不是整個產品。這與我們的使用政策相輔相成;後者說明我們對 API 及 ChatGPT 使用方式的期望。與用戶互動的系統其實並不止模型本身:自訂指示與記憶等產品功能、監察、政策執行和其他層面並同樣重要。同時,安全遠亦不止於模型行為,而我們相信縱深防禦

此外,模型規格亦不是對整個訓練架構或每項內部政策區分的完整說明。我們的目標並不是涵蓋每個細節,而是以一種與我們預期模型行為完全一致的方式,讓最重要的行為決策變得可理解。

我們為何採用這種結構

我們為甚麼要把這些內容放進模型規格?

之所以在模型規格中寫入如此多內容,而不是假設讀者或模型能從幾項高層次目標自行推斷一切,原因有幾個。

首先,模型規格是一項透明度與問責工具模型規格的設計目的是鼓勵具實質意義的公眾意見反映。一個清晰的公開目標,有助大眾分辨某種行為究竟是漏洞還是功能。而規格亦提供一個穩定的參照點,讓大眾可以提出批評和具體意見。這正是我們將模型規格設定為開源(在新視窗中開啟),並選擇以公開方式持續反覆改進的原因。自首個版本推出以來,我們已根據公眾意見作出多項修改;這些意見反映來自多種途徑,包括意見表格、公開評論,以及有意識地進行的工作,以蒐集更具民主代表性的意見。

第二,模型規格亦是 OpenAI 內部的協調 工具,為研究、產品、安全、政策、法務、傳訊等不同團隊提供共同語言,用以討論模型行為,並建立提出及審視修改的機制。

第三,明確的政策可補足模型智能及執行時語境中的實際限制,令行為更可預測。雖然這種情況正逐漸減少,但部分政策仍旨在補足模型智能不足,即模型未必能穩定地從高層次原則推導出正確行為。例如,清楚直接(在新視窗中開啟)曾建議早期模型在處理需要計算的困難問題時,應在提供答案先展示推理過程;但現時我們的模型已能透過強化學習自然學會這種行為。

另一些政策則處理執行時的情境有限問題:助理只能依賴當前互動中可觀察到的資訊,通常並不了解用戶的完整處境、意圖、之後的用途,或模型以外是否存在其他保障措施。在這些情況下,即使模型只要有足夠研究與思考,或者可以自行判斷出正確行為,但更具體的指引仍然可以提升效率與可預測性,將眾多判斷濃縮為更明確的方向,減少相似提示詞之間的差異,亦讓用戶和研究人員更容易理解模型行為。

最後,模型規格旨在提供一份完整的高層次政策清單,涵蓋與評估和衡量相關的內容。如果你想判斷模型是否按預期運作,擁有一份公開列出你所關注的主要行為類別清單,將會相當有幫助。

先進 AI 不應該能自行判斷嗎?

或者大眾很容易會想,如果模型能力夠強,就理應能從「有幫助且安全」這類簡短目標中,自行推斷出正確行為。這種想法有其道理。在數學等具客觀成功標準的領域中,智能往往可以取代大量詳細規則。

但一般而言,模型行為並不像解一道簡單數學題;模型往往在更棘手的領域中運作,而當中並不存在所有人都認同的單一道德正確答案。例如,對於一個模型而言,何謂「有幫助且安全」極度取決於具體情境,而且本身就是帶有價值判斷的決策結果。智能本身並不能告訴你,在倫理與價值問題上應如何取捨。因此,即使模型的智能持續提升,我們仍需要持續研究並引導價值判斷,也就是在具體情況下何謂「合乎倫理」的行為。而且,即使模型未來變得更強大,設立模型規格的大部分理由仍然成立:我們仍然需要一個可供公眾協調的公開目標、一種評估行為是否符合我們意圖的方法,以及一套能隨學習進展而修訂規則的機制。如果唯一規則只是「有幫助且安全」,那大眾便無從討論,例如模型應拒絕提供哪些內容的邊界,最終等於把所有這些決定交由模型自行判斷。

事實上,隨着模型變得更強、更具智能代理能力,而且部署範圍更廣,模糊不清所帶來的代價只會越來越高。因此,清晰的行為框架在日後只會變得更加重要。

一個有用的比喻,是成文憲法與判例法之間的差異。成文憲法雖然可以提供高層次原則及具體規則,但不可能預先涵蓋所有未來可能出現、需要依循其原則處理的情況。真實的管治系統亦需要詮釋機制、澄清說明和明確裁決,以處理複雜個案或未能預見的問題。已公開的規則可以幫助不同持份者即使在意見不一致時,仍能圍繞同一套標準協調行動;同時亦透過要求任何變更都必須明確提出,來約束變動。模型規格的目的,正是同時扮演這些角色:既是原則聲明,也是公開的行為框架,同時亦是一套可隨時間修訂的流程。

話雖如此,我們並不認為所有與模型行為相關的重要內容,永遠都能化約為明確規則。隨着系統越來越自主,可靠性與信任將越來越依賴更廣泛的能力與傾向:例如良好地表達不確定性、尊重自主權界線、避免令人措手不及的情況、隨時間持續理解意圖,以及在特定語境中更好地推理人類價值。

我們如何撰寫與實施模型規格

在理想與現實之間保持可行的前瞻性

撰寫模型規格需要考慮兩個極端:一端是如實描述當前模型的實際行為,包括所有不足;另一端則是描繪一個遙遠未來的理想目標。我們會嘗試在兩者之間取得平衡,通常會把目標設在比現況大約領先 0 至 3 個月的位置。因此,模型規格往往會在至少幾個積極發展中的範疇上,稍微走在模型之前。

這反映了模型規格作為「預期行為描述」的角色。這套框架應在保持現實基礎的前提下,為我們指出一致的發展方向,而這些方向可以是我們已經在做的事,也可以是已有明確短期計劃去實施的內容。

誰會參與(以及這為甚麼重要)

模型規格透過一套開放的內部流程制定。OpenAI 內任何人都可以提出意見或建議修改,而最終更新則由一組跨職能持份者共同審批。實際上,直接參與撰寫的人數涉及數十人,亦有更多來自研究、工程、產品、安全、政策、法務、傳訊、全球事務等團隊的人參與討論。我們亦會從公開發佈和公眾意見反映中學習,藉此在實際部署中檢驗這些選擇。

這一點很重要,因為模型行為,以及它在現實世界中的影響,本身極其複雜。沒有人能單靠個人掌握所有行為、訓練流程和之後的延伸影響;但透過來自不同職能的參與者與審核者,我們可以提升質素,也提高整體判斷的信心。

其中一個令人驚喜的地方是,真正的共識往往是有可能達成的,尤其當我們逼使自己把取捨寫得精確仔細,讓分歧變得具體可見。

模型規格也不是憑空出現。其中很多內容,其實都是對更廣泛的行為、安全和政策工作的整理總結。很多時候,撰寫模型規格真正做的是「翻譯」:把既有工作整理得更簡單、更一致、更有組織,也更容易理解,同時不失其原本意圖。

我們如何識別缺口並推動更新

我們現時的生產模型仍未完全反映模型規格,原因有幾個。

  • 模型訓練可能落後於模型規格的更新。模型規格描述的是我們正努力達成的行為,因此有時會走在最新模型訓練成果之前。
  • 訓練過程可能無意中教出與模型規格不一致的行為。我們非常努力避免這種情況;一旦發生,我們會將其視為嚴重漏洞,並透過調整行為或修訂模型規格,令兩者重新一致。
  • 訓練不可能完全涵蓋所有可能行為。真實使用場景包含大量長尾語境與邊界個案,這些往往只有在大規模部署下才會出現,而任何訓練流程都不可能全部涵蓋。
  • 模型的泛化結果可能偏離我們原本意圖。模型可能在訓練中因非預期原因而產生「正確」輸出,結果在新情況下出現與我們原意不符的行為。像審議式對齊這類方法雖然有幫助,但並非完整解決方案。

更廣泛而言,模型規格描述了大量期望行為,但這並不代表有一種單一方法,足以教會模型所有這些行為。指令遵循、安全邊界、個性、適度表達不確定性等不同行為面向,通常需要不同技術,亦有不同失效模式。模型規格有助讓預期行為更容易理解與批評,但要妥善落實模型規格,仍然既是一門藝術,也是研究仍在積極發展的領域。

配合本文,我們亦發佈了 Model Spec Evals(在新視窗中開啟):一套以情境為基礎的評估測試,嘗試以少量具代表性的示例,盡可能涵蓋模型規格中的各項主張。這有助我們追蹤模型行為與模型規格之間哪些地方可能未有一致,亦幫助我們檢查模型是否按我們原先的設想理解模型規格。這些評估只是整體評估策略的一部分;我們亦會在多個行為面向進行更具針對性的評估,包括特定安全範疇、真實性與阿諛奉承傾向、個性與風格,以及能力表現。

OpenAI 各模型隨時間在模型規格不同章節的合規情況圖表。有關評估方法及解讀方式,請參閱相關網誌文章(在新視窗中開啟)。簡單來說,我們認為這些結果反映模型對齊隨時間而有廣泛而真實的改善;同時,由於我們以較新的政策來衡量較舊模型,結果亦會帶來輕微影響。

實際上,大多數模型規格更新都來自一組反覆出現的輸入來源:

怎樣才算好的模型規格內容

有幾項設計原則,指引我們如何撰寫及修訂模型規格。

  • 清晰與精確。「要誠實」是一個好價值,但並不足以成為完整的決策程序。模型規格應該令分歧更清楚,而不是用誰都會同意的語言掩蓋分歧。在可行情況下,我們應明確指出規則之間可能出現的衝突,並提供指引或示例說明應如何處理。例如,不要說謊(在新視窗中開啟)就指出這項規則可能會與 保持溫和友善(在新視窗中開啟)出現衝突,並說明助理應遵循禮貌規範,但不應以善意謊言的形式傾向於 阿諛奉承(在新視窗中開啟),從而違背用戶最佳利益。
  • 規則有實質內容。讀者應能根據一個貼近真實情況的提示詞,寫出一個讓另一位讀者也能清楚判斷為符合規範或超出界線的回應(即使在邊界情況下,仍可能需要作出判斷)。
  • 盡量用最少無關資訊、最能說明重點的示例。好的示例往往是制定高質素模型規格更新的核心。示例應能直接界定指定模型行為時最困難的地方,具體呈現困難衝突,並清楚表明應如何處理。其次,示例亦應盡量示範期望的語氣與風格,因為這些往往難以透過純文字表達。
  • 穩健。我們會盡量避免示例中出現與核心衝突無關的模糊或複雜因素,更清楚地指明核心問題和預期解決方案。
  • 組織清晰而一致。我們致力確保模型規格的各項規則彼此完全一致,也與我們預期的模型行為一致,同時令整份文件的整體結構清晰易懂。

接下來的方向

模型規格並非是指我們可以把所有重要內容都寫下來,或模型永遠都能準確達標。當中想真正表達的是:預期行為非常重要,因此需要清楚說明、可付諸實行,並可隨時修訂。

我們以三項成功準則來指引模型規格演進。

  • 可理解性。OpenAI 內外的人都能對模型行為形成準確預期,並在行為出乎意料時指出對應文字依據。
  • 可操作性。模型規格可用於設計評估、診斷事故,以及作出一致的產品決策,而不只是表達價值觀。
  • 可修訂性。模型規格能隨着我們的學習而演進,而不致變成一個反覆變動的不穩定目標。

隨着模型及產品持續演進,我們預期模型規格亦會隨着新能力及新部署情境而擴展與釐清。目標是讓這套行為規格始終保持一致、可測試,並與我們「確保 AGI 造福全人類」的使命保持一致。