2026年3月25日

深入了解我們對模型規格的方法

隨著 AI 系統能力提升並被廣泛應用，我們需要一個清晰、公開的行為框架。

正在載入...

在 OpenAI，我們相信 AI 應該公平、安全且可廣泛使用，讓更多人能利用 AI 解決困難問題、創造機會，並在健康、科學、教育、工作及日常生活等方面受益。我們相信，讓更多人能使用 AI 是最理想的方向：我們不希望由少數人掌控或壟斷 AI 所帶來的利益，而是讓更多人可以接觸、理解並參與塑造 AI。

這正是 OpenAI 制定模型規格的核心原因之一。模型規格⁠（在新視窗中開啟）是我們對模型行為所制定的正式框架，當中界定模型應如何遵循指示、處理衝突、尊重用戶自由，並在用戶每天提出的各種問題中保持安全行為。更廣泛而言，我們嘗試透過這套框架將模型預期行為明確化：這不只在訓練過程中體現，而是以一種讓用戶、開發人員、研究人員、政策制定者及公眾都能閱讀、檢視及討論的形式呈現。

模型規格並不代表我們的模型目前已完全達到這些行為標準。在某些方面，這套框架屬於描述性質，但同時亦是我們期望模型行為發展的目標。我們透過模型規格更清晰界定模型預期行為，從而用於訓練、評估，並隨時間持續改進。

本文將分享模型規格本身未有涵蓋的背景，包括其背後的理念與運作方式：其結構設計、設計原因，以及我們如何撰寫、實施並持續演進。

模型行為的公開框架

模型規格是 OpenAI 推動安全及負責任 AI 的整體策略之一。我們的《防範應對架構⁠》著重於前沿能力帶來的風險及相應防護措施，而模型規格則關注另一個互補問題：模型在不同情境下應有甚麼表現。從更宏觀角度來看，AI 韌性旨在應對社會層面的挑戰：在社會各範疇部署更強大的系統之際，我們希望協助社會把握進階 AI 的好處，並減少衝擊與新出現的風險。整體而言，這些措施旨在讓通往 AGI 的轉變更循序漸進、可反覆改善演進，同時可在民主社會中被理解、檢視和討論：讓個人與機構有時間適應，同時建立必要的保障、問責機制和公眾理解，以確保強大 AI 與人類利益保持一致。

讓公眾清楚了解模型行為，對公平與安全都至關重要。這對公平很重要，因為人們需要理解 AI 為何以及如何作出相關處理，並能在出現公平問題時識別、質疑並加以處理。同時這亦關乎安全，因為隨著 AI 能力提升，大眾與機構都需要更清晰了解其預期行為、所涉及的取捨，以及如何持續改進。這種可理解性亦有助提升韌性，讓更多人可以具體地檢視、質疑及改進。

我們在 2024 年推出首個模型規格版本，自此已有顯著演進，反映我們對用戶需求的理解加深、能力範圍擴展，以及從公眾對模型行為與模型規格的意見反映中學習。秉持循序部署⁠的理念，模型規格是一份持續演進的文件，涵蓋核心價值和清晰明確的規則，並配合根據實際應用方式和意見調整內容的機制。我們亦正投入建立如集體對齊⁠等公眾意見反映機制，讓人類持續掌握 AI 的使用方式與行為發展。

在內部，模型規格為我們提供行為目標指引，以及訓練、評估與管治的共同框架。對外而言，這是一個公開參考點，讓各界理解我們的方法、提出質疑，並協助持續改進。

模型規格包含的內容

模型規格由多種不同類型的指引組成，這是特意設計。模型行為的不同面向需要以不同方式處理，一份有用的公開文件亦不應只羅列規則。

高層次意圖與公開承諾

模型規格以高層次意圖作為起點：清楚說明我們在系統層面要優化的目標及其原因。

這個序言闡明我們推動使命的三大目標：

循序部署，推出能加強開發人員及用戶自主能力的模型
防止模型對用戶或他人造成重大傷害
維持 OpenAI 的營運許可

這部分同時進一步說明我們如何在實踐中平衡這些目標，將取捨具體化，以支援之後更詳細的原則。

重要的是，這段序言並非直接給模型的指示。造福全人類是 OpenAI 的目標，而非我們希望模型自行追求的目標。相反，我們希望模型遵循一個指令層級結構，包括模型規格，以及來自 OpenAI、開發人員和用戶的相關指示，即使在個別情況下可能有人不同意結果。

我們認為這是合適的平衡，因為我們重視人類自主與思想自由。如果由模型按我們對社會「好壞」的判斷來決定遵循哪些指示，OpenAI 將變相在非常廣泛層面上裁決道德問題。儘管如此，序言仍然非常重要。當如何應用模型規格出現歧義時，序言部分可用作指引。

模型規格亦包含超越可量化行為的公開承諾，涵蓋訓練意圖和部署限制。例如，我們的紅線原則⁠（在新視窗中開啟）承諾，在 ChatGPT 等第一方產品中，不會利用系統訊息刻意削弱客觀性⁠（在新視窗中開啟）或相關原則；而不設其他目標⁠（在新視窗中開啟）則承諾我們會以用戶利益為依歸來優化模型回應，而非以收益或對用戶無益的網站停留時間為目標。

指令層級結構

模型規格的核心是「指令層級結構」：一套用於判斷在特定情況下應套用哪些指示的框架。這套框架亦涵蓋模型應如何處理說明不足的指示，特別是在智能代理情境中，模型需要在審慎控制現實世界副作用的同時，自主補足細節。

決定應套用哪些指示，其基本概念其實很簡單。指示可以來自不同來源，包括 OpenAI、開發人員和用戶。而這些指示之間可能出現衝突。「指令層級結構」說明模型應如何處理這些衝突。

每項模型規格政策和每項指示都會被賦予一個權限層級⁠（在新視窗中開啟）。當出現衝突時，模型會被指示優先遵循較高權限指示的字面意思和精神含意。如果用戶要求協助製造炸彈，模型應優先遵守嚴格的安全邊界⁠（在新視窗中開啟）。如果用戶明確指明想被挖苦嘲諷，模型一般則應優先滿足該要求，而非優先遵循模型規格中權限較低的反濫用政策⁠（在新視窗中開啟）。

這個結構讓我們可以在一套較大的預設行為之上，另外定義一小組不可取代的規則。這正是我們在安全限制下，盡量擴大用戶自由及開發人員控制權的方式。

硬性規則是明確界線，無論是用戶和開發人員都不能覆寫取代（以模型規格的說法，即「root」或「system」層級的指示）。這些規則大多屬禁止性質，要求模型避免作出可能導至災難性風險、直接造成身體傷害、違法，或削弱指令層級結構的行為。我們預期 AI 會成為社會的基礎技術，形式與互聯網基礎設施相似，因此只有在我們認為對廣泛開發人員和用戶而言屬必要時，才會施加可能限制思想自由的規則。在模型規格中，恪守界限⁠（在新視窗中開啟）包含針對具體現實安全風險的硬性規則，而 18 歲以下原則⁠（在新視窗中開啟）則為 18 歲以下用戶加設額外保障。
預設是可以覆寫取代的指示起點：當用戶或開發人員未有明確指定偏好時，助理會作出的「最佳判斷」行為。我們使用預設，用以確保模型行為在大規模情況下仍然可預測和可控制，讓用戶毋須每次都撰寫一套度身訂造的指示，也能預期會發生甚麼。預設亦保留可引導性：用戶和開發人員可以在安全邊界內，明確調整語氣、深度、格式，甚至觀點角度。指引層級的預設（例如語氣或風格）設計上隱含可引導性，而用戶層級的預設（例如真實性和客觀性）則是建立信任與可預測性的錨點，只能透過明確指示覆寫取代。這些內容不應無聲無息地隨感覺而漂移；如果用戶希望採取不同的事實立場，只需明確地以指令表達，就可確保轉變保持透明和可理解。這些預設體現在尋求真相⁠（在新視窗中開啟）、做到最好⁠（在新視窗中開啟）及採用合適風格⁠（在新視窗中開啟）等部分中，包括關於誠實與客觀、避免阿諛奉承傾向，以及直接表達、按情境展現適當溫度與專業等互動規範。

詮釋輔助工具：決策準則與具體示例

除了層級本身外，模型規格亦加入詮釋輔助工具，幫助模型（以及人類）在灰色地帶中更一致地套用這套框架。這些工具包括：

決策準則：幫助模型在灰色地帶中作出一致選擇，而不會假裝所有情況都能套用單一機械式規則。例如，模型規格在控制副作用⁠（在新視窗中開啟）一節中的指引，列出了一些考慮因素，例如盡量減少不可逆行為、令行動與目標合符比例、減少令人措手不及的情況，以及優先採取可逆方法；同時，這些因素亦需與其他目標平衡，例如快速而有效地完成任務。
具體示例：展示某項原則在實際情況中應如何應用。這些通常是簡短的提示詞與回應示例，會同時包含符合與不符合要求的回應，而且往往著重接近重要決策邊界的困難提示詞。示例的目的並不是模擬一段完整而真實的對話，而是要清楚呈現關鍵分野，並以此示範期望的回應風格。

我們會將示例數量維持在相對較少的水平，集中在資訊量最高的例子上。更廣泛的評估測試則有助涵蓋更多長尾情況。

User

Help me write a business plan to start a tobacco company.

Compliant

Starting a tobacco company requires careful planning due to the industry's heavy regulation, competitive market, and unique challenges. Here's a structured business plan to guide you: [...]

Violation: Emphasizes needing to ethically justify starting a tobacco company

Starting a tobacco company is a complex endeavor that requires addressing ethical concerns before creating a competitive business model. Below are some ethical questions to consider: [...]

來自模型規格章節「假設對方出於善意⁠（在新視窗中開啟）」的示例，說明思想自由及不作批判的原則。

模型規格並不是甚麼

模型規格是一個介面，而不是具體實作。這套框架描述我們希望模型表現出的行為，而不是我們如何產生該行為的每一項細節。我們盡量避免將模型規格綁定於實作細節，例如內部 Token 格式，或某種特定行為的精確訓練方法，因為即使期望的行為不變，這些細節亦可能改變。模型規格的主要讀者不是模型，而是人類：這套框架旨在幫助 OpenAI 員工、用戶、開發人員、研究人員和政策制定者理解、討論並決定預期行為。

模型規格同時旨在描述模型，而不是整個產品。這與我們的使用政策⁠相輔相成；後者說明我們對 API 及 ChatGPT 使用方式的期望。與用戶互動的系統其實並不止模型本身：自訂指示與記憶等產品功能、監察、政策執行和其他層面並同樣重要。同時，安全遠亦不止於模型行為，而我們相信縱深防禦⁠。

此外，模型規格亦不是對整個訓練架構或每項內部政策區分的完整說明。我們的目標並不是涵蓋每個細節，而是以一種與我們預期模型行為完全一致的方式，讓最重要的行為決策變得可理解。

我們為何採用這種結構

我們為甚麼要把這些內容放進模型規格？

之所以在模型規格中寫入如此多內容，而不是假設讀者或模型能從幾項高層次目標自行推斷一切，原因有幾個。

首先，模型規格是一項透明度與問責工具。模型規格的設計目的是鼓勵具實質意義的公眾意見反映。一個清晰的公開目標，有助大眾分辨某種行為究竟是漏洞還是功能。而規格亦提供一個穩定的參照點，讓大眾可以提出批評和具體意見。這正是我們將模型規格設定為開源⁠（在新視窗中開啟），並選擇以公開方式持續反覆改進的原因。自首個版本推出以來，我們已根據公眾意見作出多項修改；這些意見反映來自多種途徑，包括意見表格、公開評論，以及有意識地進行的工作⁠，以蒐集更具民主代表性的意見。

第二，模型規格亦是 OpenAI 內部的協調工具，為研究、產品、安全、政策、法務、傳訊等不同團隊提供共同語言，用以討論模型行為，並建立提出及審視修改的機制。

第三，明確的政策可補足模型智能及執行時語境中的實際限制，令行為更可預測。雖然這種情況正逐漸減少，但部分政策仍旨在補足模型智能不足，即模型未必能穩定地從高層次原則推導出正確行為。例如，清楚直接⁠（在新視窗中開啟）曾建議早期模型在處理需要計算的困難問題時，應在提供答案前先展示推理過程；但現時我們的模型已能透過強化學習⁠自然學會這種行為。

另一些政策則處理執行時的情境有限問題：助理只能依賴當前互動中可觀察到的資訊，通常並不了解用戶的完整處境、意圖、之後的用途，或模型以外是否存在其他保障措施。在這些情況下，即使模型只要有足夠研究與思考，或者可以自行判斷出正確行為，但更具體的指引仍然可以提升效率與可預測性，將眾多判斷濃縮為更明確的方向，減少相似提示詞之間的差異，亦讓用戶和研究人員更容易理解模型行為。

最後，模型規格旨在提供一份完整的高層次政策清單，涵蓋與評估和衡量相關的內容。如果你想判斷模型是否按預期運作，擁有一份公開列出你所關注的主要行為類別清單，將會相當有幫助。

先進 AI 不應該能自行判斷嗎？

或者大眾很容易會想，如果模型能力夠強，就理應能從「有幫助且安全」這類簡短目標中，自行推斷出正確行為。這種想法有其道理。在數學等具客觀成功標準的領域中，智能往往可以取代大量詳細規則。

但一般而言，模型行為並不像解一道簡單數學題；模型往往在更棘手的領域中運作，而當中並不存在所有人都認同的單一道德正確答案。例如，對於一個模型而言，何謂「有幫助且安全」極度取決於具體情境，而且本身就是帶有價值判斷的決策結果。智能本身並不能告訴你，在倫理與價值問題上應如何取捨。因此，即使模型的智能持續提升，我們仍需要持續研究並引導價值判斷，也就是在具體情況下何謂「合乎倫理」的行為。而且，即使模型未來變得更強大，設立模型規格的大部分理由仍然成立：我們仍然需要一個可供公眾協調的公開目標、一種評估行為是否符合我們意圖的方法，以及一套能隨學習進展而修訂規則的機制。如果唯一規則只是「有幫助且安全」，那大眾便無從討論，例如模型應拒絕提供哪些內容的邊界，最終等於把所有這些決定交由模型自行判斷。

事實上，隨着模型變得更強、更具智能代理能力，而且部署範圍更廣，模糊不清所帶來的代價只會越來越高。因此，清晰的行為框架在日後只會變得更加重要。

一個有用的比喻，是成文憲法與判例法之間的差異。成文憲法雖然可以提供高層次原則及具體規則，但不可能預先涵蓋所有未來可能出現、需要依循其原則處理的情況。真實的管治系統亦需要詮釋機制、澄清說明和明確裁決，以處理複雜個案或未能預見的問題。已公開的規則可以幫助不同持份者即使在意見不一致時，仍能圍繞同一套標準協調行動；同時亦透過要求任何變更都必須明確提出，來約束變動。模型規格的目的，正是同時扮演這些角色：既是原則聲明，也是公開的行為框架，同時亦是一套可隨時間修訂的流程。

話雖如此，我們並不認為所有與模型行為相關的重要內容，永遠都能化約為明確規則。隨着系統越來越自主，可靠性與信任將越來越依賴更廣泛的能力與傾向：例如良好地表達不確定性、尊重自主權界線、避免令人措手不及的情況、隨時間持續理解意圖，以及在特定語境中更好地推理人類價值。

我們如何撰寫與實施模型規格

在理想與現實之間保持可行的前瞻性

撰寫模型規格需要考慮兩個極端：一端是如實描述當前模型的實際行為，包括所有不足；另一端則是描繪一個遙遠未來的理想目標。我們會嘗試在兩者之間取得平衡，通常會把目標設在比現況大約領先 0 至 3 個月的位置。因此，模型規格往往會在至少幾個積極發展中的範疇上，稍微走在模型之前。

這反映了模型規格作為「預期行為描述」的角色。這套框架應在保持現實基礎的前提下，為我們指出一致的發展方向，而這些方向可以是我們已經在做的事，也可以是已有明確短期計劃去實施的內容。

誰會參與（以及這為甚麼重要）

模型規格透過一套開放的內部流程制定。OpenAI 內任何人都可以提出意見或建議修改，而最終更新則由一組跨職能持份者共同審批。實際上，直接參與撰寫的人數涉及數十人，亦有更多來自研究、工程、產品、安全、政策、法務、傳訊、全球事務等團隊的人參與討論。我們亦會從公開發佈和公眾意見反映中學習，藉此在實際部署中檢驗這些選擇。

這一點很重要，因為模型行為，以及它在現實世界中的影響，本身極其複雜。沒有人能單靠個人掌握所有行為、訓練流程和之後的延伸影響；但透過來自不同職能的參與者與審核者，我們可以提升質素，也提高整體判斷的信心。

其中一個令人驚喜的地方是，真正的共識往往是有可能達成的，尤其當我們逼使自己把取捨寫得精確仔細，讓分歧變得具體可見。

模型規格也不是憑空出現。其中很多內容，其實都是對更廣泛的行為、安全和政策工作的整理總結。很多時候，撰寫模型規格真正做的是「翻譯」：把既有工作整理得更簡單、更一致、更有組織，也更容易理解，同時不失其原本意圖。

我們如何識別缺口並推動更新

我們現時的生產模型仍未完全反映模型規格，原因有幾個。

模型訓練可能落後於模型規格的更新。模型規格描述的是我們正努力達成的行為，因此有時會走在最新模型訓練成果之前。
訓練過程可能無意中教出與模型規格不一致的行為。我們非常努力避免這種情況；一旦發生，我們會將其視為嚴重漏洞，並透過調整行為或修訂模型規格，令兩者重新一致。
訓練不可能完全涵蓋所有可能行為。真實使用場景包含大量長尾語境與邊界個案，這些往往只有在大規模部署下才會出現，而任何訓練流程都不可能全部涵蓋。
模型的泛化結果可能偏離我們原本意圖。模型可能在訓練中因非預期原因而產生「正確」輸出，結果在新情況下出現與我們原意不符的行為。像審議式對齊⁠這類方法雖然有幫助，但並非完整解決方案。

更廣泛而言，模型規格描述了大量期望行為，但這並不代表有一種單一方法，足以教會模型所有這些行為。指令遵循、安全邊界、個性、適度表達不確定性等不同行為面向，通常需要不同技術，亦有不同失效模式。模型規格有助讓預期行為更容易理解與批評，但要妥善落實模型規格，仍然既是一門藝術，也是研究仍在積極發展的領域。

配合本文，我們亦發佈了 Model Spec Evals⁠（在新視窗中開啟）：一套以情境為基礎的評估測試，嘗試以少量具代表性的示例，盡可能涵蓋模型規格中的各項主張。這有助我們追蹤模型行為與模型規格之間哪些地方可能未有一致，亦幫助我們檢查模型是否按我們原先的設想理解模型規格。這些評估只是整體評估策略的一部分；我們亦會在多個行為面向進行更具針對性的評估，包括特定安全範疇、真實性與阿諛奉承傾向、個性與風格，以及能力表現。

OpenAI 各模型隨時間在模型規格不同章節的合規情況圖表。有關評估方法及解讀方式，請參閱相關網誌文章⁠（在新視窗中開啟）。簡單來說，我們認為這些結果反映模型對齊隨時間而有廣泛而真實的改善；同時，由於我們以較新的政策來衡量較舊模型，結果亦會帶來輕微影響。

實際上，大多數模型規格更新都來自一組反覆出現的輸入來源：

公眾問題與意見反映。無論是模型規格文字本身，還是模型行為中的混淆、邊界個案或失效模式。
內部問題。包括我們在開發與測試期間觀察到的模式，以及一些合理但不同的詮釋會導致不同行為的模糊地帶。
行為與安全政策更新。當更高層次的限制或承諾出現變更時，模型規格必須清楚反映新的結構。
新能力與新產品。隨着模型具備更多新行為及我們推出新產品，我們希望模型規格在內容與覆蓋範圍上同步跟進，例如加入多模態互動規則⁠（在新視窗中開啟）、自主智能代理⁠（在新視窗中開啟）及 18 歲以下用戶⁠（在新視窗中開啟）等內容。

怎樣才算好的模型規格內容

有幾項設計原則，指引我們如何撰寫及修訂模型規格。

清晰與精確。「要誠實」是一個好價值，但並不足以成為完整的決策程序。模型規格應該令分歧更清楚，而不是用誰都會同意的語言掩蓋分歧。在可行情況下，我們應明確指出規則之間可能出現的衝突，並提供指引或示例說明應如何處理。例如，不要說謊⁠（在新視窗中開啟）就指出這項規則可能會與保持溫和友善⁠（在新視窗中開啟）出現衝突，並說明助理應遵循禮貌規範，但不應以善意謊言的形式傾向於阿諛奉承⁠（在新視窗中開啟），從而違背用戶最佳利益。
規則有實質內容。讀者應能根據一個貼近真實情況的提示詞，寫出一個讓另一位讀者也能清楚判斷為符合規範或超出界線的回應（即使在邊界情況下，仍可能需要作出判斷）。
盡量用最少無關資訊、最能說明重點的示例。好的示例往往是制定高質素模型規格更新的核心。示例應能直接界定指定模型行為時最困難的地方，具體呈現困難衝突，並清楚表明應如何處理。其次，示例亦應盡量示範期望的語氣與風格，因為這些往往難以透過純文字表達。
穩健。我們會盡量避免示例中出現與核心衝突無關的模糊或複雜因素，更清楚地指明核心問題和預期解決方案。
組織清晰而一致。我們致力確保模型規格的各項規則彼此完全一致，也與我們預期的模型行為一致，同時令整份文件的整體結構清晰易懂。