在 OpenAI,我們相信 AI 應該公平、安全,而且人人都能使用。這樣一來,更多人就能用 AI 解決困難問題、創造機會,並在健康、科學、教育、工作和日常生活等領域中受益。我們相信,讓更多人都能使用 AI,才是最好的前進方向。我們並不樂見利益或控制權只掌握在少數人手中的 AI,而是更多人都能接觸、理解,並一起參與塑造的 AI。
這正是 OpenAI 制定模型規格的核心原因。模型規格(在新視窗中開啟)是我們用來界定模型行為的正式框架。模型規格說明我們希望模型如何遵循指令、解決衝突、尊重使用者自由,並在使用者每天提出、涵蓋各種情境的問題中,安全地運作。更廣泛而言,我們希望把理想中的模型行為說清楚,不只用於內部訓練,也讓使用者、開發人員、研究人員、政策制定者,以及一般大眾都能閱讀、檢視,並參與討論。
模型規格並不是在宣稱,目前的模型已經完全符合這些要求。在某些層面上,模型規格是在描述現況,但同時也是我們希望模型未來達到的目標。我們藉由這份規格釐清目標行為,讓模型能朝這個方向訓練,並以此作為評估依據,持續改進。
這篇文章補充說明模型規格未涵蓋的背景,包括背後的理念與運作方式:如何設計架構、為什麼這樣設計,以及我們如何撰寫、實作並持續調整。
模型規格是 OpenAI 打造安全且具問責性的 AI 整體策略中的一部分。應變整備框架著重於前沿能力帶來的風險,以及風險升高時所需的防護措施;模型規格處理的則是與之互補的另一個問題:模型在各種情境下應該如何行事。從更宏觀的角度來看,AI 韌性關注的是更大的社會挑戰:在能力不斷提升的系統逐步部署之際,協助社會掌握 AI 帶來的好處,同時降低干擾與新興風險。整體而言,這些做法是為了讓邁向 AGI 的過程能循序推進、持續調整,也讓社會能理解這個過程;讓個人與機構有時間適應,同時建立必要的防護、問責機制與公共理解,確保強大的 AI 持續符合人類利益。
大眾能清楚理解模型行為,對公平性與安全性都很重要。這關乎公平,因為大眾需要了解 AI 是如何、又為什麼以這種方式對待他們,並且在出現公平疑慮時,能夠辨識、提出質疑並加以處理。這同樣關乎安全,因為隨著 AI 系統能力不斷提升,大眾與各類機構需要更清楚知道這些系統應該如何行事、涉及哪些取捨,以及這些選擇如何持續改善。這種清楚可理解的特性也有助於提升韌性,因為它讓更多人有具體依據可以檢視、質疑並持續改進。
自 2024 年推出第一版以來,模型規格已有大幅演進,反映我們更深入了解使用者偏好與需求、持續擴展以因應更強大的能力,也從大眾對模型行為與模型規格的回饋中不斷學習。本著逐步部署的精神,模型規格是一份持續演進的文件,既涵蓋背景價值,也包含明確且清楚的規則,並搭配一套流程,讓我們能根據實際部署與回饋,持續調整各項內容。我們也持續投入公共回饋機制,例如集體對齊,協助確保人類能持續掌握 AI 的使用方式,以及 AI 行為的發展方向。
對內,這份規格為預期行為提供明確方向,也為訓練、評估與治理建立共同框架。對外,這份規格提供公開的參考依據,供各界理解我們的方法、提出批評並持續協助改進。
模型規格由多種不同類型的指引組成。這是刻意的設計。模型行為的不同面向需要用不同方式處理,而一份實用的公開文件也不能只列出規則。
模型規格一開始就說明高層次意圖:清楚交代我們在系統層級想優先達成的目標,以及背後原因。
這段導言整理出我們推動使命時的三個目標:
- 循序部署能強化開發人員與使用者能力的模型
- 避免模型對使用者或他人造成重大傷害
- 維持 OpenAI 能持續正當運作
接著說明在實務上如何平衡這三個目標,並把各種取捨講清楚,作為後續更細部原則的依據。
重要的是,這段導言並不是用來直接指示模型。造福人類是 OpenAI 的目標,而不是要模型自行去追求的目標。我們希望模型遵循指揮鏈,其中包含模型規格,以及來自 OpenAI、開發人員與使用者的相關指示,即使某些人可能不認同個別情境下的結果。
我們認為這樣的安排比較合理,因為我們重視人的自主性與智識自由。如果讓模型依照我們對「什麼對社會最好」的看法來決定要遵循哪些指示,OpenAI 等於在非常廣泛的層面上扮演道德裁決者。不過,這段導言仍然很重要。當模型規格的套用方式出現歧義時,可以用導言來幫助釐清。
模型規格也包含幾項公開承諾,這些內容不只涵蓋可直接衡量的模型行為,也涉及訓練意圖與部署限制。例如,我們的紅線原則(在新視窗中開啟)承諾,在 ChatGPT 這類第一方部署中,絕不會利用系統訊息刻意影響客觀性(在新視窗中開啟)或相關原則;而「不設其他目的」(在新視窗中開啟)原則說明,我們會以使用者利益為優先來調整模型回應,而不是為了營收或增加無意義的停留時間。
模型規格的核心是指揮鏈:一套用來判斷在特定情境下應採用哪些指示的框架。這個框架也說明,當指示不夠明確時模型應如何處理,尤其是在智慧體情境中,模型需要自行補足細節,同時謹慎控制對現實世界的影響。
判斷應採用哪些指示的基本概念其實很簡單。指示可能來自不同來源,例如 OpenAI、開發人員或使用者。這些指示之間可能會產生衝突。指揮鏈說明模型應如何解決這些衝突。
每一項模型規格政策與每一則指示,都會被賦予一個權限層級(在新視窗中開啟)。當出現衝突時,模型應優先遵循權限較高指示的文字內容與背後精神。舉例而言,若使用者請求協助製作炸彈,模型應優先遵守嚴格的安全界線(在新視窗中開啟)。如果使用者主動要求模型吐槽,模型通常應優先滿足該請求,而非遵循模型規格中權限層級較低的反濫用政策(在新視窗中開啟)。
這種結構讓我們可以同時設定一小部分不可覆寫的規則,以及一組較大範圍的預設行為。我們就是透過這種方式,在安全限制下盡量保留使用者自由與開發人員的控制空間。
- 硬性規則是明確的界線,使用者與開發人員都無法覆寫(在模型規格中,這些屬於「root」或「system」層級的指示)。這些規則多半屬於禁止性規範,要求模型避免產生可能導致災難性風險、直接人身傷害、違反法律,或破壞指揮鏈的行為。我們預期 AI 會成為社會的基礎性技術,類似網際網路基礎設施。因此,只有在確實必要時,我們才會設定可能限制智識自由的規則,而且會以廣大開發人員與使用者的整體需求為考量。在模型規格中,「遵守界限」(在新視窗中開啟)包含針對現實世界具體安全風險的硬性規則,而「未滿 18 歲」原則(在新視窗中開啟)另外為未滿 18 歲的使用者增加額外防護。
- 預設是可覆寫的起點:當使用者或開發人員未指定偏好時,助理會採取「最佳猜測行為」。我們透過預設,讓行為在大規模情境下仍具備可預測性與可控性,讓使用者不必每次都撰寫一整套客製指令,也能預期結果。預設保留可引導性:在安全邊界內,使用者與開發人員可以明確調整語氣、深度、格式,甚至觀點。準則層級的預設(例如語氣或風格)在設計上可透過隱含方式調整;而使用者層級的預設(例如真實性與客觀性)則是建立信任與可預測性的基準,只能透過明確指令覆寫。這些內容不應該隨感覺而悄悄改變;如果使用者希望採取不同的事實立場,就應明確提出,讓變化保持透明且可理解。這些預設體現在「共同追求真相」(在新視窗中開啟)、「把事情做好」(在新視窗中開啟)和「使用合適的風格」(在新視窗中開啟)等原則中,涵蓋誠實與客觀、避免諂媚,以及直接、符合情境的溫度與專業等互動規範。
除了階層本身之外,模型規格還透過詮釋輔助工具,協助模型(以及人類)在灰色地帶做出一致判斷。這些輔助工具包括:
- 決策準則:協助模型在灰色地帶做出一致選擇,而不是假設存在單一可套用的機械式規則。例如,模型規格中關於控制副作用(在新視窗中開啟)的指引,列出幾項考量:盡量減少不可逆行動、讓行動與目標相稱、降低負面意外,並優先採用可逆方式。同時,也需要與其他目標取得平衡,例如快速且有效地完成任務。
- 具體範例,說明某項原則在實務中應如何套用。具體範例指簡短的提示詞與回應範例,通常同時包含合規與不合規的回應,而且多半出現在接近關鍵決策邊界的高難度提示詞。目標不是要模擬完整且真實的對話。而是要把關鍵差異說清楚,同時也示範我們期望的回應風格。
我們會將範例數量保持精簡,並專注於最具說明力的案例。更完整的評估套件則用來涵蓋更多長尾情境。
範例說明了規格中「預設對方立意良善」(在新視窗中開啟)一節所體現的智識自由,以及不妄加評斷的原則。
這份規格是一種對外說明的框架,而不是實作方式。這份文件描述的是我們期望的行為,而不是產生這些行為的每個實作細節。我們會避免把內容綁在實作細節上,例如內部 Token 格式或特定行為的訓練方法,因為即使期望的行為不變,這些細節仍可能調整。模型規格的主要讀者不是模型,而是人類:這份文件協助 OpenAI 員工、使用者、開發人員、研究人員與政策制定者理解、討論,並共同決定預期行為。
模型規格描述的是模型,不是整個產品。它與我們的《使用政策》相互補充,後者說明我們對使用者如何使用 API 與 ChatGPT 的期待。使用者實際互動的系統不只包含模型本身,還包括自訂指令、記憶等產品功能,以及監控、政策執行等其他層面。安全不只是模型行為而已,我們採取的是縱深防禦的做法。
此外,這份規格並不是對整個訓練體系或所有內部政策差異的完整說明。目標不是要鉅細靡遺納入每個細節。重點在於讓最重要的行為決策變得清楚易懂,同時與我們期望的模型行為保持完全一致。
我們之所以在模型規格中寫入這麼多內容,而不是假設讀者或模型能從幾個高層次目標自行推論出全部,是基於幾個原因。
首先,模型規格是一項透明且可問責的工具。模型規格的設計目的,是促進有意義的公眾回饋。明確的公開目標,有助於各界判斷某種行為究竟是系統缺陷,還是設計功能。這也提供穩定的參考依據,讓大眾得以提出批評與具體回饋。這正是我們以開放原始碼(在新視窗中開啟)方式公開模型規格,並選擇在公開環境中持續迭代的原因。自首次發布以來,我們已根據公眾回饋進行多項調整;這些回饋來自多種管道,包括意見表單、公開評論,以及刻意設計用來蒐集民主意見的各項機制。
第二,模型規格是 OpenAI 內部的協調工具。模型規格讓研究、產品、安全、政策、法務、溝通等不同職能的人員能使用共同語言討論模型行為,也設立了提出變更與審查變更的機制。
第三,明確的政策可以彌補模型智慧與執行階段情境資訊的實際限制,並讓行為更可預測。雖然模型對這類政策補強的依賴已逐漸降低,但仍有部分政策是用來補足模型在智慧上的不足,因為模型未必能穩定地從高層次原則推導出正確行為。例如,「清楚且直接」原則(在新視窗中開啟)曾建議早期模型在回答需要計算的複雜問題時,應在作答前先展示推導過程;如今,我們的模型已能透過強化學習自然學會這種做法。
其他政策則著重處理執行階段的情境資訊有限問題:助理只能依據目前互動中可觀察到的內容做判斷,且通常無法掌握使用者的完整情況、意圖、後續用途,或模型外部的防護機制。在這類情況下,即使模型在經過充分推理後有機會得出正確行為,將規範寫得更具體,仍能提升效率與可預測性,並把大量判斷取捨整理為明確指引,減少相似提示之間的差異,也讓使用者與研究人員更容易理解模型的行為。
最後,模型規格的目標是成為一份涵蓋評估與衡量所需之高層政策的完整清單。若要判斷模型的行為是否符合預期,擁有一份公開列出關鍵行為類別的清單,將有助於進行評估。
有不少人難免會想,能力夠強的模型應該要能根據像「提供幫助且安全」這樣的一小組目標,推導出正確的行為。這種想法其實有幾分道理。在具有客觀成功標準的領域,例如數學,智慧往往可以取代詳細規則。
但整體而言,模型行為並不像解一道簡單的數學題;模型往往在更棘手的情境中運作,而這些情境並不存在一個所有人都能認同、在道德上唯一正確的答案。例如,對模型來說,什麼才算「有幫助且安全」,高度取決於情境,而且本質上涉及價值判斷。單靠智慧,並不足以告訴你在倫理與價值之間該如何取捨。因此,即使模型的智慧持續提升,我們仍需要投入工作,去理解並引導價值判斷,也就是在特定情境下,什麼才算「合乎倫理」的行動。而且,即使模型能力大幅提升,建立模型規格的大多數理由依然成立:我們仍需要一個公開且可供對齊的目標、一種用來評估行為是否符合預期的方式,以及一套能隨著學習持續修訂規則的機制。如果唯一的規則只有「提供幫助且確保安全」,人類就少了一套可以討論這些問題的依據。舉例來說,大眾將無從討論模型應拒絕提供哪些內容、界線該畫在哪裡,最後只會把這些決定全都交給模型。
隨著模型能力持續提升、具備更多自主決策能力,且部署範圍越來越廣,模糊不清所帶來的代價也隨之提高。因此,清楚明確的行為框架只會變得更重要,而不是相對不重要。
一個有用的類比是成文憲法與判例法之間的差異。成文憲法可以提供高層次原則與具體規則,但無法預先涵蓋所有未來可能出現、且需要依循其指引的情境。實際的治理體系還需要詮釋機制、補充說明與明確裁定,才能處理複雜案例與未預見的問題。公開的規則能讓不同利害關係人即使立場不一致,也能彼此協調,同時也透過要求所有變更都必須明確提出,來限制隨意變動。模型規格正是要同時發揮這些功能:作為原則說明、公開的行為框架,以及一套能隨時間調整規格的機制。
話雖如此,我們不認為所有與模型行為相關的重要面向,都能一律化約為明確規則。隨著系統自主性提高,可靠性與信任將越來越仰賴更廣泛的能力與特質,包括:妥善表達不確定性、尊重自主範圍、避免帶來負面意外、持續追蹤意圖,以及在具體情境中妥善理解與權衡人類價值。
撰寫模型規格時,我們需要在兩端之間取得平衡:一端是如實描述目前模型的行為(包括各種缺點),另一端是描繪理想中的長期目標。我們通常會把目標設定在略微領先現況,大約提前 0 到 3 個月的範圍。因此,模型規格往往會在部分仍在積極開發的領域,走在模型能力之前。
這正體現了模型規格作為「預期行為說明」的角色。模型規格應該為我們指引一致且清楚的方向,同時仍以目前已在進行的工作,或已有明確近期規劃的事項為基礎。
模型規格是透過開放的內部流程制定的。OpenAI 內部任何人都可以提出意見或建議修改,而最終版本則由跨部門的相關人員共同審核與決定。實際上,已有數十人直接參與撰寫,還有更多來自研究、工程、產品、安全、政策、法務、溝通與全球事務等不同職能的人員提供意見。我們也會從公開發布內容與外部回饋意見中學習,並在實際部署情境中檢驗這些決策是否穩健。
這一點之所以重要,是因為模型行為及其在現實世界中的影響極為複雜。沒有人能在腦中同時掌握所有行為、訓練過程及其後續影響,但透過跨部門的共同參與與審查,我們可以持續提升品質並建立信心。
令人驚喜的是,真正的共識通常是可以達成的,尤其是當我們把取捨寫得夠清楚,使分歧變得具體,釐清歧見也就更容易。
模型規格並非憑空產生。其中大量內容其實是對行為、安全與政策等更廣泛工作的整理與濃縮。從某種角度來看,撰寫模型規格的過程本身就像在做翻譯:把既有成果轉化為更簡單、更一致、更有結構,也更容易理解的內容,同時保留原本的意圖。
目前的正式模型仍未完全符合模型規格,原因有幾個。
- 模型訓練可能落後於模型規格的更新。模型規格描述的是我們正在努力達成的目標,因此可能會領先於目前模型實際能做到的程度。
- 訓練可能會無意間教導出與模型規格不一致的行為。我們會盡力避免這種情況;一旦發生,就會將其視為嚴重錯誤,並透過調整模型行為或模型規格,使兩者重新對齊。
- 訓練不可能完全涵蓋所有可能的行為。實際使用包含大量較少見的情境與邊緣案例,這些通常只有在大規模運作時才會出現;因此,任何訓練流程都不可能涵蓋所有情況。
- 泛化結果可能偏離我們原本的意圖。模型在訓練期間,可能基於非預期原因產生看似「正確」的輸出,進而在與訓練情境不同的新情境中,出現非預期行為。像審議對齊這類技術雖然有幫助,但仍無法完全解決這個問題。
從更宏觀的角度來看,即使模型規格描述了各式各樣期望的行為,也不代表存在一種單一方法,可以教會所有這些行為。行為的不同面向,例如遵循指令、安全界線、個性,以及對不確定性的校準表達等,通常需要不同技術,也會有不同的失效模式。模型規格有助於讓預期行為更容易理解與檢視,但要真正落實,既是實務技術,也是持續進行中的研究課題。
除了這篇文章,我們也同步發布模型規格評估套件(在新視窗中開啟):這是一套以情境為基礎的評估系統,嘗試用少量具代表性的案例,涵蓋模型規格中的各項主張。這有助於我們追蹤模型行為與模型規格之間可能出現不一致的地方,也能檢查模型是否按照我們的原意理解模型規格。這些評估只是整體評估策略的一部分;完整策略還包含針對多個行為面向的更精準評估,例如特定安全領域、真實性與諂媚傾向、個性與風格,以及能力等。
OpenAI 各模型隨時間在模型規格不同章節的遵循情況圖表。如需了解評估方式及解讀方法,請參閱相關部落格文章(在新視窗中開啟)。簡而言之,我們認為這些結果確實反映出模型對齊的真實且廣泛的進步;其中也有小部分影響源於以較新政策標準評估舊模型,使結果出現些微偏差。
在實務上,大多數規格更新通常由幾類反覆出現的因素所驅動:
- 公開問題與意見回饋。包括混淆、邊緣案例或失效模式,無論是出現在模型規格的文字描述,或是模型的實際行為中。
- 內部問題。我們在開發與測試過程中觀察到的各種模式,包括不同合理解讀會導致不同行為的模糊情境。
- 行為與安全政策更新。當較高層級的限制或承諾出現變動時,模型規格必須清楚反映新的結構。
- 新能力與新產品。隨著模型能展現更多新行為,我們也持續推出新產品,因此模型規格在內容與涵蓋範圍上需要同步更新,例如加入多模態互動規則(在新視窗中開啟)、自主智慧體(在新視窗中開啟),以及未滿 18 歲使用者(在新視窗中開啟)的相關規範。
以下幾項設計原則,指引我們如何撰寫與修訂模型規格。
- 清楚且精確。「要誠實」是一項重要價值,但不足以構成完整的決策依據。模型規格應讓分歧更加明確,而不是用看似圓融的語言掩蓋差異。在可行情況下,應明確指出規則之間可能存在的衝突,並提供解決這些衝突的指引或範例。例如,「不要說謊」(在新視窗中開啟)與「表現溫暖」(在新視窗中開啟)這兩項原則之間可能產生衝突;模型規格進一步說明,助理應遵循禮貌規範,同時避免說出為了討好而不真實的話,以免演變為諂媚(在新視窗中開啟),進而違背使用者的最佳利益。
- 具體且有判斷力的規則。讀者應能根據貼近真實情境的提示詞,產出一個答案,並讓其他讀者能清楚判斷該答案是落在界線內還是界線外(即使在邊界情況下仍需部分主觀判斷)。
- 高訊息密度的範例。優秀的範例往往是打造高品質規格更新的關鍵。範例應有助於切中界定模型行為時各種困難的核心,將棘手的衝突攤到檯面上,並清楚表明應如何解決這些衝突的立場。其次,範例本身也應力求體現理想的語氣與風格,而這往往難以透過文字說明傳達。
- 穩健性。我們會避免使用帶有不必要模糊或複雜性的範例,以確保核心衝突與預期的解決方式清楚呈現。
- 一致性與清楚的結構。我們致力於讓模型規格中的各項規則彼此一致,並與預期的模型行為保持一致,同時讓整體結構清楚、易於理解。
模型規格並不是在宣稱,我們能完整寫下所有重要事項,也不是保證模型一定能完全達到預期。我們要表達的是,預期行為的重要性,足以讓我們把它寫得清楚、可實際運用,並能持續修訂。
以下三項成功準則,指引我們如何持續演進模型規格。
- 可理解性。無論是 OpenAI 內部或外部的人,都能對模型行為形成準確預期,並在結果出乎意料時,能指出具體依據。
- 可落實性。模型規格不僅用來表達價值,也能實際用於設計評估、分析事件,以及做出一致的產品決策。
- 可持續修訂性。模型規格會隨著我們持續學習而不斷調整,同時避免變成反覆變動、難以掌握的目標。
隨著模型與產品持續演進,我們預期模型規格會隨著新能力與部署情境同步擴展並進一步釐清。目標是讓行為規格保持一致、可測試,並持續與「確保 AGI 造福全人類」這項使命保持一致。


