我們在此分享模型規範的重大更新,這份文件定義了我們對於 AI 模型行為的期望。這次更新強化了我們對客製化、透明度及智識自由的承諾,讓使用者能在不受任意限制的前提下,與 AI 共同探索、辯論及創作,同時確保防護機制到位,降低真實傷害風險。這次更新是以我們去年五月所推出的規範為準,並汲取從對齊研究到實際服務全球使用者等多種情境中所累積的經驗。
我們也分享了模型在廣泛情境中遵循模型規範原則的一些初步結果。這些發現突顯出我們長期的進步軌跡,同時也指出尚待改進之處。模型規範 (如同我們的模型) 將隨著我們的應用、分享與各方回饋,持續調整與精進。為促進廣泛使用與合作,我們會以「創用 CC0 公眾領域貢獻宣告」的授權方式,將本版本的模型規格釋出至公領域。此舉意味著開發人員及研究人員可在自身的工作中自由地加以使用、改編並做為進一步發展的基礎。
OpenAI 的目標是創造實用、安全且符合使用者及開發人員需求的模型,同時促進我們使命,確保通用 AI 能造福全人類。為實現這一目標,我們必須循序漸進地部署模型,使開發人員與使用者能充分發揮其效能,同時防止模型對使用者或他人造成重大傷害,並維持 OpenAI 的營運許可。
這些目標有時可能相互牴觸,因此模型規範透過指示模型遵循明確定義的指揮鏈,並設定各種情境範圍與預設行為的補充原則,來權衡彼此間的利害得失。這套框架在維持明確且完善定義的界線下,優先保障使用者及開發人員的控制權:
- 指揮鏈:定義模型如何按順序優先處理來自平台 (OpenAI)、開發人員及使用者的指示。大部分的模型規範內容是我們認為在多數情況下都實用的準則,但使用者和開發人員仍可視需求加以調整或覆寫。這讓使用者與開發人員能在平台層級規則所劃定的範圍內,完全自訂模型行為。
- 共同追求真相:就像一位品格誠信的人類助理,我們的模型應協助使用人員做出最合適的決策。這項目標需要在以下兩點間仔細權衡:(1) 避免帶有議程地引導使用者,保持客觀並能從各種角度探討議題;(2) 努力理解使用者目標,釐清假設與不確定處,並在適當時提供批判性回饋——這些都是使用者提出的要求,我們也據此進行了改進。
- 盡善盡美:設定能力的基本標準,包括事實準確性、創意性及程式化使用。
- 謹守界線:說明模型如何平衡使用者自主權與避免促成傷害或濫用的保護措施。本次新版本旨在打造更全面的模型,完整涵蓋我們希望模型拒絕使用者或開發人員請求的所有理由。
- 平易近人:描述模型的預設對話風格 (溫暖、具同理心及樂於助人),及如何調整這套風格。
- 使用適當風格:提供關於格式與呈現方式的預設準則。無論是條理清晰的項目符號、簡潔的程式碼片段,或是語音對話,我們的目標都是確保內容表達清楚、易於理解。
更新後的模型規範明確秉持智識自由, AI 應該支持大眾探索、辯論及創作而不受任意限制的理念——無論主題多艱難或多具爭議性皆然。在這個 AI 工具日益影響公共論述的時代,資訊與觀點的自由交流是促進進步與創新的必要條件。
這個理念已融入 <謹守界線> 和 <共同追求真相> 章節中。舉例而言,雖然模型絕不應提供製造炸彈或侵犯個人隱私權的詳細指示,但我們鼓勵其針對政治或文化敏感問題提供深思熟慮的答案——但不能宣傳任何特定議程。基本上,我們強化了一項原則:沒有任何想法在本質上不可討論,只要模型沒有對使用者或他人造成重大傷害 (例如,執行恐怖主義行為) 即可。
為更深入了解模型在現實情境中的表現,我們已開始收集一組具挑戰性的提示,藉此測試模型對各項模型規範原則的遵循程度。這些提示是結合模型生成及專家人工審查所建立的,能確保涵蓋典型及較為複雜的情境。
初步結果顯示,與去年五月我們最優秀的系統相比,模型對模型規範的遵循程度大幅提升。雖然部分差異可能源自政策更新,但我們認為進步主要來自模型對齊度的提升。儘管進展令人振奮,我們深知仍有許多成長空間。
這些進展只是持續努力的開始。我們準備持續透過新範例,特別是來自現實世界使用中發掘的案例,擴展需面對的挑戰範疇,這些也是我們的模型及模型規範尚未完全解決的部分。
在制定本版本的模型規範時,我們納入了第一版的回饋意見,以及來自對齊研究與實際應用的經驗。未來我們希望考慮更廣泛的公眾意見。為了建立能達成此目標的相關程序,我們進行了一項約有一千人參與的試點研究:每位使用者審視模型行為及提議的規則並分享想法。雖然這些研究尚未反映所有觀點,但初步見解已直接促成部分修正。我們明白這會是持續反覆的過程,也不斷努力學習及精進我們的方法。
我們會以「創用 CC0 公眾領域貢獻宣告」的授權方式,將此新版的模型規範釋出至公領域。這意味著開發人員及研究人員可以在自己的工作中自由地加以使用、改編或以模型規範做為進一步發展的基礎。我們也已開源上述使用的評估提示,並計劃未來釋出更多用於規範評估與對齊的程式碼、工具和相關產出。
您可以在新的 Github 儲存庫(在新視窗中開啟)找到這些提示及模型規範原始碼,我們計劃未來定期在此發布新的模型規範版本。
隨著我們的 AI 系統持續進步,我們將不斷調整這些原則,廣泛徵求社群意見,並公開分享我們的進展。未來我們不會在每次模型規範更新時都發佈部落格文章,不過,您可隨時在 model-spec.openai.com(在新視窗中開啟) 找到及追蹤最新更新。
我們的目標是持續以安全的方式啟用新的使用案例,並透過不斷的研究與創新來精進我們的方法。隨著 AI 在日常生活中扮演的角色日益重要,持續學習、精進與開放對話已成為不可或缺的一環。這項做法不僅反映我們至今的學習成果,也展現我們的信念:讓 AI 更貼近人類價值,是一段不斷前行的旅程,而我們誠摯邀請您一同參與。若您對本規範有任何意見,歡迎透過此處提供回饋。