我們現正發佈《模型規範》的重大更新,其中明確定義我們對人工智慧模型行為的期望。此次更新進一步強化我們對可自訂性、透明度及知識自由的承諾,讓用戶能在不受任何限制的情況下探索、辯論與運用人工智慧進行創作,同時確保保留必要的防護措施,以降低真實危害風險。本次更新以去年五月推出的内容為基礎,並汲取我們在不同情境中的套用經驗,涵蓋從對齊研究到服務全球用戶等多個方面。
我們也分享模型在廣泛場景中遵循《模型規範》原則的初步成果。這些調查發現强調隨時間推進取得的進展,同時指出我們尚待改進的領域。《模型規範》如同我們的模型一樣,將隨著實際套用、公開分享及吸納利害關係人意見而持續演進。為了支援廣泛使用與協作,我們根據共享創意特許條款 CC0 將此版《模型規範》向公共領域發行。此舉意味著開發人員和研究人員可以自由隨意地在工作中使用、調整與以此為基礎構建。
OpenAI 的目標是建立實用、安全且符合用戶和開發人員需求的模型,同時推動我們的使命,確保通用人工智慧惠及全人類。為了實現這個目標,我們需要迭代部署模型,一方面為開發人員和用戶賦能,一方面防止模型對用戶或他人造成嚴重傷害,並維護 OpenAI 的營運許可。
這些目標有時候互相衝突,《模型規範》透過指示模型遵循明確定義的命令鏈以及為各種場景設定界限和預設行為的附加原則來平衡它們之間的利弊。此架構優先考慮用戶和開發人員的控制權,同時保持清晰明確的界限:
- 命令鏈:定義模型如何以優先順序執行來自平台 (OpenAI)、開發人員和用戶的指示。《模型規範》的大部分包含我們認為在許多情況下都有幫助的準則,但用戶和開發人員可以覆寫這些準則。這能使用戶和開發人員在平台一級規則設定的範圍內完全自訂模型行為。
- 共同探索真相:我們的模型就像高度誠信的人類助理一樣,應該賦能用戶,好讓他們自主做出最佳決策。這需要在以下兩方面取得謹慎的平衡:(1) 避免以特定議程引導用戶,在保持客觀性的同時,願意從任何角度探索任何話題,以及 (2) 努力理解用戶的目標,澄清假設和不確定的詳細資料,並在適當的時候給予批判性反饋——這些需求我們已經聽取並改進。
- 追求卓越:設定能力的基本標準,包括事實準確度、創造力和有計劃的使用。
- 恪守界限:解釋模型如何在用戶自主權與預防措施之間取得平衡,以避免造成傷害或濫用。這個新版本力求全面涵蓋所有情況,完整列出模型應拒絕用戶或開發人員要求的各類原因。
- 保持友善:描述模型的預設對話風格:溫暖、有同理心且樂於助人,並說明如何調整此風格以適應不同情境。
- 採用適當風格:提供格式設定和呈現方式的預設指引。無論是條理分明的要點列舉、簡潔的程式碼片段或是語音對話,我們的目標是確保內容清晰易懂且便於使用。
最新版《模型規範》明確倡導知識自由,即人工智慧應能讓人們不受任何限制地探索、辯論與創作,無論話題多具挑戰性或爭議性。在人工智慧工具日益影響話語權的時代,資訊和觀點的自由交流是進步和創新的必要條件。
此理念已融入「恪守界限」與「共同探索真相」區段。例如,雖然模型絕不應提供製造炸彈或侵犯個人私隱的詳細指示,但我們鼓勵針對政治或文化敏感問題提供深思熟慮的回答,且不推廣特定立場。核心原則是:只要不會對用戶或他人造成重大傷害(例如實施恐怖行為),本質上都不應禁止討論任何觀點。
為更加了解模型在現實世界中的效能,我們已開始收集一系列具挑戰性的提示,專門用於測試模型遵循《模型規範》各項原則的程度。這些提示已整合使用模型產生與人類專家審核兩種方式建立的内容,確保涵蓋常規和更複雜的情境。
初步結果顯示,模型遵循《模型規範》的程度相較於去年五月份發佈的最佳系統已有顯著提升。雖然部分差異可能源於政策更新,但我們相信,大多數變化是來自改進後的對齊效果。儘管進展令人雀躍,但我們意識到仍有相當大的成長空間。
我們視此為一個持續進程的開始。我們計劃持續擴充測試案例庫,新增各類示例,特別是在現實世界使用中發現的案例,這些都是目前模型與《模型規範》尚未完全涵蓋的情況。
在制定這一版本的模型規範時,我們參考了第一版的回饋意見,並結合了對齊研究與實際部署中的經驗所得。
未來我們希望考慮更廣泛的公眾意見。我們進行試點研究以為此目標建立流程,邀請了大約 1,000 人審查模型行為、提案規則並分享想法。雖然這些研究尚未反映全面觀點,但早期的深入見解已直接促成若干修改。我們認為這是一個持續迭代的過程,並將堅持學習與完善我們的方法。
我們根據共享創意特許條款 CC0 將這個新版《模型規範》發佈至公共領域。此舉意味著開發人員和研究人員可以自由隨意地在工作中使用、調整或以此為基礎構建《模型規範》。我們亦將開源上述所用的評估提示,並計劃日後釋出更多用於規範評估與對齊的程式碼、資料與工具。
您可在新建的 GitHub 儲存庫(在新視窗中開啟)中尋找這些提示和《模型規範》原始程式,未來我們將定期將新版《模型規範》發佈至此儲存庫。
隨著我們的人工智慧系統的進步,我們將繼續反覆優化這些原則,邀請社區提供反饋,並公開分享我們的進展。未來我們不會為《模型規範》的每次更新都發佈部落格貼文。您可以隨時造訪 model-spec.openai.com(在新視窗中開啟) 尋找與追蹤最新更新。
我們的目標是持續安全地啟用新的用例,並透過不斷推進的研究和創新成果來改善我們的方法。人工智慧在我們日常生活中扮演著日益重要的角色,因此持續學習、改進與保持公衆的參與度至關重要。這種方法不僅體現我們迄今為止積累的經驗,也展現我們的信念:調整人工智慧是一段持續的歷程,我們希望您也能加入。如果您對此規範有任何反饋,請在此處分享。