我們訓練出一款能以對話形式互動的模型,名為 ChatGPT。透過這種對話形式,ChatGPT 能夠回答各種追問問題、承認自身錯誤、質疑不正確的前提,還可以拒絕不當的請求。
ChatGPT 是 InstructGPT 的兄弟模型;InstructGPT 的訓練模式是依據提示中的指示而提供詳盡的回應。
我們很高興告訴您,現在您可以開始使用 ChatGPT。我們也會收集相關的使用者回饋,以進一步了解此模型的優點及仍需改進的地方。在研究預覽期間,ChatGPT 可供免費使用。立即在 chatgpt.com(在新視窗中開啟) 試用。
範例
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?我們使用由人類回饋提供的強化學習 (簡稱 RLHF) 訓練本模型。採用的方法與 InstructGPT 相同,但在資料蒐集的設定上略有差異。我們使用監督式微調訓練初始模型:由人類人工智慧訓練師提供對話,並同時扮演使用者及人工智慧助理的兩種角色。我們將模型產生的建議提供給訓練師,協助他們撰寫回應。我們將這組新的對話資料集與 InstructGPT 的資料集合併,並轉換成對話格式。
為了建立強化學習所需的獎勵模型,我們必須蒐集比較資料,內容包含兩個以上的模型回應,並依品質加以排序。而為了蒐集這些資料,我們使用人工智慧訓練師與聊天機器人之間的對話。我們隨機選取一則由模型產生的訊息,抽取數個不同版本的回覆,並請人工智慧訓練師進行排序。透過這些獎勵模型,我們可以運用 近端策略最佳化 (Proximal Policy Optimization) 來微調模型,並針對本流程反覆進行最佳化調整。

ChatGPT 是根據 2022 年初完成訓練的 GPT‑3.5 系列模型進行微調後而成。您可以在此處(在新視窗中開啟)進一步了解 3.5 系列。ChatGPT 及 GPT‑3.5 均是在 Azure 的人工智慧超級運算基礎設施上進行訓練。
- ChatGPT 有時會產生聽似合理但實際上是錯誤或無意義的回答。解決這個問題頗具難度,原因如下:(1) 目前在強化學習訓練期間並無可以使用的事實來源;(2) 若將模型訓練得過於謹慎,可能導致拒答實際上能正確回答的問題;以及 (3) 監督式訓練可能誤導模型,原因是理想的答案應取決於模型本身所掌握的知識(在新視窗中開啟),而非人類示範者所知道的內容。
- ChatGPT 對輸入措辭的細微調整或重複嘗試相同提示的反應相當敏感。例如,針對同一個問題,模型對某種措辭可能表示無法作答,但稍微改寫後,卻能正確回答。
- 該模型經常產生過於冗長的回應,並重複使用特定語句,例如一再強調自己是 OpenAI 訓練出的語言模型。這些情形的原因在於訓練資料的偏誤 (訓練師傾向於選擇較長且看似較完整的答案),以及常見的過度最佳化問題。1、2
- 理想情況下,若使用者輸入的問題太含糊,模型應要求釐清問題。然而,目前的模型通常只是猜測使用者的意圖。
- 儘管我們努力使模型拒絕不當請求,但它仍可能對有害的指示做出回應或出現偏差行為。我們正採用內容審查 API 來警告或阻擋某些類型的不安全內容,但目前仍可能出現誤判 (誤報或漏報) 的情況。我們相當重視使用者的回饋,期望藉此持續改善這套系統。
目前釋出的 ChatGPT 研究版本,是 OpenAI 在持續提升人工智慧系統安全性及實用性的漸進式部署中,最新的進展。先前部署 GPT‑3 與 Codex 等模型的經驗,為本釋出版本採取的安全措施提供了重要參考,包括透過人類回饋強化學習 (RLHF) 大幅降低有害或不實輸出的問題。
如上述所提,我們了解模型仍存在諸多限制,並計劃定期進行更新,以持續改進。同時,我們也希望透過提供易於使用的 ChatGPT 介面,蒐集使用者針對我們尚未發現的狀況所提供的寶貴意見。
我們鼓勵使用者透過介面回報模型輸出的異常情形,包括內容過濾系統可能產生的誤擋或漏擋情況,該系統亦整合於整體介面中。我們特別重視使用者在真實且非對抗性情境中對可能出現的有害輸出的回饋,並歡迎提供有助於發掘與理解新興風險及潛在應對策略的意見。誠摯邀請您參加 ChatGPT 意見回饋競賽(在新視窗中開啟)3,優勝者可享最高 500 美元的 API 點數獎勵。您可透過 ChatGPT 介面提供的回饋表單提交意見。
我們很高興能把這次釋出的經驗延續到更強大系統的部署中,正如過去的部署也為這次釋出提供了寶貴經驗。
註腳
- A
無須購買,法律禁止處視為無效。參加者須年滿 18 歲。比賽詳情請見官方規則(在新視窗中開啟)。
參考資料
- 1
Nisan Stiennon 等。《藉由人類回饋學習摘要技術(在新視窗中開啟)》(Learning to summarize with human feedback)。刊載於《神經資訊處理系統進展》第 33 卷(2020): 3008–3021。
- 2
Gao, Leo、John Schulman 及 Jacob Hilton。《獎勵模型過度最佳化的縮放法則(在新視窗中開啟)》(Scaling Laws for Reward Model Overoptimization), arXiv 預印本 arXiv:2210.10760 (2022)。
- 3
本次競賽的靈感部分來自以下幾位學者的研究成果:Kenway、Josh、Camille François、Sasha Costanza-Chock、Inioluwa Deborah Raji,以及 Joy Buolamwini。 參考資料:演算法傷害漏洞懸賞計畫?從網路安全漏洞揭露中學到的發現、揭露及補救教訓》(Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress )。美國華盛頓特區:由演算法正義聯盟 (Algorithmic Justice League) 發表。2022 年 1 月。連結:https://ajl.org/bugs(在新視窗中開啟)。另可參考 Brundage、Miles、Avin、Shahar、Wang、Jasmine、Belfield、Haydn 及 Gretchen Krueger 等人的研究《邁向可信的 AI 發展:支持可驗證聲明的機制》 (Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims) 發表於 2020 年 4 月。連結:https://arxiv.org/abs/2004.07213(在新視窗中開啟)。可參見較早期的相關競賽案例:HackerOne,2021 年 (編號 B),《Twitter 演算法偏誤》 (Twitter Algorithmic Bias),HackerOne,網址:https://hackerone.com/twitter-algorithmic-bias?type=team(在新視窗中開啟)。最後,亦可參考 Rubinovitz, JB 於 2018 年 8 月發表的早期著作《以偏誤懸賞計畫作為對抗 AI 偏誤的方法》(Bias Bounty Programs as a Method of Combatting Bias in AI),全文連結:https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(在新視窗中開啟)。
作者
致謝
John Schulman、Barret Zoph、Christina Kim、Jacob Hilton、Jacob Menick、Jiayi Weng、Juan Felipe Ceron Uribe、Liam Fedus、Luke Metz、Michael Pokorny、Rapha Gontijo Lopes、Shengjia Zhao、Arun Vijayvergiya、Eric Sigler、Adam Perelman、Chelsea Voss、Mike Heaton、Joel Parish、Dave Cummings、Rajeev Nayak、Valerie Balcom、David Schnurr、Tomer Kaftan、Chris Hallacy、Nicholas Turley、Noah Deutsch、Vik Goel、Jonathan Ward、Aris Konstantinidis、Wojciech Zaremba、Long Ouyang、Leonard Bogdonoff、Joshua Gross、David Medina、Sarah Yoo、Teddy Lee、Ryan Lowe、Dan Mossing、Joost Huizinga、Roger Jiang、Carroll Wainwright、Diogo Almeida、Steph Lin、Marvin Zhang、Kai Xiao、Katarina Slama、Steven Bills、Alex Gray、Jan Leike、Jakub Pachocki、Phil Tillet、Shantanu Jain、Greg Brockman、Nick Ryder、Alex Paino、Qiming Yuan、Clemens Winter、Ben Wang、Mo Bavarian、Igor Babuschkin、Szymon Sidor、Ingmar Kanitscheider、Mikhail Pavlov、Matthias Plappert、Nik Tezak、Heewoo Jun、William Zhuk、Vitchyr Pong、Lukasz Kaiser、Jerry Tworek、Andrew Carr、Lilian Weng、Sandhini Agarwal、Karl Cobbe、Vineet Kosaraju、Alethea Power、Stanislas Polu、Jesse Han、Raul Puri、Shawn Jain、Benjamin Chess、Christian Gibson、Oleg Boiko、Emy Parparita、Amin Tootoonchian、Kyle Kosic和Christopher Hesse


