2024年10月3日

隆重介紹畫布

畫布是與 ChatGPT 寫作和編程的全新方式。

圖片顯示一個垂直工具列，在柔和的粉彩背景上排列著五個圖示。從上方數來第三個圖示，描繪一本打開的書，旁邊標註著「閱讀等級」，並被標示出來。

正在載入...

我們正在推出畫布，這是一個用於與 ChatGPT 合作進行超越簡單聊天的寫作和編程項目的新介面。畫布會在一個單獨的視窗中開啟，讓您和 ChatGPT 在項目上協同合作。這個早期測試版引入一種全新的協作方式，不僅透過對話，也可以並肩創作與完善想法。

畫布是使用 GPT‑4o 架設的，可以在測試版期間手動在模型選擇器中選取。從今天起，我們將向全球 ChatGPT Plus 和團隊版用戶推出畫布。企業版和教育版用戶將在下週取得存取權限。我們也計劃在畫布脫離測試版後，將它提供給所有 ChatGPT 免費用戶。

與 ChatGPT 更好地協作

人們每天都使用 ChatGPT 協助寫作與編寫程式碼。儘管聊天介面易於使用且適用於許多任務，但當您想處理需要編輯和修改的項目時，它就顯得有限制。畫布為這類工作提供了一個新介面。

ChatGPT 可以藉助畫布，更好地理解您試圖完成的任務內容。您可以突顯特定區塊，以精確指示您希望 ChatGPT 專注的內容。就像文字編輯或程式碼審閱者一樣，它可以在考慮整個項目的情況下提供內嵌反饋和建議。

您在畫布中掌控項目。您可以直接編輯文字或程式碼。有一個快捷選單可用於要求 ChatGPT 調整寫作長度、偵錯您的程式碼，並快速執行其他有用的動作。
您也可以使用畫布中的返回按鈕來還原您工作的先前版本。

當 ChatGPT 偵測到可能有所幫助的情境時，畫布會自動開啟。您也可以在提示詞中加入「使用畫布」來開啟畫布，並用它來處理現有項目。

寫作捷徑包括：

建議編輯：ChatGPT 提供內嵌建議和反饋。
調整長度：編輯文件長度，將它縮短或拉長。
改變閱讀程度：調整文字的難易程度，涵蓋幼兒園到研究所階段。
增加最終潤飾：檢查文法、清晰度和一致性。
新增表情符號：新增相關表情符號以強調和增添色彩。

在畫布中編寫程式碼

編程是一個反覆優化的流程，而且在聊天中追蹤程式碼的所有修改可能會很困難。畫布使得追蹤和理解 ChatGPT 的更改變得更容易，我們計劃繼續提高此類編輯的透明度。

編程捷徑包括：

審閱程式碼：ChatGPT 提供內嵌建議以改進您的程式碼。
新增記錄：插入列印語句，以協助您偵錯與理解您的程式碼。
新增註解：在程式碼中新增註解，使其更容易理解。
修正錯誤：偵測並重寫有問題的程式碼，以解決錯誤。
移植到某種語言：將您的程式碼轉換為 JavaScript、TypeScript、Python、Java、C++ 或 PHP。

將模型訓練成協作者

我們訓練 GPT‑4o 以作為創意夥伴進行協作。模型知道何時開啟畫布，進行有針對性的編輯，以及完全重寫。它也能理解更廣泛的語境，以提供精確的反饋和建議。

我們的研究團隊為此開發了以下核心行為：

觸發畫布以進行寫作和編程
產生多樣的內容類型
進行有針對性的編輯
重寫文件
提供內嵌評論

我們透過超過 20 項自動化內部評估來衡量進度。我們運用新穎的合成資料產生技術，例如從 OpenAI o1‑preview 蒸餾輸出，以對模型的核心行為進行後期訓練。這種方法能讓我們快速解決寫作品質和新用戶互動的問題，所有這些都無需依賴人工產生的資料。

一個主要挑戰是定義何時觸發畫布。我們訓練模型為「撰寫一篇關於咖啡豆歷史的部落格文章」之類的提示詞開啟畫布，同時避免對「幫我煮一道新的晚餐食譜」等一般問答任務過度觸發。為了提升在寫作場景下的實用性，優化方向放在「讓它在該寫作的時候確實寫作」上，即代價是「它可能在不該寫作時也出手」。最終，模型的正確觸發率為 83%，比起未經微調的 GPT‑4o 模型有明顯提升。

值得注意的是，這類基準的品質對所使用的提示詞非常敏感。即使用不同的提示詞，基準的表現可能仍然不如預期，但方式不同；例如，在編程和寫作任務中均勻地不準確，導致錯誤分佈不同和其他形式的次優效能。對於編程，我們有意讓模型偏向不觸發，以避免干擾我們的資深用戶。我們將根據用戶反饋繼續改進這一點。

Canvas 決策邊界觸發器 - 寫作與編程

對於寫作和編程任務，我們改進了正確觸發畫布決策邊界，相較於零次提示指示的基準 GPT‑4o，分別達到了 83% 和 94%。

第二個挑戰涉及調整模型在畫布觸發後的編輯行為；具體來說，是決定何時進行有針對性的編輯，而非重寫整個內容。當用戶透過介面明確選取文字時，我們訓練模型進行針對性編輯，否則會傾向重寫。隨著我們改進模型，這種行為會持續演進。

Canvas 編輯邊界 - 寫作與編程

對於寫作和編程任務，我們優先改善畫布的有針對性編輯。使用畫布的 GPT‑4o 表現比基準提示的 GPT‑4o 好 18%。

最後，訓練模型以產生高品質評論的流程需要謹慎的反覆調整。與前兩種情況不同，前兩者可輕鬆透過全面的人工審核來適應自動化評估，而以自動化方式衡量品質則特別具有挑戰性。因此，我們使用人工評估來評量評論的品質和準確性。我們的整合畫布模型準確率比僅靠提示指令直接執行的 GPT‑4o 高出 30%，在品質上提升 16%，顯示合成訓練相較於直接依靠詳細指令的執行，顯著提升了回應品質和行為表現。

Canvas Suggested Comments

人工評估評量了畫布評論的品質和準確性功能。我們的整合畫布模型準確率比僅靠提示指令直接執行的 GPT‑4o 高出 30%，在品質上提升 16%。

下一步是什麽

讓人工智能更有用且易於使用，需要重新思考我們與其互動的方式。畫布是一種新方法，也是 ChatGPT 視覺介面自我們兩年前推出以來首次重大更新。

畫布目前處於早期測試階段，我們計劃快速提升其功能。

作者

OpenAI

研究主管

Karina Nguyen

核心研究

Kai Chen, Michael Wu, Tarun Gogineni

核心工程、產品、設計

Alexi Christakis, Bryan Ashley, Bryant Jow, Chris Haugli, Daniel Levine, Eric Jiang, Gabriel Peal, Lee Byron, Lukas Gross, Matt Lim, Sara Culver, Thomas Dimson

項目貢獻者

Andrew Gibiansky, Andrew Howell, Arianna McClain, David Li, Doug Li, Ilya Kostrikov, Katy Shi, Noah Deutsch, Randall Lin, Sara Culver, Sean Fitzgerald, Shuaiqi Xia, Spencer Papay, Thomas Shadwell, Valerie Qi, Xiaolin Hao, Yilei Qian

支援領導層

Akshay Nathan, Barret Zoph, Ian Silber, Joanne Jang, John Schulman, Kevin Weil, Mia Glaese, Mira Murati, Nick Turley, Sam Altman, Sulman Choudhry