跳至主要内容
OpenAI

2024年10月3日

产品

Canvas 简介

一种使用 ChatGPT 写作和编码的全新工作方式

图片显示的是一个垂直工具栏,在柔和的粉色背景上,五个图标排成一列。顶部第三个图标是一本打开的书,旁边的标签“阅读水平”突出显示。
正在加载…

我们将推出 Canvas,这是一个新的界面,用于与 ChatGPT 一起开展写作和编码项目,而不仅仅是简单的聊天。Canvas 在单独的窗口中打开,允许您和 ChatGPT 就项目进行协作。这个早期测试版引入了一种新的合作方式——不仅仅是通过对话,而是通过并肩创作和完善想法。   

Canvas 是使用 GPT‑4o 构建的,在测试阶段可以在模型选择器中手动选择。从今天开始,我们将向全球的 ChatGPT Plus 和团队用户推出 Canvas。Enterprise 和 Edu 用户将在下周获得访问权限。我们还计划在 Canvas 退出测试版后向所有 ChatGPT Free 用户开放。

与 ChatGPT 更好地协作

人们每天都在使用 ChatGPT 寻求写作和代码方面的帮助。虽然聊天界面简单易用,能很好地完成许多任务,但当您要处理需要编辑和修改的项目时,它就会受到限制。Canvas 为此类工作提供了新的界面。

有了 Canvas,ChatGPT 可以更好地理解您要完成任务的背景。您可以高亮显示特定部分,以明确指出您希望 ChatGPT 重点关注的内容。就像文案编辑器或代码审阅器一样,它可以根据整个项目提供内联反馈和建议。

您可以在 Canvas 中控制项目。您可以直接编辑文本或代码。ChatGPT 有一个快捷菜单,可以让您调整写作长度、调试代码,并快速执行其他有用的操作。您还可以使用 Canvas 中的“后退”按钮恢复以前的版本。

当 ChatGPT 检测到可能对其有帮助的场景时,Canvas 会自动打开。您还可以在提示中包含“使用 Canvas”,以打开 Canvas 并使用它来处理现有项目。

写作快捷方式包括:

  • 建议编辑:ChatGPT 提供内联建议和反馈。
  • 调整长度:编辑文档长度,使其更短或更长。
  • 更改阅读水平:调整阅读水平,从幼儿园到研究生院。
  • 最后润色:检查语法、清晰度和一致性。
  • 添加表情符号:添加相关的表情符号,以增加强调效果和色彩。

在 Canvas 中编码

编码是一个迭代的过程,在聊天中很难跟踪代码的所有修订。Canvas 可让您更轻松地跟踪和了解 ChatGPT 的更改,我们计划继续提高此类编辑的透明度。

编码快捷方式包括:

  • 审核代码:ChatGPT 提供内联建议以改进您的代码。
  • 添加日志:插入打印语句,帮助您调试和理解代码。
  • 添加注释:为代码添加注释,使其更易于理解。
  • 修复错误:检测并重写有问题的代码以解决错误。
  • 移植到一种语言:将代码转换为 JavaScript、TypeScript、Python、Java、C++ 或 PHP。

训练模型成为合作者

我们训练 GPT‑4o 作为创意伙伴进行协作。该模型知道何时打开 Canvas、进行有针对性的编辑以及完全重写。它还能理解更广泛的背景,从而提供准确的反馈和建议。

为此,我们的研究团队开发了以下核心行为:

  • 触发 Canvas 进行写作和编码 
  • 生成不同的内容类型
  • 进行有针对性的编辑
  • 重写文档
  • 提供在线评论

我们通过 20 多项自动内部评估来衡量进度。我们使用了新颖的合成数据生成技术,例如从 OpenAI o1‑preview 中提炼输出,对模型的核心行为进行后期训练。这种方法使我们能够快速解决写作质量和新的用户交互问题,而无需依赖人工生成的数据。

一个关键的挑战是定义何时触发 Canvas。我们让模型学会为“写一篇关于咖啡豆历史的博文”这样的提示打开 Canvas,同时避免过度触发“帮我做一份新的晚餐食谱”这样的一般问答任务。在写作任务中,我们优先提升“正确触发率”(为此牺牲了“正确非触发率”),与采用提示指令的零样本 GPT‑4o 基线模型相比,达到 83% 的正确率。

值得注意的是,这种基线的质量对所使用的特定提示非常敏感。如果使用不同的提示,基线可能仍然表现不佳,但表现方式不同——例如,在编码和写作任务中平均不准确,从而导致错误分布不同和其他形式的次优表现。在编码方面,我们有意使模型偏向于不触发,以避免干扰我们的高级用户。我们将根据用户反馈继续改进。

Canvas 决策边界触发器——写作与编码

在写作和编码任务中,我们提高了正确触发 Canvas 决策边界的比例,与采用提示指令的零样本 GPT‑4o 基线模型相比,分别达到了 83% 和 94% 的正确率。

第二个挑战是在 Canvas 触发后调整模型的编辑行为,特别是决定何时进行有针对性的编辑,而不是重写整个内容。我们对模型进行了训练,使其在用户通过界面明确选择文本时执行有针对性的编辑,否则则倾向于重写。随着我们对模型的不断完善,这种行为还会继续发展。

Canvas 编辑边界——写作与编码

对于编写和编码任务,我们优先改进 Canvas 定向编辑。使用 Canvas 的 GPT‑4o 比基线提示的 GPT‑4o 性能高出 18%。

最后,训练模型以生成高质量的注释需要仔细的反复练习。与前两种情况不同的是,前两种情况很容易通过彻底的人工审核适应自动化评估,而以自动化方式衡量质量则特别具有挑战性。因此,我们使用人工评估来评估评论的质量和准确性。我们的集成 Canvas 模型在准确性和质量方面分别比采用提示指令的零样本 GPT‑4o 基线模型高出 30% 和 16%,这表明与采用提示指令的零样本提示相比,合成训练能显著提高回复质量和行为。

Canvas Suggested Comments

人工评估评估了 Canvas 评论的质量和准确性功能。我们的 Canvas 模型在准确性和质量方面分别比采用提示指令的零样本 GPT‑4o 高出 30% 和 16%。

下一步计划

要让人工智能更有用、更易用,就必须重新思考我们与人工智能的交互方式。Canvas 是一种新方法,也是自两年前推出以来 ChatGPT 可视化界面的首次重大更新。

Canvas 目前处于早期测试阶段,我们计划迅速改进其功能。

作者

OpenAI

研究主管

卡丽娜·阮 (Karina Nguyen)

核心研究

陈凯 (Kai Chen)、吴迈克 (Michael Wu)、塔伦·戈吉内尼 (Tarun Gogineni)

核心工程、产品、设计

亚历克西·克里斯塔基斯 (Alexi Christakis)、布莱恩·阿什利 (Bryan Ashley)、布莱恩特·乔 (Bryant Jow)、克里斯·豪利 (Chris Haugli)、丹尼尔·莱文 (Daniel Levine)、江艾瑞克 (Eric Jiang)、加布里埃尔·皮尔 (Gabriel Peal)、李·拜伦 (Lee Byron)、卢卡斯·格罗斯 (Lukas Gross)、林马修 (Matt Lim)、萨拉·卡尔弗 (Sara Culver)、托马斯·迪姆森 (Thomas Dimson)

贡献者

安德鲁·吉比安斯基 (Andrew Gibiansky)、安德鲁·豪厄尔 (Andrew Howell)、阿里安娜·麦克莱恩 (Arianna McClain)、李大卫 (David Li)、李道格 (Doug Li)、伊利亚·科斯特里科夫 (Ilya Kostrikov)、史凯蒂 (Katy Shi)、诺亚·多伊奇 (Noah Deutsch)、林兰德尔 (Randall Lin)、萨拉·卡尔弗 (Sara Culver)、肖恩·菲茨杰拉德 (Sean Fitzgerald)、夏帅奇 (Shuaiqi Xia)、斯宾塞·帕佩 (Spencer Papay)、托马斯·沙德维尔 (Thomas Shadwell)、戚薇乐 (Valerie Qi)、郝晓林 (Xiaolin Hao)、钱一磊 (Yilei Qian)

支持领导团队

阿克谢·内森 (Akshay Nathan)、巴雷特·佐普 (Barret Zoph)、伊恩·西尔伯 (Ian Silber)、张乔安妮 (Joanne Jang)、约翰·舒尔曼 (John Schulman)、凯文·威尔 (Kevin Weil)、米娅·格莱斯 (Mia Glaese)、米拉·穆拉蒂 (Mira Murati)、尼克·特利 (Nick Turley)、山姆·奥特曼 (Sam Altman)、苏尔曼·乔杜里 (Sulman Choudhry)