跳至主要内容
OpenAI

2023年9月25日

产品

ChatGPT 现已具备视觉、听觉与语音功能

ChatGPT 现已具备视觉、听觉与语音功能

我们开始在 ChatGPT 中推出新的语音和图片功能。它们提供了一种新的、更直观的界面类型,允许您进行语音对话或向 ChatGPT 展示您正在谈论的内容。

语音和图片为您在生活中使用 ChatGPT 提供了更多方式。在旅行时,拍下地标性建筑的照片,然后就它的有趣之处进行实时对话。当您在家时,拍下冰箱和储藏室的照片,找出晚餐的菜谱(并提出后续问题,了解菜谱分步说明)。晚饭后,拍下照片,圈出问题集,让 ChatGPT 帮孩子做一道数学题,让它与你们分享提示。

我们将在未来两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图片功能。语音功能将在 iOS 和 Android 上推出(在设置中选择加入),图片功能将在所有平台上推出。

与 ChatGPT 对话,让它回话

现在,您可以使用语音与助手进行来回对话。边走边说话,为您的家人点播一个睡前故事,或解决餐桌上争论的话题。

使用语音与助手进行来回对话。

要开始使用语音,请前往手机应用的“设置” → “新功能”,然后选择“语音对话”。然后,点击主屏幕右上角的耳机按钮,从五种不同的语音中选择自己喜欢的语音。

新的语音功能由一个新的文本到语音模型提供支持,能够仅通过文本和几秒钟的语音样本生成类似人类的音频。我们与专业配音演员合作创作了每种语音。我们还使用 Whisper(我们的开源语音识别系统)将您说的话转录成文本。

正在加载...

图片聊天

您现在可以向 ChatGPT 展示一张或多张图片。您可以解决烤架无法启动的问题,查看冰箱里的食物以计划用餐,或者分析复杂的图表以获取与工作相关的数据。要聚焦于图片的特定部分,您可以使用我们移动应用程序中的绘图工具。

向 ChatGPT 展示一张或多张图片。

要开始聊天,请点击照片按钮捕捉或选择图片。如果您使用的是 iOS 或 Android 系统,请先点击加号按钮。您还可以讨论多张图片,或使用我们的绘图工具来引导您的助手。

图片理解由多模态 GPT‑3.5 和 GPT‑4 支持。这些模型将语言推理能力应用于各种图片,如照片、屏幕截图以及包含文本和图片的文档。

我们正在逐步部署图片和语音功能

OpenAI 的目标是构建安全、有益的 AGI。我们相信,逐步提供我们的工具,让我们能够随着时间的推移不断改进和完善风险缓解措施,同时也让大家为未来更强大的系统做好准备。在涉及语音和视觉的高级模型中,这一策略变得更加重要。

语音

新的语音技术——只需几秒钟的真实语音就能制作出逼真的合成语音——为许多创造性和无障碍应用打开了大门。然而,这些功能也带来了新的风险,例如恶意行为者有可能冒充公众人物或实施欺诈。

这就是为什么我们要将这项技术用于语音聊天这一特定用例的原因。语音聊天是由我们直接合作的配音演员创建的。我们还与其他公司开展了类似的合作。例如,Spotify 正在将这项技术的力量用于其语音翻译(在新窗口中打开)功能的试点,该功能可以帮助播客博主将播客翻译成其他语言,用播客自己的声音讲故事,从而扩大播客的影响力。

图片输入

基于视觉的模型也带来了新的挑战,从对人的幻觉到在高风险领域依赖模型对图片的解读,不一而足。在进行更广泛的部署之前,我们与极端主义和科学能力等领域的红队测试员以及不同的阿尔法测试者一起测试了该模型。我们的研究使我们能够在一些关键细节上保持一致,以实现负责任的使用。

让视觉功能既实用又安全

与 ChatGPT 的其他功能一样,视觉功能也是为您的日常生活提供帮助。只有当它能看到您所看到的东西时,才能发挥最大作用。 

该方案直接源自我们与 Be My Eyes 的合作成果——这是一款为视障人士提供的免费移动应用,通过合作我们深入理解了(视觉功能)的实际应用场景与使用限制。用户告诉我们,他们发现就背景中恰好有人的图片进行一般性对话非常有价值,比如当您正在尝试遥控器设置时,电视上出现了一个人。

由于 ChatGPT 并不总是准确的,而且这些系统应尊重个人隐私,因此我们还采取了技术措施,大大限制 ChatGPT 分析和直接陈述人物的能力。

真实世界的使用情况和反馈将帮助我们在保持工具实用性的同时,使这些保障措施更加完善。

模型限制的透明度

用户可能会依赖 ChatGPT 来处理专业话题,例如研究领域。我们对模型的局限性保持透明,不鼓励未经适当验证的高风险用例。此外,该模型精通英语文本的转录,但对其他一些语言,尤其是非罗马字母的语言,表现不佳。我们建议非英语用户避免将 ChatGPT 用于此用途。

您可以在图片输入系统卡中阅读更多有关我们的安全方法以及与 Be My Eyes 合作的信息。

我们将扩大访问范围

Plus 和 Enterprise 用户将在未来两周内体验语音和图片功能。我们很高兴不久后能向包括开发人员在内的其他用户群推出这些功能。

作者

OpenAI

致谢

语音模式核心研究

亚历克·拉德福德 (Alec Radford)、陶旭 (Tao Xu)、金钟郁 (Jong Wook Kim)

视觉部署核心研究

劳尔·普里 (Raul Puri)、杰米·基罗斯 (Jamie Kiros)、卢玄佑 (Hyeonwoo Noh)、欧阳龙 (Long Ouyang)、桑迪尼·阿加瓦尔 (Sandhini Agarwal)

查看 GPT-4(视觉版)技术工作和作者