2023年9月25日

ChatGPT 现已具备视觉、听觉与语音功能

我们开始在 ChatGPT 中推出新的语音和图片功能。它们提供了一种新的、更直观的界面类型，允许您进行语音对话或向 ChatGPT 展示您正在谈论的内容。

语音和图片为您在生活中使用 ChatGPT 提供了更多方式。在旅行时，拍下地标性建筑的照片，然后就它的有趣之处进行实时对话。当您在家时，拍下冰箱和储藏室的照片，找出晚餐的菜谱（并提出后续问题，了解菜谱分步说明）。晚饭后，拍下照片，圈出问题集，让 ChatGPT 帮孩子做一道数学题，让它与你们分享提示。

我们将在未来两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图片功能。语音功能将在 iOS 和 Android 上推出（在设置中选择加入），图片功能将在所有平台上推出。

与 ChatGPT 对话，让它回话

现在，您可以使用语音与助手进行来回对话。边走边说话，为您的家人点播一个睡前故事，或解决餐桌上争论的话题。

使用语音与助手进行来回对话。

要开始使用语音，请前往手机应用的“设置” → “新功能”，然后选择“语音对话”。然后，点击主屏幕右上角的耳机按钮，从五种不同的语音中选择自己喜欢的语音。

新的语音功能由一个新的文本到语音模型提供支持，能够仅通过文本和几秒钟的语音样本生成类似人类的音频。我们与专业配音演员合作创作了每种语音。我们还使用 Whisper（我们的开源语音识别系统）将您说的话转录成文本。

正在加载...

图片聊天

您现在可以向 ChatGPT 展示一张或多张图片。您可以解决烤架无法启动的问题，查看冰箱里的食物以计划用餐，或者分析复杂的图表以获取与工作相关的数据。要聚焦于图片的特定部分，您可以使用我们移动应用程序中的绘图工具。

向 ChatGPT 展示一张或多张图片。

要开始聊天，请点击照片按钮捕捉或选择图片。如果您使用的是 iOS 或 Android 系统，请先点击加号按钮。您还可以讨论多张图片，或使用我们的绘图工具来引导您的助手。

图片理解由多模态 GPT‑3.5 和 GPT‑4 支持。这些模型将语言推理能力应用于各种图片，如照片、屏幕截图以及包含文本和图片的文档。

我们正在逐步部署图片和语音功能

OpenAI 的目标是构建安全、有益的 AGI。我们相信，逐步提供我们的工具，让我们能够随着时间的推移不断改进和完善风险缓解措施，同时也让大家为未来更强大的系统做好准备。在涉及语音和视觉的高级模型中，这一策略变得更加重要。

语音

新的语音技术——只需几秒钟的真实语音就能制作出逼真的合成语音——为许多创造性和无障碍应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者有可能冒充公众人物或实施欺诈。

这就是为什么我们要将这项技术用于语音聊天这一特定用例的原因。语音聊天是由我们直接合作的配音演员创建的。我们还与其他公司开展了类似的合作。例如，Spotify 正在将这项技术的力量用于其语音翻译⁠（在新窗口中打开）功能的试点，该功能可以帮助播客博主将播客翻译成其他语言，用播客自己的声音讲故事，从而扩大播客的影响力。