OpenAI 致力于开发安全可靠、惠及全员的 AI。今天,我们将分享一款名为“Voice Engine”的模型在小规模技术预览中的初步洞察与结果。该模型只需借助文本输入和一段时长 15 秒的音频样本,即可生成自然流畅且与原始发言者声音高度相似的语音。值得注意的是,小模型仅凭时长 15 秒的样本,就能生成情感丰富、逼真自然的语音。
我们于 2022 年底首次开发 Voice Engine,并用其支持文本转语音 API(在新窗口中打开) 中的预设语音功能以及 ChatGPT 语音和朗读功能。与此同时,鉴于合成语音可能存在滥用风险,我们将对更广泛的发布采取谨慎且明智的策略。我们希望就合成语音的负责任部署展开对话,并探讨社会如何适应这些新功能。基于这些对话和小规模测试的结果,我们将就是否以及如何对这项技术进行大规模部署做出更明智的决策。
为深入了解这项技术的潜在用途,去年年底,我们开始与一小部分值得信赖的合作伙伴私下测试这项技术。该小组开发的应用程序给我们留下了深刻印象。这些小规模部署有助于指导我们的策略、保障措施,并鼓励我们思考 Voice Engine 如何在各行业中发挥积极作用。以下是部分早期示例:
- 提供阅读帮助:通过自然流畅、情感丰富的语音,为存在阅读障碍的用户和儿童提供帮助,这些语音能够覆盖比预设语音更广泛的发言者类型。Age of Learning(在新窗口中打开) 是一家致力于儿童教育事业的教育技术公司,该公司一直在使用此功能,生成预先编写的配音内容。他们还利用 Voice Engine 和 GPT‑4 来创建实时、个性化响应,以便与学生互动。借助这项技术,Age of Learning 得以为更广泛的受众创作更多内容。
- 翻译内容:翻译视频和播客等内容,支持创作者和企业用自己的声音流畅表达观点,触达全球更多用户。HeyGen(在新窗口中打开) 是这一领域的先行者之一,这个 AI 可视化叙事平台能够与其企业客户合作,针对产品营销和销售演示等各种内容创建自定义类人虚拟形象。他们使用 Voice Engine 翻译视频内容,将发言者的声音翻译成多种语言,以触达全球受众。用于翻译时,Voice Engine 会保留原始发言者的母语口音:例如,利用一位法语母语者的音频样本生成英语时,所生成的语音自带法语口音。
- 触达全球社群:通过优化偏远地区的基本服务交付模式,实现这一目标。Dimagi(在新窗口中打开) 正致力于为社区医疗工作人员构建工具,助其提供多种基本服务,例如为哺乳期的母亲提供咨询。为了帮助这些工作人员提升其技能,Dimagi 采用 Voice Engine 和 GPT‑4 并结合每位工作人员的主要语言(包括斯瓦希里语或更多非正式语言,如肯尼亚当地流行的混合代码语言 Sheng)提供交互式反馈。
- 为存在语言障碍的用户提供支持,例如为患有影响语言能力疾病的人员提供治疗应用程序,以及为有学习需求的人员提供教育增强功能。Livox(在新窗口中打开) 是一款 AI 替代沟通应用,可为增强与替代沟通 (AAC) 设备提供支持,以便残障人士能够进行交流。借助 Voice Engine,它们能够为存在语言障碍的人群提供支持多种语言、独特且自然的语音。其用户可以选择最能还原自身特质的语音;多语言用户则可在使用每种口语进行交流时保持一致的语音。
- 帮助患者恢复声音,为那些存在突发或退行性言语障碍的人员提供支持。位于 Lifespan(在新窗口中打开) 的 Norman Prince Neurosciences Institute 隶属于某个非营利性医疗系统,该系统是布朗大学医学院的主要教学附属机构,目前正在探索 AI 在临床环境中的应用。他们一直在试行一项计划,为因肿瘤或神经系统疾病而导致语言障碍的人群提供 Voice Engine。由于 Voice Engine 只需要简短的音频样本,Fatima Mirza、Rohaid Ali 和 Konstantina Svokos 医生便利用一段为学校项目录制的视频中的音频,帮助一名因血管性脑肿瘤而丧失语言表达能力的年轻患者恢复声音。
我们认识到,生成类似人声的语音存在严重风险,而这一问题在选举年更成为公众关注的首要焦点。我们正在与来自政府、媒体、娱乐、教育、民间社会等各领域的美国及国际合作伙伴开展合作,以确保我们在构建过程中纳入其反馈意见。目前测试 Voice Engine 的合作伙伴已同意我们的使用政策,其中规定:禁止在未经同意或无合法权利的情况下冒充其他个人或组织。此外,我们与这些合作伙伴签订的条款要求原始发言者在知情的情况下明确同意授权,而且我们不允许开发人员为个人用户创建专属语音。合作伙伴还必须向其受众明确披露,他们听到的语音是由 AI 生成的。最后,我们实施了一系列安全措施,包括通过添加水印来追溯 Voice Engine 生成的任何音频的来源,以及主动监控其使用情况。我们认为,任何对合成语音技术的广泛部署都应配置语音身份验证界面,以核实原始发言者是否在知情的情况下将其声音添加到服务中,并建立禁用语音列表,用于检测并阻止用户创建与知名人物过于相似的语音。
Voice Engine 延续了我们致力于洞悉技术前沿并公开分享 AI 技术发展成果的承诺。根据我们的 AI 安全方针和自愿承诺,我们选择在此时发表技术预览,但不进行广泛发布。我们希望这份 Voice Engine 技术预览既能凸显其潜力,又能激发用户对加强社会韧性的需求,以应对日益强大的生成式模型所带来的挑战。具体而言,我们鼓励用户采取以下措施,例如:
- 逐步淘汰基于语音的身份验证,不再使用此类安全措施访问银行帐户及其他敏感信息
- 针对个人声音在 AI 中的使用制定保护措施
- 向公众普及 AI 技术的能力与局限,包括如何识别欺骗性 AI 内容
- 加速开发和应用可追溯视听内容来源的技术,以便始终明确你是在与真人还是与 AI 交互
重要的是,无论我们最终是否广泛部署这项技术,全球用户都应了解其发展方向。我们期待继续与政策制定者、研究人员、开发人员和创意人员就合成语音技术的挑战与机遇展开对话。


