메인 콘텐츠로 건너뛰기
OpenAI

2024년 3월 29일

제품

합성 음성의 과제와 기회에 대응하기

맞춤형 음성을 생성하는 모델인 Voice Engine의 소규모 미리보기에서 얻은 교훈을 공유합니다.

로딩 중...

OpenAI는 안전하고 폭넓게 사회에 기여하는 AI를 개발하는 데 전념하고 있습니다. 오늘 우리는 텍스트 입력과 단 15초 분량의 음성 샘플 하나만으로 원 화자와 매우 유사한 자연스러운 음성을 생성하는 모델, Voice Engine의 소규모 미리보기에서 얻은 초기 인사이트와 결과를 공유합니다. 15초짜리 샘플 하나만으로 감정이 담긴 사실적인 음성을 만들어낼 수 있다는 점은 특히 주목할 만합니다.

Voice Engine은 2022년 말 처음 개발되었으며, 텍스트 음성 변환 API(새 창에서 열기)의 기본 음성과 ChatGPT Voice 및 Read Aloud 기능에 활용되고 있습니다. 다만 합성 음성의 오용 가능성을 고려해, 보다 광범위한 출시에는 신중하고 충분히 검토된 접근 방식을 취하고 있습니다. 합성 음성을 책임 있게 활용하는 방안과, 사회가 이러한 새로운 역량에 어떻게 적응해야 할지에 대한 논의를 시작하고자 합니다. 이러한 논의와 소규모 테스트 결과를 바탕으로, 해당 기술을 대규모로 배포할지 여부와 그 방식에 대해 보다 신중한 결정을 내릴 예정입니다.

Voice Engine의 초기 활용 사례

이 기술의 잠재적 활용 방안을 더 잘 이해하기 위해, 지난해 말 소수의 신뢰할 수 있는 파트너와 함께 비공개 테스트를 시작했습니다. 이들이 개발한 활용 사례는 매우 인상적이었습니다. 이러한 소규모 적용 사례는 Voice Engine이 다양한 산업에서 긍정적으로 활용될 수 있는 방안과 그에 필요한 보호 장치, 그리고 우리의 접근 방식을 구체화하는 데 도움을 주고 있습니다. 초기 사례로는 다음과 같은 예가 있습니다.

  • 기본 음성으로는 구현하기 어려운 다양한 화자를 반영한 자연스럽고 감정이 담긴 음성을 통해, 비문해자와 어린이에게 읽기 지원을 제공합니다. 어린이의 학업 성취를 지원하는 에듀테크 기업 Age of Learning(새 창에서 열기)은 이를 활용해 사전 작성된 음성 내레이션 콘텐츠를 제작하고 있습니다. 또한 Voice Engine과 GPT‑4를 결합해 학생들과 상호작용할 수 있는 실시간 맞춤형 응답을 생성하고 있습니다. 이 기술을 통해 Age of Learning은 더 많은 콘텐츠를 더 넓은 대상에게 제공할 수 있게 되었습니다.
  • 영상과 팟캐스트 같은 콘텐츠를 번역해, 창작자와 기업이 자신의 음성을 유지한 채 전 세계 더 많은 사람들과 자연스럽게 소통할 수 있도록 합니다. 이 기술을 조기에 도입한 기업 중 하나는 HeyGen(새 창에서 열기)으로, 제품 마케팅부터 영업 데모에 이르기까지 다양한 콘텐츠를 위해 기업 고객과 협력해 맞춤형 인간형 아바타를 제작하는 AI 기반 비주얼 스토리텔링 플랫폼입니다. HeyGen은 Voice Engine을 활용해 영상 번역을 수행하며, 화자의 음성을 여러 언어로 변환해 글로벌 청중에게 다가가고 있습니다. 번역에 활용될 경우, Voice Engine은 원 화자의 고유한 억양을 유지합니다. 예를 들어 프랑스어 화자의 음성 샘플로 영어를 생성하면, 프랑스식 억양이 반영된 영어 음성이 만들어집니다.
로딩 중...
  • 원격 환경에서 필수 서비스 제공을 개선함으로써 전 세계 커뮤니티에 도달합니다. Dimagi(새 창에서 열기)는 지역 보건 인력이 모유 수유 상담 등 다양한 필수 서비스를 제공할 수 있도록 지원하는 도구를 개발하고 있습니다. 이들의 역량 강화를 위해 Dimagi는 Voice Engine과 GPT‑4를 활용해 스와힐리어 또는 케냐에서 널리 사용되는 혼합 언어인 Sheng과 같은 보다 비공식적인 언어를 포함해 각 인력의 모국어로 상호작용형 피드백을 제공합니다.
로딩 중...
  • 언어 표현이 어려운 사람들을 지원하는 데 활용할 수 있습니다. 예를 들어, 발화에 영향을 주는 질환이 있는 분들을 위한 치료 목적의 활용이나, 학습 지원이 필요한 이들을 위한 교육적 보완이 이에 해당합니다. AI 기반 대체 의사소통 앱인 Livox(새 창에서 열기)는 장애인이 의사소통할 수 있도록 돕는 보완·대체 의사소통(AAC) 기기를 지원합니다. Voice Engine을 통해, 언어 표현이 어려운 사용자에게 여러 언어로 자연스럽고 개성 있는 음성을 제공할 수 있습니다. 사용자는 자신을 가장 잘 표현하는 음성을 선택할 수 있으며, 다국어 사용자의 경우 여러 언어에서 동일한 음성을 유지할 수 있습니다.
로딩 중...
  • 갑작스럽거나 퇴행성 언어 장애를 겪는 환자들이 음성을 회복하도록 지원합니다. 브라운대학교 의과대학의 주요 교육 협력 기관인 비영리 의료 시스템 Lifespan(새 창에서 열기) 산하 Norman Prince Neurosciences Institute는 임상 환경에서의 AI 활용 가능성을 연구하고 있습니다. 이 기관은 종양학적 또는 신경학적 원인으로 언어 장애를 겪는 환자들을 대상으로 Voice Engine을 제공하는 시범 프로그램을 운영해 왔습니다. Voice Engine은 매우 짧은 오디오 샘플만으로도 작동하기 때문에, Fatima Mirza, Rohaid Ali, Konstantina Svokos 박사는 학교 과제로 촬영한 영상의 음성을 활용해 혈관성 뇌종양으로 유창한 발화를 잃은 한 어린 환자의 음성을 복원할 수 있었습니다.
로딩 중...

Voice Engine 안전하게 구축하기

특정 인물의 음성과 유사한 음성을 생성하는 기술에는 심각한 위험이 따르며, 특히 선거가 있는 해에는 이러한 우려가 더욱 크게 인식됩니다. 이에 따라 우리는 정부, 미디어, 엔터테인먼트, 교육, 시민사회 등 미국 및 국제 파트너들과 협력하며, 개발 과정에 이들의 의견을 적극 반영하고 있습니다. 현재 Voice Engine을 테스트 중인 파트너들은 동의나 법적 권한 없이 타인이나 조직을 사칭하는 행위를 금지하는 사용 정책에 동의했습니다. 또한 파트너와의 계약 조건에 따라 원 화자의 명시적이고 충분한 동의를 반드시 받아야 하며, 개별 사용자가 자신의 음성을 직접 생성할 수 있는 기능을 개발자가 구현하는 것은 허용하지 않습니다. 파트너는 청중에게 해당 음성이 AI로 생성되었음을 명확히 고지해야 합니다. 또한 Voice Engine으로 생성된 모든 오디오의 출처를 추적할 수 있도록 워터마킹을 적용하고, 사용 방식을 선제적으로 모니터링하는 등 다양한 안전 조치를 도입했습니다. 우리는 합성 음성 기술을 광범위하게 배포할 경우, 원 화자가 자신의 음성을 해당 서비스에 자발적으로 제공했는지를 확인하는 음성 인증 절차와, 유명 인물과 지나치게 유사한 음성의 생성을 감지하고 차단하는 ‘금지 음성 목록’이 함께 마련되어야 한다고 믿습니다.

향후 과제

Voice Engine은 기술적 프런티어를 이해하고 AI로 무엇이 가능해지고 있는지 공개적으로 공유하겠다는 우리의 약속을 이어가는 노력입니다. AI 안전에 대한 우리의 접근 방식자발적 약속에 따라, 현재로서는 이 기술을 미리보기 형태로만 공개하고 광범위하게 출시하지는 않기로 결정했습니다. 이번 Voice Engine 미리보기를 통해 이 기술의 가능성을 보여주는 한편, 점점 더 정교해지는 생성형 모델이 가져올 사회적 과제에 대비해야 한다는 점도 함께 생각해보는 계기가 되기를 바랍니다. 구체적으로, 다음과 같은 조치를 권장합니다.

  • 은행 계좌 및 기타 민감한 정보에 접근하기 위한 보안 수단으로서 음성 기반 인증을 단계적으로 중단하기
  • AI에서 개인의 음성 사용을 보호하기 위한 정책 검토
  • 기만적인 AI 콘텐츠의 가능성을 포함하여, AI 기술의 역량과 한계를 이해하도록 대중 교육하기
  • 시청각 콘텐츠의 출처를 추적하는 기술의 개발 및 도입을 가속화하여, 실제 사람과 상호작용하는지 AI와 상호작용하는지 항상 명확히 알 수 있도록 하기

이 기술을 우리가 최종적으로 광범위하게 배포하든 그렇지 않든, 전 세계 사람들이 이 기술이 어디로 향하고 있는지 이해하는 것이 중요합니다. 정책 입안자, 연구자, 개발자, 창작자들과 함께 합성 음성이 지닌 과제와 기회에 대해 지속적으로 논의해 나가기를 기대합니다.