29 tháng 3, 2024

Điều hướng những thách thức và cơ hội của giọng nói tổng hợp

Chúng tôi chia sẻ bài học từ bản xem trước quy mô nhỏ của Voice Engine, một mô hình để tạo giọng nói tùy chỉnh.

Đang tải…

OpenAI cam kết phát triển AI an toàn và mang lại lợi ích rộng rãi⁠. Hôm nay, chúng tôi chia sẻ những thông tin chi tiết và kết quả sơ bộ từ một bản xem trước quy mô nhỏ của một mô hình có tên Voice Engine, sử dụng đầu vào văn bản và một mẫu âm thanh 15-second duy nhất để tạo ra giọng nói nghe tự nhiên, giống sát với người nói ban đầu. Điều đáng chú ý là một mô hình nhỏ với chỉ một đoạn âm thanh mẫu 15 giây có thể tạo ra giọng nói giàu cảm xúc và chân thực.

Chúng tôi lần đầu tiên phát triển Voice Engine vào cuối năm 2022 và đã sử dụng nó để cung cấp năng lượng cho các giọng nói được thiết lập sẵn có trong API chuyển văn bản thành giọng nói⁠(mở trong cửa sổ mới) cũng như ChatGPT Voice và Read Aloud⁠. Đồng thời, chúng tôi đang áp dụng cách tiếp cận thận trọng và có hiểu biết đối với việc phát hành rộng rãi hơn do tiềm năng lạm dụng giọng nói tổng hợp. Chúng tôi hy vọng sẽ khởi động một cuộc đối thoại về việc triển khai giọng nói tổng hợp một cách có trách nhiệm, và cách xã hội có thể thích ứng với những khả năng mới này. Dựa trên những cuộc thảo luận này và kết quả của các thử nghiệm quy mô nhỏ, chúng tôi sẽ đưa ra quyết định sáng suốt hơn về việc có nên và làm thế nào để triển khai công nghệ này trên quy mô lớn.

Các ứng dụng ban đầu của Voice Engine

Để hiểu rõ hơn về các ứng dụng tiềm năng của công nghệ này, cuối năm ngoái, chúng tôi đã bắt đầu thử nghiệm riêng với một nhóm nhỏ các đối tác đáng tin cậy. Chúng tôi rất ấn tượng với các ứng dụng mà nhóm này đã phát triển. Những triển khai quy mô nhỏ này đang giúp cung cấp thông tin về cách tiếp cận, biện pháp bảo vệ và suy nghĩ của chúng tôi về cách Voice Engine có thể được sử dụng tốt trong các ngành công nghiệp khác nhau. Một vài ví dụ ban đầu bao gồm:

Cung cấp hỗ trợ đọc cho người không biết đọc và trẻ em thông qua giọng nói tự nhiên, giàu cảm xúc, đại diện cho nhiều giọng nói khác nhau hơn so với các giọng nói được cài đặt sẵn. Age of Learning⁠(mở trong cửa sổ mới), một công ty công nghệ giáo dục chuyên về thành công học tập của trẻ em, đã sử dụng công nghệ này để tạo ra nội dung lồng tiếng được soạn sẵn. Họ cũng sử dụng Voice Engine và GPT‑4 để tạo ra các phản hồi cá nhân hóa, theo thời gian thực nhằm tương tác với học sinh. Với công nghệ này, Age of Learning đã có thể tạo ra nhiều nội dung hơn cho nhiều đối tượng hơn.

Dịch thuật nội dung, như video và podcast, để người sáng tạo nội dung và doanh nghiệp có thể tiếp cận nhiều người hơn trên toàn thế giới, một cách trôi chảy và bằng chính giọng điệu của họ. Một trong những đơn vị tiên phong áp dụng công nghệ này là HeyGen⁠(mở trong cửa sổ mới), một nền tảng kể chuyện bằng trí tuệ nhân tạo (AI) chuyên hợp tác với các khách hàng doanh nghiệp để tạo ra các avatar tùy chỉnh, có ngoại hình giống con người, phục vụ cho nhiều loại nội dung khác nhau, từ tiếp thị sản phẩm đến các buổi demo bán hàng. Họ sử dụng Voice Engine để dịch video, nhờ đó họ có thể dịch giọng nói của người nói sang nhiều ngôn ngữ và tiếp cận khán giả toàn cầu. Khi được sử dụng để dịch, Voice Engine giữ nguyên giọng bản địa của người nói gốc: ví dụ tạo tiếng Anh với mẫu âm thanh từ người nói tiếng Pháp sẽ tạo ra giọng nói với giọng Pháp.

Đang tải...

Tiếp cận cộng đồng toàn cầu bằng cách cải thiện việc cung cấp các dịch vụ thiết yếu ở những vùng sâu vùng xa. Dimagi⁠(mở trong cửa sổ mới) đang xây dựng các công cụ cho nhân viên cộng đồng Sức Khỏe để cung cấp nhiều dịch vụ thiết yếu, chẳng hạn như tư vấn cho các bà mẹ đang cho con bú. Để giúp những người lao động này phát triển kỹ năng, Dimagi sử dụng Voice Engine và GPT‑4 để cung cấp phản hồi tương tác bằng ngôn ngữ chính của mỗi người lao động, bao gồm tiếng Swahili hoặc các ngôn ngữ không chính thức hơn như Sheng, một ngôn ngữ pha trộn phổ biến ở Kenya.

Đang tải...

Hỗ trợ những người không thể giao tiếp bằng lời nói, chẳng hạn như các ứng dụng trị liệu cho những cá nhân mắc các tình trạng ảnh hưởng đến lời nói và các cải tiến giáo dục cho những người có nhu cầu học tập. Livox⁠(mở trong cửa sổ mới), một ứng dụng giao tiếp thay thế AI, cung cấp năng lượng cho các thiết bị Giao tiếp Tăng cường và Thay thế (AAC) cho phép người khuyết tật giao tiếp. Bằng cách sử dụng Voice Engine, họ có thể cung cấp cho những người không thể nói được những giọng nói độc đáo và không mang tính máy móc bằng nhiều ngôn ngữ. Người dùng của họ có thể chọn giọng nói thể hiện họ tốt nhất và, đối với người dùng đa ngôn ngữ, duy trì giọng nói nhất quán trong từng ngôn ngữ được nói.

Đang tải...

Giúp bệnh nhân phục hồi giọng nói, dành cho những người đang gặp các tình trạng rối loạn lời nói đột ngột hoặc thoái hóa. Viện Khoa học Thần kinh Norman Prince tại Lifespan⁠(mở trong cửa sổ mới), một hệ thống Sức Khỏe phi lợi nhuận đóng vai trò là đối tác giảng dạy chính của trường y thuộc Đại học Brown, đang nghiên cứu việc sử dụng trí tuệ nhân tạo (AI) trong bối cảnh lâm sàng. Họ đã thử nghiệm một chương trình cung cấp Voice Engine cho những người có nguyên nhân ung thư hoặc thần kinh về suy giảm khả năng nói. Vì Voice Engine chỉ cần một đoạn âm thanh ngắn, các bác sĩ Fatima Mirza, Rohaid Ali và Konstantina Svokos đã có thể khôi phục giọng nói của một bệnh nhân trẻ bị mất khả năng nói lưu loát do u mạch máu não, bằng cách sử dụng âm thanh từ một video được ghi lại cho một dự án trường học.

Đang tải...

Xây dựng Voice Engine an toàn

Chúng tôi nhận ra rằng việc tạo ra lời nói giống với tiếng nói của mọi người có những rủi ro nghiêm trọng, đặc biệt là điều quan trọng nhất trong một năm bầu cử. Chúng tôi đang hợp tác với các đối tác tại Hoa Kỳ và quốc tế từ khắp các lĩnh vực chính phủ, truyền thông, giải trí, giáo dục, xã hội dân sự và hơn thế nữa để đảm bảo chúng tôi đang kết hợp phản hồi của họ khi chúng tôi xây dựng. Các đối tác đang thử nghiệm Voice Engine hôm nay đã đồng ý với chính sách sử dụng⁠ của chúng tôi, trong đó nghiêm cấm việc mạo danh một cá nhân hoặc tổ chức khác khi chưa có sự đồng ý hoặc quyền hợp pháp. Ngoài ra, các điều khoản của chúng tôi với các đối tác này yêu cầu sự đồng ý rõ ràng và có hiểu biết từ người nói ban đầu và chúng tôi không cho phép các nhà phát triển xây dựng các cách để từng người dùng tạo ra giọng nói của riêng họ. Các đối tác cũng phải tiết lộ rõ ràng với khán giả của họ rằng giọng nói họ đang nghe được tạo ra bởi AI. Cuối cùng, chúng tôi đã triển khai một loạt các biện pháp an toàn, bao gồm cả việc đóng dấu bản quyền để truy tìm nguồn gốc của bất kỳ âm thanh nào được tạo ra bởi Voice Engine, cũng như giám sát chủ động cách thức sử dụng nó. Chúng tôi tin rằng bất kỳ việc triển khai rộng rãi công nghệ giọng nói tổng hợp nào cũng cần đi kèm với các trải nghiệm xác thực giọng nói để kiểm tra xem người nói ban đầu có chủ ý thêm giọng nói của họ vào dịch vụ hay không, và một danh sách cấm các giọng nói quá giống với những nhân vật nổi tiếng.

Hướng tới tương lai

Voice Engine là sự tiếp nối cam kết của chúng tôi nhằm hiểu rõ tiên phong kỹ thuật và chia sẻ công khai những gì đang trở nên khả thi với AI. Phù hợp với cách tiếp cận của chúng tôi về an toàn AI⁠ và các cam kết tự nguyện⁠ của chúng tôi, chúng tôi lựa chọn cho xem trước nhưng chưa phát hành rộng rãi công nghệ này vào thời điểm hiện tại. Chúng tôi hy vọng bản xem trước Voice Engine này sẽ vừa làm nổi bật tiềm năng của nó, vừa thúc đẩy nhu cầu tăng cường khả năng phục hồi của xã hội trước những thách thức do các mô hình tạo sinh ngày càng thuyết phục mang lại. Cụ thể, chúng tôi khuyến khích các bước như sau:

Loại bỏ xác thực dựa trên giọng nói như một biện pháp bảo mật để truy cập tài khoản ngân hàng và thông tin nhạy cảm khác
Khám phá các chính sách để bảo vệ việc sử dụng tiếng nói của cá nhân trong AI
Giáo dục công chúng hiểu về khả năng và hạn chế của công nghệ AI, bao gồm khả năng nội dung AI lừa đảo
Đẩy nhanh quá trình phát triển và áp dụng các kỹ thuật theo dõi nguồn gốc của nội dung nghe nhìn, vì vậy luôn rõ ràng khi bạn đang tương tác với người thực hoặc với AI

Điều quan trọng là mọi người trên khắp thế giới hiểu được công nghệ này đang hướng tới đâu, cho dù cuối cùng chúng ta có triển khai nó rộng rãi hay không. Chúng tôi mong muốn tiếp tục tham gia vào các cuộc trò chuyện xung quanh những thách thức và cơ hội của tiếng nói tổng hợp với các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển và những người sáng tạo.

Các bài viết liên quan

Xem tất cả

Video generation models as world simulators

Ấn phẩm15 thg 2, 2024

Building an early warning system for LLM-aided biological threat creation

Ấn phẩm31 thg 1, 2024

Weak-to-strong generalization

An toàn14 thg 12, 2023