29 marca 2024

Wśród wyzwań i szans związanych z głosami syntetycznymi

Przedstawiamy wnioski płynące z niewielkiego wdrożenia wersji poglądowej Voice Engine, modelu umożliwiającego tworzenie niestandardowych głosów.

Ładowanie…

OpenAI dąży do rozwijania bezpiecznej sztucznej inteligencji zapewniającej powszechne korzyści⁠. Dzisiaj przedstawiamy wstępne wnioski i wyniki niewielkiego wdrożenia poglądowej wersji modelu o nazwie Voice Engine, który przy użyciu tekstowych danych wejściowych i jednej 15-sekundowej próbki dźwięku generuje naturalnie brzmiącą mowę bardzo przypominającą głos oryginalnego mówcy. Warto zauważyć, że niewielki model dysponujący jedną 15-sekundową próbką potrafi tworzyć realistyczne głosy wyrażające emocje.

Pierwszą wersję modelu Voice Engine opracowaliśmy pod koniec 2022 roku i wykorzystaliśmy ją jako podstawę głosów dostępnych w interfejsie API zamiany tekstu na mowę⁠(otwiera nowe okno), a także w ChatGPT Voice i Read Aloud⁠. Jednocześnie stosujemy ostrożne i świadome podejście do szerszego udostępniania tego modelu ze względu na możliwość nadużyć syntetycznych głosów. Pragniemy rozpocząć dialog na temat odpowiedzialnego wdrażania syntetycznych głosów oraz tego, jak społeczeństwo może się przystosować do związanych z nimi nowych możliwości. Na podstawie przeprowadzonych rozmów i wyników wspomnianych niewielkich testów podejmiemy bardziej świadomą decyzję dotyczącą tego, czy i w jaki sposób wdrożyć tę technologię na dużą skalę.

Pierwsze zastosowania modelu Voice Engine

Aby lepiej zrozumieć potencjalne zastosowania tej technologii, pod koniec ubiegłego roku rozpoczęliśmy jej prywatne testy z udziałem niewielkiej grupy zaufanych partnerów. Jesteśmy pod wrażeniem opracowanych przez nich aplikacji. Te wdrożenia na małą skalę pomagają nam w kształtowaniu podejścia, zabezpieczeń oraz sposobu myślenia o tym, jak model Voice Engine mógłby być wykorzystywany w dobrych celach w różnych branżach. Oto kilka wczesnych przykładów:

Wsparcie w czytaniu dla osób nieumiejących czytać i dzieci dzięki udostępnieniu naturalnie brzmiących, pełnych emocji głosów reprezentujących szerszy zakres mówców, niż jest to możliwe w przypadku głosów gotowych. Age of Learning⁠(otwiera nowe okno), firma z branży technologii edukacyjnych, której misją jest pomaganie dzieciom w osiąganiu sukcesów w nauce, właśnie w ten sposób generuje treści lektorskie na podstawie gotowych skryptów. Używa również modeli Voice Engine i GPT‑4 do tworzenia spersonalizowanych odpowiedzi w czasie rzeczywistym na potrzeby interakcji z uczniami. Dzięki tej technologii Age of Learning jest w stanie tworzyć więcej treści dla szerszego grona odbiorców.

Tłumaczenie treści, takich jak filmy i podcasty, aby twórcy i firmy mogły docierać do szerszego grona odbiorców na całym świecie z wykorzystaniem płynnego głosu odpowiadającego ich indywidualnym potrzebom. Jako jedna z pierwszych technologię tę wdrożyła platforma HeyGen⁠(otwiera nowe okno), działająca w branży wizualnego opowiadania historii z użyciem AI, która we współpracy z klientami korporacyjnymi tworzy niestandardowe, realistyczne awatary przypominające ludzi na potrzeby różnorodnych treści – od marketingu produktów po prezentacje sprzedażowe. Platforma wykorzystuje Voice Engine do tłumaczenia treści wideo, przekładając głos mówców na różne języki w celu dotarcia do globalnej widowni. Gdy model Voice Engine jest używany do tłumaczenia, zachowuje rodzimy akcent oryginalnego mówcy: jeśli na przykład generowana jest wersja angielska na podstawie próbki audio pochodzącej od mówcy francuskojęzycznego, w uzyskanym głosie będzie słyszalny francuski akcent.

Ładowanie…

Docieranie do globalnych społeczności dzięki sprawniejszemu świadczeniu istotnych usług w odległych miejscach. Firma Dimagi⁠(otwiera nowe okno) tworzy narzędzia dla lokalnych pracowników ochrony zdrowia, które pomagają im w świadczeniu różnych niezbędnych usług, takich jak doradztwo dla matek karmiących piersią. Aby ułatwić tym osobom rozwój umiejętności, Dimagi przy użyciu Voice Engine i GPT‑4 dostarcza interaktywnych informacji zwrotnych w podstawowym języku każdego pracownika, w tym w suahili czy językach mniej formalnych, takich jak sheng, czyli popularny w Kenii język z mieszaniem kodów.

Ładowanie…

Wsparcie dla osób niemówiących, na przykład w postaci aplikacji terapeutycznych przeznaczonych dla osób z zaburzeniami wpływającymi na mowę oraz udoskonaleń edukacyjnych dla osób ze specjalnymi potrzebami w tym zakresie. Livox⁠(otwiera nowe okno), aplikacja do komunikacji alternatywnej oparta na AI, jest wykorzystywana w urządzeniach do komunikacji wspomagającej i alternatywnej, które umożliwiają komunikowanie się osobom z niepełnosprawnościami. Dzięki zastosowaniu modelu Voice Engine aplikacja może udostępniać osobom niemówiącym unikatowe głosy w różnych językach, które nie brzmią jak robot. Użytkownik może wybrać głos, który najlepiej go reprezentuje, a jeśli jest osobą wielojęzyczną – zachować spójny głos w każdym języku, którym się posługuje.

Ładowanie…

Pomoc w odzyskaniu głosu przez osoby cierpiące na nagłe lub postępujące schorzenia mowy. Norman Prince Neurosciences Institute w Lifespan⁠(otwiera nowe okno), systemie zdrowotnym non-profit, który pełni funkcję głównego partnera dydaktycznego akademii medycznej na Brown University, bada zastosowania sztucznej inteligencji w kontekście klinicznym. Placówka realizuje program pilotażowy, w ramach którego model Voice Engine jest oferowany osobom z zaburzeniami mowy o podłożu onkologicznym lub neurologicznym. Ponieważ Voice Engine wymaga tak krótkiej próbki dźwięku, lekarze Fatima Mirza, Rohaid Ali i Konstantina Svokos byli w stanie przywrócić głos młodej pacjentce, która utraciła możliwość płynnego mówienia z powodu guza naczyń mózgowych, wykorzystując dźwięk z filmu nagranego na potrzeby projektu szkolnego.

Ładowanie…

Bezpieczne tworzenie modelu Voice Engine

Zdajemy sobie sprawę, że generowanie mowy przypominającej ludzki głos wiąże się z poważnym ryzykiem, co jest szczególnie istotne w roku wyborczym. Współpracujemy z partnerami z USA i z zagranicy reprezentującymi administrację publiczną, media, przemysł rozrywkowy, branżę edukacyjną, sektor społeczeństwa obywatelskiego i inne obszary, ponieważ zależy nam na uwzględnieniu ich opinii podczas prowadzonych prac. Partnerzy obecnie testujący Voice Engine zaakceptowali nasze zasady użytkowania⁠, które zabraniają podszywania się pod inną osobę lub organizację bez jej zgody albo podstawy prawnej. Ponadto nasze warunki współpracy z tymi partnerami wymagają wyraźnej i świadomej zgody oryginalnego mówcy, a programistom nie wolno tworzyć rozwiązań, które umożliwiałyby poszczególnym użytkownikom generowanie własnych głosów. Ponadto partnerzy muszą jasno informować odbiorców, że słyszany przez nich głos został wygenerowany przez AI. I wreszcie wdrożyliśmy zestaw środków bezpieczeństwa, w tym znakowanie wodne umożliwiające śledzenie pochodzenia każdego dźwięku wygenerowanego przez Voice Engine, a także proaktywne monitorowanie sposobu jego wykorzystania. Uważamy, że ewentualnemu szerokiemu wdrożeniu technologii syntetycznych głosów powinny towarzyszyć funkcje uwierzytelniania głosu, które pozwalają się upewnić, że oryginalny mówca świadomie dodaje swój głos do danej usługi, oraz lista głosów zakazanych, która pozwala wykrywać i blokować tworzenie głosów zbyt podobnych do głosu osób publicznych.

Przyszłość

Voice Engine to kolejny przejaw realizacji naszego zobowiązania do poznawania granic pionierskich technologii i otwartego informowania o możliwościach sztucznej inteligencji. Zgodnie z naszym podejściem do bezpieczeństwa AI⁠ i dobrowolnymi zobowiązaniami⁠ decydujemy się na udostępnienie wersji poglądowej tej technologii, ale na razie bez jej szerokiego udostępniania. Mamy nadzieję, że wersja poglądowa modelu Voice Engine zarówno zaakcentuje jego potencjał, jak i pobudzi potrzebę wzmocnienia odporności społecznej na wyzwania stwarzane przez coraz bardziej przekonujące modele generatywne. W szczególności zachęcamy do podjęcia takich kroków jak:

Wycofanie uwierzytelniania głosowego jako środka bezpieczeństwa podczas uzyskiwania dostępu do kont bankowych i innych poufnych informacji
Zbadanie zasad dotyczących ochrony wykorzystania głosu osób fizycznych w sztucznej inteligencji
Edukowanie społeczeństwa w zakresie możliwości i ograniczeń technologii AI, w tym możliwości tworzenia zwodniczych treści przy użyciu AI
Przyspieszenie opracowywania i wdrażania technik śledzenia źródła treści audiowizualnych, aby zawsze było jasne, czy użytkownik ma kontakt z prawdziwą osobą czy ze sztuczną inteligencją

Ważne jest, aby na całym świecie rozumiano, w jakim kierunku zmierza ta technologia – niezależnie od tego, czy ostatecznie sami zdecydujemy się na jej szerokie wdrożenie czy nie. Z przyjemnością będziemy kontynuować dialog z decydentami, badaczami, programistami oraz twórcami na temat wyzwań i szans związanych z głosami syntetycznymi.

Powiązane artykuły

Wyświetl wszystko

Video generation models as world simulators

Publikacja15 lut 2024

Building an early warning system for LLM-aided biological threat creation

Publikacja31 sty 2024

Weak-to-strong generalization

Bezpieczeństwo14 gru 2023