Herausforderungen und Chancen synthetischer Stimmen meistern
Wir teilen Erkenntnisse aus einer Vorschau im kleinen Maßstab der Voice Engine, einem Modell zur Erstellung benutzerdefinierter Stimmen.
OpenAI hat sich zum Ziel gesetzt, sichere und allgemein nützliche KI zu entwickeln. Heute teilen wir vorläufige Erkenntnisse und Ergebnisse aus einer klein angelegten Vorschau auf ein Modell namens Voice Engine, das Texteingaben und eine einzelne 15-sekündige Audioprobe verwendet, um natürlich klingende Sprache zu erzeugen, die den Originalsprecher:innen sehr ähnlich ist. Es ist bemerkenswert, dass ein kleines Modell mit einer einzigen 15-sekündigen Probe emotive und realistische Stimmen erzeugen kann.
Wir haben Voice Engine erstmals Ende 2022 entwickelt und genutzt, um die in der Text-to-Speech-API(wird in einem neuen Fenster geöffnet) verfügbaren vordefinierten Stimmen sowie ChatGPT Sprachchat und Vorlesen zu betreiben. Gleichzeitig verfolgen wir aufgrund des Potenzials für den Missbrauch synthetischer Stimmen einen vorsichtigen und informierten Ansatz für eine breitere Veröffentlichung. Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz synthetischer Stimmen zu beginnen sowie darüber, wie sich die Gesellschaft an diese neuen Möglichkeiten anpassen kann. Auf Grundlage dieser Gespräche und der Ergebnisse dieser Tests im kleinen Maßstab werden wir eine fundiertere Entscheidung darüber treffen, ob und wie wir diese Technologie in großem Maßstab einsetzen.
Um die potenziellen Einsatzmöglichkeiten dieser Technologie besser zu verstehen, haben wir Ende letzten Jahres damit begonnen, sie privat mit einer kleinen Gruppe vertrauenswürdiger Partner zu testen. Wir sind beeindruckt von den Anwendungen, die diese Gruppe entwickelt hat. Diese Implementierungen im kleinen Maßstab helfen uns, unseren Ansatz, unsere Sicherheitsvorkehrungen und unsere Überlegungen dazu zu schärfen, wie Voice Engine branchenübergreifend zum Wohle aller eingesetzt werden könnte. Einige frühe Beispiele sind:
- Bereitstellung von Leseunterstützung für Nichtleser und Kinder durch natürlich klingende, emotionale Stimmen, die eine größere Bandbreite an Sprechern repräsentieren, als mit voreingestellten Stimmen möglich ist. Age of Learning(wird in einem neuen Fenster geöffnet), ein Bildungstechnologieunternehmen, das sich dem akademischen Erfolg von Kindern verschrieben hat, nutzt dies zur Erstellung vorab geskripteter Voice-over-Inhalte. Sie verwenden außerdem Voice Engine und GPT‑4, um zur Interaktion mit Schüler:innen in Echtzeit personalisierte Antworten zu erstellen. Mit dieser Technologie konnte Age of Learning mehr Inhalte für ein breiteres Publikum erstellen.
- Übersetzung von Inhalten, wie Videos und Podcasts, damit Creator und Unternehmen weltweit mehr Menschen erreichen können – flüssig und in ihren eigenen Stimmen. Einer der Early Adopters hierfür ist HeyGen(wird in einem neuen Fenster geöffnet), eine KI-Plattform für visuelles Storytelling, die mit ihren Unternehmenskunden zusammenarbeitet, um benutzerdefinierte, menschenähnliche Avatare für eine Vielzahl von Inhalten zu erstellen – von Produktmarketing bis hin zu Verkaufsdemos. Sie verwenden Voice Engine für die Videoübersetzung, sodass sie die Stimme eines Sprechers in mehrere Sprachen übersetzen und ein globales Publikum erreichen können. Bei der Verwendung für Übersetzungen bewahrt Voice Engine den nativen Akzent des ursprünglichen Sprechers: Wenn beispielsweise Englisch mit einer Audioprobe eines französischen Sprechers erzeugt wird, entsteht eine Sprache mit französischem Akzent.
- Erreichen globaler Gemeinden, indem die Bereitstellung grundlegender Dienstleistungen in abgelegenen Regionen verbessert wird. Dimagi(wird in einem neuen Fenster geöffnet) entwickelt Tools für Gesundheitshelfer:innen in Gemeinden, damit sie eine Vielzahl grundlegender Dienstleistungen erbringen können, wie z. B. Beratung für stillende Mütter. Um diesen Arbeitskräften zu helfen, ihre Fähigkeiten weiterzuentwickeln, nutzt Dimagi Voice Engine und GPT‑4, um interaktives Feedback in der jeweiligen Primärsprache der Arbeitskräfte zu geben, einschließlich Swahili oder informelleren Sprachen wie Sheng, einer in Kenia verbreiteten Mischsprache.
- Unterstützung für Menschen, die nicht sprechen, z. B. therapeutische Anwendungen für Personen mit Erkrankungen, die die Sprache beeinträchtigen, sowie Bildungsverbesserungen für Menschen mit Lernbedürfnissen. Livox(wird in einem neuen Fenster geöffnet), eine KI-Alternative-Kommunikations-App, unterstützt Geräte für unterstützte Kommunikation (Augmentative & Alternative Communication, AAC), die Menschen mit Behinderungen die Kommunikation ermöglichen. Durch die Nutzung von Voice Engine können sie nicht sprechenden Menschen einzigartige und nicht robotische Stimmen in vielen Sprachen anbieten. Ihre Nutzer:innen können eine Stimme wählen, die sie am besten repräsentiert, und mehrsprachige Nutzer:innen können über jede gesprochene Sprache hinweg einen konsistenten Ton beibehalten.
- Unterstützung von Patienten, ihre Stimme wiederzuerlangen, für diejenigen, die unter plötzlichen oder degenerativen Sprachstörungen leiden. Das Norman Prince Neurosciences Institute bei Lifespan(wird in einem neuen Fenster geöffnet), einem gemeinnützigen Gesundheitssystem, das als primärer Lehrpartner der medizinischen Fakultät der Brown University fungiert, untersucht Einsatzmöglichkeiten von KI in klinischen Kontexten. Sie haben ein Pilotprogramm durchgeführt, das Voice Engine Personen mit onkologischen oder neurologischen Ursachen für eine Sprachbeeinträchtigung anbietet. Da Voice Engine eine so kurze Audioprobe benötigt, konnten die Ärzt:innen Fatima Mirza, Rohaid Ali und Konstantina Svokos die Stimme einer jungen Patientin wiederherstellen, die aufgrund eines vaskulären Hirntumors ihre flüssige Sprache verloren hatte, indem sie Audio aus einem Video verwendeten, das für ein Schulprojekt aufgenommen wurde.
Uns ist bewusst, dass die Erzeugung von Sprache, die den Stimmen von Menschen ähnelt, ernsthafte Risiken birgt, die insbesondere in einem Wahljahr besonders präsent sind. Wir stehen mit US-amerikanischen und internationalen Partnern aus Behörden, Medien, Unterhaltung, Bildung, der Zivilgesellschaft und darüber hinaus im Austausch, um sicherzustellen, dass wir ihr Feedback in unsere Entwicklungsprozesse einbeziehen. Die Partner, die heute Voice Engine testen, haben unseren Nutzungsrichtlinien zugestimmt, die die Nachahmung einer anderen Person oder Organisation ohne Zustimmung oder rechtliche Befugnis untersagen. Darüber hinaus verlangen unsere Vereinbarungen mit diesen Partnern eine explizite und informierte Einwilligung der ursprünglichen Sprecher:innen, und wir erlauben Entwickler:innen nicht, Möglichkeiten zu schaffen, mit denen einzelne Nutzer:innen ihre eigenen Stimmen erstellen können. Partner müssen ihrem Publikum außerdem klar offenlegen, dass die Stimmen, die sie hören, KI-generiert sind. Schließlich haben wir eine Reihe von Sicherheitsmaßnahmen implementiert, darunter Wasserzeichen, um die Herkunft von jeglichem durch Voice Engine generierten Audio nachzuverfolgen, sowie eine proaktive Überwachung der Nutzung. Wir sind der Ansicht, dass jede breit angelegte Einführung synthetischer Sprachtechnologie von Stimmauthentifizierungserlebnissen begleitet werden sollte, die verifizieren, dass die ursprünglichen Sprecher:innen wissentlich ihre Stimme dem Dienst hinzufügen, sowie von einer No-Go-Stimmenliste, die die Erstellung von Stimmen erkennt und verhindert, die prominenten Personen zu ähnlich sind.
Voice Engine ist eine Fortsetzung unseres Engagements, die technischen Grenzen zu verstehen und offen zu teilen, was mit KI möglich wird. Im Einklang mit unserem Ansatz für KI-Sicherheit und unseren freiwilligen Verpflichtungen haben wir uns entschieden, diese Technologie derzeit als Vorschau bereitzustellen, aber nicht breit zu veröffentlichen. Wir hoffen, dass diese Vorschau auf Voice Engine sowohl ihr Potenzial unterstreicht als auch die Notwendigkeit verdeutlicht, die gesellschaftliche Resilienz gegenüber den Herausforderungen zu stärken, die durch immer überzeugendere generative Modelle entstehen. Konkret empfehlen wir Schritte wie:
- Schrittweise Abschaffung der sprachbasierten Authentifizierung als Sicherheitsmaßnahme für den Zugriff auf Bankkonten und andere sensible Informationen
- Erforschung von Richtlinien, um die Nutzung der Stimmen von Einzelpersonen in KI zu schützen
- Aufklärung der Öffentlichkeit über die Fähigkeiten und Grenzen von KI-Technologien, einschließlich der Möglichkeit täuschender KI-Inhalte
- Beschleunigung der Entwicklung und Einführung von Techniken zur Nachverfolgung der Herkunft audiovisueller Inhalte, damit immer klar ist, ob du mit einer echten Person oder einer KI interagierst
Es ist wichtig, dass Menschen auf der ganzen Welt verstehen, wohin sich diese Technologie entwickelt, unabhängig davon, ob wir sie letztendlich selbst in großem Umfang einsetzen oder nicht. Wir freuen uns darauf, den Austausch über die Herausforderungen und Chancen synthetischer Stimmen mit politischen Verantwortlichen, Forschenden, Entwickler:innen und Kreativen fortzusetzen.


