29 marzo 2024

Affrontare le sfide e le opportunità delle voci sintetiche

Condividiamo le lezioni apprese da un'anteprima su piccola scala di Voice Engine, un modello per la creazione di voci personalizzate.

Caricamento in corso...

OpenAI si impegna a sviluppare un’IA sicura e vantaggiosa per tutti⁠. Oggi condividiamo alcune informazioni preliminari e i risultati di un'anteprima su piccola scala di un modello chiamato Voice Engine, che utilizza un input di testo e un singolo campione audio di 15 secondi per generare un discorso dal suono naturale che ricorda da vicino quello dell'oratore originale. È interessante notare che un modello di piccole dimensioni con un singolo campione di 15 secondi è in grado di creare voci emotive e realistiche.

Abbiamo sviluppato Voice Engine per la prima volta alla fine del 2022 e lo abbiamo utilizzato per potenziare le voci predefinite disponibili nell' API text-to-speech⁠(si apre in una nuova finestra) nonché ChatGPT Voice e Read Aloud⁠. Allo stesso tempo, stiamo adottando un approccio cauto e informato nei confronti di un rilascio più ampio, a causa del potenziale abuso delle voci sintetiche. Speriamo di aprire un dialogo sull'uso responsabile delle voci sintetiche e su come la società possa adattarsi a queste nuove funzionalità. Sulla base di queste conversazioni e dei risultati di questi test su piccola scala, prenderemo una decisione più informata sull'opportunità e sulle modalità di implementazione di questa tecnologia su larga scala.

Primi utilizzi di Voice Engine

Per comprendere meglio i potenziali utilizzi di questa tecnologia, alla fine dello scorso anno abbiamo avviato una fase di test privata con un piccolo gruppo di partner fidati. Siamo rimasti impressionati dalle applicazioni sviluppate da questo gruppo. Queste implementazioni su piccola scala ci stanno aiutando a definire il nostro approccio, le misure di sicurezza e il modo in cui Voice Engine potrebbe essere utilizzato in modo positivo in diversi settori. Alcuni esempi iniziali includono:

Fornire assistenza nella lettura a persone che non sanno leggere e ai bambini attraverso voci naturali ed espressive che rappresentano una gamma più ampia di parlanti rispetto a quella possibile con le voci preimpostate. Age of Learning⁠(si apre in una nuova finestra), un'azienda di tecnologia educativa dedicata al successo scolastico dei bambini, ha utilizzato questo per generare contenuti di voice-over pre-scritti. Utilizza inoltre Voice Engine e GPT‑4 per creare risposte personalizzate in tempo reale per interagire con gli studenti. Grazie a questa tecnologia, Age of Learning è stata in grado di creare più contenuti per un pubblico più ampio.

Tradurre contenuti, come video e podcast, in modo che i creatori e le aziende possano raggiungere più persone in tutto il mondo, in modo fluido e con la propria voce. Uno dei primi ad adottare questa tecnologia è HeyGen⁠(si apre in una nuova finestra), una piattaforma di storytelling visivo basata sull'IA che collabora con i propri clienti aziendali per creare avatar personalizzati e simili a esseri umani per una varietà di contenuti, dal marketing dei prodotti alle demo di vendita. Utilizzano Voice Engine per la traduzione dei video, in modo da poter tradurre la voce di un oratore in più lingue e raggiungere un pubblico globale. Quando viene utilizzato per la traduzione, Voice Engine preserva l'accento nativo dell'oratore originale: ad esempio, generando l'inglese con un campione audio di un oratore francese si otterrebbe un discorso con accento francese.

Caricamento in corso…

Raggiungere le comunità globali, migliorando l'erogazione dei servizi essenziali in contesti remoti. Dimagi⁠(si apre in una nuova finestra) sta sviluppando strumenti per gli operatori sanitari delle comunità affinché possano fornire una serie di servizi essenziali, come la consulenza alle madri che allattano al seno. Per aiutare questi operatori a sviluppare le loro competenze, Dimagi utilizza Voice Engine e GPT‑4 per fornire un feedback interattivo nella lingua principale di ciascun operatore, compreso lo swahili o lingue più informali come lo sheng, una lingua mista popolare in Kenya.

Caricamento in corso…

Supporto alle persone con difficoltà di comunicazione verbale, ad esempio applicazioni terapeutiche per individui con patologie che compromettono la capacità di parlare e miglioramenti didattici per coloro che hanno esigenze di apprendimento. Livox⁠(si apre in una nuova finestra), un'app di comunicazione alternativa basata sull'IA, alimenta dispositivi di comunicazione aumentativa e alternativa (AAC) che consentono alle persone con disabilità di comunicare Utilizzando Voice Engine, sono in grado di offrire alle persone non verbali voci uniche e non robotiche in molte lingue. I loro utenti possono scegliere il linguaggio che meglio li rappresenta e, per gli utenti multilingue, mantenere una voce coerente in ogni lingua parlata.

Caricamento in corso…

Aiutiamo i pazienti a recuperare la voce, specialmente se soffrono di disturbi del linguaggio improvvisi o degenerativi. Il Norman Prince Neurosciences Institute di Lifespan⁠(si apre in una nuova finestra), un sistema sanitario senza scopo di lucro che funge da principale affiliato didattico della facoltà di medicina della Brown University, sta studiando gli usi dell'IA in contesti clinici. Hanno avviato un programma pilota che offre Voice Engine a persone con disturbi del linguaggio di origine oncologica o neurologica. Poiché Voice Engine richiede un campione audio molto breve, i medici Fatima Mirza, Rohaid Ali e Konstantina Svokos sono stati in grado di ripristinare la voce di una giovane paziente che aveva perso la fluidità del linguaggio a causa di un tumore cerebrale vascolare, utilizzando l'audio di un video registrato per un progetto scolastico.

Caricamento in corso…

Sviluppare Voice Engine in modo sicuro

Siamo consapevoli che generare un discorso che assomigli alle voci delle persone comporta dei rischi notevoli, che sono particolarmente importanti in un anno elettorale. Stiamo collaborando con partner statunitensi e internazionali provenienti dal mondo della politica, dei media, dell'intrattenimento, dell'istruzione, della società civile e non solo, per assicurarci di incorporare il loro feedback durante lo sviluppo. I partner che stanno testando Voice Engine oggi hanno accettato le nostre politiche di utilizzo⁠, che vietano la sostituzione di identità di un'altra persona o organizzazione senza il consenso o il diritto legale. Inoltre, i nostri accordi con questi partner richiedono il consenso esplicito e informato dell'oratore originale e non consentiamo agli sviluppatori di creare strumenti che permettano ai singoli utenti di creare le proprie voci. I partner devono anche comunicare chiaramente al proprio pubblico che le voci che stanno ascoltando sono generate dall'IA. Infine, abbiamo implementato una serie di misure di sicurezza, tra cui la filigrana per tracciare l'origine di qualsiasi audio generato da Voice Engine, nonché il monitoraggio proattivo del modo in cui viene utilizzato. Riteniamo che qualsiasi implementazione su larga scala della tecnologia della voce sintetica debba essere accompagnata da esperienze di autenticazione vocale che verifichino che il parlante originale stia aggiungendo consapevolmente la propria voce al servizio e da un elenco di voci non consentite che rilevi e impedisca la creazione di voci troppo simili a quelle di personaggi famosi.

Prospettive future

Voice Engine è la continuazione del nostro impegno a comprendere le frontiere tecnologiche e a condividere apertamente ciò che sta diventando possibile grazie all'IA. In linea con il nostro approccio alla sicurezza dell'IA⁠ e con i nostri impegni volontari⁠, abbiamo deciso di presentare in anteprima questa tecnologia, ma di non rilasciarla su larga scala in questo momento. Ci auguriamo che questa anteprima di Voice Engine ne sottolinei il potenziale e motivi la necessità di rafforzare la resilienza della società di fronte alle sfide poste da modelli generativi sempre più convincenti. Nello specifico, incoraggiamo misure quali:

L'eliminazione graduale dell'autenticazione vocale come misura di sicurezza per l'accesso ai conti bancari e ad altre informazioni sensibili
Esplorare politiche per proteggere l'uso delle voci delle persone nell'IA
Educare il pubblico alla comprensione delle capacità e dei limiti delle tecnologie di IA, compresa la possibilità di contenuti IA ingannevoli
Accelerare lo sviluppo e l'adozione di tecniche per tracciare l'origine dei contenuti audiovisivi, in modo che sia sempre chiaro quando si interagisce con una persona reale o con un'IA

È importante che le persone in tutto il mondo comprendano in che direzione si sta muovendo questa tecnologia, indipendentemente dal fatto che alla fine la implementeremo su larga scala o meno. Non vediamo l'ora di continuare a dialogare con politici, ricercatori, sviluppatori e creativi sulle sfide e le opportunità offerte dalle voci sintetiche.

Affrontare le sfide e le opportunità delle voci sintetiche

Primi utilizzi di Voice Engine

Sviluppare Voice Engine in modo sicuro

Prospettive future

Articoli correlati