Abordarea provocărilor și oportunităților vocilor sintetice
Împărtășim lecții dintr-o previzualizare la scară mică a Voice Engine, un model pentru crearea de voci personalizate.
OpenAI se angajează să dezvolte o inteligență artificială sigură și benefică pe scară largă. Astăzi prezentăm concluziile și rezultatele preliminare ale unei previzualizări la scară redusă a unui model numit Voice Engine, care utilizează introducerea de text și un singur eșantion audio de 15 secunde pentru a genera vorbire naturală, foarte asemănătoare cu cea a vorbitorului original. Este remarcabil faptul că un model mic, cu un singur eșantion de 15 secunde, poate crea voci expresive și realiste.
Am început să dezvoltăm Voice Engine la sfârșitul anului 2022 și l-am folosit de atunci pentru a susține vocile prestabilite disponibile în API-ul pentru transformarea textului în vorbire(se deschide într-o fereastră nouă), precum și ChatGPT Voice și Read Aloud. Însă, abordăm cu prudență și responsabilitate lansarea pe scară largă a acestei funcții, având în vedere riscul de utilizare abuzivă a vocilor sintetice. Sperăm să începem un dialog despre implementarea responsabilă a vocilor sintetice și despre modul în care societatea se poate adapta la aceste noi capacități. Pe baza acestor discuții și a rezultate testelor la scară redusă, vom lua o decizie mai informată cu privire la oportunitatea și modul de implementare a acestei tehnologii la scară largă.
Pentru a înțelege mai bine utilizările potențiale ale acestei tehnologii, la sfârșitul anului trecut am început să o testăm în privat cu un grup restrâns de parteneri de încredere. Am fost impresionați de utilizările pe care acest grup le-a dezvoltat. Aceste implementări la scară mică ne ajută să ne conturăm abordarea, măsurile de protecție și modul de gândire cu privire la felul în care Voice Engine ar putea fi folosit în scopuri benefice în diverse domenii. Iată câteva exemple inițiale:
- Oferirea de asistență la citire persoanelor care nu citesc și copiilor prin intermediul unor voci expresive, cu sunet natural, reprezentând o gamă mai largă de vorbitori decât ceea ce este posibil cu vocile prestabilite. Age of Learning(se deschide într-o fereastră nouă), o companie de tehnologie educațională dedicată performanțelor școlare ale copiilor, utilizează această tehnologie pentru a genera conținut vocal prestabilit. De asemenea, folosesc Voice Engine și GPT‑4 pentru a crea răspunsuri personalizate, în timp real, pentru a interacționa cu elevii. Cu această tehnologie, Age of Learning a reușit să creeze mai mult conținut pentru un public mai larg.
- Traducerea conținutului, precum videoclipuri și podcasturi, astfel încât creatorii și firmele să poată interacționa cu mai multe persoane din întreaga lume, fluent și cu propriile lor voci. Unul dintre primii utilizatori ai acestei tehnologii este HeyGen(se deschide într-o fereastră nouă), o platformă de povestire vizuală bazată pe inteligență artificială, care colaborează cu clienții săi corporativi pentru a crea avataruri personalizate, asemănătoare cu cele umane, pentru o varietate de conținuturi, de la marketingul de produs la demonstrații de vânzări. Aceștia folosesc Voice Engine pentru traducerea video, astfel încât să poată traduce vocea unui vorbitor în mai multe limbi și să se adreseze unui public global. Când este utilizat pentru traducere, Voice Engine păstrează accentul original al vorbitorului: de exemplu, generarea limbii engleze cu un eșantion audio al unui vorbitor de franceză ar produce o vorbire cu accent francez.
- Abordarea comunităților globale, prin îmbunătățirea furnizării de servicii esențiale în medii izolate. Dimagi(se deschide într-o fereastră nouă) dezvoltă instrumente pentru angajații din domeniul sănătății comunitare, pentru a oferi o varietate de servicii esențiale, cum ar fi consilierea mamelor care alăptează. Pentru a ajuta acești angajați sa-și dezvolte abilitățile, Dimagi utilizează Voice Engine și GPT‑4 pentru a oferi feedback interactiv în limba maternă a fiecărui angajat, inclusiv în swahili sau în limbi mai informale, precum sheng, o limbă mixtă populară în Kenya.
- Sprijinirea persoanelor care nu pot comunica verbal, cum ar fi în utilizări terapeutice pentru persoane cu afecțiuni ale vorbirii și îmbunătățiri educaționale pentru cei cu nevoi speciale de învățare. Livox(se deschide într-o fereastră nouă), o aplicație de comunicare alternativă bazată pe inteligență artificială, susține dispozitivele de comunicare augmentativă și alternativă (CAA) care le permit persoanelor cu dizabilități să comunice. Prin utilizarea Voice Engine, le pot oferi persoanelor care nu pot comunica verbal voci unice și non-robotice în multe limbi. Utilizatorii pot alege vocea care îi reprezintă cel mai bine, iar utilizatorii multilingvi pot păstra o voce uniformă pentru fiecare limbă vorbită.
- Ajutăm pacienții să-și recapete vocea, pentru cei care suferă de afecțiuni ale vorbirii apărute brusc sau degenerative. Institutul de Neuroștiințe Norman Prince de la Lifespan(se deschide într-o fereastră nouă), un sistem de sănătate non-profit care servește drept principală filială didactică a facultății de medicină a Universității Brown, explorează utilizările inteligenței artificiale în contexte clinice. A derulat un program pilot care le oferă Voice Engine persoanelor cu afecțiuni oncologice sau neurologice care le afectează capacitatea de vorbire. Deoarece Voice Engine necesită un eșantion audio foarte scurt, dr. Fatima Mirza, dr. Rohaid Ali și dr. Konstantina Svokos au reușit să recupereze vocea unei tinere paciente care și-a pierdut capacitatea de a vorbi fluent din cauza unei tumori cerebrale vasculare, folosind înregistrarea audio dintr-un videoclip realizat pentru un proiect școlar.
Recunoaștem că generarea unei vorbiri care seamănă cu vocea oamenilor prezintă riscuri serioase, care sunt deosebit de importante într-un an electoral. Colaborăm cu parteneri americani și internaționali din guvern, mass-media, divertisment, educație, societatea civilă și nu numai pentru a ne asigura că le includem feedbackul pe măsură ce dezvoltăm. Partenerii care testează astăzi Voice Engine au fost de acord cu politicile noastre de utilizare, care interzic uzurparea identității unei alte persoane sau organizații fără consimțământ sau drept legal. În plus, termenii noștri cu acești parteneri necesită consimțământul explicit și informat din partea vorbitorului inițial și nu le permitem dezvoltatorilor să creeze modalități prin care utilizatorii individuali să-și creeze propriile voci. De asemenea, partenerii trebuie să informeze în mod clar publicul că vocile pe care le aud sunt generate de inteligența artificială. În cele din urmă, am implementat un set de măsuri de siguranță, inclusiv filigrane pentru a urmări originea oricărui fișier audio generat de Voice Engine, precum și monitorizarea proactivă a modului în care este utilizat. Considerăm că orice implementare pe scară largă a tehnologiei de voci sintetice ar trebui să fie însoțită de experiențe de autentificare vocală care să verifice dacă vorbitorul original își adaugă în mod conștient vocea la serviciu și de o listă de voci interzise care detectează și împiedică crearea de voci prea similare cu cele ale unor persoane publice faimoase.
Voice Engine este o continuare a angajamentului nostru de a înțelege frontierele tehnologice și de a împărtăși în mod deschis posibilitățile oferite de inteligența artificială. În conformitate cu abordarea noastră privind siguranța inteligenței artificiale și cu angajamentele noastre voluntare, am decis să oferim o previzualizare a acestei tehnologii, fără a o lansa pe scară largă deocamdată. Sperăm că această previzualizare a Voice Engine îi subliniază potențialul și, totodată, motivează necesitatea de a consolida reziliența societății în fața provocărilor aduse de modele generative din ce în ce mai convingătoare. Mai exact, încurajăm pași precum:
- Eliminarea treptată a autentificării bazate pe voce ca măsură de securitate pentru accesarea conturilor bancare și a altor informații confidențiale
- Explorarea politicilor de protejare a utilizării vocilor persoanelor fizice în inteligența artificială
- Educarea publicului pentru a înțelege capacitățile și limitările tehnologiilor de inteligență artificială, inclusiv posibilitatea existenței conținutului de inteligență artificială înșelător
- Accelerarea dezvoltării și adoptării tehnicilor de urmărire a originii conținutului audiovizual, astfel încât să fie întotdeauna clar când interacționezi cu o persoană reală sau cu o inteligență artificială
Este important ca oamenii din întreaga lume să înțeleagă încotro se îndreaptă această tehnologie, indiferent dacă în cele din urmă o vom implementa pe scară largă sau nu. Așteptăm cu nerăbdare să continuăm să dezbatem provocările și oportunitățile legate de vocile sintetice împreună cu factori de decizie, cercetători, dezvoltatori și specialiști creativi.


