7 de juny del 2024

Més detalls sobre com funciona Voice Engine i la nostra recerca en seguretat

Explorem la tecnologia que hi ha darrere del nostre model de text a veu.

Pintura abstracta amb una barreja de colors pastel, incloent-hi rosa, taronja, porpra i verd, que recorda un paisatge vibrant.

S'està carregant…

Oferim més informació sobre com funciona Voice Engine i sobre la nostra recerca en seguretat per mantenir tothom al dia dels nostres progressos. Voice Engine és un model capaç de crear veus personalitzades.

És important que la gent de tot el món entengui cap a on va aquesta tecnologia, tant si finalment la despleguem àmpliament nosaltres mateixos com si no. Per això volem explicar com funciona el model, com l’utilitzem per a la recerca i l’educació, i com estem aplicant les nostres mesures de seguretat al seu voltant. Voice Engine encara no està àmpliament disponible.

Com funciona Voice Engine

La capacitat de veu funciona amb un model de text a veu (TTS), capaç de generar àudio semblant al d’una persona a partir només de text i 15 segons de mostra de veu.

El sistema TTS es desenvolupa ajudant el model a entendre els matisos de la parla a partir d’àudio i transcripcions aparellats. El model aprèn a predir els sons més probables que farà un parlant per a una transcripció de text determinada, tenint en compte diferents veus, accents i estils de parla. Després d’això, el model pot generar no només versions parlades del text, sinó també enunciats parlats que reflecteixen com els dirien diferents tipus de parlants.

A partir d’aquí, generar àudio amb el model TTS només requereix una mostra de 15 segons del parlant i el text corresponent. El model no s’ajusta finament per a cap parlant específic; no hi ha cap personalització del model. En lloc d’això, empra un procés de difusió, començant amb soroll aleatori i eliminant-lo progressivament fins a reproduir fidelment com el parlant de la mostra d’àudio de 15 segons articularia el text.

Fa més d’un any que desenvolupem el model

Vam desenvolupar per primer cop Voice Engine a finals de 2022. Des del principi, per avaluar les capacitats i limitacions del nostre model Voice Engine, el vam provar internament amb una combinació de mostres de veu públiques i privades. Aquest prototip intern va ser essencial per a la nostra recerca en alineació i seguretat, va orientar les nostres salvaguardes i continua el nostre compromís d’entendre la frontera tècnica.

És important destacar que aquestes sortides es van reservar per a proves internes, no per entrenar els models que impulsen els nostres productes.

Com a part del nostre marc de desplegament iteratiu, aquest prototip inicial també va tenir un paper valuós a l’hora d’ajudar els responsables polítics a entendre les capacitats dels models de veu sintètica. Per exemple, des de l’estiu passat vam mostrar als responsables polítics mundials del més alt nivell el potencial de la tecnologia i en vam debatre amb ells els riscos associats.

El setembre de 2023⁠, vam utilitzar Voice Engine per impulsar la funcionalitat de mode de veu de ChatGPT. Com que aquestes capacitats també presentaven riscos nous, la vam llançar només per a aquest cas d’ús específic. El mode de veu es va crear únicament a partir de veus reals, seleccionades acuradament⁠ mitjançant un procés detallat que va començar el maig de 2023 i que va implicar actors de veu professionals, agències de talent, directors de càsting i assessors del sector.

El novembre de 2023⁠, vam llançar una senzilla API de TTS⁠(s'obre en una finestra nova) també impulsada per Voice Engine. Vam optar per un altre llançament limitat en què vam treballar amb actors de veu professionals per crear mostres d’àudio de 15 segons que impulsessin cadascuna de les sis veus predefinides de l’API. Els desenvolupadors poden integrar-les als seus llocs web per llegir entrades de blog en veu alta, per exemple.

El març d’aquest any⁠, vam presentar prèviament la capacitat de Voice Engine de crear veus personalitzades amb un petit grup de socis de confiança. Aquesta iniciativa tenia com a objectiu conscienciar sobre les capacitats de les veus sintètiques i donar suport als objectius següents:

Eliminar progressivament l’autenticació basada en la veu com a mesura de seguretat per accedir a comptes bancaris i altra informació sensible
Explorar polítiques per protegir l’ús de les veus de les persones en la IA
Educar el públic perquè entengui les capacitats i limitacions de les tecnologies d’IA, inclosa la possibilitat de contingut d’IA enganyós
Accelerar el desenvolupament i l’adopció de tècniques per rastrejar l’origen del contingut audiovisual, de manera que sempre quedi clar quan interactues amb una persona real o amb una IA

Aquests desplegaments a petita escala també ens ajuden a orientar el nostre enfocament, les salvaguardes i la nostra reflexió sobre com Voice Engine es podria utilitzar per al bé en diversos sectors.

Desenvolupar Voice Engine de manera segura és una prioritat màxima

Continuem col·laborant amb socis dels Estats Units i internacionals de l’àmbit governamental, dels mitjans, de l’entreteniment, de l’educació, de la societat civil i d’altres sectors per assegurar-nos que incorporem els seus comentaris mentre construïm.

Els socis que proven Voice Engine han acceptat polítiques d’ús que prohibeixen la suplantació sense consentiment i exigeixen l’aprovació explícita del parlant original, i també exigeixen que qualsevol veu generada per IA s’identifiqui com a tal davant dels oients. A més, hi ha implantades mesures de seguretat com la marca d’aigua i el monitoratge proactiu⁠ per rastrejar i supervisar l’ús de la tecnologia.

Seguretat futura de les veus sintètiques

Els omnimodels com GPT‑4o, amb capacitats d’àudio natives, permeten noves interaccions que models anteriors com Voice Engine no podien oferir. També reconeixem que la modalitat d’àudio de GPT‑4o introdueix diversos riscos nous, especialment en la generació de veu. Estem sotmetent activament GPT‑4o a red teaming per identificar i abordar tant riscos coneguts com imprevistos en diversos àmbits, com ara la psicologia social, els biaixos i l’equitat, i la desinformació. Estem incorporant múltiples capes de mitigació, com ara refinar els comportaments del model, adaptar sistemes existents basats en text a l’arquitectura de GPT‑4o i desenvolupar nous classificadors.

D’acord amb el nostre enfocament prudent en el llançament de Voice Engine, restringirem les sortides d’àudio de GPT‑4o a una selecció de veus predefinides per al llançament general. Aquestes veus provenen d’actors de veu professionals seleccionats mitjançant un procés de càsting acuradament considerat. Compartirem informació addicional sobre els riscos relacionats amb l’àudio i les mitigacions a la propera fitxa del model de GPT‑4o.

Autor

OpenAI