Salta al contingut principal
OpenAI

25 de setembre del 2023

Producte

ChatGPT ara pot veure, sentir i parlar

ChatGPT Can Now See Hear And Speak

Estem començant a desplegar noves capacitats de veu i imatge a ChatGPT. Ofereixen un nou tipus d’interfície més intuïtiva, ja que et permeten mantenir una conversa de veu o mostrar a ChatGPT de què estàs parlant.

La veu i la imatge et donen més maneres de fer servir ChatGPT a la teva vida. Fes una foto d’un punt d’interès mentre viatges i mantén una conversa en directe sobre què hi ha d’interessant. Quan siguis a casa, fes fotos de la nevera i el rebost per decidir què sopar (i fes preguntes de seguiment per obtenir una recepta pas a pas). Després de sopar, ajuda el teu fill o la teva filla amb un problema de matemàtiques fent-ne una foto, encerclant el conjunt d’exercicis i fent que comparteixi pistes amb tots dos.

Estem desplegant la veu i les imatges a ChatGPT per als usuaris Plus i Enterprise durant les properes dues setmanes. La veu arribarà a iOS i Android (activació opcional a la configuració) i les imatges estaran disponibles a totes les plataformes.

Parla amb ChatGPT i fes que et respongui

Ara pots fer servir la veu per mantenir una conversa d’anada i tornada amb el teu assistent. Parla-hi mentre et mous, demana un conte per anar a dormir per a la teva família o resol un debat a taula durant el sopar.

Use voice to engage in a back-and-forth conversation with your assistant.

Per començar a fer servir la veu, ves a Configuració → Funcions noves a l’aplicació mòbil i activa les converses de veu. Després, toca el botó dels auriculars situat a la cantonada superior dreta de la pantalla d’inici i tria la veu que prefereixis entre cinc veus diferents.

La nova capacitat de veu funciona amb un nou model de text a veu, capaç de generar àudio semblant a la veu humana només a partir de text i uns quants segons de mostra de parla. Hem col·laborat amb actors de veu professionals per crear cadascuna de les veus. També fem servir Whisper, el nostre sistema de reconeixement de veu de codi obert, per transcriure a text les teves paraules parlades.

S'està carregant...

Parla sobre imatges

Ara pots mostrar a ChatGPT una o més imatges. Resol per què la graella no s’encén, explora el contingut de la nevera per planificar un àpat o analitza un gràfic complex amb dades de feina. Per centrar-te en una part concreta de la imatge, pots fer servir l’eina de dibuix de la nostra aplicació mòbil.

Show ChatGPT one or more images.

Per començar, toca el botó de foto per capturar o triar una imatge. Si fas servir iOS o Android, toca primer el botó de més. També pots comentar diverses imatges o fer servir la nostra eina de dibuix per guiar el teu assistent.

La comprensió d’imatges funciona amb GPT‑3.5 i GPT‑4 multimodals. Aquests models apliquen les seves capacitats de raonament lingüístic a una àmplia varietat d’imatges, com ara fotografies, captures de pantalla i documents que contenen tant text com imatges.

Despleguem les capacitats d’imatge i veu gradualment

L’objectiu d’OpenAI és construir AGI segura i beneficiosa. Creiem a posar les nostres eines a disposició gradualment, cosa que ens permet fer millores i perfeccionar les mitigacions de risc amb el temps, alhora que preparem tothom per a sistemes més potents en el futur. Aquesta estratègia esdevé encara més important amb models avançats que incorporen veu i visió.

Veu

La nova tecnologia de veu, capaç de crear veus sintètiques realistes a partir de només uns segons de parla real, obre la porta a moltes aplicacions creatives i centrades en l’accessibilitat. Tanmateix, aquestes capacitats també presenten nous riscos, com ara la possibilitat que actors maliciosos es facin passar per figures públiques o cometin frau.

Per això estem fent servir aquesta tecnologia per impulsar un cas d’ús concret: el xat de veu. El xat de veu s’ha creat amb actors de veu amb qui hem treballat directament. També estem col·laborant de manera similar amb altres. Per exemple, Spotify fa servir la potència d’aquesta tecnologia per a la prova pilot de la seva funció Voice Translation(s'obre en una finestra nova), que ajuda els podcasters a ampliar l’abast de les seves històries traduint els pòdcasts a altres idiomes amb les pròpies veus dels podcasters.

Entrada d’imatge

Els models basats en visió també presenten nous reptes, que van des d’al·lucinacions sobre persones fins a dependre de la interpretació que fa el model de les imatges en àmbits d’alt risc. Abans d’un desplegament més ampli, vam provar el model amb red teamers per avaluar-ne els riscos en àmbits com l’extremisme i la competència científica, i amb un conjunt divers de provadors alfa. La nostra recerca ens va permetre acordar alguns detalls clau per a un ús responsable.

Fer que la visió sigui útil i segura

Com altres funcions de ChatGPT, la visió serveix per ajudar-te en la teva vida quotidiana. Ho fa millor quan pot veure el que veus tu. 

Aquest enfocament s’ha basat directament en el nostre treball amb Be My Eyes, una aplicació mòbil gratuïta per a persones cegues i amb baixa visió, per entendre’n els usos i les limitacions. Els usuaris ens han dit que els és útil poder mantenir converses generals sobre imatges que casualment contenen persones al fons, com ara si algú apareix a la televisió mentre intentes esbrinar la configuració del comandament a distància.

També hem pres mesures tècniques per limitar significativament la capacitat de ChatGPT d’analitzar i fer afirmacions directes sobre persones, ja que ChatGPT no sempre és precís i aquests sistemes han de respectar la privacitat de les persones.

L’ús en el món real i els comentaris ens ajudaran a millorar encara més aquestes proteccions, mantenint l’eina útil.

Transparència sobre les limitacions del model

Els usuaris poden dependre de ChatGPT per a temes especialitzats, per exemple en àmbits com la recerca. Som transparents sobre les limitacions del model i desaconsellem els casos d’ús de més risc sense una verificació adequada. A més, el model és hàbil transcrivint text en anglès, però funciona malament amb algunes altres llengües, especialment les que fan servir escriptures no romanes. Aconsellem als nostres usuaris no anglòfons que no facin servir ChatGPT amb aquesta finalitat.

Pots llegir més sobre el nostre enfocament de seguretat i el nostre treball amb Be My Eyes a la fitxa del model per a l’entrada d’imatge.

Ampliarem l’accés

Els usuaris Plus i Enterprise podran provar la veu i les imatges durant les properes dues setmanes. Ens fa il·lusió desplegar aquestes capacitats a altres grups d’usuaris, inclosos els desenvolupadors, poc després.

Autor

OpenAI

Agraïments

Recerca principal del mode de veu

Alec Radford, Tao Xu, Jong Wook Kim

Recerca principal del desplegament de visió

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Veure el treball tècnic i els autors de GPT-4V(ision)