25 de septiembre de 2023

ChatGPT ahora puede ver, oír y hablar

Hemos empezado a desplegar nuevas funciones de voz e imagen en ChatGPT. Estas ofrecen un tipo de interfaz nuevo y más intuitivo al permitir que mantengas una conversación de voz o que muestres a ChatGPT de qué estás hablando.

Tanto la voz como la imagen te ofrecen más formas de usar ChatGPT en tu día a día. Sácale una foto a un lugar emblemático mientras viajas y mantén una conversación en tiempo real sobre qué es lo que encuentras interesante sobre este. Cuando estés en casa, sácale fotos a tu nevera y a tu despensa para saber qué tienes para cenar (y haz preguntas de seguimiento para acceder a una receta paso a paso). Después de cenar, ayuda a tu hijo con su problema de matemáticas. Solo hay que sacar una foto, rodear el problema y hacer que ChatGPT comparta pistas contigo y tu hijo.

En las próximas dos semanas, los usuarios de Plus y Enterprise podrán disfrutar de las funciones de voz e imagen de ChatGPT. La función de voz llegará a iOS y a Android (la opción de activarla estará en tus ajustes), y la de imágenes estará disponible en todas las plataformas.

Habla con ChatGPT y haz que te responda

Ahora, podrás usar la voz para entablar una conversación con tu asistente. Habla con este sobre la marcha, pídele que le cuente un cuento para dormir a tu familia o haz que te ayude a resolver un debate en la mesa.

Usa la voz para entablar una conversación en directo con tu asistente.

Para empezar con la función de voz, ve a Settings (Ajustes) → New Features (Nuevas funciones) en la aplicación móvil y activa las conversaciones de voz. Después, toca el botón del auricular que se encuentra en la esquina superior derecha de la pantalla de inicio y selecciona tu voz preferida de entre las cinco diferentes que hay a tu disposición.

La nueva función de voz está basada en un nuevo modelo de conversión de texto a voz que es capaz de generar un sonido similar al de un humano a partir de texto y de unos segundos de voz de muestra. Hemos colaborado con actores de doblaje profesionales para crear cada una de las voces. Además, utilizamos Whisper, nuestro sistema de reconocimiento de voz de código abierto, para transcribir a texto las palabras que pronuncies.

Cargando...

Charla sobre imágenes

Ahora, puedes mostrarle a ChatGPT una o varias imágenes. Averigua por qué tu parrilla no se enciende, explora el contenido de tu nevera para planificar una comida o analiza un gráfico complejo para obtener datos relacionados con tu trabajo. Para centrarte en una parte específica de la imagen, puedes usar la herramienta de dibujo de nuestra aplicación para móvil.

Muestra a ChatGPT una o varias imágenes.

Para empezar, toca el botón de foto para capturar o elegir una imagen. Si utilizas iOS o Android, primero toca el botón más. También podrás hablar sobre varias imágenes o usar nuestra herramienta de dibujo para guiar a tu asistente.

Para entender las imágenes, se utilizan los modelos multimodales GPT‑3.5 y GPT‑4. Estos modelos aplican sus habilidades de razonamiento lingüístico a una amplia variedad de imágenes, como fotografías, capturas de pantalla y documentos que contienen tanto texto como imágenes.

Estamos desplegando las funciones de imagen y voz gradualmente

El objetivo de OpenAI es construir una IAG segura y beneficiosa. Por ello, queremos poner nuestras herramientas a vuestra disposición de forma gradual. De esta forma, podemos introducir mejoras y perfeccionar la mitigación de riesgos con el paso del tiempo mientras preparamos a todo el mundo para los sistemas más potentes que vendrán en el futuro. Esta estrategia es incluso más importante con los modelos avanzados que implican voz y visión.

Voz

La nueva tecnología de voz, capaz de crear voces sintéticas realistas a partir de unos pocos segundos de habla real, le abre las puertas a muchas aplicaciones creativas y centradas en la accesibilidad. No obstante, estas funciones también cuentan con riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraudes.

Por ello, usamos esta tecnología para un caso de uso específico: el chat de voz. Hemos creado el chat de voz con actores de doblaje con los que hemos trabajado en contacto directo. Además, colaboramos de manera similar con otras personas y entidades. Por ejemplo, Spotify usa el poder de esta tecnología para el piloto de su función Voice Translation⁠(se abre en una ventana nueva), que ayuda a los podcasteros a ampliar el alcance de sus historias al traducir los pódcast a otros idiomas con su propia voz.

Entrada de imágenes

Los modelos basados en la visión plantean también nuevos retos que van desde las alucinaciones sobre las personas hasta depositar una excesiva confianza en la interpretación de las imágenes por parte del modelo en dominios de alto riesgo. Así que, antes de generalizar su despliegue, hemos probado el modelo con miembros del equipo rojo de riesgo en ámbitos como el extremismo y la habilidad científica, así como con un conjunto de diversos testers alfa. Nuestra investigación nos ha permitido centrarnos en algunos detalles clave para garantizar un uso responsable.

Hacemos que la visión sea tanto útil como segura

Como ocurre con otras funciones de ChatGPT, la intención de la visión es ayudarte en tu día a día, y puede hacerlo mejor si ve lo que tú ves.

Este enfoque se ha basado directamente en nuestro trabajo con Be My Eyes, una aplicación de móvil gratuita para personas ciegas o con baja visión, para entender sus usos y limitaciones. Los usuarios nos han contado que les resulta muy útil mantener conversaciones generales sobre imágenes que tienen personas en el fondo. Por ejemplo, si en la televisión aparece alguien mientras intentas averiguar cómo utilizar el mando a distancia.

Así mismo, hemos tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT para analizar y hacer afirmaciones directas sobre las personas, puesto que ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de cada individuo.

Su uso en el mundo real y los comentarios nos ayudarán a mejorar todavía más estas medidas de seguridad sin que la herramienta pierda su utilidad.

Transparencia sobre las limitaciones del modelo

Puede que los usuarios dependan de ChatGPT para temas especializados, como en campos como la investigación. Por lo tanto, somos transparentes sobre las limitaciones del modelo y desaconsejamos su uso en los casos de mayor riesgo sin contar con una verificación adecuada. De hecho, el modelo es capaz de transcribir textos en inglés con una gran habilidad, pero no funciona debidamente con otros idiomas. Sobre todo, con aquellos que no usan el alfabeto latino. Por esto, aconsejamos a los usuarios que no hablan inglés que no usen ChatGPT para este fin.

Puedes informarte más sobre nuestro enfoque sobre la seguridad y nuestro trabajo con Be My Eyes en la tarjeta de sistema de la entrada de imágenes⁠.

Ampliaremos el acceso

Los usuarios Plus y Enterprise podrán utilizar las funciones de voz e imagen en las próximas dos semanas. Esperamos desplegar estas funciones para otros grupos de usuarios, incluidos los desarrolladores, poco después.

Autoría

OpenAI

Agradecimientos

Investigación principal del modelo de voz

Alec Radford, Tao Xu y Jong Wook Kim

Investigación principal del despliegue de la función de visión

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang y Sandhini Agarwal

Ver el trabajo técnico y los autores de GPT-4V(ision)⁠