Ahora ChatGPT puede ver, escuchar y hablar

Estamos comenzando a implementar capacidades nuevas de voz e imagen en ChatGPT. Ofrecen un tipo de interfaz nueva y más intuitiva que te permite tener una conversación de voz o mostrarle a ChatGPT de lo que estás hablando.
La voz y la imagen te ofrecen más formas de usar ChatGPT en tu vida. Saca una foto de un monumento mientras viajas y ten una conversación en vivo sobre lo que es interesante sobre esto. Cuando regreses, saca fotos de tu nevera y despensa para averiguar qué hay para cenar (y haz preguntas de seguimiento para obtener una receta paso a paso). Después de la cena, ayuda a tu hijo con un problema de matemáticas al tomar una foto, encerrar en un círculo el conjunto de problemas y pedir que comparta pistas con ambos.
Estaremos implementando voz e imágenes en ChatGPT para usuarios de Plus y Enterprise durante las próximas dos semanas. La función de voz estará disponible para iOS y Android (selecciónala en tus ajustes) mientras que las imágenes lo estarán en todas las plataformas.
Ahora puedes usar voz para participar en una conversación de ida y vuelta con tu asistente. Habla con él cuando estés fuera de casa, pídele un cuento para dormir en familia o resuelve un debate en la mesa.
Usa la función de voz para participar en una conversación de ida y vuelta con tu asistente.
Para comenzar con la función de voz, ve a Settings (Configuración) → New Features (Funciones nuevas) en la aplicación móvil y selecciona conversaciones de voz. Luego, toca el botón de los auriculares que se encuentra en la esquina derecha de la pantalla de inicio y elige tu voz de preferencia entre cinco opciones distintas.
La nueva capacidad de voz es impulsada por un modelo de texto a voz, capaz de generar audio similar al humano a partir de solo texto y algunos segundos de voz de muestra. Colaboramos con actores de voz profesional para crear cada una de las voces. También usamos Whisper, nuestro sistema de reconocimiento de voz de fuente abierta, para transcribir tus palabras habladas a texto.
Ahora puedes mostrar a ChatGPT una o más imágenes. Resuelve porqué tu parrilla no enciende, explora el contenido de tu nevera para planear una comida o analiza un gráfico complejo con datos relacionados con el trabajo. Para centrarte en una parte específica de la imagen, puedes usar la herramienta de dibujo en nuestra aplicación móvil.
Muestra a ChatGPT una o más imágenes.
Para comenzar, toca el botón de foto para capturar o seleccionar una imagen. Si estás en iOS o Android, toca el botón más primero. También puedes analizar varias imágenes o usar nuestra herramienta de dibujo para guiar a tu asistente.
La comprensión de imágenes es impulsada por los modelos multimodales GPT‑3.5 y GPT‑4. Estos modelos aplican sus habilidades de razonamiento de lenguaje a un amplio rango de imágenes, como fotografías, capturas de pantalla y documentos con texto e imágenes.
El objetivo de OpenAI es construir IAG que sea segura y beneficiosa. Consideramos que debemos poner a disposición nuestras herramientas de forma gradual, lo que nos permite hacer mejoras y refinar mitigaciones de riesgos con el tiempo mientras preparamos a todos para sistemas más potentes a futuro. Esta estrategia se vuelve incluso más importante con modelos avanzados que comprenden voz y visión.
La nueva tecnología de voz, capaz de crear voces sintéticas realistas a partir de algunos segundos de discurso real, abre las puertas a muchas aplicaciones creativas y orientadas a la accesibilidad. Sin embargo, estas capacidades también presentan nuevos riesgos, como el potencial de actores maliciosos para hacerse pasar por figuras públicas o cometer fraude.
Por este motivo estamos usando esta tecnología para impulsar un caso de uso específico: chat de voz. El chat de voz se creó con actores de voz con quienes trabajamos directamente. También colaboramos con otras personas de forma similar. Por ejemplo, Spotify está usando el poder de esta tecnología para la prueba piloto de su función Voice Translation(se abre en una nueva ventana) (traducción de voz), que ayuda a los creadores de pódcast a ampliar el alcance de sus narraciones al traducir pódcasts a otros idiomas en sus propias voces.
Los modelos basados en visión también presentan nuevos desafíos, que van desde alucinaciones sobre personas hasta depender de la interpretación de imágenes del modelo en dominios de alto riesgo. Antes de la implementación más amplia, probamos el modelo con miembros del equipo rojo para verificar riesgos en dominios como competencia extremista y científica, y un diverso grupo de probadores de alfa. Nuestra investigación nos permitió la alineación con algunos detalles clave para uso responsable.
Al igual que ocurre con otras funciones de ChatGPT, la visión se trata de brindar ayuda con tu vida cotidiana. Hace lo mejor cuando puede ver lo que ves.
Este enfoque se informó directamente mediante nuestro trabajo con Be My Eyes, una aplicación móvil gratuita para personas ciegas y con problemas de visión, para comprender usos y limitaciones. Los usuarios nos dijeron que les resultó valioso tener conversaciones generales sobre imágenes con personas en el fondo, como si alguien apareciera en la televisión mientras tratas de averiguar los ajustes de tu control remoto.
También tomamos medidas técnicas para limitar significativamente la capacidad de ChatGPT de analizar y hacer afirmaciones directas sobre las personas dado que no siempre es preciso y estos sistemas deberían respetar la privacidad de los individuos.
El uso en el mundo real y los comentarios nos ayudarán a tomar estas salvaguardias incluso mejor mientras mantenemos la utilidad de la herramienta.
Los usuarios podrían depender de ChatGPT para temas especializados, por ejemplo, en campos como la investigación. Somos transparentes sobre las limitaciones del modelo y desalentamos los casos de uso con mayor riesgo sin la verificación adecuada. Asimismo, el modelo es competente al transcribir texto en inglés, pero lo realiza de forma deficiente con otros idiomas, en especial con aquellos con texto no romance. Desaconsejamos a nuestros usuarios que no hablan inglés a usar ChatGPT con este fin.
Puedes leer más sobre nuestro enfoque a la seguridad y nuestro trabajo con Be My Eyes en la tarjeta de sistema para entrada de imágenes.
Los usuarios de Plus y Enterprise experimentarán las funciones de voz e imagen en las próximas dos semanas. Nos entusiasma implementar estas capacidades con otros grupos de usuarios, incluidos desarrolladores, poco después.
Autor
Agradecimientos
Investigación central de modo de voz
Alec Radford, Tao Xu, Jong Wook Kim
Investigación central de implementación de visión
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


