25 de septiembre de 2023

Ahora ChatGPT puede ver, escuchar y hablar

Estamos comenzando a implementar capacidades nuevas de voz e imagen en ChatGPT. Ofrecen un tipo de interfaz nueva y más intuitiva que te permite tener una conversación de voz o mostrarle a ChatGPT de lo que estás hablando.

La voz y la imagen te ofrecen más formas de usar ChatGPT en tu vida. Saca una foto de un monumento mientras viajas y ten una conversación en vivo sobre lo que es interesante sobre esto. Cuando regreses, saca fotos de tu nevera y despensa para averiguar qué hay para cenar (y haz preguntas de seguimiento para obtener una receta paso a paso). Después de la cena, ayuda a tu hijo con un problema de matemáticas al tomar una foto, encerrar en un círculo el conjunto de problemas y pedir que comparta pistas con ambos.

Estaremos implementando voz e imágenes en ChatGPT para usuarios de Plus y Enterprise durante las próximas dos semanas. La función de voz estará disponible para iOS y Android (selecciónala en tus ajustes) mientras que las imágenes lo estarán en todas las plataformas.

Habla con ChatGPT y haz que te responda

Ahora puedes usar voz para participar en una conversación de ida y vuelta con tu asistente. Habla con él cuando estés fuera de casa, pídele un cuento para dormir en familia o resuelve un debate en la mesa.

Usa la función de voz para participar en una conversación de ida y vuelta con tu asistente.

Para comenzar con la función de voz, ve a Settings (Configuración) → New Features (Funciones nuevas) en la aplicación móvil y selecciona conversaciones de voz. Luego, toca el botón de los auriculares que se encuentra en la esquina derecha de la pantalla de inicio y elige tu voz de preferencia entre cinco opciones distintas.

La nueva capacidad de voz es impulsada por un modelo de texto a voz, capaz de generar audio similar al humano a partir de solo texto y algunos segundos de voz de muestra. Colaboramos con actores de voz profesional para crear cada una de las voces. También usamos Whisper, nuestro sistema de reconocimiento de voz de fuente abierta, para transcribir tus palabras habladas a texto.

Cargando...

Conversa sobre las imágenes

Ahora puedes mostrar a ChatGPT una o más imágenes. Resuelve porqué tu parrilla no enciende, explora el contenido de tu nevera para planear una comida o analiza un gráfico complejo con datos relacionados con el trabajo. Para centrarte en una parte específica de la imagen, puedes usar la herramienta de dibujo en nuestra aplicación móvil.

Muestra a ChatGPT una o más imágenes.

Para comenzar, toca el botón de foto para capturar o seleccionar una imagen. Si estás en iOS o Android, toca el botón más primero. También puedes analizar varias imágenes o usar nuestra herramienta de dibujo para guiar a tu asistente.

La comprensión de imágenes es impulsada por los modelos multimodales GPT‑3.5 y GPT‑4. Estos modelos aplican sus habilidades de razonamiento de lenguaje a un amplio rango de imágenes, como fotografías, capturas de pantalla y documentos con texto e imágenes.

Estamos implementando capacidades de imagen y voz de forma gradual

El objetivo de OpenAI es construir IAG que sea segura y beneficiosa. Consideramos que debemos poner a disposición nuestras herramientas de forma gradual, lo que nos permite hacer mejoras y refinar mitigaciones de riesgos con el tiempo mientras preparamos a todos para sistemas más potentes a futuro. Esta estrategia se vuelve incluso más importante con modelos avanzados que comprenden voz y visión.

Voz

La nueva tecnología de voz, capaz de crear voces sintéticas realistas a partir de algunos segundos de discurso real, abre las puertas a muchas aplicaciones creativas y orientadas a la accesibilidad. Sin embargo, estas capacidades también presentan nuevos riesgos, como el potencial de actores maliciosos para hacerse pasar por figuras públicas o cometer fraude.

Por este motivo estamos usando esta tecnología para impulsar un caso de uso específico: chat de voz. El chat de voz se creó con actores de voz con quienes trabajamos directamente. También colaboramos con otras personas de forma similar. Por ejemplo, Spotify está usando el poder de esta tecnología para la prueba piloto de su función Voice Translation⁠(se abre en una nueva ventana) (traducción de voz), que ayuda a los creadores de pódcast a ampliar el alcance de sus narraciones al traducir pódcasts a otros idiomas en sus propias voces.

Entrada de imagen

Los modelos basados en visión también presentan nuevos desafíos, que van desde alucinaciones sobre personas hasta depender de la interpretación de imágenes del modelo en dominios de alto riesgo. Antes de la implementación más amplia, probamos el modelo con miembros del equipo rojo para verificar riesgos en dominios como competencia extremista y científica, y un diverso grupo de probadores de alfa. Nuestra investigación nos permitió la alineación con algunos detalles clave para uso responsable.

Hacer la visión útil y segura

Al igual que ocurre con otras funciones de ChatGPT, la visión se trata de brindar ayuda con tu vida cotidiana. Hace lo mejor cuando puede ver lo que ves.

Este enfoque se informó directamente mediante nuestro trabajo con Be My Eyes, una aplicación móvil gratuita para personas ciegas y con problemas de visión, para comprender usos y limitaciones. Los usuarios nos dijeron que les resultó valioso tener conversaciones generales sobre imágenes con personas en el fondo, como si alguien apareciera en la televisión mientras tratas de averiguar los ajustes de tu control remoto.

También tomamos medidas técnicas para limitar significativamente la capacidad de ChatGPT de analizar y hacer afirmaciones directas sobre las personas dado que no siempre es preciso y estos sistemas deberían respetar la privacidad de los individuos.

El uso en el mundo real y los comentarios nos ayudarán a tomar estas salvaguardias incluso mejor mientras mantenemos la utilidad de la herramienta.

Transparencia sobre las limitaciones de modelos

Los usuarios podrían depender de ChatGPT para temas especializados, por ejemplo, en campos como la investigación. Somos transparentes sobre las limitaciones del modelo y desalentamos los casos de uso con mayor riesgo sin la verificación adecuada. Asimismo, el modelo es competente al transcribir texto en inglés, pero lo realiza de forma deficiente con otros idiomas, en especial con aquellos con texto no romance. Desaconsejamos a nuestros usuarios que no hablan inglés a usar ChatGPT con este fin.

Puedes leer más sobre nuestro enfoque a la seguridad y nuestro trabajo con Be My Eyes en la tarjeta de sistema para entrada de imágenes⁠.

Ampliaremos el acceso

Los usuarios de Plus y Enterprise experimentarán las funciones de voz e imagen en las próximas dos semanas. Nos entusiasma implementar estas capacidades con otros grupos de usuarios, incluidos desarrolladores, poco después.

Autor

OpenAI

Agradecimientos

Investigación central de modo de voz

Alec Radford, Tao Xu, Jong Wook Kim

Investigación central de implementación de visión

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Ver el trabajo técnico de GPT-4V(ision) y sus autores⁠