Passer au contenu principal
OpenAI

25 septembre 2023

Produit

ChatGPT peut désormais voir, entendre et parler

ChatGPT peut désormais voir, entendre et parler

Nous avons lancé le déploiement de nouvelles fonctionnalités vocales et visuelles dans ChatGPT. Ces nouvelles fonctionnalités, proposées dans un nouveau type d’interface plus intuitif, vous permettent d’échanger oralement avec ChatGPT et de lui montrer de quoi vous parlez.

Les fonctionnalités vocales et visuelles étendent les possibilités d’utilisation de ChatGPT au quotidien. Prenez une photo d’un lieu emblématique durant un voyage et discutez en direct de ce qui fait son intérêt. Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de vos placards, et demandez des suggestions pour le dîner (avec quelques questions supplémentaires pour obtenir la recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème à résoudre, et en demandant des conseils pour vous deux.

Nous avons lancé le déploiement de fonctionnalités vocales et visuelles pour les utilisateurs de ChatGPT Plus et Enterprise sur les deux prochaines semaines. Les fonctionnalités vocales seront bientôt disponibles sur iOS et Android (option à sélectionner dans les paramètres). Les fonctionnalités liées aux images seront disponibles sur toutes les plateformes.

Parlez à ChatGPT et écoutez ses réponses

Vous pouvez désormais utiliser les fonctionnalités vocales pour converser avec votre assistant. Parlez en marchant ou au volant, lancez une histoire au moment du coucher de vos enfants ou obtenez la réponse à une question soulevée lors d’un repas en famille ou entre amis.

Utilisez les fonctionnalités vocales pour converser avec votre assistant.

Pour commencer à utiliser les fonctionnalités vocales, allez dans Paramètres → Nouvelles fonctionnalités sur l’application mobile et activez les conversations vocales. Puis cliquez sur l’icône de casque en bas à droite de l’écran d’accueil et choisissez votre voix préférée parmi les cinq proposées.

Ces nouvelles fonctionnalités s’appuient sur un nouveau modèle de synthèse vocale, capable de générer des paroles très proches d’une voix humaine à partir d’un texte et d’un échantillon vocal de quelques secondes. Nous avons collaboré avec des acteurs professionnels pour créer chacun de ces voix. Nous utilisons aussi Whisper, notre système de reconnaissance vocale open source, pour transcrire les paroles en texte.

Chargement en cours...

Discussions basées sur des images

Vous pouvez désormais montrer une image, ou plusieurs, à ChatGPT. Trouvez pourquoi votre four ne démarre pas, explorez le contenu de votre réfrigérateur pour des idées de repas ou analysez un graphique complexe pour en tirer des données dans un cadre professionnel. Pour mettre l’accent sur une partie spécifique de l’image, vous pouvez utiliser l’outil de dessin de votre application mobile.

Montrez une image, ou plusieurs, à ChatGPT.

Pour commencer, appuyez sur le bouton photo pour prendre une photo, ou choisissez une image. Sur iOS ou Android, appuyez d’abord sur le bouton +. Vous pouvez aussi sélectionner d’autres images ou utiliser les fonctionnalités de dessin pour guider l’assistant.

L’analyse des images s’appuie sur les modèles multimodaux GPT‑3.5 et GPT‑4. Ces modèles appliquent leurs capacités de raisonnement linguistique à une grande variété de types d’images (photographies, captures d’écran, documents combinant éléments textuels et visuels...).

Nous déployons progressivement les fonctionnalités vocales et visuelles.

OpenAI se donne pour objectif de proposer une AGI sûre et profitable à tous. La mise à disposition progressive de nos outils nous permet d’y apporter des améliorations et de limiter les risques au fur et à mesure, tout en préparant les utilisateurs à l’arrivée de nouveaux systèmes plus puissants à l’avenir. Cette stratégie nous semble d’autant plus importante avec l’émergence de modèles avancés, enrichis de fonctionnalités vocales et visuelles.

Fonctionnalités vocales

La nouvelle technologie vocale, capable de créer des voix synthétiques réalistes à partir de quelques secondes de discours humain, ouvre la voie à de nombreuses applications dans les domaines de la création et de l’accessibilité. Ces capacités font toutefois émerger de nouveaux risques, comme la possibilité pour des utilisateurs mal intentionnés d’usurper l’identité de personnalités publiques ou de commettre des fraudes.

C’est pourquoi nous exploitons cette technologie pour un cas d’utilisation spécifique : le chat vocal. Cette fonctionnalité a été créée à partir de voix d’actrices et d’acteurs avec lesquels nous avons directement travaillé. Nous collaborons aussi de la même manière avec d’autres parties prenantes. Par exemple, Spotify utilise la puissance de la technologie pour le pilote de sa fonctionnalité d’interprétation(ouverture dans une nouvelle fenêtre), qui aide les podcasteurs à étendre la portée de leurs récits en traduisant les podcasts dans d’autres langues et en les restituant avec la voix des podcasteurs eux-mêmes.

Usage des images comme sources d’information

Les modèles basés sur la vision présentent aussi de nouveaux défis, allant du risque d’hallucination dans l’identification de personnes à la fiabilité dans l’interprétation des images dans des domaines sensibles. Avant un déploiement plus large, nous avons testé le modèle avec des spécialistes de la cybersécurité pour évaluer les risques de diffusion de propos extrémistes ou d’informations faussement scientifiques notamment, ainsi qu’auprès d’un ensemble diversifié d’alpha testeurs. Nos recherches nous ont permis de nous aligner sur quelques éléments essentiels pour une utilisation responsable.

Pour un usage utile et sécurisé des fonctionnalités visuelles

Tout comme les autres fonctionnalités de ChatGPT, la vision est conçue pour vous offrir une assistance au quotidien. Elle répond de manière optimale lorsqu’elle voit ce que vous voyez. 

Cette approche s’appuie directement sur notre collaboration avec Be My Eyes, une application mobile gratuite pour les personnes atteintes de cécité partielle ou complète, afin de mieux comprendre les utilisations et les limites de telles fonctionnalités. Les utilisateurs nous ont indiqué trouver utile de discuter sur des images comportant des personnes en arrière-plan, comme si quelqu’un apparaissait à la télévision alors que vous essayez de comprendre le fonctionnement de votre télécommande.

Nous avons également pris des mesures techniques pour limiter de manière significative la capacité de ChatGPT à réaliser des analyses et des déclarations directes sur des personnes, car des systèmes comme ChatGPT peuvent parfois se tromper et doivent se soumettre à des obligations de respect de la vie privée.

L’utilisation dans le monde réel et les retours d’information nous aideront à renforcer ces garanties et à maintenir l’utilité de notre outil.

Transparence sur les limites des modèles

Les utilisateurs sont susceptibles de s’appuyer sur ChatGPT dans des domaines spécialisés, par exemple pour la recherche. Nous sommes transparents quant aux limites de nos modèles et déconseillons les usages en cas de niveau de risque élevé sans vérification appropriée. En outre, nos modèles sont performants dans la transcription de textes en anglais, mais montrent des limites importantes dans d’autres langues, en particulier celles n’utilisant pas l’alphabet latin. Nous déconseillons cet usage de ChatGPT dans d’autres langues que l’anglais.

Pour en savoir plus sur notre approche de la sécurité et notre collaboration avec Be My Eyes, consultez notre fiche d’informations sur l’utilisation des images.

Accès progressif

Les utilisateurs de ChatGPT Plus et Entreprise auront accès aux fonctionnalités vocales et visuelles dans les deux prochaines semaines. Nous préparons avec enthousiasme leur mise à disposition rapide auprès d’autres groupes d’utilisateurs, notamment les développeurs.

Auteur

OpenAI

Remerciements

Recherche fondamentale sur le mode vocal

Alec Radford, Tao Xu, Jong Wook Kim

Recherche fondamentale sur le déploiement de la vision

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Afficher les informations relatives aux travaux techniques sur GPT-4V(ision) et à leurs auteurs