Passer au contenu principal
OpenAI

25 septembre 2023

Produit

ChatGPT peut maintenant voir, entendre et parler.

ChatGPT peut désormais voir, entendre et parler

Nous avons lancé le déploiement de nouvelles fonctionnalités vocales et visuelles dans ChatGPT. Ces nouvelles fonctionnalités, proposées dans un nouveau type d’interface plus intuitif, vous permettent d’échanger oralement avec ChatGPT et de lui montrer de quoi vous parlez.

Les fonctionnalités vocales et visuelles vous offrent plus de façons d'utiliser ChatGPT dans votre vie quotidienne. Prenez une photo d’un lieu emblématique lors de votre voyage et discutez en direct de ce qui le rend intéressant. Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour déterminer ce que vous allez préparer pour le dîner (et posez des questions supplémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant l'ensemble du problème, et en partageant des indices avec vous deux.

Nous déployons des fonctionnalités vocales et des images dans ChatGPT pour les utilisateurs Plus et Enterprise au cours des deux prochaines semaines. La fonction vocale sera disponible sur iOS et Android (à activer dans vos paramètres) et les images seront accessibles sur toutes les plateformes.

Parlez à ChatGPT et écoutez-le vous répondre

Vous pouvez désormais utiliser les fonctionnalités vocales pour converser avec votre assistant. Discutez avec lui sur Go, demandez une histoire au moment du coucher pour votre famille, ou tranchez un débat à table.

Utilisez la voix pour engager une conversation aller-retour avec votre assistant.

Pour commencer à utiliser les fonctionnalités vocales, allez dans Paramètres → Nouvelles fonctionnalités sur l’application mobile et activez les conversations vocales. Puis cliquez sur l’icône d’écouteurs en bas à droite de l’écran d’accueil et choisissez votre voix préférée parmi les cinq proposées.

La nouvelle capacité vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un audio semblable à celui d'un humain à partir de texte et de quelques secondes d'échantillon vocal. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open source, pour transcrire vos paroles en texte.

Chargement en cours…

Clavardage à propos des images

Vous pouvez désormais montrer une image, ou plusieurs, à ChatGPT. Trouvez pourquoi votre four ne démarre pas, explorez le contenu de votre réfrigérateur pour des idées de repas ou analysez un graphique complexe pour en tirer des données dans un cadre professionnel. Pour mettre l’accent sur une partie spécifique de l’image, vous pouvez utiliser l’outil de dessin de votre application mobile.

Montrez une ou plusieurs images à ChatGPT.

Pour commencer, appuyez sur le bouton photo pour prendre une photo, ou choisissez une image. Si vous êtes sur iOS ou Android, appuyez d'abord sur le bouton plus. Vous pouvez aussi sélectionner d’autres images ou utiliser les fonctionnalités de dessin pour guider l’assistant.

La compréhension des images est alimentée par les modèles multimodaux GPT‑3.5 et GPT‑4. Ces modèles appliquent leurs compétences de raisonnement linguistique à une large gamme d'images, telles que des photographies, des captures d'écran et des documents contenant à la fois du texte et des images.

Nous déployons progressivement les fonctionnalités vocales et image.

OpenAI se donne pour objectif de construire une AGI sûre et bénéfique. Nous croyons en la mise à disposition progressive de nos outils, ce qui nous permet d'apporter des améliorations et de raffiner les mesures d'atténuation des risques au fil du temps, tout en préparant tout le monde à des systèmes plus puissants à l'avenir. Cette stratégie devient encore plus importante avec les modèles avancés impliquant la voix et la vision.

Voix

La nouvelle technologie vocale—capable de créer des voix synthétiques réalistes à partir de quelques secondes de discours réel—ouvre la voie à de nombreuses applications créatives et axées sur l'accessibilité. Cependant, ces capacités présentent également de nouveaux risques, tels que la possibilité pour des acteurs malveillants d'usurper l'identité de figures publiques ou de commettre des fraudes.

C’est pourquoi nous utilisons cette technologie pour un cas d’utilisation spécifique : le clavardage vocal. Le clavardage vocal a été créé avec des acteurs de voix avec lesquels nous avons directement travaillé. Nous collaborons également de manière similaire avec d'autres. Par exemple, Spotify utilise la puissance de cette technologie pour le pilote de leur fonctionnalité Traduction de voix(s'ouvre dans une nouvelle fenêtre), qui aide les podcasteurs à étendre la portée de leurs récits en traduisant les podcasts dans d’autres langues tout en conservant la voix des podcasteurs eux-mêmes.

Entrée d’image

Les modèles basés sur la vision présentent également de nouveaux défis, allant des hallucinations concernant les personnes à la dépendance à l'interprétation des images par le modèle dans des domaines à enjeux élevés. Avant un déploiement plus large, nous avons testé le modèle avec des membres de l'équipe rouge pour évaluer les risques dans des domaines tels que l'extrémisme et la compétence scientifique, ainsi qu'avec un ensemble diversifié de testeurs alpha. Nos recherches nous ont permis d'activer un alignement sur quelques détails clés pour une utilisation responsable.

Pour un usage utile et sécuritaire des fonctionnalités visuelles

Comme les autres fonctionnalités de ChatGPT, la vision vise à vous aider dans votre vie quotidienne. Elle fonctionne de manière optimale lorsqu'elle peut voir ce que vous voyez. 

Cette approche a été directement informée par notre travail avec Be My Eyes, une appli mobile gratuite pour les personnes aveugles et malvoyantes, afin de comprendre les utilisations et les limites. Les utilisateurs nous ont indiqué qu'ils trouvent utile d'avoir des conversations générales sur des images comportant des personnes en arrière-plan, par exemple si quelqu'un apparaît à la télévision pendant que vous essayez de régler les paramètres de votre télécommande.

Nous avons également pris des mesures techniques pour limiter de manière significative la capacité de ChatGPT à analyser et à faire des déclarations directes sur des personnes, car ChatGPT n'est pas toujours précis et ces systèmes doivent respecter la vie privée des individus.

L'utilisation dans le monde réel et les commentaires nous aideront à améliorer ces mesures de protection tout en préservant l'utilité de l'outil.

Transparence quant aux limites des modèles

Les utilisateurs pourraient dépendre de ChatGPT pour des sujets spécialisés, par exemple dans des domaines comme la recherche. Nous sommes transparents quant aux limites du modèle et déconseillons les cas d'utilisation à haut risque sans vérification appropriée. En outre, le modèle est performant dans la transcription de textes en anglais, mais il a des performances médiocres dans d'autres langues, surtout celles qui n'utilisent pas l'alphabet latin. Nous déconseillons cet usage de ChatGPT dans d’autres langues que l’anglais.

Pour en savoir plus sur notre approche de la sécurité et notre collaboration avec Be My Eyes, consultez la carte système pour l'entrée d'image.

Nous allons élargir l'accès

Les utilisateurs Plus et Enterprise pourront expérimenter les fonctionnalités vocales et d'images dans les deux semaines suivantes. Nous préparons avec enthousiasme leur mise à disposition rapide auprès d’autres groupes d’utilisateurs, notamment les développeurs.

Auteur

OpenAI

Remerciements

Recherche fondamentale sur le mode vocal

Alec Radford, Tao Xu, Jong Wook Kim

Recherche principale sur le déploiement de la vision

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Afficher les informations relatives aux travaux techniques sur GPT-4V(ision) et à leurs auteurs