13 mai 2024

Dites bonjour à GPT‑4o

Nous annonçons la sortie de GPT‑4o, notre nouveau modèle phare, capable de raisonner en temps réel en utilisant des ressources audio, visuelles et texte.

Contributions Essayer ChatGPT Fiche système de GPT-4o

Toutes les vidéos sur cette page sont tournées en vitesse réelle.

Le modèle essaie de deviner l’annonce du 13 mai.

Plus de ressources

Essayer dans Playground Revoir les démonstrations diffusées en direct

Chargement...

GPT‑4o (« o » pour « omni ») ouvre la voie à des interactions bien plus naturelles entre l’homme et la machine. Ce modèle accepte en entrée n’importe quelle combinaison de texte, de son, d’image et de vidéo, et génère des sorties associant texte, son et image. Il est capable de répondre à une entrée audio en 232 millisecondes, avec une moyenne à 320 millisecondes, un délai similaire à celui d’un humain⁠(ouverture dans une nouvelle fenêtre) lors d’une conversation. Il atteint les performances de GPT‑4 Turbo sur du texte en anglais et du code, et présente des améliorations significatives sur les autres langues, tout en se montrant bien plus rapide et 50 % plus économique lorsqu’il est utilisé via l’API. GPT‑4o est notamment bien plus performant que les autres modèles en matière de compréhension visuelle et audio.

Fonctionnalités du modèle

Deux modèles GPT‑4o interagissent et chantent.

Préparation d’entretien.

Pierre-feuille-ciseaux.

Sarcasme.

Mathématiques avec Sal et Imran Khan.

Deux modèles GPT‑4o chantent en harmonie.

Apprentissage de l’espagnol en nommant des objets.

Rencontre avec l’IA.

Traduction en temps réel.

Berceuse.

Accélération du rythme.

Joyeux anniversaire.

Chien.

Blagues de papa.

GPT‑4o avec Andy, de l’entreprise BeMyEyes à Londres.

Preuve de concept pour le service client.

Avant GPT‑4o, vous pouviez utiliser le mode vocal⁠ pour parler à ChatGPT, avec une latence moyenne de 2,8 secondes (GPT‑3.5) et 5,4 secondes (GPT‑4). Le mode vocal était en réalité une voie d’entrée vers trois modèles distincts : un modèle simple retranscrit l’audio en texte, GPT‑3.5 ou GPT‑4 interprète ce texte et génère une sortie, et un troisième modèle convertit cette sortie texte en son. Ce processus implique que la principale source d’intelligence, GPT‑4, perd une grande quantité d’informations. En effet, il n’a pas accès directement au ton de la voix, à la détermination du nombre d’intervenants ou aux bruits de fond. Il ne peut pas non plus générer un rire, un chant ou exprimer une émotion.

Pour créer GPT‑4o, nous avons entraîné un modèle gérant à lui seul le texte, la vision et l’audio. Toutes les entrées et sorties sont donc traitées par le même réseau neuronal. GPT‑4o est notre premier modèle à combiner toutes ces modalités, et nous ne connaissons pas encore bien toutes ses capacités et limites.

Exploration des fonctionnalités

Sélectionnez un exemple :

Saisie

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Sortie

Saisie

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Sortie

Saisie

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Sortie

Évaluations du modèle

Lors d’évaluations standard, GPT‑4o atteint le niveau de performance de GPT‑4 Turbo sur le traitement du texte, le raisonnement et l’intelligence de codage, et fixe de nouvelles références en matière de multilinguisme, d’audio et de vision.

Évaluation texte

Transformation des langues en jeton

Ces 20 langues ont été choisies, car elles illustrent bien les performances de compression du nouveau transformateur en jetons pour différentes familles linguistiques.

Gujarati 4,4 fois moins de jetons (de 145 à 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugu 3,5 fois moins de jetons (de 159 à 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamil 3,3 fois moins de jetons (de 116 à 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Marathi 2,9 fois moins de jetons (de 96 à 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi 2,9 fois moins de jetons (de 90 à 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Ourdou 2,5 fois moins de jetons (de 82 à 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arabe 2 fois moins de jetons (de 53 à 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Perse 1,9 fois moins de jetons (de 61 à 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Russe 1,7 fois moins de jetons (de 39 à 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Coréen 1,7 fois moins de jetons (de 45 à 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamien 1,5 fois moins de jetons (de 46 à 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Chinois 1,4 fois moins de jetons (de 34 à 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japonais 1,4 fois moins de jetons (de 37 à 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turc 1,3 fois moins de jetons (de 39 à 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italien 1,2 fois moins de jetons (de 34 à 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Allemand 1,2 fois moins de jetons (de 34 à 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Espagnol 1,1 fois moins de jetons (de 29 à 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portugais 1,1 fois moins de jetons (de 30 à 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Français 1,1 fois moins de jetons (de 31 à 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Anglais 1,1 fois moins de jetons (de 27 à 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Sécurité et limites du modèle

GPT‑4o adopte une sécurité dès la conception pour toutes les modalités, par le biais de techniques comme le filtrage des données d’entraînement et l’ajustement du comportement du modèle post-entraînement. Nous avons également créé de nouveaux systèmes de sécurité pour cadrer les sorties vocales.

Nous avons évalué GPT‑4o selon notre cadre de préparation⁠ et conformément à nos engagements⁠. Nos évaluations sur la cybersécurité, les armes CBRN, la persuasion et l’autonomie montrent que GPT‑4o ne dépasse pas le niveau de risque Intermédiaire dans ces catégories. Ce niveau de risque a été calculé à partir d’une suite d’évaluations automatisées et humaines réalisées tout au long de l’entraînement du modèle. Nous avons testé le modèle avant et après application de mesures de sécurité à l’aide d’un ajustement fin et de prompts personnalisés pour le pousser dans ses retranchements.

GPT‑4o a également bénéficié de nombreuses interventions d’équipes rouges : plus de 70 experts externes⁠ spécialisés dans des domaines comme la psychologie sociale, les préjugés, l’équité et la désinformation ont contribué à l’évaluation des risques introduits ou amplifiés par l’ajout des nouvelles modalités. Nous nous sommes appuyés sur leurs retours pour élaborer nos mécanismes de sécurité et renforcer ainsi la sécurité des interactions avec GPT‑4o. Nous continuerons à réduire les risques à mesure que nous les découvrirons.

Nous avons conscience que les modalités audio de GPT‑4o présentent de nouveaux risques. Aujourd’hui, seules les entrées de texte et d’image, et les sorties texte sont activées. Au cours des semaines et mois à venir, nous travaillerons sur l’infrastructure technique, l’utilisabilité (post-entraînement) et les mesures de sécurité nécessaires au déploiement des autres modalités. Par exemple, lors du lancement, les sorties audio seront limitées à quelques voix prédéfinies et seront soumises à nos politiques de sécurité existantes. Nous partagerons davantage d’informations sur la gestion de toutes les modalités de GPT‑4o dans sa fiche système.

Nos tests et améliorations successives du modèle nous ont permis de constater plusieurs limites qui concernent l’ensemble de ses modalités et dont certaines sont présentées ci-dessous.

Exemples de limites du modèle

Nous sommes preneurs de vos commentaires pour identifier les tâches dans lesquelles GPT‑4 Turbo reste plus performant que GPT‑4o et pouvoir ainsi continuer à améliorer le modèle.

Fiche de risque de ChatGPT-4o

^{Mise à jour du 8 mai 2024}

Catégorie de risque suivie

Niveau de risque avant correction

Détermine le niveau global de risque avant le déploiement de corrections, calculé à l’aide des meilleures techniques connues d’identification des capacités

Niveau de risque après correction

Détermine le niveau global de risque après le déploiement de corrections, calculé à l’aide des meilleures techniques connues d’identification des capacités

Cybersécurité

Limité

CBRN

Limité

Persuasion

Intermédiaire

Autonomie du modèle

Limité

Au titre de notre cadre de préparation⁠, nous procédons à des évaluations régulières de nos modèles et mettons à jour leurs fiches de risque en fonction. Seuls les modèles dont le score après application des mesures de sécurité ne dépasse pas le niveau Intermédiaire sont déployés. Le niveau de risque global d’un modèle est aligné sur le plus haut niveau de risque qu’il atteint, toutes catégories confondues. Actuellement, GPT‑4o atteint le niveau Intermédiaire avant et après application des mesures de sécurité.

Disponibilité du modèle

GPT‑4o marque une nouvelle étape dans l’exploration des possibilités de l’apprentissage approfondi. Pour ce modèle, nous avons avant tout travaillé sur son utilisabilité. Nous avons beaucoup travaillé ces deux dernières années pour améliorer l’efficacité de chaque composant du modèle. Ces efforts ont porté leurs fruits, et nous pouvons ainsi proposer ce modèle du niveau de GPT‑4 à un public bien plus large. Les fonctionnalités de GPT‑4o seront déployées progressivement (avec une extension de l’accès aux équipes rouges dès aujourd’hui).

Les fonctionnalités de texte et d’image seront déployées progressivement dans ChatGPT dès maintenant. GPT‑4o sera accessible sur les offres gratuites, et les utilisateurs Plus bénéficieront d’une limite de messages jusqu’à 5 fois plus élevée. Nous déploierons une nouvelle version du mode vocal avec GPT‑4o en version alpha dans ChatGPT Plus au cours des semaines à venir.

Les développeurs peuvent dès à présent accéder à GPT‑4o via l’API avec ses modalités texte et vision. GPT‑4o est deux fois plus rapide et moins cher que GPT‑4 Turbo. Sa limite de messages est aussi 5 fois plus élevée. Nous prévoyons de déployer les nouvelles fonctionnalités audio et vidéo de GPT‑4o auprès d’un petit groupe de partenaires de confiance via l’API dans les semaines à venir.

Auteurs

OpenAI

Voir les contributeurs

Dites bonjour à GPT‑4o

Fonctionnalités du modèle

Exploration des fonctionnalités

Évaluations du modèle

Évaluation texte

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Transformation des langues en jeton

Sécurité et limites du modèle

Fiche de risque de ChatGPT-4o

Disponibilité du modèle

Auteurs