Bonjour GPT‑4o
Nous annonçons GPT‑4o, notre nouveau modèle phare, capable de raisonner en temps réel en utilisant des ressources audio, visuelles et texte.
Deviner l'annonce du 13 mai.
GPT‑4o (« o » pour « omni ») ouvre la voie à des interactions bien plus naturelles entre l’homme et la machine. Il accepte en entrée n’importe quelle combinaison de texte, de son, d’image et de vidéo, et génère des sorties associant texte, son et image. Il peut répondre aux entrées audio en aussi peu que 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain(s'ouvre dans une nouvelle fenêtre) dans une conversation. Il atteint les performances de GPT‑4 Turbo sur le texte en anglais et le code, avec une amélioration significative sur le texte dans les langues non anglaises, tout en étant bien plus rapide et 50 % plus économique lorsqu’il est utilisé via l’API. GPT‑4o est notamment bien plus performant que les autres modèles en matière de compréhension visuelle et audio.
Fonctionnalités du modèle
Deux modèles GPT‑4o interagissent et chantent.
Préparation à l’entrevue.
Pierre-feuille-ciseaux.
Sarcasme.
Mathématiques avec Sal et Imran Khan.
Deux modèles GPT‑4o chantent en harmonie.
Apprentissage de l’espagnol en nommant des objets.
Rencontre avec l’IA.
Traduction en temps réel.
Berceuse.
Parler plus vite.
Joyeux anniversaire.
Chien.
Blagues de papa.
GPT‑4o avec Andy, de l’entreprise BeMyEyes à Londres.
Preuve de concept pour le service à la clientèle.
Avant GPT‑4o, vous pouviez utiliser le mode vocal pour parler à ChatGPT avec des latences de 2,8 secondes (GPT‑3.5) et 5,4 secondes (GPT‑4) en moyenne. Pour ce faire, le mode vocal est une chaîne composée de trois modèles distincts : un modèle simple transcrit l’audio en texte, GPT‑3.5 ou GPT‑4 reçoit ce texte et génère du texte, et un troisième modèle simple convertit ce texte en audio. Ce processus signifie que la principale source d’intelligence, GPT‑4, perd beaucoup d’informations — elle ne peut pas observer directement le ton, plusieurs intervenants ou les bruits de fond, et elle ne peut pas non plus produire des rires, du chant ou exprimer des émotions.
Pour créer GPT‑4o, nous avons formé un nouveau modèle unique de bout en bout, couvrant le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT‑4o est notre premier modèle combinant toutes ces modalités, et nous ne faisons qu’effleurer ce que le modèle peut faire ainsi que ses limites.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Selon les critères de référence traditionnels, GPT‑4o atteint les performances de GPT‑4 Turbo en matière d'intelligence textuelle, de raisonnement et de codage, tout en établissant de nouveaux records en matière de capacités multilingues, audio et visuelles.
Évaluation texte
Ces 20 langues ont été choisies comme représentatives de la compression réalisée par le nouveau transformateur en tokens à travers différentes familles linguistiques
Gujarati 4,4 fois moins de jetons (de 145 à 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3,5 fois moins de jetons (de 159 à 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3,3 fois moins de jetons (de 116 à 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9 fois moins de jetons (de 96 à 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9 fois moins de jetons (de 90 à 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Ourdou 2,5 fois moins de jetons (de 82 à 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arabe 2 fois moins de jetons (de 53 à 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Perse 1,9 fois moins de jetons (de 61 à 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Russe 1,7 fois moins de jetons (de 39 à 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Coréen 1,7 fois moins de jetons (de 45 à 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamien 1,5 fois moins de jetons (de 46 à 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Chinois 1,4 fois moins de jetons (de 34 à 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japonais 1,4 fois moins de jetons (de 37 à 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Turc 1,3 fois moins de jetons (de 39 à 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italien 1,2 fois moins de jetons (de 34 à 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Allemand 1,2 fois moins de jetons (de 34 à 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Espagnol 1,1 fois moins de jetons (de 29 à 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugais 1,1 fois moins de jetons (de 30 à 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Français 1,1 fois moins de jetons (de 31 à 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Anglais 1,1 fois moins de jetons (de 27 à 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o intègre la sécurité dès la conception pour toutes les modalités, grâce à des techniques telles que le filtrage des données de formation et l’ajustement du comportement du modèle après la formation. Nous avons également créé de nouveaux systèmes de sécurité pour cadrer les sorties vocales.
Nous avons évalué GPT‑4o conformément à notre cadre de préparation et en accord avec nos engagements volontaires. Nos évaluations sur la cybersécurité, les armes CBRN, la persuasion et l’autonomie du modèle montrent que GPT‑4o ne dépasse pas le niveau de risque Intermédiaire dans aucune de ces catégories. Cette évaluation a consisté à réaliser une série d’évaluations automatisées et humaines tout au long du processus de formation du modèle. Nous avons testé les versions du modèle avant et après application des mesures de sécurité, en utilisant un affinage fin personnalisé et des invites, afin de mieux faire ressortir les capacités du modèle.
GPT‑4o a également fait l'objet d'une vaste évaluation par une équipe rouge externe avec plus de 70 experts externes dans des domaines tels que la psychologie sociale, les préjugés et l'équité, et la désinformation pour identifier les risques introduits ou amplifiés par les nouvelles modalités ajoutées. Nous avons utilisé ces apprentissages pour élaborer nos interventions de sécurité afin d’améliorer la sécurité des interactions avec GPT‑4o. Nous continuerons à réduire les risques à mesure que nous les découvrirons.
Nous avons conscience que les modalités audio de GPT‑4o présentent de nouveaux risques. Aujourd’hui, nous rendons publics les entrées de texte et d’image ainsi que les sorties texte. Au cours des semaines et mois à venir, nous travaillerons sur l’infrastructure technique, l’utilisabilité (post-formation) et les mesures de sécurité nécessaires au déploiement des autres modalités. Par exemple, lors du lancement, les sorties audio seront limitées à quelques voix prédéfinies et seront soumises à nos politiques de sécurité existantes. Nous partagerons davantage d’informations sur la gestion de toutes les modalités de GPT‑4o dans la fiche système à venir.
Grâce à nos tests et itérations avec le modèle, nous avons observé plusieurs limites qui existent dans toutes les modalités du modèle, dont certaines sont illustrées ci-dessous.
Exemples de limites du modèle
Nous serions ravis de recevoir vos commentaires pour identifier les tâches où GPT‑4 Turbo surpasse encore GPT‑4o, afin que nous puissions continuer à améliorer le modèle. Merci.
Mis à jour le 8 mai 2024
Dans le cadre de notre cadre de préparation, nous procédons à des évaluations régulières et mettons à jour les fiches de risque de nos modèles. Seuls les modèles dont le score après application des mesures de sécurité est « intermédiaire » ou inférieur sont déployés. Le niveau de risque global d’un modèle est déterminé par le niveau de risque le plus élevé dans n’importe quelle catégorie. Actuellement, GPT‑4o atteint le niveau intermédiaire avant et après application des mesures de sécurité.
GPT‑4o marque une nouvelle étape dans l’exploration des possibilités de l’apprentissage approfondi. Pour ce modèle, nous avons avant tout travaillé sur son utilisabilité. Nous avons beaucoup travaillé ces deux dernières années pour améliorer l’efficacité à chaque couche de la pile. Ces efforts ont porté leurs fruits, et nous pouvons ainsi proposer ce modèle du niveau de GPT‑4 à un public bien plus large. Les capacités de GPT‑4o seront déployées de manière itérative (avec un accès élargi à la l'équipe rouge à partir d’aujourd’hui).
Les fonctionnalités de texte et d’image de GPT‑4o commencent à être déployées dès aujourd’hui dans ChatGPT. GPT‑4o sera accessible sur les offres gratuites, et les utilisateurs Plus bénéficieront d’une limite de messages jusqu’à 5 fois plus élevée. Nous déploierons une nouvelle version du mode vocal avec GPT‑4o en version alpha dans ChatGPT Plus au cours des semaines à venir.
Les développeurs peuvent aussi maintenant accéder à GPT‑4o dans l’API sous forme de modèle textuel et visuel. GPT‑4o est deux fois plus rapide, coûte la moitié du prix, et a des limites de vitesse 5 fois plus élevées que GPT‑4 Turbo. Nous prévoyons de lancer dans les prochaines semaines la prise en charge des nouvelles fonctionnalités audio et vidéo de GPT‑4o pour un petit groupe de partenaires de confiance dans l'API.