Présentation de la génération d'images 4o
Débloquer une génération d’images utile et précieuse avec un modèle multimodal natif, capable de générer des sorties précises et photoréalistes.
Chez OpenAI, nous avons toujours pensé que la génération d’images devait être l’une des principales fonctionnalités de nos modèles de langage. C’est pourquoi nous avons intégré notre générateur d’images le plus avancé à ce jour dans GPT‑4o. Résultat : une génération d’images non seulement belle, mais aussi pratique.
Des premières peintures rupestres aux infographies modernes, les humains ont utilisé l’imagerie visuelle pour communiquer, persuader et analyser, et pas seulement dans un but décoratif. Les modèles génératifs actuels peuvent évoquer des scènes surréalistes et époustouflantes, mais peinent à reproduire les images courantes que les internautes utilisent pour créer des informations et en échanger. Des logos aux diagrammes, les images peuvent transmettre un sens précis lorsqu’elles sont enrichies de symboles qui renvoient à une expérience et à un langage partagés.
La génération d’images GPT‑4o excelle pour rendre le texte avec précision,suivre fidèlement les prompts et exploiter la base de connaissances et le contexte des chats inhérents à 4o, y compris en transformant des images chargées ou en les utilisant comme source d’inspiration visuelle. Ces fonctionnalités facilitent la création de l’image que vous souhaitez, vous aident à communiquer plus efficacement par le biais de visuels et font de la génération d’images un outil pratique, précis et puissant.
Nous avons formé nos modèles sur la distribution conjointe d’images et de textes en ligne, en leur apprenant non seulement comment les images sont reliées au langage, mais aussi entre elles. Associé à un post-entraînement agressif, le modèle obtenu présente une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et tenant compte du contexte.
Une image vaut mieux que mille mots, mais il suffit parfois de placer quelques mots au bon endroit pour rehausser le sens d’une image. La capacité de 4o à associer des symboles précis à des images fait de la génération d’images un outil de communication visuelle.
La génération d’images étant désormais native dans GPT‑4o, vous pouvez affiner les images par le biais d’une conversation naturelle. GPT‑4o s’appuie sur des images et du texte dans le contexte du chat, en garantissant la cohérence de l’ensemble. Par exemple, si vous concevez un personnage de jeu vidéo, l’apparence du personnage reste cohérente à travers de multiples itérations, au fur et à mesure que vous l’affinez.
La génération d’images de GPT‑4o suit des prompts précis avec le souci du détail. Alors que d’autres systèmes peinent à traiter 5 à 8 objets, GPT‑4o peut gérer jusqu’à 10 à 20 objets différents. La liaison plus étroite des objets à leurs caractéristiques et à leurs relations permet un meilleur contrôle.
GPT‑4o peut analyser et s’entraîner à partir d’images chargées par l’utilisateur, en intégrant des détails dans le contexte pour améliorer la génération d’images.
La génération d’images natives permet à 4o de créer un lien entre le texte et les images, ce qui donne un modèle plus intelligent et plus efficace.
L’entraînement sur des images reflétant une vaste gamme de styles d’image permet au modèle de créér ou de transformer des images de façon convaincante.
Notre modèle est loin d’être parfait. Nous sommes conscients de ses limites actuelles et nous nous efforcerons d’y remédier en l’améliorant après le lancement initial.

Nous avons remarqué que GPT‑4o recadrait parfois un peu trop des images longues, comme des affiches, en particulier la partie inférieure.
Conformément aux spécifications de notre modèle, nous visons à maximiser la liberté de création en favorisant des cas d’utilisation intéressants tels que le développement de jeux, l’exploration historique et l’enseignement, tout en respectant des normes de sécurité strictes. Dans le même temps, il est toujours aussi important de bloquer les demandes qui ne respectent pas ces normes. Ci-dessous, vous trouverez des évaluations d’autres domaines de risque dans lesquels nous travaillons pour garantir des contenus sûrs et utiles, et favoriser une expression créative plus large pour les utilisateurs.
Provenance via C2PA et recherche réversible interne
Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifient une image comme provenant de GPT‑4o, afin d’assurer la transparence. Nous avons également conçu un outil de recherche interne qui exploite les attributs techniques des générations pour vérifier si le contenu provient de notre modèle.
Blocage des contenus indésirables
Nous continuons de bloquer les demandes d’images générées susceptibles d’enfreindre notre politique relative aux contenus, telles que les contenus pédopornographiques et les deepfakes à caractère sexuel. Lorsqu’il s’agit d’images de personnes réelles, nous avons des restrictions accrues concernant le type d’images qui peuvent être créées, avec des garanties particulièrement solides en ce qui concerne la nudité et la violence graphique. Comme pour tout lancement, la sécurité n’est jamais acquise et constitue plutôt un domaine d’investissement permanent. À mesure que nous en apprenons davantage sur l’utilisation réelle de ce modèle, nous ajustons nos politiques en conséquence.
Pour en savoir plus sur notre approche, consultez l’addendum à la fiche système GPT‑4o sur la génération d’images.
Utiliser le raisonnement pour renforcer la sécurité
À l’instar de notre travail sur l’alignement délibératif, nous avons formé un LLM de raisonnement à partir de spécifications de sécurité écrites par des êtres humains et interprétables. Nous avons utilisé ce modèle de raisonnement LLM pendant la phase de développement pour nous aider à identifier et à résoudre les ambiguïtés de nos politiques. Avec nos avancées multimodales et les techniques de sécurité existantes développées pour ChatGPT et Sora, cela nous permet de modérer à la fois la saisie de texte et les images de sortie conformément à nos politiques.
4o image generation rolls out starting today to Plus, Pro, Team, and Free users as the default image generator in ChatGPT, with access coming soon to Enterprise and Edu. It’s also available to use in Sora. For those who hold a special place in their hearts for DALL·E, it can still be accessed through a dedicated DALL·E GPT.
Developers will soon be able to generate images with GPT‑4o via the API, with access rolling out in the next few weeks.
Creating and customizing images is as simple as chatting using GPT‑4o - just describe what you need, including any specifics like aspect ratio, exact colors using hex codes, or a transparent background. Because this model creates more detailed pictures, images take longer to render, often up to one minute.
Auteur
Leadership
Gabriel Goh : Génération d’images
Jackie Shannon : Produit ChatGPT
Mengchao Zhong, Wayne Chang : Ingénierie de ChatGPT
Rohan Sahai : Produit et ingénierie Sora
Brendan Quinn, Tomer Kaftan : Inférence
Prafulla Dhariwal : Organisation multimodale
Recherches
Recherche fondamentale
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Recherche fondamentale
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Contributeurs à la recherche
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Comportement des modèles
Laurentia Romaniuk
Organisation multimodale
Andrew Gibiansky, Yang Lu
Données
Responsables des données
Gildas Chabot, James Park Lennon
Données
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Modérateurs
Hazel Byrne, Jennifer Luckenbill, Mariano López
Conseillers en données humaines
Long Ouyang
Mise à l’échelle
Responsables d’inférence
Brendan Quinn, Tomer Kaftan
Inférence
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Appliqué
Responsable produit ChatGPT
Jackie Shannon
Responsables de l’ingénierie ChatGPT
Mengchao Zhong, Wayne Chang
Responsable de la conception produit
Matt Chan
Science des données
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Responsables produit Sora
Rohan Sahai, Wesam Manassra
Produit et ingénierie Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Sécurité
Responsable de la sécurité
Somay Jain
Sécurité
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Stratégie
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing et communication
Responsables des communications et du marketing
Minnia Feng, Natalie Summers, Taya Christianson
Communications
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Conception et graphismes
Responsables
Kendra Rimbach, Veit Moeller
Conception
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Remerciements
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






