Présentation de la génération d'images 4o
Déverrouiller la génération d'images utiles et précieuses avec un modèle nativement multimodal capable de produire des sorties précises, exactes et photoréalistes.
Chez OpenAI, nous avons toujours cru que la génération d'images devait être une capacité essentielle de nos modèles de langage. C'est pourquoi nous avons intégré à GPT‑4o notre générateur d'images le plus avancé jusqu'à présent. Le résultat—une génération d'images qui n'est pas seulement belle, mais aussi utile.
Des premières peintures rupestres aux infographies modernes, les humains ont utilisé l'imagerie visuelle pour communiquer, persuader et analyser, et non pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent évoquer des scènes surréalistes et époustouflantes, mais ils ont du mal avec les images utilitaires que les gens utilisent pour partager et créer des informations. Des logos aux diagrammes, les images peuvent transmettre une signification précise lorsqu'elles sont enrichies de symboles qui renvoient à un langage et à une expérience communs.
La génération d'images GPT‑4o excelle à rendre le texte avec précision, à suivre précisément les invites et à exploiter la base de connaissances et le contexte de clavardage inhérents à 4o, y compris la transformation d'images téléversées ou leur utilisation comme source d'inspiration visuelle. Ces fonctionnalités facilitent la création de l'image que vous avez en tête, vous aidant ainsi à communiquer plus efficacement à travers des visuels et faisant de la génération d'images un outil pratique, précis et puissant.
Nous avons formé nos modèles sur la distribution conjointe des images et des textes en ligne, apprenant non seulement comment les images se rapportent au langage, mais aussi comment elles se rapportent entre elles. Combiné à une post-formation agressive, le modèle résultant présente une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et conscientes du contexte.
Une image vaut mille mots, mais parfois, générer quelques mots au bon endroit peut rehausser le sens d'une image. La capacité de 4o à associer des symboles précis à l'imagerie transforme la génération d'images en un outil de communication visuelle.
Étant donné que la génération d'images est désormais intégrée à GPT‑4o, vous pouvez affiner les images par le biais d'une conversation naturelle. GPT‑4o peut s’appuyer sur des images et du texte dans le contexte du clavardage, assurant ainsi la cohérence tout au long. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage reste cohérente à travers plusieurs itérations à mesure que vous affinez et expérimentez.
La génération d'images par GPT‑4o suit des invites détaillées avec une attention particulière aux détails. Alors que d'autres systèmes peinent à traiter environ 5 à 8 objets, GPT‑4o peut gérer jusqu'à 10 à 20 objets différents. La liaison plus étroite des objets à leurs caractéristiques et relations permet un meilleur contrôle.
GPT‑4o peut analyser et apprendre à partir d'images téléversées par l'utilisateur, en intégrant de façon transparente leurs détails dans son contexte pour informer la génération d'images.
La génération d'images natives permet à 4o de relier ses connaissances entre le texte et les images, ce qui se traduit par un modèle plus intelligent et plus efficace.
La formation sur des images reflétant une vaste gamme de styles permet au modèle de créer ou de transformer des images de manière convaincante.
Notre modèle n'est pas parfait. Nous sommes conscients de plusieurs limitations actuellement, que nous nous efforcerons de corriger par des améliorations du modèle après le lancement initial.

Nous avons remarqué que GPT‑4o peut parfois recadrer les images longues, comme les affiches, de manière trop serrée, surtout vers le bas.
Conformément à notre spécification modèle, nous visons à maximiser la liberté créative en soutenant des cas d'utilisation précieux tels que le développement de jeux, l'exploration historique et l'éducation, tout en maintenant des normes de sécurité strictes. En même temps, il demeure aussi important que jamais de bloquer les demandes qui violent ces normes. Vous trouverez ci-dessous des évaluations d'autres domaines de risque où nous travaillons pour activer un contenu sécurisé et très utile et apporter un soutien à une expression créative plus large pour les utilisateurs.
Provenance par C2PA et recherche interne réversible
Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifieront une image comme provenant de GPT‑4o, afin d'assurer la transparence. Nous avons également développé un outil de recherche interne qui utilise les attributs techniques des générations pour vérifier si le contenu provient de notre modèle.
Bloquer les contenus inappropriés
Nous continuons de bloquer les demandes d'images générées susceptibles de violer nos politiques de contenu, telles que les contenus pédopornographiques et les hypertrucage à caractère sexuel. Lorsque des images de personnes réelles sont mises en contexte, nous appliquons des restrictions accrues quant au type d'images pouvant être créées, avec des mesures de protection particulièrement strictes concernant la nudité et la violence graphique. Comme pour tout lancement, la sécurité n'est jamais achevée et représente plutôt un domaine d'investissement continu. Au fur et à mesure que nous en apprendrons davantage sur l'utilisation de ce modèle dans le monde réel, nous ajusterons nos politiques en conséquence.
Pour en savoir plus sur notre approche, consultez l'addendum sur la génération d'images de la fiche système GPT‑4o.
Utiliser le raisonnement pour renforcer la sécurité
À l’instar de notre travail d’alignement délibératif, nous avons formé un LLM de raisonnement à travailler directement à partir de spécifications de sécurité rédigées par des humains et interprétables. Nous avons utilisé ce LLM de raisonnement pendant le développement pour nous aider à identifier et à résoudre les ambiguïtés dans nos politiques. Avec nos avancées multimodales et les techniques de sécurité existantes développées pour ChatGPT et Sora, cela nous permet de modérer à la fois le texte d’entrée et les images de sortie conformément à nos politiques.
La génération d'images 4o est déployée dès aujourd'hui pour les utilisateurs Plus, Pro, Team et Free en tant que générateur d'images par défault dans ChatGPT, avec un accès bientôt disponible pour Enterprise et Edu. Il est également disponible dans Sora. Pour ceux qui réservent une place spéciale dans leur cœur pour DALL·E, il est toujours possible d'y accéder via un GPT DALL·E dédié.
Les développeurs pourront bientôt générer des images avec GPT‑4o via l'API, l'accès étant déployé dans les prochaines semaines.
Créer et personnaliser des images est aussi simple que de clavarder à l'aide de GPT‑4o - décrivez simplement ce dont vous avez besoin, y compris les détails tels que le rapport hauteur/largeur, les couleurs exactes à l'aide de codes hexadécimaux ou un fond transparent. Parce que ce modèle crée des images plus détaillées, le rendu des images prend plus de temps, souvent jusqu'à une minute.
Auteur
Leadership
Gabriel Goh : Génération d’images
Jackie Shannon : Produit ChatGPT
Mengchao Zhong, Wayne Chang : Ingénierie ChatGPT
Rohan Sahai : Produit et ingénierie de Sora
Brendan Quinn, Tomer Kaftan : Inférence
Prafulla Dhariwal : Organisation multimodale
Recherche
Recherche fondamentale
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Recherche fondamentale
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Contributeurs à la recherche
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Comportement modèle
Laurentia Romaniuk
Organisation multimodale
Andrew Gibiansky, Yang Lu
Données
Responsable des données
Gildas Chabot, James Park Lennon
Données
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Modérateurs
Hazel Byrne, Jennifer Luckenbill, Mariano López
Conseillers en données humaines
Long Ouyang
Mise à l’échelle
Pistes d'inférence
Brendan Quinn, Tomer Kaftan
Inférence
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Appliqué
Chef de produit ChatGPT
Jackie Shannon
Responsables de l'ingénierie de ChatGPT
Mengchao Zhong, Wayne Chang
Responsable de la conception de produits
Matt Chan
Science des données
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Responsables de produit Sora
Rohan Sahai, Wesam Manassra
Produit et ingénierie de Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Sécurité
Responsable de la sécurité
Somay Jain
Sécurité
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Stratégie
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing et communications
Responsables des communications et du marketing
Minnia Feng, Natalie Summers, Taya Christianson
Communications
Alex Whitcomb-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Conception et création
Responsables
Kendra Rimbach, Veit Moeller
Conception
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Remerciements spéciaux
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






