Jetzt neu: 4o-Bildgenerierung
Nützliche und wertvolle Bildgenerierung mit einem nativ multimodalen Modell, das präzise, genaue und fotorealistische Ergebnisse liefert.
Bei OpenAI sind wir schon lange der Meinung, dass die Bildgenerierung eines der Hauptfeatures unserer Sprachmodelle sein sollte. Aus diesem Grund haben wir unsere bisher fortschrittlichste Bildgenerierung in GPT‑4o eingebaut. Das Ergebnis ist nicht nur ästhetisch anspruchsvoll, sondern auch nützlich.
Von den ersten Höhlenmalereien bis zu modernen Infografiken haben Menschen visuelle Darstellungen nicht nur zur Dekoration genutzt, sondern auch um zu kommunizieren, zu überzeugen und zu analysieren. Die heutigen generativen Modelle können surreale, atemberaubende Szenen erschaffen, stoßen jedoch auf Schwierigkeiten, wenn es um zweckdienliche Grafiken geht, mit denen Informationen geteilt und erschaffen werden. Von Logos bis zu Diagrammen können Bilder eine präzise Bedeutung vermitteln, wenn sie mit Symbolen der gemeinsamen Sprache und Erfahrungen ergänzt werden.
Die genaue Darstellung von Texten, das präzise Befolgen von Prompts und die Nutzung des gesamten Wissens und des Chat-Kontexts sind auszeichnende Merkmale der Bildgenerierung mit GPT‑4o. Ebenso können hochgeladene Bilder umgewandelt oder als visuelle Inspiration verwendet werden. Mit diesen Funktionen wird es leichter, genau das Bild in deiner Vorstellung zu erschaffen, um mit visuellen Inhalten effektiver zu kommunizieren. Die Bildgenerierung ist somit ein praktisches, präzises und mächtiges Werkzeug.
Wir haben unsere Modelle an der gemeinsamen Platzierung von Bildern und Texten im Web trainiert, sodass sie nicht nur die Beziehung zwischen Bild und Sprache lernen, sondern auch die Beziehung zwischen den Bildern untereinander. Kombiniert mit aggressivem Nachtraining zeigt das resultierende Modell eine überraschende visuelle Kompetenz und ist in der Lage, Bilder zu generieren, die nützlich, konsistent und kontextorientiert sind.
Ein Bild sagt mehr als tausend Worte, aber manchmal ist es noch besser, einige Worte an der richtigen Stelle zu generieren. 4o vermischt präzise Symbole mit Bildern und Grafiken, womit die Bildgenerierung zu einem Werkzeug für visuelle Kommunikation wird.
Da die Bildgenerierung jetzt nativ in GPT‑4o integriert ist, können Bilder in natürlichen Gesprächen verbessert werden. GPT‑4o kann Bilder und Text im Chat-Kontext als Basis verwenden, um durchgehend für Konsistenz zu sorgen. Zum Beispiel bleibt das Erscheinungsbild eines Videospielcharakters über mehrere Iterationen mit Optimierungen und Experimenten hinweg stimmig.
Die Bildgenerierung von GPT‑4o folgt detaillierten Prompts mit besonderer Aufmerksamkeit für Details. Während andere Systeme ab etwa 5–8 Objekten zu kämpfen haben, kann GPT‑4o bis zu 10–20 verschiedene Objekte verarbeiten. Die engere Bindung von Objekten an ihre Merkmale und Beziehungen ermöglicht eine bessere Kontrolle.
GPT‑4o kann von Benutzern hochgeladene Bilder analysieren und aus ihnen lernen – Details werden nahtlos in den Kontext integriert, um die Bildgenerierung zu unterstützen.
Die native Bildgenerierung ermöglicht es 4o, sein Wissen zu Texten und Bildern zu verbinden, was zu einem Modell führt, das intelligenter und effizienter erscheint.
Dank des Trainings mit Bildmaterial, das eine große Vielfalt an visuellen Stilen widerspiegelt, kann das Modell Bilder mit überzeugenden Resultaten erstellen oder transformieren.
Unser Modell ist nicht perfekt. Wir sind uns momentan mehrerer Einschränkungen bewusst, die wir nach dem Start durch Verbesserungen des Modells beheben werden.

Wir haben bemerkt, dass GPT‑4o manchmal längere Bilder, wie Poster, zu stark zuschneidet, besonders am unteren Rand.
Im Einklang mit unserer Modellspezifikation wollen wir die kreative Freiheit maximieren, indem wir nützliche Anwendungsfälle wie Spieleentwicklung, historische Erkundung und Bildung unterstützen, während wir gleichzeitig hohe Sicherheitsstandards einhalten. Ebenfalls ist es nach wie vor von größter Bedeutung, Anfragen zu blockieren, die gegen diese Standards verstoßen. Nachfolgend sind Bewertungen zusätzlicher Risikobereiche aufgeführt, in denen wir daran arbeiten, sichere, hochgradig nützliche Inhalte zu aktivieren und den Benutzern zu ermöglichen, sich umfassender kreativ ausdrücken zu können.
Herkunftsnachweise mit C2PA und interne reversible Suche
Alle generierten Bilder enthalten C2PA-Metadaten, mit denen GPT‑4o als Herkunft gekennzeichnet wird, um Transparenz zu gewährleisten. Wir haben auch ein internes Suchwerkzeug entwickelt, das technische Merkmale von Generierungen nutzt, um zu verifizieren, ob Inhalte von unserem Modell stammen.
Blockierung von schädlichen Inhalten
Wir blockieren weiterhin Anfragen für generierte Bilder, die möglicherweise gegen unsere Inhaltsrichtlinien verstoßen, wie z. B. Inhalte zum sexuellen Missbrauch von Kindern und sexuelle Deepfakes. Wenn Bilder von echten Menschen im Kontext stehen, haben wir strengere Einschränkungen bezüglich der Art von Bildern, die erstellt werden können, mit besonders robusten Schutzmaßnahmen für Nacktheit und grafische Gewalt. Wie bei jeder Produktveröffentlichung ist der Sicherheitsaspekt nie ein abgeschlossenes Thema, sondern vielmehr ein Bereich, in den fortlaufend investiert wird. Während wir mehr über die tatsächliche Nutzung dieses Modells erfahren, werden wir unsere Richtlinien entsprechend anpassen.
Weitere Informationen über unseren Ansatz gibt es im Nachtrag zur GPT‑4o-Systemkarte zur Bildgenerierung.
Reasoning zur Förderung der Sicherheit nutzen
Ähnlich wie bei unserer Arbeit an deliberativem Alignment haben wir ein Reasoning-LLM trainiert, das direkt mit von Menschen verfassten und nachvollziehbaren Sicherheitsvorgaben arbeitet. Wir haben dieses Reasoning-LLM während der Entwicklung verwendet, um uns bei der Identifizierung und Behebung von Unklarheiten in unseren Richtlinien zu unterstützen. Zusammen mit unseren multimodalen Fortschritten und den bestehenden Sicherheitstechniken, die für ChatGPT und Sora entwickelt wurden, können wir sowohl Eingabetext als auch Ausgabebilder gemäß unseren Richtlinien moderieren.
4o image generation rolls out starting today to Plus, Pro, Team, and Free users as the default image generator in ChatGPT, with access coming soon to Enterprise and Edu. It’s also available to use in Sora. For those who hold a special place in their hearts for DALL·E, it can still be accessed through a dedicated DALL·E GPT.
Developers will soon be able to generate images with GPT‑4o via the API, with access rolling out in the next few weeks.
Creating and customizing images is as simple as chatting using GPT‑4o - just describe what you need, including any specifics like aspect ratio, exact colors using hex codes, or a transparent background. Because this model creates more detailed pictures, images take longer to render, often up to one minute.
Autor
Führung
Gabriel Goh: Image Generation
Jackie Shannon: ChatGPT Product
Mengchao Zhong, Wayne Chang: ChatGPT Engineering
Rohan Sahai: Sora Product and Engineering
Brendan Quinn, Tomer Kaftan: Inference
Prafulla Dhariwal: Multimodal Organization
Forschung
Foundational Research
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Core Research
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Research Contributors
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Model Behavior
Laurentia Romaniuk
Multimodal Organization
Andrew Gibiansky, Yang Lu
Daten
Data Leads
Gildas Chabot, James Park Lennon
Data
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderators
Hazel Byrne, Jennifer Luckenbill, Mariano López
Human Data Advisors
Long Ouyang
Skalierung
Inference Leads
Brendan Quinn, Tomer Kaftan
Inference
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Applied
ChatGPT Product Lead
Jackie Shannon
ChatGPT Engineering Leads
Mengchao Zhong, Wayne Chang
Product Design Lead
Matt Chan
Data Science
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Sora Product Leads
Rohan Sahai, Wesam Manassra
Sora Product and Engineering
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Sicherheit
Safety Lead
Somay Jain
Sicherheit
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Strategy
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing & Kommunikation
Comms and Marketing Leads
Minnia Feng, Natalie Summers, Taya Christianson
Comms
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Design und Kreativarbeit
Leads
Kendra Rimbach, Veit Moeller
Design
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Besonderer Dank
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






