Představujeme model 4o pro generování obrázků
Odemknutí užitečného a cenného generování obrázků pomocí nativně multimodálního modelu schopného přesných, spolehlivých a fotorealistických výstupů.
V OpenAI už dlouho věříme, že generování obrázků by mělo být hlavní schopností našich jazykových modelů. Proto jsme do GPT‑4o zabudovali náš dosud nejpokročilejší generátor obrázků. Výsledkem je generování obrázků, které jsou nejen krásné, ale také užitečné.
Od prvních jeskynních maleb až po moderní infografiku lidé používali vizuální obrazy ke komunikaci, přesvědčování a analýze – nejen ke zdobení. Dnešní generativní modely mohou vykouzlit surrealistické, dechberoucí scény, ale mají potíže s běžnými obrazy, které lidé používají ke sdílení a k vytváření informací. Od log po diagramy mohou obrázky sdělovat přesný význam, pokud jsou doplněny symboly odkazujícími na sdílený jazyk a zkušenosti.
Model GPT‑4o pro generování obrázků vyniká v přesném vykreslování textu, důsledném plnění zadaných pokynů a využívání vlastní znalostní základny i kontextu chatu. Dokáže také upravovat nahrané obrázky nebo je použít jako vizuální inspiraci. Tyto schopnosti usnadňují přesně vytvořit obrázek, jaký si představuješ, pomáhají ti efektivněji komunikovat prostřednictvím vizuálů a posouvají generování obrázků na úroveň praktického nástroje s přesností a výkonem.
Naše modely jsme trénovali na společném pravděpodobnostním rozdělení online obrázků a textu, takže se nenaučily jen vztahům mezi obrazem a jazykem, ale i tomu, jak obrázky souvisejí mezi sebou navzájem. V kombinaci s agresivním následným školením má výsledný model překvapivou vizuální plynulost a je schopen vytvářet užitečné, konzistentní a kontextově uvědomělé obrázky.
Obrázek vydá za tisíc slov, ale někdy může vytvoření několika slov na správném místě pozvednout význam obrázku. Schopnost 4o kombinovat přesné symboly s obrazy mění generování obrázků na nástroj pro vizuální komunikaci.
Protože generování obrázků je nyní nativní pro GPT‑4o, můžeš obrázky vylepšovat přirozenou konverzací. GPT‑4o může stavět na obrázcích a textu v kontextu chatu a zajistit tak konzistenci v celém průběhu. Pokud například navrhuješ postavu ve videohře, její vzhled zůstává konzistentní i v několika opakováních, kdy jej postupně zdokonaluješ a experimentuješ.
Generování obrázků GPT‑4o se řídí podrobnými prompty s důrazem na detail. Zatímco jiné systémy se potýkají s ~5-8 objekty, GPT‑4o zvládne až 10-20 různých objektů. Užší propojení objektů s jejich vlastnostmi a vztahy umožňuje lepší kontrolu.
GPT‑4o dokáže analyzovat a učit se z obrázků nahraných uživatelem a plynule začleňuje jejich detaily do svého kontextu, aby je mohl využít při generování obrázků.
Generování nativních obrázků povoluje 4o propojovat své znalosti mezi textem a obrázky, což vede k modelu, který je chytřejší a efektivnější.
Školení na obrázcích, které odrážejí širokou škálu stylů, umožňuje modelu přesvědčivě vytvářet nebo transformovat obrázky.
Náš model není dokonalý. Jsme si vědomi několika omezení, na jejichž odstranění budeme pracovat vylepšováním modelu po jeho úvodním spuštění.

Všimli jsme si, že GPT‑4o může občas oříznout delší obrázky, jako jsou plakáty, příliš těsně, zejména u spodního okraje.
V souladu s našimi specifikacemi modelů se snažíme maximalizovat tvůrčí svobodu podporou hodnotných případů použití, jako je vývoj her, historický průzkum a vzdělávání, přičemž zachováváme přísné bezpečnostní standardy. Zároveň je stále stejně důležité blokovat žádosti, které tyto standardy porušují. Níže jsou hodnocení dalších rizikových oblastí, kde pracujeme na povolení bezpečného a vysoce užitečného obsahu a podpoře širšího kreativního vyjádření pro uživatele.
Ověřitelnost původu pomocí C2PA a interní reverzibilní kontroly
Všechny vytvořené obrázky jsou dodávány s metadaty C2PA, která identifikují obrázek jako pocházející z GPT‑4o, aby byla zajištěna transparentnost. Také jsme vytvořili interní vyhledávací nástroj, který využívá technické atributy generovaných obrázků k ověření, zda obsah pochází z našeho modelu.
Blokování závadného obsahu
Nadále blokujeme požadavky na generování obrázků, které by mohly porušovat naše zásady týkající se obsahu, jako jsou materiály týkající se sexuálního zneužívání dětí a sexuální deepfakes. Když jsou obrázky skutečných lidí v kontextu, máme přísnější omezení ohledně toho, jaký druh snímků lze vytvořit, se zvláště silnými ochrannými opatřeními kolem nahoty a grafického násilí. Stejně jako u každého spuštění, bezpečnost nikdy nekončí a je spíše oblastí neustálých investic. Jakmile se dozvíme více o skutečném používání tohoto modelu, upravíme podle toho naše zásady.
Pro více informací o našem přístupu navštivte dodatek o generování obrázků ke kartě systému GPT‑4o.
Využití uvažování k posílení bezpečnosti
Podobně jako v našem přístupu deliberative alignment (metodika, ve které model před odpovědí prochází vícekrokovým uvažováním, aby lépe dodržoval bezpečnostní zásady), jsme natrénovali model LLM zaměřený na uvažování tak, aby přímo pracoval s člověkem psanými a snadno interpretovatelnými bezpečnostními specifikacemi. Tento odůvodňovací LLM jsme použili během vývoje, abychom identifikovali a řešili nejasnosti v našich zásadách. Spolu s našimi multimodálními vylepšeními a stávajícími bezpečnostními technikami vyvinutými pro ChatGPT a Sora nám to umožňuje moderovat vstupní text i výstupní obrázky podle našich zásad.
Generování obrázků 4o se ode dneška zavádí pro uživatele plánů Plus, Pro, Team a Free jako výchozí generátor obrázků v ChatGPT, přičemž přístup bude brzy k dispozici pro Enterprise a Edu. Je také dostupné k použití v Sora. Pro ty, kteří mají ve svých srdcích zvláštní místo pro DALL·E, je stále přístupný prostřednictvím vyhrazeného DALL·E GPT.
Vývojáři budou brzy moci vytvářet obrázky pomocí GPT‑4o přes API, přičemž přístup bude spuštěn v příštích několika týdnech.
Vytváření a přizpůsobování obrázků je stejně jednoduché jako chat pomocí GPT‑4o – stačí popsat, co potřebuješ, včetně jakýchkoli specifik, jako je poměr stran, přesné barvy pomocí hexadecimálních kódů nebo průhledné pozadí. Protože tento model vytváří detailnější obrázky, jejich vykreslování trvá déle, často až jednu minutu.
Autor
Vedení
Gabriel Goh: Generování obrázků
Jackie Shannon: Produktový tým ChatGPT
Mengchao Zhong, Wayne Chang: Technický tým ChatGPT
Rohan Sahai: Produktový a technický tým Sora
Brendan Quinn, Tomer Kaftan: Inference
Prafulla Dhariwal: Multimodální organizace
Výzkum
Základní výzkum
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Hlavní výzkum
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Přispěvatelé výzkumu
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Chování modelu
Laurentia Romaniuk
Multimodální organizace
Andrew Gibiansky, Yang Lu
Data
Vedoucí týmu Data
Gildas Chabot, James Park Lennon
Data
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderátoři
Hazel Byrne, Jennifer Luckenbill, Mariano López
Poradci pro lidská data
Long Ouyang
Škálování
Vedoucí týmu Inference
Brendan Quinn, Tomer Kaftan
Inference
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Applied
Produktový vedoucí ChatGPT
Jackie Shannon
Technické vedení ChatGPT
Mengchao Zhong, Wayne Chang
Vedoucí produktového designu
Matt Chan
Datová věda
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Produktoví vedoucí Sora
Rohan Sahai, Wesam Manassra
Produktový a technický tým Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Bezpečnost
Vedoucí bezpečnosti
Somay Jain
Bezpečnost
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Strategie
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing a komunikace
Vedoucí komunikace a marketingu
Minnia Feng, Natalie Summers, Taya Christianson
Komunikace
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Design a kreativa
Kontakty
Kendra Rimbach, Veit Moeller
Design
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Zvláštní poděkování
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






