Predstavujeme generovanie obrázkov s modelom 4o
Uvoľnenie užitočného a hodnotného generovania obrázkov s natívne multimodálnym modelom schopným precíznych, presných a fotorealistických výstupov.
V spoločnosti OpenAI sme už dlho presvedčení, že generovanie obrázkov by malo byť primárnou schopnosťou našich jazykových modelov. Preto sme do modelu GPT‑4o zabudovali náš doteraz najpokročilejší generátor obrázkov. Výsledkom je generovanie obrázkov, ktoré nie sú len krásne, ale aj užitočné.
Od prvých jaskynných malieb až po moderné infografiky ľudia používajú vizuálne obrazy na komunikáciu, presviedčanie a analýzu – nielen na zdobenie. Dnešné generatívne modely dokážu vyčarovať surrealistické, dychvyrážajúce scény, ale trápia sa s bežnými obrazmi, ktoré ľudia používajú na zdieľanie a vytváranie informácií. Od log až po diagramy môžu obrazy vyjadrovať presný význam, keď sú doplnené o symboly, ktoré odkazujú na spoločný jazyk a skúsenosti.
Generovanie obrázkov s modelom GPT‑4o vyniká presným vykresľovaním textu, presným dodržiavaním príkazov a využívaním inherentnej znalostnej základne a kontextu četov cez 4o – vrátane transformácie nahraných obrázkov alebo ich použitia ako vizuálnej inšpirácie. Vďaka týmto funkciám je ľahšie vytvoriť presne taký obrázok, aký si predstavujete, pomáhajú vám efektívnejšie komunikovať prostredníctvom vizuálov a posúvajú generovanie obrázkov na úroveň praktického nástroja s precíznosťou a výkonom.
Naše modely sme trénovali na spoločnej distribúcii online obrázkov a textu, pričom sme sa učili nielen to, ako obrázky súvisia s jazykom, ale aj to, ako súvisia medzi sebou. V kombinácii s agresívnym následným tréningom má výsledný model prekvapivú vizuálnu plynulosť a dokáže generovať obrázky, ktoré sú užitočné, konzistentné a kontextovo uvedomelé.
Obrázok má hodnotu tisíc slov, ale niekedy môže vygenerovanie niekoľkých slov na správnom mieste význam obrázka pozdvihnúť. Schopnosť modelu 4o kombinovať presné symboly s obrazmi premieňa generovanie obrázkov na nástroj vizuálnej komunikácie.
Keďže generovanie obrázkov je teraz natívne pre GPT‑4o, môžete obrázky vylepšiť prostredníctvom prirodzenej konverzácie. GPT‑4o dokáže v kontexte četu stavať na obrázkoch a texte, čím zabezpečuje konzistenciu v rámci celého procesu. Ak napríklad navrhujete postavu z videohry, vzhľad postavy zostane konzistentný vo viacerých iteráciách, keď ich vylepšujete a experimentujete.
Generovanie obrázkov s modelom GPT‑4o sa riadi podrobnými príkazmi s dôrazom na detaily. Zatiaľ čo iné systémy majú problém s ~5 – 8 objektmi, GPT‑4o dokáže spracovať až 10 – 20 rôznych objektov. Pevnejšie prepojenie objektov s ich vlastnosťami a vzťahmi umožňuje lepšiu kontrolu.
GPT‑4o dokáže analyzovať a učiť sa z obrázkov nahraných používateľmi, pričom bez problémov integruje ich detaily do svojho kontextu s cieľom ovplyvniť generovanie obrázkov.
Natívne generovanie obrázkov umožňuje modelu 4o prepojiť svoje znalosti medzi textom a obrázkami, čo vedie k modelu, ktorý pôsobí inteligentnejšie a efektívnejšie.
Tréning na obrázkoch, ktoré odrážajú širokú škálu štýlov, umožňuje modelu presvedčivo vytvárať alebo transformovať obrázky.
Náš model nie je dokonalý. Momentálne si uvedomujeme viacero obmedzení, ktoré sa budeme snažiť riešiť vylepšeniami modelu po prvotnom spustení.

Všimli sme si, že GPT‑4o môže občas orezať dlhšie obrázky ako plagáty príliš tesne, najmä v spodnej časti.
V súlade s našou špecifikáciou modelu sa snažíme maximalizovať tvorivú slobodu podporovaním cenných prípadov použitia, ako je vývoj hier, historický prieskum a vzdelávanie – pričom zachovávame prísne bezpečnostné štandardy. Zároveň je rovnako dôležité ako kedykoľvek predtým blokovať žiadosti, ktoré porušujú tieto normy. Nižšie uvádzame hodnotenia ďalších rizikových oblastí, v ktorých pracujeme na povolení bezpečného a mimoriadne užitočného obsahu a podpore širšieho kreatívneho vyjadrenia pre používateľov.
Pôvod prostredníctvom C2PA a interného reverzibilného vyhľadávania
Všetky vygenerované obrázky obsahujú metaúdaje C2PA, ktoré identifikujú, že obrázok pochádza z modelu GPT‑4o, aby sa zabezpečila transparentnosť. Taktiež sme vytvorili interný vyhľadávací nástroj, ktorý využíva technické atribúty generácií s cieľom overiť, či obsah pochádza z nášho modelu.
Blokovanie nevhodného obsahu
Ďalej blokujeme žiadosti o generovanie obrázkov, ktoré môžu porušovať naše pravidlá pre obsah, ako sú materiály týkajúce sa sexuálneho zneužívania detí a sexuálne deepfakes. Keď sú obrázky skutočných ľudí v kontexte, máme prísnejšie obmedzenia týkajúce sa toho, aký druh obrázkov je možné vytvoriť, s obzvlášť robustnými ochrannými opatreniami pre nahotu a grafické násilie. Rovnako ako pri každom uvedení na trh, bezpečnosť nikdy nie je úplná a je skôr oblasťou nepretržitých investícií. Ako sa dozvieme viac o reálnom používaní tohto modelu, príslušným spôsobom upravíme zásady.
Viac informácií o našom prístupe nájdete v dodatku ku karte systému GPT‑4o o generovaní obrázkov.
Používanie myslenia na podporu bezpečnosti
Podobne ako pri našej práci na deliberatívnom zosúladení sme vycvičili LLM na myslenie, aby pracoval priamo na základe človekom napísaných a interpretovateľných bezpečnostných špecifikácií. Tento LLM na myslenie sme použili počas vývoja, aby nám pomohol identifikovať a riešiť nejasnosti v našich zásadách. Spolu s našimi multimodálnymi vylepšeniami a existujúcimi bezpečnostnými technikami vyvinutými pre nástroje ChatGPT a Sora nám to umožňuje moderovať vstupný text aj výstupné obrázky v súlade s našimi zásadami.
Generovanie obrázkov s modelom 4o sa od dnešného dňa zavádza pre používateľov taríf Plus, Pro, Team a Free ako predvolený generátor obrázkov v nástroji ChatGPT, pričom prístup pre používateľov Enterprise a Edu bude čoskoro k dispozícii. Je tiež k dispozícii na použitie v nástroji Sora. Pre tých, ktorí majú vo svojich srdciach vyhradené špeciálne miesto pre DALL·E, je stále možné k nemu pristupovať prostredníctvom vyhradeného modelu DALL·E GPT.
Vývojári budú čoskoro môcť generovať obrázky pomocou modelu GPT‑4o prostredníctvom rozhrania API, pričom prístup sa začne zavádzať v najbližších týždňoch.
Vytvoriť a prispôsobiť obrázky je také jednoduché ako čet pomocou GPT‑4o – stačí opísať, čo potrebujete, vrátane špecifík, ako je pomer strán, presné farby pomocou hexadecimálnych kódov alebo priehľadné pozadie. Keďže tento model vytvára detailnejšie obrázky, ich vykresľovanie trvá dlhšie, často až jednu minútu.
Autor
Vedenie
Gabriel Goh: Generovanie obrázkov
Jackie Shannon: Produkt ChatGPT
Mengchao Zhong, Wayne Chang: Inžinierstvo ChatGPT
Rohan Sahai: Produkty a inžinierstvo Sora
Brendan Quinn, Tomer Kaftan: Inferencia
Prafulla Dhariwal: Multimodálna organizácia
Vyhľadávanie
Základný výskum
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Hlavný výskum
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Prispievatelia do výskumu
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Správanie modelu
Laurentia Romaniuk
Multimodálna organizácia
Andrew Gibiansky, Yang Lu
Údaje
Vedúci pre údaje
Gildas Chabot, James Park Lennon
Údaje
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderátori
Hazel Byrne, Jennifer Luckenbill, Mariano López
Poradcovia pre ľudské údaje
Long Ouyang
Škálovanie
Vedúci inferencie
Brendan Quinn, Tomer Kaftan
Inferencia
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Použité
Vedúci produktu ChatGPT
Jackie Shannon
Vedúci inžinierstva ChatGPT
Mengchao Zhong, Wayne Chang
Vedúci produktového dizajnu
Matt Chan
Dátová veda
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Vedúci produktu Sora
Rohan Sahai, Wesam Manassra
Produkt a inžinierstvo Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Bezpečnosť
Bezpečnostný vedúci
Somay Jain
Bezpečnosť
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Stratégia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing a komunikácia
Vedúci komunikácie a marketingu
Minnia Feng, Natalie Summers, Taya Christianson
Komunikácia
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Dizajn a kreatíva
Vedúci
Kendra Rimbach, Veit Moeller
Dizajn
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Špeciálne poďakovanie
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






