Predstavljamo 4o Image Generation
Odpiramo pot uporabnemu in dragocenemu generiranju slik z nativno multimodalnim modelom, ki omogoča natančne, točne in fotorealistične izhode.
Pri OpenAI že dolgo verjamemo, da bi moralo biti generiranje slik osnovna zmogljivost naših jezikovnih modelov. Zato smo v GPT‑4o vključili naš doslej najnaprednejši generator slik. Rezultat je generiranje slik, ki ni samo estetsko dovršeno, temveč tudi uporabno.
Od prvih jamskih poslikav do sodobnih infografik ljudje uporabljajo vizualne podobe za komuniciranje, prepričevanje in analizo, ne zgolj za okras. Današnji generativni modeli lahko ustvarijo nadrealistične in osupljive prizore, vendar imajo pogosto težave pri vsakdanjih slikah, ki jih ljudje uporabljajo za prenašanje in ustvarjanje informacij. Od logotipov do diagramov lahko slike posredujejo natančen pomen, kadar jih dopolnjujejo simboli, ki se opirajo na skupni jezik in izkušnje.
Generiranje slik GPT‑4o zelo natančno upodablja besedilo, zanesljivo sledi pozivom in izkorišča podedovano bazo znanja ter kontekst klepeta 4o. Prav tako lahko preoblikuje naložene slike ali jih uporabi kot vizualno izhodišče. Te sposobnosti olajšajo ustvarjanje slike, ki jo imate v mislih, pomagajo jasneje komunicirati z vizualnimi elementi in premikajo generiranje slik v smer praktičnega orodja z visoko natančnostjo in zmogljivostjo.
Naše modele smo trenirali na skupni porazdelitvi spletnih slik in besedila. Tako so se naučili ne le odnosa med slikami in jezikom, temveč tudi medsebojnih odnosov med slikami samimi. V kombinaciji z intenzivnim naknadnim treniranjem ima rezultat presenetljivo vizualno tekočnost in omogoča generiranje slik, ki so uporabne, konsistentne in občutljive na kontekst.
Slika lahko posreduje več kot tisoč besed, včasih pa lahko prav nekaj skrbno umeščenih besed še okrepi njen pomen. Zmožnost modela 4o, da natančne simbole združi s slikami, spremeni generiranje slik v orodje vizualnega sporočanja.
Ker je generiranje slik v GPT‑4o del sistema že privzeto, lahko slike izpopolnjujete skozi naraven potek pogovora. GPT‑4o gradi na slikah in besedilu, ki se pojavijo v kontekstu klepeta, zato ohranja konsistentnost med celotnim procesom. Na primer, ko oblikujete lik za videoigro, njegov videz ostane skladen skozi številne iteracije, med katerimi ga prilagajate in preizkušate.
Generiranje slik GPT‑4o natančno sledi podrobnim pozivom. Medtem ko se drugi sistemi običajno spopadejo s približno petimi do osmimi predmeti, lahko GPT‑4o zanesljivo upravlja med deset in dvajset različnih predmetov. Tesno povezovanje predmetov z njihovimi lastnostmi in odnosi omogoča boljši nadzor.
GPT‑4o lahko analizira slike, ki jih naložijo uporabniki, ter njihove podrobnosti vključuje v kontekst in jih uporablja pri generiranju novih slik.
Nativno generiranje slik omogoča modelu 4o, da povezuje znanje med besedilom in slikami, kar vodi do občutka večje učinkovitosti in razumevanja.
Učenje na slikah, ki zajemajo izjemno širok razpon slogov, modelu omogoča prepričljivo ustvarjanje ali preoblikovanje slik.
Naš model ni popoln. Zavedamo se več omejitev, ki jih bomo po začetni predstavitvi odpravljali z nadaljnjim izboljševanjem modela.

Opazili smo, da GPT‑4o občasno pretesno obreže daljše slike, na primer plakate, zlasti pri spodnjem spodnjega roba.
V skladu z našimi specifikacijami modela želimo omogočiti čim več ustvarjalne svobode ter podpreti dragocene primere uporabe, kot so razvoj iger, raziskovanje zgodovine in izobraževanje. Poleg tega želimo ohraniti visoke varnostne standarde. Enako pomembno je tudi, da zavračamo zahteve, ki te standarde kršijo. Spodaj so evalvacije dodatnih tveganih področij, kjer si prizadevamo zagotavljati varno in visoko uporabno vsebino ter uporabnikom ponujati širše možnosti ustvarjanja.
Izvor podatkov z uporabo C2PA in internega reverzibilnega iskanja
Vse generirane slike vsebujejo metapodatke C2PA, ki jasno označujejo, da so bile ustvarjene z modelom GPT‑4o. Na ta način zagotavljamo večjo preglednost. Vzpostavili smo tudi interno iskalno orodje. To orodje uporablja tehnične značilnosti generiranih slik in nam pomaga preveriti, ali je bila vsebina ustvarjena z našim modelom.
Preprečevanje nedovoljenih vsebin
Še naprej zavračamo zahteve za generiranje slik, ki lahko kršijo naše vsebinske politike. Med drugim zavračamo gradiva spolne zlorabe otrok in spolne deepfake posnetke. Kadar se v kontekstu pojavijo slike resničnih ljudi, uvedemo strožje omejitve glede vrste slik, ki jih je dovoljeno ustvariti. Posebej skrbno pazimo na vsebine, povezane z goloto in nazornim nasiljem. Kot pri vsakem lansiranju modela je tudi tukaj varnost nenehen proces, ki zahteva stalna vlaganja. Ko bomo pridobili več informacij o uporabi modela v realnem okolju, bomo ustrezno prilagodili naše politike.
Več podrobnosti o našem pristopu najdete v dodatku o generiranju slik v sistemski kartici GPT‑4o.
Uporaba sklepanja za zagotavljanje varnosti
Podobno kot pri našem delu na deliberativnem usklajevanju smo usposobili veliki jezikovni model (LLM) za sklepanje. Ta model deluje neposredno na podlagi človeško napisanih in razlagljivih varnostnih specifikacij. Med razvojem smo ta LLM uporabljali kot pomoč pri prepoznavanju in odpravljanju nejasnosti v naših politikah. Skupaj z našimi multimodalnimi napredki in obstoječimi varnostnimi tehnikami, razvitimi za ChatGPT in Sora, nam to omogoča, da vhodno besedilo in izhodne slike obravnavamo v skladu z našimi pravilniki.
Generiranje slik z modelom 4o se od danes dalje postopoma uvaja za uporabnike Plus, Pro, Team in Free, kjer postaja privzeti generator slik v ChatGPT. Dostop bo kmalu na voljo tudi uporabnikom Enterprise in Edu. Na voljo je tudi v Sora. Uporabniki, ki imajo radi DALL·E, ga lahko še naprej uporabljajo preko namenskega DALL·E GPT.
Razvijalci bodo kmalu lahko generirali slike z GPT‑4o preko API, pri čemer se dostop uvaja v prihodnjih tednih.
Ustvarjanje in prilagajanje slik je preprosto. Dovolj je, da v GPT‑4o opišete, kaj potrebujete, vključno z natančnimi podatki, kot so razmerje stranic, določene barve po heksadecimalnih kodah ali prosojno ozadje. Ker ta model ustvarja bolj podrobne slike, je njihovo upodabljanje nekoliko počasnejše. Pogosto traja do približno ene minute.
Avtor
Vodstvo
Gabriel Goh: Generiranje slike
Jackie Shannon: ChatGPT izdelek
Mengchao Zhong, Wayne Chang: ChatGPT inženiring
Rohan Sahai: Izdelki in inženiring za Soro
Brendan Quinn, Tomer Kaftan: Inferiranje
Prafulla Dhariwal: Multimodalna organizacija
Raziskave
Temeljne raziskave
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Temeljne raziskave
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Prispevki k raziskavam
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Obnašanje modela
Laurentia Romaniuk
Multimodalna organizacija
Andrew Gibiansky, Yang Lu
Podatki
Podatkovna obdelava
Gildas Chabot, James Park Lennon
Podatki
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderatorji
Hazel Byrne, Jennifer Luckenbill, Mariano López
Svetovalec za človeške podatke
Long Ouyang
Skaliranje
Inferenca
Brendan Quinn, Tomer Kaftan
Inferenca
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Aplikacija
Idelek ChatGPT
Jackie Shannon
ChatGPT inženiring
Mengchao Zhong, Wayne Chang
Oblikovanje izdelka
Matt Chan
Obdelava podatkov
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Izdelek Sora
Rohan Sahai, Wesam Manassra
Izdelek in inženiring za Soro
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Varnost
Varnost
Somay Jain
Varnost
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Strategija
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Trženje in komunikacija
Komunikacija in marketing
Minnia Feng, Natalie Summers, Taya Christianson
Komunikacija
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Oblikovanje in kreativnost
Glavni razvijalci
Kendra Rimbach, Veit Moeller
Oblikovanje
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Posebna zahvala
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






