Presentem la generació d'imatges amb 4o
Desbloquejant una generació d'imatges útil i valuosa amb un model nativament multimodal capaç de produir resultats precisos, exactes i fotorrealistes.
A OpenAI, fa temps que creiem que la generació d'imatges hauria de ser una capacitat principal dels nostres models de llenguatge. Per això hem integrat a GPT‑4o el nostre generador d'imatges més avançat fins ara. El resultat: una generació d'imatges que no només és bonica, sinó també útil.
Des de les primeres pintures rupestres fins a les infografies modernes, els humans han fet servir imatges visuals per comunicar, persuadir i analitzar, no només per decorar. Els models generatius actuals poden conjurar escenes surrealistes i impressionants, però tenen dificultats amb les imatges funcionals que la gent utilitza per compartir i crear informació. Des de logotips fins a diagrames, les imatges poden transmetre un significat precís quan s'amplien amb símbols que remeten a un llenguatge i una experiència compartits.
La generació d'imatges de GPT‑4o destaca per renderitzar text amb precisió, seguir indicacions amb exactitud i aprofitar la base de coneixement inherent de 4o i el context del xat, inclosa la transformació d'imatges pujades o el seu ús com a inspiració visual. Aquestes capacitats faciliten crear exactament la imatge que imagines, ajudant-te a comunicar-te de manera més eficaç mitjançant visuals i convertint la generació d'imatges en una eina pràctica amb precisió i potència.
Hem entrenat els nostres models amb la distribució conjunta d'imatges i text en línia, aprenent no només com es relacionen les imatges amb el llenguatge, sinó també com es relacionen entre si. Combinat amb un postentrenament intensiu, el model resultant té una fluïdesa visual sorprenent, capaç de generar imatges útils, coherents i conscients del context.
Una imatge val més que mil paraules, però de vegades generar unes quantes paraules al lloc adequat pot elevar el significat d'una imatge. La capacitat de 4o de combinar símbols precisos amb imatges converteix la generació d'imatges en una eina de comunicació visual.
Com que la generació d'imatges ara és nativa de GPT‑4o, pots perfeccionar imatges mitjançant una conversa natural. GPT‑4o pot basar-se en imatges i text dins del context del xat, garantint coherència en tot moment. Per exemple, si estàs dissenyant un personatge de videojoc, l'aspecte del personatge es manté coherent al llarg de múltiples iteracions mentre el perfecciones i experimentes.
La generació d'imatges de GPT‑4o segueix indicacions detallades amb atenció als detalls. Mentre que altres sistemes tenen dificultats amb uns 5-8 objectes, GPT‑4o pot gestionar fins a 10-20 objectes diferents. La vinculació més estreta dels objectes amb els seus trets i relacions permet un millor control.
GPT‑4o pot analitzar i aprendre de les imatges que pugen els usuaris, integrant-ne els detalls de manera fluida en el seu context per orientar la generació d'imatges.
La generació nativa d'imatges permet a 4o connectar el seu coneixement entre text i imatges, donant com a resultat un model que sembla més intel·ligent i eficient.
L'entrenament amb imatges que reflecteixen una gran varietat d'estils visuals permet al model crear o transformar imatges de manera convincent.
El nostre model no és perfecte. En aquest moment som conscients de múltiples limitacions que treballarem per resoldre amb millores del model després del llançament inicial.

Hem observat que GPT‑4o de vegades pot retallar massa ajustadament imatges allargades, com ara pòsters, especialment a la part inferior.
D'acord amb la nostra especificació del model, aspirem a maximitzar la llibertat creativa donant suport a casos d'ús valuosos com el desenvolupament de videojocs, l'exploració històrica i l'educació, mantenint alhora estàndards de seguretat sòlids. Al mateix temps, continua sent tan important com sempre bloquejar les sol·licituds que vulneren aquests estàndards. A continuació es mostren avaluacions d'àrees de risc addicionals en què treballem per permetre contingut segur i d'alta utilitat i donar suport a una expressió creativa més àmplia per als usuaris.
Proveniència mitjançant C2PA i cerca reversible interna
Totes les imatges generades inclouen metadades C2PA, que identificaran una imatge com a procedent de GPT‑4o, per oferir transparència. També hem creat una eina de cerca interna que utilitza atributs tècnics de les generacions per ajudar a verificar si el contingut prové del nostre model.
Bloquejar el contingut nociu
Continuem bloquejant les sol·licituds d'imatges generades que poden vulnerar les nostres polítiques de contingut, com ara material d'abús sexual infantil i deepfakes sexuals. Quan hi ha imatges de persones reals en el context, apliquem restriccions reforçades sobre quin tipus d'imatges es poden crear, amb salvaguardes especialment robustes al voltant de la nuesa i la violència gràfica. Com passa amb qualsevol llançament, la seguretat mai no s'acaba i és més aviat una àrea d'inversió contínua. A mesura que aprenguem més sobre l'ús d'aquest model en el món real, ajustarem les nostres polítiques en conseqüència.
Per obtenir més informació sobre el nostre enfocament, visita l'annex de la fitxa del model de GPT‑4o sobre la generació d'imatges.
Fer servir el raonament per impulsar la seguretat
De manera similar al nostre treball d'alineació deliberativa, hem entrenat un LLM de raonament perquè treballi directament a partir d'especificacions de seguretat escrites per humans i interpretables. Hem fet servir aquest LLM de raonament durant el desenvolupament per ajudar-nos a identificar i resoldre ambigüitats en les nostres polítiques. Juntament amb els nostres avenços multimodals i les tècniques de seguretat existents desenvolupades per a ChatGPT i Sora, això ens permet moderar tant el text d'entrada com les imatges de sortida d'acord amb les nostres polítiques.
La generació d'imatges amb 4o es desplega a partir d'avui per als usuaris de Plus, Pro, Team i Free com a generador d'imatges predeterminat a ChatGPT, i aviat arribarà també a Enterprise i Edu. També es pot fer servir a Sora. Per a qui té un lloc especial al cor per a DALL·E, encara s'hi pot accedir mitjançant un GPT de DALL·E dedicat.
Els desenvolupadors aviat podran generar imatges amb GPT‑4o a través de l'API, amb l'accés desplegant-se durant les properes setmanes.
Crear i personalitzar imatges és tan senzill com xatejar amb GPT‑4o: només cal descriure què necessites, incloent-hi detalls específics com la relació d'aspecte, colors exactes amb codis hexadecimals o un fons transparent. Com que aquest model crea imatges més detallades, triguen més a renderitzar-se, sovint fins a un minut.
Autor
Direcció
Gabriel Goh: Generació d'imatges
Jackie Shannon: Producte ChatGPT
Mengchao Zhong, Wayne Chang: Enginyeria de ChatGPT
Rohan Sahai: Producte i enginyeria de Sora
Brendan Quinn, Tomer Kaftan: Inferència
Prafulla Dhariwal: Organització multimodal
Recerca
Recerca fonamental
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Recerca bàsica
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Col·laboradors de recerca
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Comportament del model
Laurentia Romaniuk
Organització multimodal
Andrew Gibiansky, Yang Lu
Dades
Líders de dades
Gildas Chabot, James Park Lennon
Dades
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderadors
Hazel Byrne, Jennifer Luckenbill, Mariano López
Assessors de dades humanes
Long Ouyang
Escalat
Líders d'inferència
Brendan Quinn, Tomer Kaftan
Inferència
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Aplicat
Líder de producte de ChatGPT
Jackie Shannon
Líders d'enginyeria de ChatGPT
Mengchao Zhong, Wayne Chang
Líder de disseny de producte
Matt Chan
Ciència de dades
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Líders de producte de Sora
Rohan Sahai, Wesam Manassra
Producte i enginyeria de Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Seguretat
Líder de seguretat
Somay Jain
Seguretat
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Estratègia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Màrqueting i comunicació
Líders de comunicació i màrqueting
Minnia Feng, Natalie Summers, Taya Christianson
Comunicació
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Disseny i creativitat
Líders
Kendra Rimbach, Veit Moeller
Disseny
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Agraïments especials
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






