Pagpapakilala ng 4o Image Generation
Pag-a-unlock ng kapaki-pakinabang at mahalagang paglikha ng larawan gamit ang isang katutubong multimodal na modelo na may kakayahang maghatid ng eksakto, tumpak, at reyalistikong larawan na mga output.
Sa OpenAI, matagal na naming pinaniniwalaan na ang paglikha ng larawan ay dapat pangunahing kakayahan ng aming mga modelo ng wika. Iyan ang dahilan kung bakit binuo namin ang aming pinaka-advanced na panggawa ng larawan sa GPT‑4o. Ang resulta—pagbuo ng larawan na hindi lang maganda, kapaki-pakinabang pa.
Mula sa unang mga guhit sa kuweba hanggang sa mga modernong infographics, ginamit ng mga tao ang mga larawan upang makipagkomunikasyon, manghikayat, at magsuri—hindi lamang upang magdekorasyon. Ang mga generative na modelo ngayon ay kayang lumikha ng mga surreal at nakamamanghang eksena, ngunit nahihirapan sa mga karaniwang larawang ginagamit ng mga tao para magbahagi at gumawa ng impormasyon. Mula sa mga logo hanggang sa mga diagram, ang mga larawan ay maaaring maghatid ng eksaktong kahulugan kapag sinamahan ng mga simbolo na tumutukoy sa pareho nilang ginagamit na wika at parehong karanasan.
Ang GPT‑4o na paggawa ng larawan ay mahusay sa tumpak na pag-render ng tekst, eksaktong pagsunod sa mga prompt, at paggamit ng likas na pangunahing kaalaman at konteksto ng chat ng 4o—kasama na ang pagbabago ng mga larawang na-upload o paggamit ng mga ito bilang visual na inspirasyon. Ang mga kakayahang ito ay nagpapadali sa paggawa ng eksaktong larawan na iyong naiisip, na tumutulong sa 'yo na makipag-usap nang mas epektibo sa pamamagitan ng mga biswal at isinusulong ang pagbuo ng larawan bilang isang praktikal na kasangkapan na may kaeksaktuhan at lakas.
Sinanay namin ang aming mga modelo sa magkasanib na distribusyon ng mga online na larawan at text, natutunan hindi lamang kung paano nauugnay ang mga larawan sa wika, kundi pati na rin kung paano sila nauugnay sa isa't isa. Pinagsama sa agresibong post-pagsasanay, ang nagresultang modelo ay may nakakagulat na visual na kahusayan, na may kakayahang bumuo ng mga larawan na kapaki-pakinabang, pare-pareho, at may kamalayan sa konteksto.
Napakaraming masasabi sa isang larawan, pero minsan ang pagbuo ng ilang salita sa tamang lugar ay maaaring magpataas ng kahulugan ng isang larawan. Ang kakayahan ng 4o na pagsamahin ang eksaktong mga simbolo na may larawan at gawing isang tool ang mga nagawang larawan para sa visual na komunikasyon.
Dahil ang image generation ay native sa GPT‑4o, puwede mong pinuhin ang mga larawan sa pamamagitan ng natural konbersasyon. Ang GPT‑4o ay puwedeng bumuo sa mga larawan at teksto sa konteksto ng chat, na tinitiyak ang pagkakapare-pareho sa buong proseso. Halimbawa, kung nagdidisenyo ka ng isang character sa video game, ang hitsura ng character ay nananatiling magkakaugnay sa maraming ulit habang pinapino at nag-eeksperimento ka.
Sinusunod ng image generation ng GPT‑4o ang mga detalyadong prompt habang binibigyang-pansin ang detalye. Habang ang ibang mga sistema ay nahihirapan sa ~5-8 na bagay, kayang hawakan ng GPT‑4o ang hanggang 10-20 na iba't ibang bagay. Ang mas mahigpit na pagbubuklod ng mga bagay sa kanilang mga katangian at relasyon ay nagbibigay-daan para sa mas mahusay na kontrol.
Puwdeng masuri at matuto ang GPT‑4o mula sa mga larawang na-upload ng user, at walang putol na isinasama ang kanilang mga detalye sa konteksto nito upang maipaalam sa pagbuo ng larawan.
Ang katutubong paggawa ng larawan ay nagpapahintulot sa 4o na i-link ang kaalaman nito sa pagitan ng text at mga larawan, na nagiging dahilan kung kaya ang isang modelo ay mas matalino at mas mahusay.
Ang pagsasanay gamit ang mga larawan ay sumasalamin sa napakaraming iba't ibang estilo ng larawan ay nagbibigay-daan sa modelo na gumawa o magbago ng mga larawan sa nakakakumbinsing paraan.
Hindi perpekto ang aming modelo. Alam naming may ilang limitasyon sa kasalukuyan na aming aayusin sa pamamagitan ng mga pagpapabuti sa modelo pagkatapos ng paunang paglulunsad.

Napansin namin na ang GPT‑4o ay paminsan-minsan ay maaaring mag-crop ng mas mahahabang larawan, tulad ng mga poster, masyadong masikip, lalo na malapit sa ibaba.
Kaayon ng aming Model Spec, nilalayon naming mapalawak ang kalayaan sa pagkamalikhain sa pamamagitan ng pagsuporta sa mahahalagang paraan ng paggamit tulad ng game development, paggalugad ng kasaysayan, at edukasyon—habang pinapanatili ang matatag na pamantayan sa kaligtasan. Kasabay nito, nananatiling kasinghalaga ng dati na i-block ang mga kahilingang labagin sa mga pamantayang iyon. Nasa ibaba ang mga pagsusuri ng mga karagdagang lugar ng panganib kung saan nagtatrabaho kami upang i-enable ang ligtas, mataas na utility na nilalaman at suporta ang mas malawak na malikhaing pagpapahayag para sa user.
Pinagmulan sa pamamagitan ng C2PA at panloob na nababaligtad na paghahanap
Ang lahat ng mga binuong larawan ay may C2PA metadata, na tutukoy sa isang larawan na nagmumula sa GPT‑4o, upang magbigay ng transparency. Nagtayo rin kami ng panloob na tool sa paghahanap na gumagamit ng mga teknikal na katangian ng mga henerasyon para makatulong na beripikahin kung ang nilalaman ay mula sa aming modelo.
Pagharang sa masasamang bagay
Patuloy naming haharangin ang mga kahilingan para sa mga binuong arawang na maaaring lumabag sa aming mga patakaran sa content, tulad ng mga materyal sa sekswal na pang-aabuso sa bata at mga sekswal na deepfake. Kapag ang mga larawan ng mga tunay na tao ay nasa konteksto, mas pinahigpit namin ang mga paghihigpit tungkol sa kung anong uri ng larawan ang maaaring gawin, na may partikular na matibay na pag-iingat sa kahubaran at graphic na karahasan. Tulad ng anumang paglulunsad, ang kaligtasan ay hindi kailanman natatapos at sa halip ay isang patuloy na larangan ng pamumuhunan. Habang natututo kami nang higit pa tungkol sa paggamit ng modelo na ito sa totoong mundo, iaangkop namin ang aming mga patakaran nang naaayon.
Para sa karagdagang impormasyon sa aming pamamaraan, bisitahin ang addendum ng pagbuo ng larawan sa GPT‑4o system card.
Paggamit ng pangangatwiran sa power safety
Katulad ng aming deliberative alignment na gawain, sinanay namin ang LLM sa pangangatwiran upang direktang gumana mula sa mga isinulat ng tao at madaling maunawaang mga espesipikasyong pangkaligtasan. Ginamit namin ang LLM na ito sa panahon ng pag-unlad upang matulungan kaming matukoy at matugunan ang mga kalabuan sa aming mga patakaran. Kasama ang aming mga pagsulong sa multimodal at umiiral na mga pamamaraang pangkaligtasan na na-develop para sa ChatGPT at Sora, nagpapahintulot ito sa amin na i-moderate kapwa ang input text at output na mga larawan ayon sa aming mga patakaran.
Simula ngayong araw, ang 4o image generation ay ilulunsad sa mga user ng Plus, Pro, Team, at Free bilang default na image generator sa ChatGPT, at malapit nang magkaroon ng access ang Enterprise at Edu. Available din ito para magamit sa Sora. Para sa mga may espesyal na lugar sa kanilang puso para sa DALL·E, maaari mo pa rin itong ma-access sa pamamagitan ng dedikadong DALL·E GPT.
Malapit nang makagawa ng mga larawan ang mga developer gamit ang GPT‑4o sa pamamagitan ng API, na ilulunsad sa susunod na ilang linggo.
Ang paggawa at pagpapasadya ng mga larawan ay kasing simple ng pag-chat gamit ang GPT‑4o - ilarawan mo lang kung ano ang kailangan mo, kasama ang mga detalye tulad ng aspect ratio, eksaktong mga kulay gamit ang hex codes, o transparent na background. Dahil ang modelo na ito ay gumagawa ng mas detalyadong mga larawan, mas matagal ang pag-render ng mga larawan, kadalasan ay umaabot ng hanggang isang minuto.
May-akda
Pamumuno
Gabriel Goh: Pagbuo ng Larawan
Jackie Shannon: Produkto ng ChatGPT
Mengchao Zhong, Wayne Chang: ChatGPT Engineering
Rohan Sahai: Produkto ng Sora at Engineering
Brendan Quinn, Tomer Kaftan: Inference
Prafulla Dhariwal: Multimodal na Organisasyon
Pananaliksik
Foudational na Pananaliksik
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Pangunahing Pananaliksik
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Mga Kontribyutor sa Pananaliksik
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Paggawi ng Model
Laurentia Romaniuk
Multimodal na Organisasyon
Andrew Gibiansky, Yang Lu
Data
Mga Nangunguna sa Data
Gildas Chabot, James Park Lennon
Data
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Mga Moderator
Hazel Byrne, Jennifer Luckenbill, Mariano López
Mga Tagapayo sa Human Data
Long Ouyang
Email Address *
Mga Nangunguna sa Inference
Brendan Quinn, Tomer Kaftan
Inference
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Ginamit
ChatGPT Product Lead
Jackie Shannon
Mga Pinuno ng ChatGPT Engineering
Mengchao Zhong, Wayne Chang
Pinuno ng Disenyo ng Produkto
Matt Chan
Data Science
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Mga Nangunguna sa Produkto ng Sora
Rohan Sahai, Wesam Manassra
Produkto at Engineering ng Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Kaligtasan
Lider sa Pangkaligtasan
Somay Jain
Kaligtasan
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Estratehiya
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing at Komunikasyon
Mga Nangunguna sa Komunikasyon at Marketing
Minnia Feng, Natalie Summers, Taya Christianson
Komunikasyon
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Disenyo at Pagkamalikhain
Mga Nangunguna
Kendra Rimbach, Veit Moeller
Disenyo
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Espesyal na Pasasalamat
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






