Przedstawiamy generowanie obrazu 4o
Wykorzystanie przydatnej i cennej funkcji generowania obrazów dzięki natywnie multimodalnemu modelowi zdolnemu do tworzenia precyzyjnych, dokładnych i fotorealistycznych wyników.
Zespół OpenAI od dawna uważa, że generowanie obrazów powinno być podstawową funkcją naszych modeli językowych. Właśnie dlatego stworzyliśmy nasz najbardziej zaawansowany generator obrazów – GPT‑4o. Dzięki niemu użytkownicy mogą generować nie tylko piękne, lecz także przydatne obrazy.
Począwszy od pierwszych malowideł naskalnych, a skończywszy na współczesnych infografikach – ludzie wykorzystują obrazy wizualne do komunikacji, przekonywania i analizowania, nie tylko do celów dekoracyjnych. Dzisiejsze modele generatywne potrafią tworzyć surrealistyczne, zapierające dech w piersiach sceny, ale mają trudności z obrazami, które ludzie wykorzystują do przekazywania i kreowania informacji. Różne obrazy – od logo po diagramy – mogą nieść precyzyjne znaczenie, gdy zostaną wzbogacone o symbole odnoszące się do wspólnego języka i doświadczeń.
Generowanie obrazów przez model GPT‑4o wyróżnia się dokładnym odwzorowaniem tekstu, precyzyjnym wykonywaniem poleceń oraz wykorzystaniem bazy wiedzy i kontekstu czatu charakterystycznych dla 4o – w tym przekształcaniem przesłanych obrazów lub wykorzystywaniem ich jako inspiracji wizualnej. Te możliwości ułatwiają tworzenie obrazów zgodnych z wyobrażeniami użytkownika, co pozwala na skuteczniejszą komunikację za pomocą elementów wizualnych i sprawia, że generowanie obrazów staje się praktycznym i skutecznym narzędziem o wysokiej precyzji.
Nasze modele zostały wytrenowane na podstawie wspólnej dystrybucji obrazów i tekstów online, w wyniku czego nauczyły się nie tylko tego, jak obrazy odnoszą się do języka, ale także tego, jak odnoszą się do siebie nawzajem. Dzięki przeprowadzeniu intensywnego treningu po wstępnym uczeniu uzyskany model charakteryzuje się zaskakującą płynnością wizualną oraz jest w stanie generować użyteczne, spójne i dostosowane do kontekstu obrazy.
Obraz jest wart tysiąca słów, ale czasami dodanie kilku słów w odpowiednim miejscu może wzbogacić jego wymowę. Zdolność modelu 4o do łączenia precyzyjnych symboli z obrazami sprawia, że generowanie obrazów staje się cennym narzędziem komunikacji wizualnej.
Ponieważ generowanie obrazów jest teraz natywną funkcją GPT‑4o, obrazy można udoskonalać w naturalnej rozmowie. Moduł GPT‑4o może opierać się na obrazach i tekście w kontekście czatu, zapewniając spójność w każdym aspekcie. Jeśli na przykład projektujesz postać do gry wideo, jej wygląd pozostaje spójny w poszczególnych iteracjach podczas udoskonalania i eksperymentowania.
Model GPT‑4o generuje obrazy zgodnie ze szczegółowymi poleceniami, zwracając uwagę na szczegóły. W przeciwieństwie do innych systemów, które mają trudności z tworzeniem 5–8 obiektów, GPT‑4o może poradzić sobie z nawet 10–20 różnymi obiektami. Ściślejsze powiązanie obiektów z ich cechami i relacjami pozwala na lepszą kontrolę.
Model GPT‑4o jest w stanie analizować i uczyć się na podstawie obrazów przesłanych przez użytkowników, płynnie łącząc ich szczegóły z kontekstem w celu generowania obrazów.
Natywna funkcja generowania obrazów umożliwia modelowi 4o powiązanie wiedzy między tekstem a obrazami, w wyniku czego powstaje model, który działa w sposób bardziej inteligentny i wydajny.
Trening na obrazach odzwierciedlających szeroką gamę stylów umożliwia modelowi tworzenie lub przekształcanie obrazów w przekonujący sposób.
Nasz model nie jest idealny. Jesteśmy świadomi wielu ograniczeń, które obecnie występują. Po wprowadzeniu modelu będziemy pracować nad ich usunięciem w ramach ciągłych ulepszeń.

Zauważyliśmy, że model GPT‑4o czasami zbyt mocno kadruje dłuższe obrazy, takie jak plakaty, zwłaszcza w dolnej części.
Zgodnie ze specyfikacją naszego modelu dążymy do zapewnienia jak największej swobody twórczej poprzez wspieranie wartościowych zastosowań, takich jak tworzenie gier, badania historyczne i edukacja, przy jednoczesnym zachowaniu wysokich standardów bezpieczeństwa. Jednocześnie nadal tak samo ważne jest blokowanie żądań, które naruszają te standardy. Poniżej przedstawiono oceny dodatkowych obszarów ryzyka, nad którymi pracujemy, aby zapewnić bezpieczne, użyteczne treści i umożliwić użytkownikom większą swobodę twórczą.
Śledzenie pochodzenia za pomocą C2PA oraz wewnętrzne odwracalne wyszukiwanie
Wszystkie wygenerowane obrazy zawierają metadane C2PA, które identyfikują obraz jako utworzony przez GPT‑4o, aby zapewnić przejrzystość. Stworzyliśmy również wewnętrzne narzędzie wyszukiwania, które wykorzystuje atrybuty techniczne generacji, aby umożliwić sprawdzenie, czy dane treści powstały przy użyciu naszego modelu.
Blokowanie niewłaściwych treści
Nieustannie blokujemy żądania dotyczące generowanych obrazów, które mogą naruszać nasze zasady dotyczące treści, takie jak materiały przedstawiające wykorzystywanie seksualne dzieci i deepfake’i o charakterze seksualnym. W przypadku obrazów przedstawiających prawdziwe osoby w określonym kontekście, obowiązują nas zaostrzone ograniczenia dotyczące rodzaju tworzonych obrazów, ze szczególnym uwzględnieniem nagości i przemocy. Tak jak w przypadku każdego wdrożenia bezpieczeństwo nigdy nie jest kwestią zamkniętą – stanowi raczej obszar wymagający ciągłych inwestycji. Wraz z poszerzaniem naszej wiedzy na temat rzeczywistego wykorzystania tego modelu będziemy wprowadzać odpowiednie zmiany w naszych zasadach.
Więcej informacji na temat naszego podejścia do generowania obrazów można znaleźć w naszym dodatku do karty systemu GPT‑4o..
Wykorzystanie rozumowania do zapewnienia bezpieczeństwa
Podobnie jak w przypadku naszego dostosowania opartego na rozumowaniu wytrenowaliśmy model LLM do pracy bezpośrednio na podstawie specyfikacji bezpieczeństwa napisanych przez ludzi, które mogą przez nich być interpretowane. Podczas rozwoju wykorzystaliśmy to rozumowanie LLM, aby identyfikować i wyeliminować niejasności w naszych zasadach. W połączeniu z naszymi multimodalnymi osiągnięciami i istniejącymi technikami bezpieczeństwa opracowanymi dla ChatGPT i Sora umożliwia nam to moderowanie zarówno wprowadzanego tekstu, jak i generowanych obrazów zgodnie z naszymi zasadami.
4o image generation rolls out starting today to Plus, Pro, Team, and Free users as the default image generator in ChatGPT, with access coming soon to Enterprise and Edu. It’s also available to use in Sora. For those who hold a special place in their hearts for DALL·E, it can still be accessed through a dedicated DALL·E GPT.
Developers will soon be able to generate images with GPT‑4o via the API, with access rolling out in the next few weeks.
Creating and customizing images is as simple as chatting using GPT‑4o - just describe what you need, including any specifics like aspect ratio, exact colors using hex codes, or a transparent background. Because this model creates more detailed pictures, images take longer to render, often up to one minute.
Autor
Przywództwo
Gabriel Goh: Generowanie obrazów
Jackie Shannon: Produkt ChatGPT
Mengchao Zhong, Wayne Chang: Inżynieria ChatGPT
Rohan Sahai: Produkt i inżynieria Sora
Brendan Quinn, Tomer Kaftan: Wyciąganie wniosków
Prafulla Dhariwal: Organizacja multimodalna
Badania
Badania podstawowe
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Badania podstawowe
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Współautorzy badań
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Zachowanie modelu
Laurentia Romaniuk
Organizacja multimodalna
Andrew Gibiansky, Yang Lu
Dane
Liderzy ds. danych
Gildas Chabot, James Park Lennon
Dane
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderatorzy
Hazel Byrne, Jennifer Luckenbill, Mariano López
Doradcy ds. danych dotyczących ludzi
Long Ouyang
Skalowanie
Liderzy ds. wnioskowania
Brendan Quinn, Tomer Kaftan
Wnioskowanie
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Stosowane
Lider ds. produktu ChatGPT
Jackie Shannon
Liderzy ds. inżynierii ChatGPT
Mengchao Zhong, Wayne Chang
Kierownik ds. projektowania produktów
Matt Chan
Data Science
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Liderzy ds. produktu Sora
Rohan Sahai, Wesam Manassra
Produkt i inżynieria Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Bezpieczeństwo
Lider ds. bezpieczeństwa
Somay Jain
Bezpieczeństwo
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Strategia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing i komunikacja
Liderzy ds. komunikacji i marketingu
Minnia Feng, Natalie Summers, Taya Christianson
Komunikacja
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Projektowanie i kreatywność
Liderzy
Kendra Rimbach, Veit Moeller
Projekt
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Podziękowania specjalne
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






