Dziś wprowadzamy nową wersję ChatGPT Images opartą na naszym nowym flagowym modelu do generowania obrazów. Już dziś można uzyskać doskonałe obrazy, niezależnie od tego, czy tworzysz grafikę od zera czy edytujesz istniejące już zdjęcie. Model dokonuje precyzyjnych edycji, zachowując szczegóły, takie jak wygląd osób, i generuje obrazy nawet 4 razy szybciej. Wprowadzamy nową funkcję opracowywania obrazów w ChatGPT, zaprojektowaną tak, aby generowanie obrazów było przyjemne, dawało inspirację i zachęcało do kreatywności.
Nowy model do obsługi obrazów oraz funkcje są wprowadzane od dzisiaj w ChatGPT dla wszystkich użytkowników (w API jako GPT‑image‑1.5).
Teraz gdy prosisz o edycje przesyłanego obrazu, model jeszcze lepiej i w najdrobniejszych szczegółach zrealizuje twoje zamierzenia, zmieniając tylko to, co każesz. Jednocześnie zachowa spójność elementów takich jak oświetlenie, kompozycja i wygląd osób w danych wejściowych, wynikach i podczas kolejnych modyfikacji.
Otrzymasz wyniki zgodne z twoimi zamiarami: bardziej użyteczne funkcje edycji zdjęć, realistyczne przymiarki ubrań i fryzur, a także stylistyczne filtry i przekształcenia koncepcyjne, które zachowują esencję oryginalnego obrazu. Wszystkie te usprawnienia przekształcają ChatGPT w twoje kreatywne studio, w którym możesz wykonywać codzienne edycje grafik i zdjęć, jak również przeprowadzać ekspresyjne reinterpretacje.
Model doskonale radzi sobie z różnymi rodzajami edycji, w tym z dodawaniem, usuwaniem, łączeniem, mieszaniem i transponowaniem, dzięki czemu uzyskujesz pożądane zmiany bez utraty wyjątkowości danego obrazu.
Kreatywność modelu ujawnia się w transformacjach, które zmieniają i dodają elementy, takie jak teksty i układy, co pozwala ożywić pomysły z zachowaniem istotnych szczegółów. Transformacje działają w przypadku prostych, jak i bardziej złożonych koncepcji. Możesz je wypróbować w prosty sposób dzięki gotowym stylom i pomysłom zawartym w nowej funkcji ChatGPT Images(otwiera nowe okno) – nie jest do tego wymagane żadne pisemne polecenie.
Model wykonuje polecenia lepiej niż jego pierwsza wersja. Dzięki temu modyfikacje są bardziej precyzyjne oraz możliwe jest tworzenie bardziej złożonych kompozycji, w których relacje między elementami są zachowane zgodnie z zamierzeniem.
Nowość
Poprzednio
Model zapewnia również bardziej dokładną obróbkę tekstów i radzi sobie z gęstszymi i mniejszymi krojami czcionek.
Model również sprawdza się lepiej w innych aspektach, co przekłada się na przykład na wierniejsze renderowanie wielu małych twarzy oraz bardziej naturalny wygląd generowanych grafik.
Nowość
Poprzednio
Oprócz generowania obrazów poprzez opisanie oczekiwanego wyniku, wprowadzamy dedykowany obszar Obrazów(otwiera nowe okno) w ChatGPT – dostępny w pasku bocznym w aplikacji mobilnej i na stronie chatgpt.com. Pozwala on na szybsze i łatwiejsze odkrywanie oraz sprawdzanie obrazów. Zawiera też dziesiątki wstępnie skonfigurowanych filtrów i poleceń pobudzających kreatywność, które są regularnie dostosowywane do aktualnych trendów.
Wprowadzone ulepszenia pozwalają tworzyć obrazy bardziej zgodne pod każdym względem z zamysłem użytkownika.
Ten model usprawnia biznesowe przepływy pracy dzięki szybszemu generowaniu obrazów, precyzyjnym edycjom i spójnym szczegółom wizualnym w kolejnych iteracjach. Pracownicy mogą sprawdzać pomysły, wprowadzać zmiany i wizualizować złożone koncepcje z przeznaczeniem do zastosowania w marketingu, projektowaniu, e-commerce i komunikacji wewnętrznej.
Ponownie przetestowaliśmy wiele przykładów z okresu pierwszej wersji tej funkcji i sprawdziliśmy wydajność w aktualnej wersji. Model wykazuje wyraźną poprawę wyników w różnych przypadkach, chociaż tworzone obrazy wciąż nie są doskonałe. Zdecydowanie uznajemy, że model dokonał postępów, jednak nadal możemy wiele poprawić w jego kolejnych iteracjach.
Nowość
Poprzednio
Wciąż występują pewne nieścisłości naukowe, ale około 70% danych jest poprawnych, a grafika jest znacznie bardziej żywa i nie jest za wcześnie przycinana.
Model gpt-image-1.5 w API zawiera te same ulepszenia co ChatGPT Images: lepiej sobie radzi z zachowywaniem spójności i edytowaniem obrazów niż GPT Image 1.
Użytkownicy zauważą bardziej spójne zachowywanie logo marek i kluczowych wizualizacji podczas edycji. Dzięki temu jest to idealne rozwiązanie dla działań marketingowych i zadań związanych z obsługą marki, takich jak tworzenie grafik i logo, a także doskonale wspiera pracę zespołów e-commerce tworzących pełne katalogi obrazów produktów (warianty, sceny i kąty) z jednego obrazu źródłowego.
Obsługa danych wejściowych i wyjściowych jest o 20% tańsza w GPT Image 1.5 w porównaniu z GPT Image 1, więc można generować i poprawiać więcej obrazów w tej samej cenie.
Nowy model można wypróbować w środowisku OpenAI Playground(otwiera nowe okno) lub poszukać inspiracji w przewodniku po poleceniach(otwiera nowe okno).
Przedsiębiorstwa i start-upy z różnych branż kreatywnych, e-commerce, programistycznych i marketingowych korzystają z GPT Image 1.5. Poniżej przedstawiamy kilka przykładów.
Nowość
Poprzednio
"GPT Image 1.5 generuje obrazy o wysokiej wierności, ściśle przestrzega poleceń i zachowuje kompozycję, oświetlenie oraz drobne szczegóły. Wyniki są przejrzyste, realistyczne i niezawodne, co pozwala szybciej przechodzić od koncepcji do produkcji na platformach takich jak Wix. Na podstawie naszych testów i głównych przypadków użycia w Wix, możemy stwierdzić, że jest to jeden z najlepszych modeli do generowania obrazów na rynku".
— Hila Gat, kierownik ds. badań nad sztuczną inteligencją i analizą danych w Wix
Nowa funkcja ChatGPT Images jest już teraz wprowadzana dla wszystkich użytkowników ChatGPT i użytkowników API na całym świecie. Będzie ona działa we wszystkich modelach, więc nie musisz nic włączać, aby z niej korzystać.
Wierzymy, że nadal dopiero odkrywamy potencjał funkcjonalności w ramach generowania obrazów. Dzisiejsza aktualizacja to znaczący krok naprzód, a kolejne wykonamy już niedługo, wprowadzając bardziej szczegółowe edycje czy oferując bogatsze i bardziej precyzyjne wyniki w różnych językach.
Autor
Contributors
Project Leadership
Gabriel Goh — Research Lead
Adele Li — Product Lead
Bill Peebles — Sora Lead
Aditya Ramesh — World Simulation Lead
Mark Chen — Chief Research Officer
Prafulla Dhariwal — Multimodal Lead
Core Team
Alex Fang, Alex Yu, Ben Wang, Bing Liang, Boyuan Chen, Charlie Nash, David Medina, Dibya Bhattacharjee, Jianfeng Wang, Kenji Hata, Kiwhan Song, Mengchao Zhong, Mike Starr, Yuguang Yang
Research Contributors
Bram Wallace, Dmytro Okhonko, Haitang Hu, Kshitij Gupta, Li Jing, Lu Liu, Peter Zhokhov, Qiming Yuan, Senthil Purushwalkam, Yizhen Zhang
Core Inference
Adam Tart, Alyssa Huang, Andrew Braunstein, Jane Park, Karen Li, Tomer Kaftan
Research Collaborators
Aditya Ramesh, Alex Nichol, Andrew Kondrich, Andrew Liu, Benedikt Winter, Bill Peebles, Connor Holmes, Cyril Zhang, Daniel Geng, Eric Mintun, James Betker, Jamie Kiros, Manuka Stratta, Martin Li, Raoul de Liedekerke, Ricky Wang, Ruslan Vasilev, Vladimir Chalyshev, Welton Wang, Wyatt Thompson, Yaming Lin
Inference Collaborators
Jiayu Bai, Kevin King, Stanley Hsieh, Weiyi Zheng
Data & Evaluation
Alexandra Barr, Aparna Dutta, Arshi Bhatnagar, Chao Yu, Charlotte Cole, Dragos Oprica, Emma Tang, Gowrishankar Sunder, Henry Baer, Ian Sohl, James Park Lennon, Jason Xu, Peilin Yang, Somay Jain, Szi-chieh Yu, Wesam Manassra, Xiaolei Zhu, Yilei Qian
Applied
Affonso Reis, Alan Gou, Alexandra Vodopianova, Amandeep Grewal, Andi Liu, Andrew Sima, Angus Fletcher, Antonia Woodford, Arun Eswara, Benny Wong, Bharat Rangan, Boyang Niu, Bridget Collins, Bryan Brandow, Callie Riggins Zetino, Chris Wendel, Ethan Chang, Gilman Tolle, Greg Hochmuth, Ibrahim Okuyucu, Jesse Chand, Jesse Hendrickson, Jiayu Bai, Jimmy Lin, Johan Cervantes, Kan Wu, Liam Esparraguera, Maja Wichrowska, Matthew Ferrari, Murat Yesildal, Nikunj Handa, Nithanth Kudige, Ola Okelola, Osman Khwaja, Peter Argany, Peter Bakkum, Peter Vidani, Richard Zadorozny, Rohan Sahai, Savelii Bondini, Sean Chang, Vickie Duong, Victoria Huang, Xiaolin Hao, Xueqing Li
Safety, Safety Systems, Integrity, Policy & Trust
Abby Fanlo Susk, Adam Wells, Aleah Houze, Annie Cheng, Artyi Xu, Carolina Paz, David Abelman, Femi Alamu, Jay Wang, Jeremiah Currier, Jesika Haria, Mariya Guryeva, Max Burkhardt, Paige Walker, Pedro Aguilar, Rutsu Koshimizu, Sam Toizer, Savannah Heon, Tom Rubin, Tonia Osadebe, Willow Primack, Zoe Stoll
Product Operations, Program Management and Governance
Antonio Di Francesco, Filippo Raso, Grace Wu, Josh Metherd, Ruth Costigan
Legal
Ally Bennett, Tony Song, Tyce Walters
Communications, Marketing, Community, Design & Creative
Akash Iyer, Alex Baker-Whitcomb, Angie Luo, Anne Oburgh, Antonia Richmond, Annie Tsang, Ashley Tyra, Bailey Richardson, Brandon McGraw, Cary Hudson, Dana Palmie, Evan Corrigan, Gaby Raila, Indgila Samad Ali, James Anderson, Jeremy Schwartz, Jordan Liss, Juan Garza, Julie Steele, Kara Zichittella, Karn Piluntanadilok, Kendal Peirce, Kim Baschet, Leah Anise, Livvy Pierce, Maria Clara M. Fleury Osorio, Minnia Feng, Nick Ciffone, Nick Forland, Niko Felix, Paige Ford, Rachel Puckett, Rishabh Aggarwal, Rusty Rupprecht, Souki Mansoor, Tasia Potasinski, Taya Christianson, Vasundhara Mudgil, Whitney Ferris, Yara Khakbaz, Zach Brock, Zoë Silverman
Special Thanks
Amy Yang, Arvin Wu, Avital Oliver, Brandon McKinzie, Chak Li, Chris Lu, David Duxin, Dian Ang Yap, Gabriel Petersson, Guillaume Leclerc, Hazel Byrne, Henry Aspegren, Jennifer Luckenbill, Ji Lin, Joseph Mo, Julius Hochmuth, Liunian (Harold) Li, Long Ouyang, Mariano López, Michael Zhang, Ravi Teja Mullapudi, Suvansh Sanjeev, Varun Shetty, Wenda Zhou
Exec
Fidji Simo, Hannah Wong, Jakub Pachocki, Jason Kwon, Johannes Heidecke, Kate Rouch, Lauren Itow, Mark Chen, Mia Glaese, Nick Ryder, Nick Turley, Prafulla Dhariwal, Sam Altman, Sulman Choudhry






















