Danes predstavljamo novo različico funkcije ChatGPT slike, ki jo poganja naš novi paradni model za generiranje slik. Zdaj boste, ne glede na to, ali ustvarjate nekaj povsem novega ali urejate fotografijo, dobili rezultat, kakršnega si predstavljate. Model omogoča natančne popravke, pri tem pa ohranja podrobnosti, kot je videz oseb, in slike generira do 4-krat hitreje. Hkrati uvajamo novo funkcijo Slike znotraj ChatGPT‑ja, zasnovano tako, da je generiranje slik prijetno, spodbuja navdih in omogoča lahkotno ustvarjalno raziskovanje
Novi slikovni model in nova funkcija Slike se danes uvajata v ChatGPT za vse uporabnike ter v API pod imenom gpt-image-1.5.
Ko zdaj zahtevate popravke naložene slike, se model zanesljiveje drži vašega namena, tudi pri najmanjših podrobnostih. Spremeni samo tisto, kar zahtevate, hkrati pa ohranja doslednost elementov, kot so osvetlitev, kompozicija in videz oseb, med vhodnimi podatki, izhodi in nadaljnjimi popravki.
To omogoča rezultate, ki ustrezajo vašemu namenu, npr. bolj uporabno urejanje fotografij, bolj prepričljiva oblačila in pričeske ter stilski filtri s konceptualnimi preobrazbami, ki ohranjajo bistvo izvirne slike. Skupaj te izboljšave pomenijo, da lahko ChatGPT deluje kot ustvarjalni studio v vašem žepu, primeren tako za praktične popravke kot za izrazite ustvarjalne reinterpretacije.
Model se odlično obnese pri različnih vrstah urejanja, vključno z dodajanjem, odstranjevanjem, združevanjem, prelivanjem in prestavljanjem elementov. Tako dobite želene spremembe, ne da bi pri tem izgubili tisto, zaradi česar je slika posebna.
Ustvarjalnost modela pride do izraza pri preobrazbah, ki spreminjajo in dodajajo elemente, na primer besedilo in postavitev, da ideje zaživijo, hkrati pa ohranjajo pomembne podrobnosti. Te preobrazbe delujejo tako pri preprostih kot tudi pri bolj zapletenih konceptih in jih je enostavno preizkusiti s prednastavljenimi slogi in idejami v novi funkciji ChatGPT slike(odpre se v novem oknu), brez potrebe po pisanju poziva.
Model navodilom sledi zanesljiveje kot naša začetna različica. To omogoča natančnejše popravke ter bolj kompleksne izvirne kompozicije, pri katerih so odnosi med elementi ohranjeni tako, kot je bilo predvideno.
Novo
Prej
Model predstavlja tudi nadaljnji napredek pri upodabljanju besedila, saj je sposoben obvladovati gostejše in manjše besedilo.
Model prinaša tudi izboljšave na dodatnih področjih, ki se neposredno odražajo v bolj takoj uporabnih rezultatih, na primer pri upodabljanju številnih manjših obrazov in pri splošni naravnosti izhodov.
Novo
Prej
Poleg ustvarjanja slik z opisovanjem želenega rezultata v sporočilu uvajamo namenski prostor Slike (odpre se v novem oknu) v ChatGPT‑ju. Ta je na voljo v stranski vrstici mobilne aplikacije in na chatgpt.com ter omogoča hitrejše in enostavnejše raziskovanje ter preizkušanje slik. Vključuje več deset prednastavljenih filtrov in pozivov za hiter zagon navdiha, ki se redno posodabljajo glede na nove trende.
Skupaj te nadgradnje omogočajo ustvarjanje slik, ki se še bolje ujemajo z vašo vizijo, od manjših popravkov do popolnih preoblikovanj.
Ta model poenostavlja poslovne delovne tokove z hitrejšim generiranjem slik, natančnimi popravki in doslednimi vizualnimi podrobnostmi skozi iteracije. Ekipe lahko raziskujejo ideje, izvajajo ciljno usmerjene spremembe in vizualizirajo kompleksne ali manj privlačne koncepte, kar podpira primere uporabe na področjih trženja, oblikovanja, e-trgovine in interne komunikacije.
Ponovno smo izvedli številne primere iz naše prve predstavitve generiranja slik, da bi ocenili delovanje. Model kaže jasne izboljšave v širokem naboru primerov, vendar rezultati še niso popolni. Čeprav ta izdaja predstavlja pomemben napredek, ostaja v prihodnjih iteracijah še precej prostora za izboljšave.
Novo
Prej
Še vedno so prisotne nekatere znanstvene netočnosti, vendar je približno 70 % vsebine pravilne, grafika pa je bistveno bolj živahna in se izogne prezgodnjemu obrezovanju.
gpt-image-1.5 v API-ju prinaša vse enake izboljšave kot ChatGPT slike in je pri ohranjanju ter urejanju slik zmogljivejši od GPT Image 1.
Opazili boste bolj dosledno ohranjanje blagovnih logotipov in ključnih vizualnih elementov pri zaporednih popravkih, zaradi česar je posebej primeren za trženje in delo z blagovno znamko, kot so grafike in oblikovanje logotipov, ter za ekipe e-trgovine, ki iz ene izvorne slike ustvarjajo celotne kataloge produktnih slik (vključno z različicami, prizori in koti).
Vhodi in izhodi slik so v GPT Image 1.5 za 20 % cenejši v primerjavi z GPT Image 1, kar omogoča generiranje in iteriranje večjega števila slik z enakim proračunom.
Novi model lahko preizkusite v OpenAI Playground(odpre se v novem oknu) ali preberete vodnik za poziv(odpre se v novem oknu) za nekaj navdiha.
Podjetja in zagonska podjetja iz različnih panog, vključno z ustvarjalnimi orodji, e-trgovino, trženjsko programsko opremo in drugimi, že uporabljajo GPT Image 1.5. V nadaljevanju predstavljamo nekaj primerov.
Novo
Prej
»GPT Image 1.5 generira slike z visoko stopnjo vizualne zvestobe in močnim sledenjem pozivom ter ohranja kompozicijo, osvetlitev in drobne podrobnosti. Rezultati so čisti, realistični in zanesljivi ter podpirajo hitrejše delovne tokove od zasnove do produkcije na platformah, kot je Wix. Na podlagi našega testiranja in glavnih primerov uporabe pri Wixu se doslednost in kakovost uvrščata ob bok najboljšim paradnim modelom za generiranje slik danes.«
— Hila Gat, vodja raziskav UI in podatkovne znanosti pri Wix-u
Nova funkcija ChatGPT slike se danes uvaja za vse uporabnike ChatGPT‑ja in API uporabnike po vsem svetu. Deluje pri vseh modelih, zato vam ni treba ničesar izbrati, da bi ga uporabili.
Prepričani smo, da smo še na začetku tega, kar lahko omogoči generiranje slik. Današnja posodobitev predstavlja pomemben korak naprej, v prihodnje pa sledi še več izboljšav, od natančnejših popravkov do bogatejših in podrobnejših izhodov v različnih jezikih.
Avtor
Contributors
Project Leadership
Gabriel Goh — Research Lead
Adele Li — Product Lead
Bill Peebles — Sora Lead
Aditya Ramesh — World Simulation Lead
Mark Chen — Chief Research Officer
Prafulla Dhariwal — Multimodal Lead
Core Team
Alex Fang, Alex Yu, Ben Wang, Bing Liang, Boyuan Chen, Charlie Nash, David Medina, Dibya Bhattacharjee, Jianfeng Wang, Kenji Hata, Kiwhan Song, Mengchao Zhong, Mike Starr, Yuguang Yang
Research Contributors
Bram Wallace, Dmytro Okhonko, Haitang Hu, Kshitij Gupta, Li Jing, Lu Liu, Peter Zhokhov, Qiming Yuan, Senthil Purushwalkam, Yizhen Zhang
Core Inference
Adam Tart, Alyssa Huang, Andrew Braunstein, Jane Park, Karen Li, Tomer Kaftan
Research Collaborators
Aditya Ramesh, Alex Nichol, Andrew Kondrich, Andrew Liu, Benedikt Winter, Bill Peebles, Connor Holmes, Cyril Zhang, Daniel Geng, Eric Mintun, James Betker, Jamie Kiros, Manuka Stratta, Martin Li, Raoul de Liedekerke, Ricky Wang, Ruslan Vasilev, Vladimir Chalyshev, Welton Wang, Wyatt Thompson, Yaming Lin
Inference Collaborators
Jiayu Bai, Kevin King, Stanley Hsieh, Weiyi Zheng
Data & Evaluation
Alexandra Barr, Aparna Dutta, Arshi Bhatnagar, Chao Yu, Charlotte Cole, Dragos Oprica, Emma Tang, Gowrishankar Sunder, Henry Baer, Ian Sohl, James Park Lennon, Jason Xu, Peilin Yang, Somay Jain, Szi-chieh Yu, Wesam Manassra, Xiaolei Zhu, Yilei Qian
Applied
Affonso Reis, Alan Gou, Alexandra Vodopianova, Amandeep Grewal, Andi Liu, Andrew Sima, Angus Fletcher, Antonia Woodford, Arun Eswara, Benny Wong, Bharat Rangan, Boyang Niu, Bridget Collins, Bryan Brandow, Callie Riggins Zetino, Chris Wendel, Ethan Chang, Gilman Tolle, Greg Hochmuth, Ibrahim Okuyucu, Jesse Chand, Jesse Hendrickson, Jiayu Bai, Jimmy Lin, Johan Cervantes, Kan Wu, Liam Esparraguera, Maja Wichrowska, Matthew Ferrari, Murat Yesildal, Nikunj Handa, Nithanth Kudige, Ola Okelola, Osman Khwaja, Peter Argany, Peter Bakkum, Peter Vidani, Richard Zadorozny, Rohan Sahai, Savelii Bondini, Sean Chang, Vickie Duong, Victoria Huang, Xiaolin Hao, Xueqing Li
Safety, Safety Systems, Integrity, Policy & Trust
Abby Fanlo Susk, Adam Wells, Aleah Houze, Annie Cheng, Artyi Xu, Carolina Paz, David Abelman, Femi Alamu, Jay Wang, Jeremiah Currier, Jesika Haria, Mariya Guryeva, Max Burkhardt, Paige Walker, Pedro Aguilar, Rutsu Koshimizu, Sam Toizer, Savannah Heon, Tom Rubin, Tonia Osadebe, Willow Primack, Zoe Stoll
Product Operations, Program Management and Governance
Antonio Di Francesco, Filippo Raso, Grace Wu, Josh Metherd, Ruth Costigan
Legal
Ally Bennett, Tony Song, Tyce Walters
Communications, Marketing, Community, Design & Creative
Akash Iyer, Alex Baker-Whitcomb, Angie Luo, Anne Oburgh, Antonia Richmond, Annie Tsang, Ashley Tyra, Bailey Richardson, Brandon McGraw, Cary Hudson, Dana Palmie, Evan Corrigan, Gaby Raila, Indgila Samad Ali, James Anderson, Jeremy Schwartz, Jordan Liss, Juan Garza, Julie Steele, Kara Zichittella, Karn Piluntanadilok, Kendal Peirce, Kim Baschet, Leah Anise, Livvy Pierce, Maria Clara M. Fleury Osorio, Minnia Feng, Nick Ciffone, Nick Forland, Niko Felix, Paige Ford, Rachel Puckett, Rishabh Aggarwal, Rusty Rupprecht, Souki Mansoor, Tasia Potasinski, Taya Christianson, Vasundhara Mudgil, Whitney Ferris, Yara Khakbaz, Zach Brock, Zoë Silverman
Special Thanks
Amy Yang, Arvin Wu, Avital Oliver, Brandon McKinzie, Chak Li, Chris Lu, David Duxin, Dian Ang Yap, Gabriel Petersson, Guillaume Leclerc, Hazel Byrne, Henry Aspegren, Jennifer Luckenbill, Ji Lin, Joseph Mo, Julius Hochmuth, Liunian (Harold) Li, Long Ouyang, Mariano López, Michael Zhang, Ravi Teja Mullapudi, Suvansh Sanjeev, Varun Shetty, Wenda Zhou
Exec
Fidji Simo, Hannah Wong, Jakub Pachocki, Jason Kwon, Johannes Heidecke, Kate Rouch, Lauren Itow, Mark Chen, Mia Glaese, Nick Ryder, Nick Turley, Prafulla Dhariwal, Sam Altman, Sulman Choudhry






















