Avui llancem una nova versió de ChatGPT Images(s'obre en una finestra nova), impulsada pel nostre nou model insígnia de generació d'imatges. Ara, tant si crees alguna cosa des de zero com si edites una foto, obtindràs el resultat que imagines. Fa edicions precises mantenint intactes els detalls i genera imatges fins a 4x més ràpid. A més, presentem una nova funció Images(s'obre en una finestra nova) dins de ChatGPT, dissenyada per fer que la generació d'imatges sigui agradable, per despertar la inspiració i fer que l'exploració creativa sigui senzilla.
El nou model Images ja s'està desplegant avui a ChatGPT per a tots els usuaris, i està disponible a l'API com a GPT Image 1.5. La nova experiència Images a ChatGPT també s'està desplegant avui per a la majoria d'usuaris, i l'accés per a Business i Enterprise arribarà més endavant.
Ara, quan demanes edicions d'una imatge carregada, el model segueix la teva intenció amb més fiabilitat —fins als petits detalls—, canviant només allò que demanes i mantenint elements com la il·luminació, la composició i l'aparença de les persones coherents entre les entrades, les sortides i les edicions posteriors.
Això permet obtenir resultats que s'ajusten a la teva intenció: edicions de fotos més útils, proves de roba i pentinats més creïbles, juntament amb filtres estilístics i transformacions conceptuals que conserven l'essència de la imatge original. En conjunt, aquestes millores fan que ChatGPT pugui actuar com un estudi creatiu a la teva butxaca, capaç tant d'edicions pràctiques com de reinterpretacions expressives.
El model destaca en diferents tipus d'edició —incloent-hi afegir, treure, combinar, fusionar i transposar—, de manera que obtens els canvis que vols sense perdre allò que fa especial la imatge.
La creativitat del model es manifesta en transformacions que canvien i afegeixen elements —com text i maquetació— per donar vida a les idees, alhora que preserven detalls importants. Aquestes transformacions funcionen tant per a conceptes simples com més intricats, i són fàcils de provar mitjançant estils i idees predefinits a la nova funció ChatGPT Images(s'obre en una finestra nova), sense necessitat d'escriure cap indicació.
El model segueix les instruccions amb més fiabilitat que la nostra versió inicial. Això permet fer edicions més precises, així com composicions originals més intricades, en què es preserven les relacions entre elements tal com s'havia previst.
Nou
Anterior
El model fa un altre pas endavant en la renderització de text, amb capacitat per gestionar text més dens i més petit.
El model també millora en altres dimensions que es tradueixen en resultats més útils de manera immediata, com ara la renderització de moltes cares petites i l'aspecte natural dels resultats.
Nou
Anterior
A més de generar imatges descrivint què t'agradaria veure en un missatge, presentem una llar dedicada a Images(s'obre en una finestra nova) a ChatGPT —disponible a la barra lateral a través de l'aplicació mòbil i a chatgpt.com— per fer que explorar i provar imatges sigui més ràpid i més fàcil. Inclou desenes de filtres i indicacions predefinits per impulsar la inspiració, actualitzats regularment per reflectir les tendències emergents.
En conjunt, aquestes millores et permeten crear imatges que s'ajusten millor a la teva visió, des de petits retocs fins a reinterpretacions completes.
Hem tornat a executar molts dels exemples del nostre llançament inicial de generació d'imatges per avaluar-ne el rendiment. El model mostra millores clares en una sèrie de casos, tot i que els resultats continuen sent imperfectes. Tot i que aquesta versió representa un progrés significatiu, encara hi ha un marge important de millora en iteracions futures.
Nou
Anterior
Encara hi ha algunes imprecisions científiques, però és correcte en ~70% i els gràfics són molt més vius, i evita el retall prematur.
GPT Image 1.5 a l'API(s'obre en una finestra nova) ofereix totes les mateixes millores que ChatGPT Images: és més potent en preservació i edició d'imatges que GPT Image 1.
Hi veuràs una preservació més coherent dels logotips de marca i dels elements visuals clau al llarg de les edicions, cosa que el fa molt adequat per a treballs de màrqueting i marca com gràfics i creació de logotips, i per a equips d'e-commerce que generen catàlegs complets d'imatges de producte (variants, escenes i angles) a partir d'una única imatge font.
Les entrades i sortides d'imatges ara són un 20% més barates a GPT Image 1.5 en comparació amb GPT Image 1, de manera que pots generar i iterar més imatges amb el mateix pressupost.
Pots provar el nou model a l'OpenAI Playground(s'obre en una finestra nova), consultar la galeria(s'obre en una finestra nova) o llegir la guia d'indicacions(s'obre en una finestra nova) per inspirar-te.
Empreses i startups de diversos sectors, incloent-hi eines creatives, comerç electrònic, programari de màrqueting i més, ja estan fent servir GPT Image 1.5.
Nou
Anterior
«GPT Image 1.5 genera imatges d'alta fidelitat amb una gran adhesió a la indicació, preservant la composició, la il·luminació i el detall fi. Els resultats són nets, realistes i fiables, i permeten fluxos de treball del concepte a la producció més ràpids en plataformes com Wix. Segons les nostres proves i els principals casos d'ús que veiem a Wix, la consistència i la qualitat fan que competeixi per ser un dels models insígnia de generació d'imatges d'avui dia.»
— Hila Gat, directora de Recerca en IA i Ciència de Dades a Wix
El nou model de ChatGPT Images(s'obre en una finestra nova) ja s'està desplegant avui per a tots els usuaris de ChatGPT i de l'API a tot el món en totes les superfícies. Funciona amb tots els models, així que no cal seleccionar res per fer-lo servir. La versió de ChatGPT Images que es va llançar a principis d'aquest any continuarà disponible per a tots els usuaris com a GPT personalitzat(s'obre en una finestra nova).
Creiem que encara som al principi del que la generació d'imatges pot fer possible. L'actualització d'avui és un pas important endavant, i n'hi haurà més, des d'edicions més detallades fins a resultats més rics i detallats en diferents idiomes.
Autor
Col·laboradors
Lideratge del projecte
Gabriel Goh — Research Lead
Adele Li — Product Lead
Bill Peebles — Sora Lead
Aditya Ramesh — World Simulation Lead
Mark Chen — Chief Research Officer
Prafulla Dhariwal — Multimodal Lead
Equip principal
Alex Fang, Alex Yu, Ben Wang, Bing Liang, Boyuan Chen, Charlie Nash, David Medina, Dibya Bhattacharjee, Jianfeng Wang, Kenji Hata, Kiwhan Song, Mengchao Zhong, Mike Starr, Yuguang Yang
Col·laboradors de recerca
Bram Wallace, Dmytro Okhonko, Haitang Hu, Kshitij Gupta, Li Jing, Lu Liu, Peter Zhokhov, Qiming Yuan, Senthil Purushwalkam, Yizhen Zhang
Inferència principal
Adam Tart, Alyssa Huang, Andrew Braunstein, Jane Park, Karen Li, Tomer Kaftan
Col·laboradors de recerca
Aditya Ramesh, Alex Nichol, Andrew Kondrich, Andrew Liu, Benedikt Winter, Bill Peebles, Connor Holmes, Cyril Zhang, Daniel Geng, Eric Mintun, James Betker, Jamie Kiros, Manuka Stratta, Martin Li, Raoul de Liedekerke, Ricky Wang, Ruslan Vasilev, Vladimir Chalyshev, Welton Wang, Wyatt Thompson, Yaming Lin
Col·laboradors d'inferència
Jiayu Bai, Kevin King, Stanley Hsieh, Weiyi Zheng
Dades i avaluació
Alexandra Barr, Aparna Dutta, Arshi Bhatnagar, Chao Yu, Charlotte Cole, Dragos Oprica, Emma Tang, Gowrishankar Sunder, Henry Baer, Ian Sohl, James Park Lennon, Jason Xu, Peilin Yang, Somay Jain, Szi-chieh Yu, Wesam Manassra, Xiaolei Zhu, Yilei Qian
Aplicat
Affonso Reis, Alan Gou, Alexandra Vodopianova, Amandeep Grewal, Andi Liu, Andrew Sima, Angus Fletcher, Antonia Woodford, Arun Eswara, Benny Wong, Bharat Rangan, Boyang Niu, Bridget Collins, Bryan Brandow, Callie Riggins Zetino, Chris Wendel, Ethan Chang, Gilman Tolle, Greg Hochmuth, Ibrahim Okuyucu, Jesse Chand, Jesse Hendrickson, Jiayu Bai, Jimmy Lin, Johan Cervantes, Kan Wu, Liam Esparraguera, Maja Wichrowska, Matthew Ferrari, Murat Yesildal, Nikunj Handa, Nithanth Kudige, Ola Okelola, Osman Khwaja, Peter Argany, Peter Bakkum, Peter Vidani, Richard Zadorozny, Rohan Sahai, Savelii Bondini, Sean Chang, Vickie Duong, Victoria Huang, Xiaolin Hao, Xueqing Li
Seguretat, sistemes de seguretat, integritat, polítiques i confiança
Abby Fanlo Susk, Adam Wells, Aleah Houze, Annie Cheng, Artyi Xu, Carolina Paz, David Abelman, Femi Alamu, Jay Wang, Jeremiah Currier, Jesika Haria, Mariya Guryeva, Max Burkhardt, Paige Walker, Pedro Aguilar, Rutsu Koshimizu, Sam Toizer, Savannah Heon, Tom Rubin, Tonia Osadebe, Willow Primack, Zoe Stoll
Operacions de producte, gestió de programes i governança
Antonio Di Francesco, Filippo Raso, Grace Wu, Josh Metherd, Ruth Costigan
Legal
Ally Bennett, Tony Song, Tyce Walters
Comunicacions, màrqueting, comunitat, disseny i creativitat
Akash Iyer, Alex Baker-Whitcomb, Angie Luo, Anne Oburgh, Antonia Richmond, Annie Tsang, Ashley Tyra, Bailey Richardson, Brandon McGraw, Cary Hudson, Dana Palmie, Evan Corrigan, Gaby Raila, Indgila Samad Ali, James Anderson, Jeremy Schwartz, Jordan Liss, Juan Garza, Julie Steele, Kara Zichittella, Karn Piluntanadilok, Kendal Peirce, Kim Baschet, Leah Anise, Livvy Pierce, Maria Clara M. Fleury Osorio, Minnia Feng, Nick Ciffone, Nick Forland, Niko Felix, Paige Ford, Rachel Puckett, Rishabh Aggarwal, Rusty Rupprecht, Souki Mansoor, Tasia Potasinski, Taya Christianson, Vasundhara Mudgil, Whitney Ferris, Yara Khakbaz, Zach Brock, Zoë Silverman
Agraïments especials
Amy Yang, Arvin Wu, Avital Oliver, Brandon McKinzie, Chak Li, Chris Lu, David Duxin, Dian Ang Yap, Gabriel Petersson, Guillaume Leclerc, Hazel Byrne, Henry Aspegren, Jennifer Luckenbill, Ji Lin, Joseph Mo, Julius Hochmuth, Liunian (Harold) Li, Long Ouyang, Mariano López, Michael Zhang, Ravi Teja Mullapudi, Suvansh Sanjeev, Varun Shetty, Wenda Zhou
Direcció executiva
Fidji Simo, Hannah Wong, Jakub Pachocki, Jason Kwon, Johannes Heidecke, Kate Rouch, Lauren Itow, Mark Chen, Mia Glaese, Nick Ryder, Nick Turley, Prafulla Dhariwal, Sam Altman, Sulman Choudhry






















