Hôm nay, chúng tôi ra mắt phiên bản mới của ChatGPT Images, được hỗ trợ bởi mô hình tạo sinh ảnh hàng đầu mới. Bây giờ, dù bạn đang tạo một cái gì đó từ đầu hay chỉnh sửa một bức ảnh, bạn sẽ có được kết quả như bạn hình dung. Nó thực hiện các chỉnh sửa chính xác trong khi giữ nguyên các chi tiết như diện mạo của con người và tạo ảnh nhanh hơn gấp 4 lần. Bên cạnh đó, chúng tôi còn giới thiệu một tính năng ảnh mới trong ChatGPT, được thiết kế để quá trình tạo sinh ảnh trở nên thú vị—để khơi nguồn cảm hứng và giúp việc khám phá sáng tạo trở nên dễ dàng.
Mô hình và tính năng ảnh mới đang được triển khai hôm nay trong ChatGPT cho tất cả người dùng, và trong API dưới dạng gpt-image-1.5.
Hiện tại, khi bạn yêu cầu chỉnh sửa một hình ảnh đã tải lên, mô hình tuân thủ ý định của bạn một cách đáng tin cậy hơn—đến từng chi tiết nhỏ—chỉ thay đổi những gì bạn yêu cầu trong khi giữ các yếu tố như ánh sáng, bố cục và diện mạo của mọi người nhất quán giữa đầu vào, đầu ra và các chỉnh sửa tiếp theo.
Tinh năng này mở khóa các kết quả phù hợp với ý định của bạn—các chỉnh sửahữu ích hơn, các thử nghiệm trang phục và kiểu tóc đáng tin cậy hơn, cùng với các bộ lọc phong cách và chuyển đổi khái niệm giữ nguyên bản chất của hình ảnh gốc. Những cải tiến này đồng nghĩa với việc ChatGPT có thể hoạt động như một studio sáng tạo trong túi của bạn, có khả năng thực hiện cả chỉnh sửa thực tế và tái hiện sáng tạo.
Mô hình vượt trội trong các loại chỉnh sửa khác nhau—bao gồm thêm, bớt, kết hợp, pha trộn và hoán đổi—giúp bạn có được những thay đổi mong muốn mà không làm mất đi điều gì làm cho hình ảnh trở nên đặc biệt.
Tính sáng tạo của mô hình tỏa sáng qua những biến đổi thay đổi và thêm các yếu tố—như văn bản và bố cục—để hiện thực hóa ý tưởng, đồng thời bảo tồn các chi tiết quan trọng. Những chuyển đổi này hoạt động cho cả các khái niệm đơn giản và phức tạp hơn, và dễ dàng thử nghiệm bằng cách sử dụng các phong cách và ý tưởng có sẵn trong tính năng ChatGPT Ảnh(mở trong cửa sổ mới) mới—không cần lời nhắc viết.
Mô hình tuân theo hướng dẫn đáng tin cậy hơn so với phiên bản ban đầu của chúng tôi. Điều này cho phép thực hiện các chỉnh sửa chính xác hơn cũng như tạo ra các tác phẩm gốc phức tạp hơn, nơi mà mối quan hệ giữa các yếu tố được giữ nguyên như dự định.
Mới
Trước đó
Mô hình tiến thêm một bước trong việc kết xuất văn bản, có khả năng xử lý văn bản dày đặc và nhỏ hơn.
Mô hình cũng cải thiện trên các khía cạnh bổ sung để tạo ra các kết quả có thể sử dụng ngay lập tức, như việc hiển thị nhiều khuôn mặt nhỏ và cách mà các kết quả tự nhiên trông.
Mới
Trước đó
Ngoài việc tạo ảnh bằng cách mô tả những gì bạn muốn thấy trong một tin nhắn, chúng tôi đang giới thiệu một nơi dành riêng cho Ảnh(mở trong cửa sổ mới) trong ChatGPT—có sẵn trong thanh bên thông qua ứng dụng di động và trên chatgpt.com—để làm cho việc khám phá và thử nghiệm hình ảnh nhanh hơn và dễ dàng hơn. Nó bao gồm hàng chục bộ lọc và lời nhắc được cài đặt sẵn để khơi nguồn cảm hứng, được cập nhật thường xuyên để phản ánh các xu hướng mới nổi.
Những nâng cấp này cho phép bạn tạo ra những hình ảnh phù hợp hơn với tầm nhìn của mình, từ những chỉnh sửa nhỏ đến những sự tái hiện hoàn toàn.
Mô hình này tối ưu hóa quy trình làm việc Business với việc tạo sinh ảnh nhanh hơn, chỉnh sửa chính xác và chi tiết hình ảnh đồng nhất qua các lần lặp lại. Các nhóm có thể khám phá ý tưởng, thực hiện các thay đổi có mục tiêu và hình dung các khái niệm phức tạp hoặc khô khan, hỗ trợ các trường hợp sử dụng trong tiếp thị, thiết kế, thương mại điện tử và truyền thông nội bộ.
Chúng tôi đã chạy lại nhiều ví dụ từ lần ra mắt tạo sinh ảnh ban đầu của chúng tôi để đánh giá hiệu suất. Mô hình cho thấy sự cải thiện rõ rệt trên nhiều trường hợp, mặc dù kết quả vẫn chưa hoàn hảo. Mặc dù bản phát hành này thể hiện tiến bộ đáng kể, vẫn còn nhiều cơ hội để cải thiện trong các phiên bản tương lai.
Mới
Trước đó
Vẫn còn một số sai sót khoa học, nhưng khoảng 70% là chính xác và đồ họa sống động hơn nhiều, tránh cắt xén sớm.
gpt-image-1.5 trong API mang lại tất cả các cải tiến tương tự trong ChatGPT ảnh: nó mạnh hơn trong việc bảo tồn và chỉnh sửa ảnh so với GPT Image 1.
Bạn sẽ thấy các logo thương hiệu và hình ảnh chính được giữ lại nhất quán hơn qua các chỉnh sửa—khiến nó phù hợp với công việc tiếp thị và thương hiệu như tạo đồ họa và logo, và cho các nhóm thương mại điện tử tạo ra toàn bộ danh mục ảnh sản phẩm (các biến thể, cảnh và góc độ) từ một ảnh nguồn duy nhất.
Đầu vào và đầu ra ảnh hiện nay rẻ hơn 20% trong GPT Image 1.5 so với GPT Image 1, vì vậy bạn có thể tạo và lặp lại nhiều ảnh hơn với cùng một ngân sách.
Bạn có thể thử mô hình mới trong OpenAI Playground(mở trong cửa sổ mới) hoặc đọc hướng dẫn lời nhắc(mở trong cửa sổ mới) để lấy cảm hứng.
Các doanh nghiệp và công ty khởi nghiệp trong nhiều ngành, bao gồm công cụ sáng tạo, thương mại điện tử, phần mềm tiếp thị, và nhiều lĩnh vực khác, đã và đang sử dụng GPT ảnh 1.5. Chúng tôi rất hào hứng được chia sẻ một số ví dụ dưới đây.
Mới
Trước đó
“GPT Ảnh 1.5 tạo ra các ảnh có độ trung thực cao với sự tuân thủ chặt chẽ lời nhắc, bảo toàn bố cục, ánh sáng và chi tiết tinh xảo. Kết quả rõ ràng, thực tế và đáng tin cậy, hỗ trợ quy trình từ ý tưởng đến sản xuất nhanh hơn trên các nền tảng như Wix. Dựa trên thử nghiệm của chúng tôi và các trường hợp sử dụng chính mà chúng tôi thấy tại Wix, sự nhất quán và chất lượng cạnh tranh để biến nó thành một trong những mô hình tạo sinh ảnh hàng đầu hiện nay.
— Hila Gat, Trưởng bộ phận Nghiên cứu AI và Khoa học Dữ liệu tại Wix
ChatGPT Ảnh mới đang được triển khai ngay bây giờ cho tất cả người dùng ChatGPT và người dùng API trên toàn cầu hôm nay trên mọi nền tảng. Nó hoạt động trên các mô hình, vì vậy bạn không cần phải chọn bất cứ điều gì để sử dụng nó.
Chúng tôi tin rằng chúng tôi vẫn đang ở giai đoạn đầu của những gì tạo sinh ảnh có thể cho phép. Bản cập nhật hôm nay là một bước tiến có ý nghĩa với nhiều điều hơn nữa sẽ đến, từ các chỉnh sửa chi tiết hơn đến các kết quả phong phú và chi tiết hơn trên nhiều ngôn ngữ.
Tác giả
Contributors
Project Leadership
Gabriel Goh — Research Lead
Adele Li — Product Lead
Bill Peebles — Sora Lead
Aditya Ramesh — World Simulation Lead
Mark Chen — Chief Research Officer
Prafulla Dhariwal — Multimodal Lead
Core Team
Alex Fang, Alex Yu, Ben Wang, Bing Liang, Boyuan Chen, Charlie Nash, David Medina, Dibya Bhattacharjee, Jianfeng Wang, Kenji Hata, Kiwhan Song, Mengchao Zhong, Mike Starr, Yuguang Yang
Research Contributors
Bram Wallace, Dmytro Okhonko, Haitang Hu, Kshitij Gupta, Li Jing, Lu Liu, Peter Zhokhov, Qiming Yuan, Senthil Purushwalkam, Yizhen Zhang
Core Inference
Adam Tart, Alyssa Huang, Andrew Braunstein, Jane Park, Karen Li, Tomer Kaftan
Research Collaborators
Aditya Ramesh, Alex Nichol, Andrew Kondrich, Andrew Liu, Benedikt Winter, Bill Peebles, Connor Holmes, Cyril Zhang, Daniel Geng, Eric Mintun, James Betker, Jamie Kiros, Manuka Stratta, Martin Li, Raoul de Liedekerke, Ricky Wang, Ruslan Vasilev, Vladimir Chalyshev, Welton Wang, Wyatt Thompson, Yaming Lin
Inference Collaborators
Jiayu Bai, Kevin King, Stanley Hsieh, Weiyi Zheng
Data & Evaluation
Alexandra Barr, Aparna Dutta, Arshi Bhatnagar, Chao Yu, Charlotte Cole, Dragos Oprica, Emma Tang, Gowrishankar Sunder, Henry Baer, Ian Sohl, James Park Lennon, Jason Xu, Peilin Yang, Somay Jain, Szi-chieh Yu, Wesam Manassra, Xiaolei Zhu, Yilei Qian
Applied
Affonso Reis, Alan Gou, Alexandra Vodopianova, Amandeep Grewal, Andi Liu, Andrew Sima, Angus Fletcher, Antonia Woodford, Arun Eswara, Benny Wong, Bharat Rangan, Boyang Niu, Bridget Collins, Bryan Brandow, Callie Riggins Zetino, Chris Wendel, Ethan Chang, Gilman Tolle, Greg Hochmuth, Ibrahim Okuyucu, Jesse Chand, Jesse Hendrickson, Jiayu Bai, Jimmy Lin, Johan Cervantes, Kan Wu, Liam Esparraguera, Maja Wichrowska, Matthew Ferrari, Murat Yesildal, Nikunj Handa, Nithanth Kudige, Ola Okelola, Osman Khwaja, Peter Argany, Peter Bakkum, Peter Vidani, Richard Zadorozny, Rohan Sahai, Savelii Bondini, Sean Chang, Vickie Duong, Victoria Huang, Xiaolin Hao, Xueqing Li
Safety, Safety Systems, Integrity, Policy & Trust
Abby Fanlo Susk, Adam Wells, Aleah Houze, Annie Cheng, Artyi Xu, Carolina Paz, David Abelman, Femi Alamu, Jay Wang, Jeremiah Currier, Jesika Haria, Mariya Guryeva, Max Burkhardt, Paige Walker, Pedro Aguilar, Rutsu Koshimizu, Sam Toizer, Savannah Heon, Tom Rubin, Tonia Osadebe, Willow Primack, Zoe Stoll
Product Operations, Program Management and Governance
Antonio Di Francesco, Filippo Raso, Grace Wu, Josh Metherd, Ruth Costigan
Legal
Ally Bennett, Tony Song, Tyce Walters
Communications, Marketing, Community, Design & Creative
Akash Iyer, Alex Baker-Whitcomb, Angie Luo, Anne Oburgh, Antonia Richmond, Annie Tsang, Ashley Tyra, Bailey Richardson, Brandon McGraw, Cary Hudson, Dana Palmie, Evan Corrigan, Gaby Raila, Indgila Samad Ali, James Anderson, Jeremy Schwartz, Jordan Liss, Juan Garza, Julie Steele, Kara Zichittella, Karn Piluntanadilok, Kendal Peirce, Kim Baschet, Leah Anise, Livvy Pierce, Maria Clara M. Fleury Osorio, Minnia Feng, Nick Ciffone, Nick Forland, Niko Felix, Paige Ford, Rachel Puckett, Rishabh Aggarwal, Rusty Rupprecht, Souki Mansoor, Tasia Potasinski, Taya Christianson, Vasundhara Mudgil, Whitney Ferris, Yara Khakbaz, Zach Brock, Zoë Silverman
Special Thanks
Amy Yang, Arvin Wu, Avital Oliver, Brandon McKinzie, Chak Li, Chris Lu, David Duxin, Dian Ang Yap, Gabriel Petersson, Guillaume Leclerc, Hazel Byrne, Henry Aspegren, Jennifer Luckenbill, Ji Lin, Joseph Mo, Julius Hochmuth, Liunian (Harold) Li, Long Ouyang, Mariano López, Michael Zhang, Ravi Teja Mullapudi, Suvansh Sanjeev, Varun Shetty, Wenda Zhou
Exec
Fidji Simo, Hannah Wong, Jakub Pachocki, Jason Kwon, Johannes Heidecke, Kate Rouch, Lauren Itow, Mark Chen, Mia Glaese, Nick Ryder, Nick Turley, Prafulla Dhariwal, Sam Altman, Sulman Choudhry






















