Παρουσίαση μοντέλου δημιουργίας εικόνων 4o
Ξεκλειδώνοντας χρήσιμη και πολύτιμη παραγωγή εικόνων με ένα εγγενώς πολυτροπικό μοντέλο ικανό για ακριβή, φωτορεαλιστικά αποτελέσματα.
Στην OpenAI, πιστεύουμε εδώ και καιρό ότι η δημιουργία εικόνων πρέπει να είναι μια βασική ικανότητα των γλωσσικών μας μοντέλων. Γι' αυτό ενσωματώσαμε την πιο προηγμένη μας τεχνολογία δημιουργίας εικόνων στο GPT‑4o. Το αποτέλεσμα είναι δημιουργία εικόνων που δεν είναι μόνο όμορφες, αλλά και χρήσιμες.
Από τις πρώτες ζωγραφιές σε σπήλαια μέχρι τα σύγχρονα infographics, οι άνθρωποι έχουν χρησιμοποιήσει οπτικές εικόνες για να επικοινωνούν, να πείθουν και να αναλύουν — όχι μόνο για να διακοσμούν. Τα σημερινά μοντέλα παραγωγής περιεχομένου μπορούν να δημιουργήσουν σουρεαλιστικές, εντυπωσιακές σκηνές, αλλά δυσκολεύονται με τις βασικές εικόνες που χρησιμοποιούν οι άνθρωποι για να μοιράζονται και να δημιουργούν πληροφορίες. Από τα λογότυπα έως τα διαγράμματα, οι εικόνες μπορούν να μεταφέρουν ακριβές νόημα, όταν ενισχύονται με σύμβολα που αναφέρονται σε κοινή γλώσσα και εμπειρία.
Η δημιουργία εικόνων GPT‑4o υπερέχει στην ακριβή απόδοση κειμένου, ακολουθώντας με ακρίβεια τις προτροπές και αξιοποιώντας την εγγενή βάση γνώσης και το περιβάλλον συνομιλίας του 4o—συμπεριλαμβανομένου του μετασχηματισμού των αποστελλόμενων εικόνων ή της χρήσης τους ως οπτικής έμπνευσης. Αυτές οι δυνατότητες κάνουν πιο εύκολη τη δημιουργία της εικόνας που φαντάζεσαι, βοηθώντας σε να επικοινωνείς πιο αποτελεσματικά μέσω εικαστικών στοιχείων και εξελίσσοντας τη δημιουργία εικόνων σε ένα πρακτικό εργαλείο με ακρίβεια και δύναμη.
Εκπαιδεύσαμε τα μοντέλα μας στην κοινή κατανομή διαδικτυακών εικόνων και κειμένου, μαθαίνοντάς τα όχι μόνο πώς οι εικόνες σχετίζονται με τη γλώσσα, αλλά και πώς σχετίζονται μεταξύ τους. Σε συνδυασμό με την ενεργή εκπαίδευση μετά την αρχική εκπαίδευση, το μοντέλο που προκύπτει έχει εκπληκτική οπτική ευχέρεια, ικανό να δημιουργεί εικόνες που είναι χρήσιμες, συνεπείς και με επίγνωση του περιβάλλοντος.
Μια εικόνα αξίζει όσο χίλιες λέξεις, αλλά μερικές φορές η δημιουργία μερικών λέξεων στη σωστή θέση μπορεί να αναδείξει το νόημα μιας εικόνας. Η ικανότητα του 4o να συνδυάζει ακριβή σύμβολα με εικόνες μετατρέπει την παραγωγή εικόνων σε εργαλείο οπτικής επικοινωνίας.
Επειδή η δημιουργία εικόνων είναι πλέον εγγενής στο GPT‑4o, μπορείς να βελτιώσεις τις εικόνες μέσω φυσικής συζήτησης. Το GPT‑4o μπορεί να βασιστεί σε εικόνες και κείμενο στο περιβάλλον συνομιλίας, διασφαλίζοντας συνέπεια καθ' όλη τη διαδικασία. Για παράδειγμα, αν σχεδιάζεις έναν χαρακτήρα βιντεοπαιχνιδιού, η εμφάνιση του χαρακτήρα παραμένει συνεπής σε πολλαπλές επαναλήψεις καθώς τη βελτιώνεις και πειραματίζεσαι.
Η δημιουργία εικόνων του GPT‑4o ακολουθεί λεπτομερείς προτροπές με προσοχή στη λεπτομέρεια. Ενώ άλλα συστήματα δυσκολεύονται με περίπου 5-8 αντικείμενα, το GPT‑4o μπορεί να διαχειριστεί έως και 10-20 διαφορετικά αντικείμενα. Η στενότερη σύνδεση των αντικειμένων με τα χαρακτηριστικά και τις σχέσεις τους επιτρέπει καλύτερο έλεγχο.
Το GPT‑4o μπορεί να αναλύει και να μαθαίνει από εικόνες που αποστέλλουν οι χρήστες, ενσωματώνοντας απρόσκοπτα τις λεπτομέρειές τους στο περιβάλλον του για να βελτιώσει τη δημιουργία εικόνων.
Η εγγενής δημιουργία εικόνας ενεργοποιεί το 4o να δημιουργεί σύνδεσμο της γνώσης μεταξύ κειμένου και εικόνων, με αποτέλεσμα ένα μοντέλο που φαίνεται πιο έξυπνο και αποδοτικό.
Η εκπαίδευση σε εικόνες που αντικατοπτρίζουν μια μεγάλη ποικιλία στυλ επιτρέπει στο μοντέλο να δημιουργεί ή να μεταμορφώνει εικόνες με πειστικό τρόπο.
Το μοντέλο μας δεν είναι τέλειο. Γνωρίζουμε ότι έχει πολλούς περιορισμούς αυτή τη στιγμή, τους οποίους θα προσπαθήσουμε να αντιμετωπίσουμε μέσω βελτιώσεων του μοντέλου μετά την αρχική κυκλοφορία.

Έχουμε παρατηρήσει ότι το GPT‑4o μπορεί περιστασιακά να περικόπτει μακρύτερες εικόνες, όπως αφίσες, πολύ στενά, ειδικά κοντά στο κάτω μέρος.
Σύμφωνα με τις προδιαγραφές του μοντέλου μας, στοχεύουμε να μεγιστοποιήσουμε τη δημιουργική ελευθερία υποστηρίζοντας πολύτιμες περιπτώσεις χρήσης όπως η ανάπτυξη παιχνιδιών, η ιστορική εξερεύνηση και η εκπαίδευση, ενώ διατηρούμε ισχυρά πρότυπα ασφαλείας. Ταυτόχρονα, παραμένει εξίσου σημαντικό, όπως πάντα, να αποκλείουμε αιτήματα που παραβιάζουν αυτά τα πρότυπα. Παρακάτω θα βρείτε αξιολογήσεις πρόσθετων τομέων κινδύνου όπου εργαζόμαστε για να ενεργοποιήσουμε ασφαλές, υψηλής χρησιμότητας περιεχόμενο και να παρέχουμε υποστήριξη για ευρύτερη δημιουργική έκφραση προς τους χρήστες.
Προέλευση μέσω C2PA και εσωτερικής αναστρέψιμης αναζήτησης
Όλες οι δημιουργημένες εικόνες συνοδεύονται από μεταδεδομένα C2PA, τα οποία θα προσδιορίζουν μια εικόνα ως προερχόμενη από το GPT‑4o, για να παρέχουν διαφάνεια. Έχουμε επίσης δημιουργήσει ένα εσωτερικό εργαλείο αναζήτησης που χρησιμοποιεί τεχνικά χαρακτηριστικά παραγωγικών διαδικασιών, για να μας βοηθήσει να επαληθεύσουμε αν το περιεχόμενο προήλθε από το μοντέλο μας.
Αποκλεισμός των κακών στοιχείων
Συνεχίζουμε να μπλοκάρουμε αιτήματα για δημιουργούμενες εικόνες που μπορεί να παραβιάζουν τις πολιτικές περιεχομένου μας, όπως υλικό σεξουαλικής κακοποίησης παιδιών και σεξουαλικά deepfakes. Όταν οι εικόνες πραγματικών ανθρώπων βρίσκονται σε συγκεκριμένο περιβάλλον, επιβάλλουμε αυστηρότερους περιορισμούς σχετικά με το είδος των εικόνων που μπορούν να δημιουργηθούν, με ιδιαίτερα ισχυρές διασφαλίσεις που αφορούν το γυμνό και τη γραφική βία. Όπως σε κάθε νέα κυκλοφορία, η επιδίωξη της ασφάλειας δεν τελειώνει ποτέ και αποτελεί έναν συνεχή τομέα επένδυσης. Καθώς μαθαίνουμε περισσότερα για τη χρήση αυτού του μοντέλου στον πραγματικό κόσμο, θα προσαρμόσουμε τις πολιτικές μας ανάλογα.
Για περισσότερες πληροφορίες σχετικά με την προσέγγισή μας, επισκεφθείτε το παράρτημα για την παραγωγή εικόνων στην κάρτα συστήματος GPT‑4o.
Χρηση του συλλογισμού για την ενίσχυση της ασφάλειας
Παρόμοια με την εργασία μας για την διαβουλευτική ευθυγράμμιση, έχουμε εκπαιδεύσει ένα μοντέλο LLM συλλογισμού, ώστε να λειτουργεί απευθείας με βάση προδιαγραφές ασφαλείας που είναι γραμμένες και ερμηνεύσιμες από ανθρώπους. Χρησιμοποιήσαμε αυτό το LLM συλλογισμού κατά τη διάρκεια της ανάπτυξης, για να μας βοηθήσει να εντοπίσουμε και να αντιμετωπίσουμε τις ασάφειες στις πολιτικές μας. Μαζί με τις πολυτροπικές μας εξελίξεις και τις υπάρχουσες τεχνικές ασφαλείας που αναπτύχθηκαν για το ChatGPT και το Sora, αυτό μας επιτρέπει να συντονίζουμε τόσο το κείμενο εισαγωγής όσο και τις εικόνες αποτελέσματος σύμφωνα με τις πολιτικές μας.
Η 4η γενιά δημιουργίας εικόνων ξεκινά σήμερα για τους χρήστες Plus, Pro, Team και Free ως η προεπιλεγμένο εργαλείο δημιουργίας εικόνων στο ChatGPT και σύντομα θα δοθεί πρόσβαση σε χρήστες Enterprise και Edu. Είναι επίσης διαθέσιμη στο Sora. Για όσους έχουν αδυναμία στο DALL·E, μπορούν ακόμα να το προσπελάσουν μέσω ενός αποκλειστικού GPT DALL·E.
Οι προγραμματιστές θα μπορούν σύντομα να δημιουργούν εικόνες με το GPT‑4o μέσω του API, καθώς η πρόσβαση σε αυτή τη λειτουργία θα γίνει διαθέσιμη μέσα στις επόμενες εβδομάδες.
Η δημιουργία και η προσαρμογή εικόνων είναι απλή, σαν μια συνομιλία με το GPT‑4o. Απλώς περιέγραψε τι χρειάζεσαι, συμπεριλαμβανομένων τυχόν λεπτομερειών όπως η αναλογία διαστάσεων, ακριβή χρώματα με χρήση δεκαεξαδικών κωδικών ή ένα διαφανές φόντο. Επειδή αυτό το μοντέλο δημιουργεί πιο λεπτομερείς εικόνες, οι εικόνες χρειάζονται περισσότερο χρόνο για να αποδοθούν, συχνά μέχρι και ένα λεπτό.
Συντάκτης
Ηγετική ομάδα
Gabriel Goh: Δημιουργία εικόνων
Jackie Shannon: Προϊόν ChatGPT
Mengchao Zhong, Wayne Chang: Μηχανική ChatGPT
Rohan Sahai: Προϊόν και μηχανική Sora
Brendan Quinn, Tomer Kaftan: Συμπερασματολογία
Prafulla Dhariwal: Πολυτροπική οργάνωση
Έρευνα
Θεμελιώδης έρευνα
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Βασική έρευνα
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Συντελεστές έρευνας
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Συμπεριφορά μοντέλου
Laurentia Romaniuk
Πολυτροπική οργάνωση
Andrew Gibiansky, Yang Lu
Δεδομένα
Επικεφαλής δεδομένων
Gildas Chabot, James Park Lennon
Δεδομένα
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Συντονιστές
Hazel Byrne, Jennifer Luckenbill, Mariano López
Σύμβουλοι ανθρώπινων δεδομένων
Long Ouyang
Κλιμάκωση
Επικεφαλής συμπερασματολογίας
Brendan Quinn, Tomer Kaftan
Συμπερασματολογία
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Εφαρμοσμένα
Επικεφαλής προϊόντος ChatGPT
Jackie Shannon
Επικεφαλής μηχανικής ChatGPT
Mengchao Zhong, Wayne Chang
Επικεφαλής σχεδίασης προϊόντος
Matt Chan
Επιστήμη δεδομένων
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Επικεφαλής προϊόντος Sora
Rohan Sahai, Wesam Manassra
Προϊόν και μηχανική Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Ασφάλεια
Επικεφαλής ασφαλείας
Somay Jain
Ασφάλεια
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Στρατηγική
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Μάρκετινγκ & Επικοινωνίες
Επικοινωνίες και Επικεφαλής Μάρκετινγκ
Minnia Feng, Natalie Summers, Taya Christianson
Επικοινωνίες
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Σχεδιασμός και δημιουργικό περιεχόμενο
Επικεφαλής
Kendra Rimbach, Veit Moeller
Σχεδιασμός
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Ιδιαίτερες ευχαριστίες
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






