Bemutatkozik a 4o Image Generation
Hasznos és értékes képgenerálás felszabadítása egy eredendően multimodális modellel, amely képes pontos, precíz és fotorealisztikus kimenetek előállítására.
Az OpenAI-nál régóta hisszük, hogy a képgenerálásnak a nyelvi modelljeink egyik alapvető képességének kell lennie. Ezért építettük be az eddigi legfejlettebb képgenerátorunkat a GPT‑4o‑ba. Az eredmény olyan képgenerálás, amely nemcsak szép, de hasznos is.
Az első barlangfestményektől a modern infografikákig az emberek a vizuális képeket kommunikációra, meggyőzésre és elemzésre használják—nem csupán díszítésre. A mai generatív modellek szürreális, lélegzetelállító jeleneteket varázsolhatnak, de nehézségbe ütköznek az olyan hétköznapi képekkel, amelyeket az emberek az információk megosztására és létrehozására használnak. A logóktól a diagramokig a képek pontos jelentést közvetíthetnek, ha olyan szimbólumokkal egészítik ki őket, amelyek közös nyelvre és tapasztalatra alapoznak.
A GPT‑4o képalkotás kiválóan teljesíti a szöveg pontos megjelenítését, pontosan követi az utasításokat, és kihasználja a 4o benne rejlő tudásbázisát és csevegési kontextusát—beleértve a feltöltött képek átalakítását vagy vizuális inspirációként történő felhasználását. Ezek a képességek megkönnyítik a pontos alkotást, amit elképzeltél, segítve a hatékonyabb kommunikációt a vizuális elemekkel, és a képgenerálást precíz és erőteljes gyakorlati eszközzé fejlesztik.
Modelljeinket online képek és szövegek közös eloszlásán tanítottuk, így nemcsak azt tanulták meg, hogyan kapcsolódnak a képek a nyelvhez, hanem azt is, hogyan viszonyulnak egymáshoz a képek. Az agresszív utólagos betanítással kombinációban az így kapott modell meglepő vizuális folyékonysággal bír, képes hasznos, következetes és kontextusérzékeny képeket generálni.
Egy kép többet mond ezer szónál, de néha pár szó a megfelelő helyen felerősítheti egy kép jelentését. A 4o képessége, miszerint precíz szimbólumokat képekkel ötvöz, a képgenerálást a vizuális kommunikáció eszközévé alakítja.
Mivel a kép mostantól a GPT‑4o natív része, természetes beszélgetéseken keresztül finomíthatod a képeket. A GPT‑4o képekre és szövegre építhet a csevegés kontextusában, biztosítva a következetességet végig. Például, ha videojáték-karaktert tervezel, a karakter megjelenése több iteráción keresztül koherens marad, miközben finomítasz és kísérletezel.
A GPT‑4o képgenerálása részletes utasításokat követ, különös figyelmet fordítva a részletekre. Míg más rendszerek ~5-8 objektummal küzdenek, a GPT‑4o akár 10-20 különböző objektumot is képes kezelni. Az objektumok szorosabb kötődése a tulajdonságaikhoz és kapcsolataikhoz jobb irányítást tesz lehetővé.
A GPT‑4o képes elemezni és tanulni a felhasználók által feltöltött képekből, zökkenőmentesen integrálva azok részleteit a kontextusába, hogy javítsa a képgenerálást.
A natív képgenerálás engedélyezése lehetővé teszi a 4o számára, hogy linkelje tudását a szöveg és a képek között, így egy intelligensebb és hatékonyabb modell jön létre.
A különböző képstílusokat tükröző képeken való betanítás lehetővé teszi a modell számára, hogy meggyőzően létrehozzon vagy alakítson át képeket.
A modellünk nem tökéletes. Jelenleg több korláttal is tisztában vagyunk, amelyeket a kezdeti bevezetés után a modell fejlesztéseivel fogunk feloldani.

Észrevettük, hogy a GPT‑4o időnként túl szorosan vágja le a hosszabb képeket, mint például a plakátokat, különösen az alsó rész közelében.
A modellspecifikációnkkal összhangban arra törekszünk, hogy a kreatív szabadságot olyan értékes felhasználási esetek támogatásával maximalizáljuk, mint a játékfejlesztés, a történelmi felfedezés és az oktatás—miközben fenntartjuk a szigorú biztonsági előírásokat. Emellett továbbra is ugyanolyan fontos, mint korábban, hogy blokkoljuk azokat a kéréseket, amelyek megsértik ezeket a szabványokat. Az alábbiakban értékeljük azokat a további kockázati területeket, ahol azon dolgozunk, hogy biztonságos, magas hasznosságú tartalmat hozzunk létre, és támogassuk a felhasználók szélesebb körű kreatív kifejezését.
Származás C2PA-n keresztül és belső reverzibilis keresés
Minden generálás kép C2PA metaadatokkal rendelkezik, amelyek az átláthatóság érdekében azonosítják a képet, mint a GPT‑4o‑ból származót. Készítettünk egy belső keresőeszközt is, amely a generációk technikai jellemzőit használja annak igazolására, hogy a tartalom a mi modellünkből származik-e.
A helytelen dolgok blokkolása
Továbbra is blokkoljuk az olyan generált képek iránti kérelmeket, amelyek megsérthetik a tartalmi irányelveinket, például a gyermekek szexuális bántalmazását tartalmazó anyagokat és a szexuális deepfake-eket. Amikor a valódi emberek képei kontextusban vannak, szigorúbb korlátozások vonatkoznak arra, hogy milyen képeket lehet létrehozni, különösen szigorú keretekkel a meztelenség és a grafikus erőszak tekintetében. Mint minden bevezetésnél, a biztonság biztosítása sosem ér véget, hanem inkább egy folyamatos munkaterület. Ahogy egyre többet tudunk meg a modell valós használatáról, annak megfelelően módosítjuk a szabályzatainkat.
A megközelítésünkről bővebben a GPT‑4o rendszerkártyához tartozó képgenerálási kiegészítésben olvashatsz.
Az érvelés használata a biztonság érdekében
Hasonlóan a deliberatív összehangolás munkánkhoz, egy érvelő LLM-et képeztünk ki, hogy közvetlenül az ember által írt és értelmezhető biztonsági specifikációkból dolgozzon. A fejlesztés során ezt az érvelő LLM-et használtuk, hogy segítségünkre legyen a szabályzatainkban lévő kétértelműségek felismerésében és kezelésében. A multimodális fejlesztéseink és a ChatGPT és Sora számára kifejlesztett meglévő biztonsági technikáink révén ez lehetővé teszi számunkra, hogy mind a bevitel szöveget, mind a kimenet képeket a szabályzatainkkal összhangban moderáljuk.
A 4o kép generálást mától kezdve a Plus, Pro, Team és Free felhasználók részére vezetjük be a ChatGPT alapértelmezett képgenerátoraként, és hamarosan az Enterprise és Edu felhasználók számára is elérhető lesz. A Sora-ban is elérhető a használata. Azok számára, akik különleges helyet tartanak fenn a szívükben a DALL·E számára, továbbra is elérhető egy dedikált DALL·E GPT‑n keresztül.
A fejlesztők hamarosan képeket generálhatnak a GPT‑4o‑val az API-n keresztül, a hozzáférés pedig a következő hetekben fokozatosan válik elérhetővé.
A képek létrehozása és testreszabása olyan egyszerű, mint a GPT‑4o használatával történő csevegés – csak írd le, mire van szükséged, beleértve az olyan sajátosságokat, mint a képarány, a pontos színek hexadecimális kódokkal vagy az áttetsző háttér. Mivel ez a modell részletesebb képeket hoz létre, a képek renderelése hosszabb időt vesz igénybe, gyakran akár egy percet is.
Szerző
Vezetés
Gabriel Goh: Képgenerálás
Jackie Shannon: ChatGPT termék
Mengchao Zhong, Wayne Chang: ChatGPT mérnöki munka
Rohan Sahai: Sora Termék és mérnökségi munka
Brendan Quinn, Tomer Kaftan: Következtetés
Prafulla Dhariwal: Multimodális szervezet
Kutatások
Alapvető kutatás
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Alapkutatás
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Kutatási közreműködők
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Modellviselkedés
Laurentia Romaniuk
Multimodális szervezet
Andrew Gibiansky, Yang Lu
Adatok
Adatvezérlés
Gildas Chabot, James Park Lennon
Adatok
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderátorok
Hazel Byrne, Jennifer Luckenbill, Mariano López
Human Data Advisors
Long Ouyang
Skálázás
Következtetések vezetői
Brendan Quinn, Tomer Kaftan
Következtetés
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Alkalmazva
ChatGPT termékvezető
Jackie Shannon
ChatGPT mérnökségi vezetők
Mengchao Zhong, Wayne Chang
Terméktervezési vezető
Matt Chan
Adattudomány
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Sora termékfelelősök
Rohan Sahai, Wesam Manassra
Sora Termék és mérnökségi munka
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Biztonság
Biztonsági vezető
Somay Jain
Biztonság
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Stratégia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing & Kommunikáció
Kommunikációs és marketing vezetők
Minnia Feng, Natalie Summers, Taya Christianson
Kommunikáció
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Design & Kreatív
Érdeklődők
Kendra Rimbach, Veit Moeller
Terv
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Különleges köszönet
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






