Presentamos la generación de imágenes de 4o
Desbloqueando una generación de imágenes útiles y valiosas con un modelo multimodal nativo capaz de producir resultados precisos, exactos y fotorrealistas.
En OpenAI, siempre hemos creído que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Por eso hemos integrado nuestro generador de imágenes más avanzado hasta ahora en GPT‑4o. El resultado: una generación de imágenes que no solo es bonita, sino también útil.
Desde las primeras pinturas rupestres hasta las infografías modernas, los humanos hemos usado imágenes visuales para comunicarnos, persuadir y analizar, no solo para decorar. Los modelos generativos actuales pueden crear escenas surrealistas y asombrosas, pero tienen dificultades con las imágenes prácticas que la gente utiliza para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se les añaden símbolos que hacen referencia a un lenguaje y experiencias compartidos.
La generación de imágenes de GPT‑4o destaca en la representación precisa de texto, siguiendo con exactitud las indicaciones y aprovechando la base de conocimiento inherente de 4o y el contexto del chat, incluyendo la transformación de imágenes cargadas o su uso como inspiración visual. Estas capacidades facilitan crear exactamente la imagen que imaginas, ayudándote a comunicarte de manera más efectiva a través de lo visual y convirtiendo la generación de imágenes en una herramienta práctica con precisión y poder.
Entrenamos nuestros modelos en la distribución conjunta de imágenes y texto en línea, aprendiendo no solo cómo las imágenes se relacionan con el lenguaje, sino también cómo se relacionan entre sí. Combinado con una formación posterior agresiva, el modelo resultante tiene una sorprendente fluidez visual, capaz de generar imágenes útiles, consistentes y conscientes del contexto.
Una imagen vale más que mil palabras, pero a veces generar unas pocas palabras en el lugar adecuado puede elevar el significado de una imagen. La capacidad de 4o para combinar símbolos precisos con imágenes transforma la generación de imágenes en una herramienta de comunicación visual.
Dado que la generación de imágenes ahora es nativa de GPT‑4o, puedes perfeccionar las imágenes mediante una conversación natural. GPT‑4o puede construir sobre imágenes y texto en el contexto del chat, asegurando la consistencia en todo momento. Por ejemplo, si estás diseñando un carácter para un videojuego, la apariencia del carácter se mantiene coherente a lo largo de múltiples iteraciones mientras refinas y experimentas.
La generación de imágenes de GPT‑4o sigue indicaciones detalladas con atención a los detalles. Mientras otros sistemas tienen dificultades con ~5-8 objetos, GPT‑4o puede manejar hasta 10-20 objetos diferentes. La vinculación más estrecha de los objetos con sus rasgos y relaciones permite un mejor control.
GPT‑4o puede analizar y aprender de las imágenes cargadas por los usuarios, integrando sin problemas sus detalles en su contexto para informar la generación de imágenes.
La generación de imágenes nativa habilita a 4o a enlazar su conocimiento entre texto e imágenes, resultando en un modelo que se siente más inteligente y eficiente.
La formación con imágenes que reflejan una amplia variedad de estilos permite crear o transformar imágenes de manera convincente.
Nuestro modelo no es perfecto. Somos conscientes de varias limitaciones en este momento, las cuales trabajaremos para abordar mediante mejoras en el modelo después del lanzamiento inicial.

Nos hemos dado cuenta de que GPT‑4o a veces recorta demasiado las imágenes largas, como los pósteres, especialmente en la parte inferior.
De acuerdo con nuestra especificación del modelo, nuestro objetivo es maximizar la libertad creativa apoyando casos de uso valiosos, como el desarrollo de juegos, la exploración histórica y la educación, mientras mantenemos sólidos estándares de seguridad. Al mismo tiempo, sigue siendo tan importante como siempre bloquear las solicitudes que infrinjan esos estándares. A continuación, presentamos evaluaciones de áreas de riesgo adicionales en las que estamos trabajando para habilitar contenido seguro y de alta utilidad, y brindar asistencia para una expresión creativa más amplia para los usuarios.
Procedencia mediante C2PA y búsqueda interna reversible
Todas las imágenes generadas incluyen metadatos C2PA, que identificarán una imagen como proveniente de GPT‑4o, para proporcionar transparencia. También hemos creado una herramienta de búsqueda interna que utiliza atributos técnicos de las generaciones para ayudar a verificar si el contenido proviene de nuestro modelo.
Bloqueando lo malo
Seguimos bloqueando imágenes generadas que puedan infringir nuestras políticas de contenidos, como materiales de abuso sexual infantil y deepfakes sexuales. Cuando las imágenes de personas reales están en contexto, tenemos restricciones más estrictas sobre qué tipo de imágenes se pueden crear, con salvaguardias particularmente robustas en torno a la desnudez y la violencia gráfica. Como en cualquier lanzamiento, la seguridad nunca se da por concluida, sino que es un área de inversión continua. A medida que aprendamos más sobre el uso en el mundo real de este modelo, ajustaremos nuestras políticas en consecuencia.
Para saber más sobre nuestro enfoque, visita el anexo sobre la generación de imágenes en la tarjeta del sistema GPT‑4o.
Usando el razonamiento para potenciar la seguridad
Similar a nuestro trabajo de alineación deliberativa, hemos entrenado un LLM con razonamiento para trabajar directamente desde especificaciones de seguridad escritas e interpretables por humanos. Usamos este LLM con capacidad de razonamiento durante el desarrollo para ayudarnos a identificar y abordar ambigüedades en nuestras políticas. Junto con nuestros avances multimodales y las técnicas de seguridad existentes desarrolladas para ChatGPT y Sora, esto nos permite moderar tanto el texto de entrada como las imágenes de salida según nuestras políticas.
La generación de imágenes de 4o está disponible desde hoy para usuarios Plus, Pro, Team y de la versión gratuita como generador de imágenes por defecto en ChatGPT (próximamente también disponible para Enterprise y Edu). También está disponible en Sora. Para aquellas personas que quieran seguir usando DALL·E, aún podrán hacerlo a través de DALL·E GPT.
Los desarrolladores pronto podrán generar imágenes con GPT‑4o a través de la API (disponible en las próximas semanas).
Crear y personalizar imágenes es tan sencillo como hablar con GPT‑4o: tan solo tienes que describir lo que necesitas, incluyendo cualquier detalle, como la relación de aspecto, los colores exactos usando códigos HEX o si quieres que el fondo sea transparente. Como este modelo crea imágenes más detalladas, es posible que tarde más en renderizarlas, a menudo hasta un minuto.
Autor
Liderazgo
Gabriel Goh: Generación de imágenes
Jackie Shannon: ChatGPT Product
Mengchao Zhong, Wayne Chang: ChatGPT Engineering
Rohan Sahai: Sora Product y Engineering
Brendan Quinn y Tomer Kaftan: Inferencia
Prafulla Dhariwal: Organización multimodal
Investigación
Investigación fundamental
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Investigación central
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Colaboradores de investigación
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Comportamiento del modelo
Laurentia Romaniuk
Organización Multimodal
Andrew Gibiansky, Yang Lu
Datos
Data Leads
Gildas Chabot, James Park Lennon
Datos
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderadores
Hazel Byrne, Jennifer Luckenbill, Mariano López
Human Data Advisors
Long Ouyang
Escalado
Liderazgo de inferencia
Brendan Quinn, Tomer Kaftan
Inferencia
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Aplicado
ChatGPT Product Lead
Jackie Shannon
ChatGPT Engineering Leads
Mengchao Zhong, Wayne Chang
Líder de diseño de producto
Matt Chan
Ciencia de datos
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Líderes de Producto Sora
Rohan Sahai, Wesam Manassra
Sora Product and Engineering
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Seguridad
Líder de Seguridad
Somay Jain
Seguridad
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Estrategia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing y Comunicaciones
Líderes de Marketing y Comunicaciones
Minnia Feng, Natalie Summers, Taya Christianson
Comunicaciones
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Diseño y Creativo
Contactos
Kendra Rimbach, Veit Moeller
Diseño
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Agradecimientos especiales
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






