Presentamos la generación de imágenes de 4o
Revelamos un generador de imágenes útiles y de valor integrado en un modelo multimodal nativo capaz de producir resultados precisos, exactos y fotorrealistas.
En OpenAI, siempre hemos creído que la generación de imágenes debería ser una de las capacidades principales de nuestros modelos de lenguaje. Por este motivo, hemos integrado nuestro generador de imágenes más avanzado hasta el momento en GPT‑4o. ¿El resultado? Una herramienta que genera imágenes estéticas, pero también útiles.
Desde las primeras pinturas rupestres hasta las infografías modernas, los humanos hemos usado las imágenes para comunicarnos, persuadir y analizar, no solo para decorar. Los modelos generativos de la actualidad pueden inventar escenas surrealistas impresionantes, pero no se desenvuelven tan bien con las imágenes realistas que la gente usa para compartir y crear información. Las imágenes, desde los logotipos hasta los diagramas, pueden transmitir un significado preciso cuando se les añaden símbolos que hacen referencia al lenguaje y experiencias compartidos.
La generación de imágenes de GPT‑4o sobresale a la hora de renderizar texto exacto, ya que sigue los prompts de forma precisa y aprovecha la base de conocimiento inherente de 4o y el contexto del chat, ya sea transformando las imágenes que se hayan cargado o usándolas como inspiración. Estas capacidades facilitan la creación de la imagen exactamente como la habías imaginado, lo que te ayuda a comunicarte de forma más efectiva a través del contenido visual, y convierte la generación de imágenes en una herramienta práctica con precisión y potencia.
Hemos entrenado a nuestros modelos para la distribución conjunta de texto e imágenes online, de modo que no solo ha aprendido cómo las imágenes se relacionan con el lenguaje, sino cómo se relacionan ambos entre sí. Esto, combinado con un posentrenamiento agresivo, ha dado como resultado un modelo con una fluidez visual increíble, capaz de generar imágenes que son útiles y consistentes, además de tener en cuenta el contexto.
Una imagen vale más que mil palabras, pero a veces generar algunas palabras en el lugar adecuado puede dar aún más significado a una imagen. La habilidad de 4o a la hora de mezclar símbolos precisos con imaginería convierte la generación de imágenes en una herramienta de comunicación visual.
Como la generación de imágenes ahora es una capacidad nativa de GPT‑4o, puedes pulir el diseño de las imágenes con una conversación natural. GPT‑4o puede crear a partir de imágenes y texto que estén dentro del chat, lo que asegura la consistencia durante el proceso. Por ejemplo, si estás diseñando un personaje para un videojuego, la apariencia del personaje mantendrá la coherencia en todas las iteraciones, a medida que vas puliendo los resultados y experimentando.
El generador de imágenes de GPT‑4o sigue con atención cada detalle de los prompts. Mientras otros sistemas tienen dificultades gestionando entre cinco y ocho objetos, GPT‑4o puede trabajar con entre 10 y 20 objetos diferentes. La relación estrecha entre los objetos y sus rasgos favorece un mayor control.
GPT‑4o puede analizar y aprender a partir de las imágenes que cargan los usuarios, es decir, es capaz de integrar los detalles en el contexto a la perfección para informar la generación de imágenes.
La generación de imágenes nativa permite a 4o que relacione su conocimiento con el texto y las imágenes, lo que da como resultado un modelo que parece más inteligente y más eficiente.
Al entrenar el modelo a partir de imágenes que reflejan una amplia variedad de estilos, es posible crear o transformar imágenes de forma convincente.
Nuestro modelo no es perfecto y somos conscientes de las muchas limitaciones que tiene en la actualidad; por ello, trabajaremos para abordarlas a través de mejoras en el modelo tras el lanzamiento inicial.

Nos hemos dado cuenta de que a veces GPT‑4o recorta en exceso imágenes largas, como pósteres, sobre todo por la parte inferior.
De acuerdo con nuestro Model Spec, tenemos el objetivo de maximizar la libertad creativa apoyando casos de uso de valor, como el desarrollo de juegos, la exploración histórica y la educación, al mismo tiempo que mantenemos estándares de seguridad sólidos. Del mismo modo, sigue siendo tan importante como siempre el hecho de bloquear aquellas peticiones que violen dichos estándares. A continuación, mostramos evaluaciones de áreas de riesgo adicionales en las que estamos trabajando para habilitar contenido seguro y de gran utilidad, y ampliar los límites de expresión creativa para los usuarios.
Procedencia a través de los C2PA y búsqueda interna reversible
Todas las imágenes generadas cuentan con metadatos C2PA, los cuales indican que una imagen proviene de GPT‑4o, para ofrecer transparencia. También hemos creado una herramienta de búsqueda interna que usa atributos técnicos de las generaciones para ayudar a verificar si el contenido proviene de nuestro modelo.
Bloqueamos el contenido negativo
Continuamente bloqueamos peticiones de imágenes generadas que pueden violar nuestras políticas de contenido, como material pedófilo o deepfakes de carácter sexual. Además, cuando el contexto incluye imágenes de personas reales, hemos aumentado las restricciones sobre qué tipo de imaginería se puede crear, con especial atención a las medidas de seguridad en caso de desnudez y violencia gráfica. Como en cualquier lanzamiento, la seguridad no es un ámbito que se pueda dar por terminado, sino más bien uno en constante inversión. A medida que aprendamos sobre los usos de este modelo en el mundo real, iremos ajustando nuestras políticas de forma correspondiente.
Para saber más sobre nuestro enfoque, consulta el anexo sobre generación de imágenes en la tarjeta del sistema de GPT‑4o.
Usar el razonamiento para reforzar la seguridad
En la misma línea que nuestro trabajo de alineación deliberativa, hemos entrenado a un LLM con capacidad de razonamiento para trabajar directamente con especificaciones de seguridad escritas y que pueden ser interpretadas por humanos. Hemos usado este LLM con capacidad de razonamiento durante el desarrollo para ayudarnos a identificar y abordar ambigüedades en nuestras políticas. Junto a nuestros avances multimodales y técnicas de seguridad existentes desarrolladas para ChatGPT y Sora, esto nos permite moderar tanto el texto de entrada como las imágenes de salida teniendo en cuenta nuestras políticas.
La generación de imágenes de 4o está disponible desde hoy para usuarios Plus, Pro, Team y de la versión gratuita como generador de imágenes por defecto en ChatGPT (próximamente también disponible para Enterprise y Edu). También está disponible en Sora. Para aquellas personas que quieran seguir usando DALL·E, aún podrán hacerlo a través de DALL·E GPT.
Los desarrolladores pronto podrán generar imágenes con GPT‑4o a través de la API (disponible en las próximas semanas).
Crear y personalizar imágenes es tan sencillo como hablar con GPT‑4o: tan solo tienes que describir lo que necesitas, incluyendo cualquier detalle, como la relación de aspecto, los colores exactos usando códigos HEX o si quieres que el fondo sea transparente. Como este modelo crea imágenes más detalladas, es posible que tarde más en renderizarlas, a menudo hasta un minuto.
Autor/a
OpenAILiderazgo
Gabriel Goh: generación de imágenes
Jackie Shannon: Producto de ChatGPT
Mengchao Zhong, Wayne Chang: Ingeniería de ChatGPT
Rohan Sahai: Producto e Ingeniería de Sora
Brendan Quinn, Tomer Kaftan: Inferencias
Prafulla Dhariwal: Organización multimodal
Investigación
Investigación fundamental
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu y Prafulla Dhariwal
Investigación principal
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing y Wesam Manassra
Colaboradores en la investigación
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta y Yang Song
Comportamiento del modelo
Laurentia Romaniuk
Organización multimodal
Andrew Gibiansky y Yang Lu
Datos
Líderes de datos
Gildas Chabot y James Park Lennon
Datos
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra y Yilei Qian
Moderadores
Hazel Byrne, Jennifer Luckenbill y Mariano López
Asesor de datos humanos
Long Ouyang
Escalamiento
Líderes de inferencias
Brendan Quinn y Tomer Kaftan
Inferencias
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev y Stanley Hsieh
Aplicado
Líder de Producto de ChatGPT
Jackie Shannon
Líderes de Ingeniería de ChatGPT
Mengchao Zhong y Wayne Chang
Líder de Diseño del Producto
Matt Chan
Ciencia de datos
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao y Yilei Qian
Sora
Líderes de Producto de Sora
Rohan Sahai y Wesam Manassra
Producto e Ingeniería de Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai y Wesam Manassra
Seguridad
Líder de Seguridad
Somay Jain
Seguridad
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Pérez, Sam Toizer, Sandhini Agarwal y Troy Peterson
Estrategia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan y Zoe Stoll
Marketing y Comunicaciones
Líderes de Marketing y Comunicaciones
Minnia Feng, Natalie Summers y Taya Christianson
Comunicaciones
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith y Souki Mansoor
Diseño y Creatividad
Líderes
Kendra Rimbach y Veit Moeller
Diseño
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke y Yara Khakbaz
Agradecimientos especiales
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi y Vinnie Monaco