Presentamos la generación de imágenes 4o
Desbloqueamos una generación de imágenes útiles y valiosas con un modelo multimodal nativo capaz de producir resultados precisos, exactos y fotorrealistas.
En OpenAI, hemos creído durante mucho tiempo que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Es por eso que hemos incorporado nuestro generador de imágenes más avanzado hasta el momento en GPT‑4o. El resultado: una generación de imágenes que no solo son hermosas, sino que también son útiles.
Desde las primeras pinturas rupestres hasta las infografías modernas, la humanidad ha usado imágenes visuales para comunicarse, persuadir y analizar, más que solo para decorar. Los modelos generativos actuales pueden evocar impresionantes escenas surrealistas, pero tienen problemas con las imágenes que la gente usa para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se complementan con símbolos que hacen referencia a un lenguaje y experiencias compartidos.
La generación de imágenes GPT‑4o se destaca por representar un texto con precisión, seguir instrucciones al pie de la letra, y aprovechar la base de conocimiento inherente de 4o y el contexto de chat, incluyendo la transformación de imágenes cargadas o su uso como inspiración visual. Estas capacidades facilitan la creación exacta de imágenes tal cual las imaginas, ayudándote a comunicarte de forma más efectiva mediante elementos visuales y convirtiendo a la generación de imágenes en una herramienta práctica con precisión y potencia.
Entrenamos a nuestros modelos en la distribución conjunta de imágenes y texto en línea para que aprendieran no solo cómo se relacionan las imágenes con el lenguaje, sino que también cómo se relacionan entre sí. Combinado con un agresivo posentrenamiento, el modelo resultante tiene una sorprendente fluidez visual capaz de generar imágenes útiles, consistentes y conscientes del contexto.
Una imagen vale más que mil palabras, pero a veces generar unas cuantas palabras en el lugar adecuado puede elevar el significado de una imagen. La habilidad de 4o para combinar símbolos precisos con imágenes convierte a la generación de imágenes en una herramienta para la comunicación visual.
Dado que ahora la generación de imágenes está integrada de forma nativa en GPT‑4o, ya puedes refinar las imágenes mediante una conversación natural. GPT‑4o puede desarrollar imágenes y texto en el contexto de chat, lo que garantiza la coherencia en todo momento. Por ejemplo, si estás diseñando un personaje de un videojuego, la apariencia del personaje se mantiene coherente a lo largo de múltiples iteraciones a medida que lo perfeccionas y experimentas.
La generación de imágenes de GPT‑4o sigue instrucciones minuciosas con atención al detalle. Mientras que otros sistemas tienen dificultades manejando entre 5 y 8 objetos, GPT‑4o puede procesar entre 10 y 20 objetos diferentes. Un vínculo más estrecho entre los objetos y sus rasgos permite un mejor control.
GPT‑4o puede analizar y aprender de las imágenes cargadas por el usuario, integrando perfectamente los detalles en su contexto para informar a la generación de imágenes.
La generación de imágenes nativa permite que 4o vincule su conocimiento entre texto e imágenes, lo que resulta en un modelo que se siente más inteligente y más eficiente.
El entrenamiento con imágenes que reflejan una amplia variedad de estilos de imagen le permite al modelo crear o transformar imágenes de manera convincente.
Nuestro modelo no es perfecto. Somos conscientes de las múltiples limitaciones que existen hasta el momento, y trabajaremos para solucionarlas mediante mejoras del modelo luego del lanzamiento inicial.

Hemos podido observar que GPT‑4o en ocasiones puede recortar imágenes más largas, como carteles, demasiado ajustadas, en especial cerca del borde inferior.
De acuerdo con nuestra especificación de modelo, nuestro objetivo es maximizar la libertad creativa al respaldar casos de uso valiosos como el desarrollo de juegos, la exploración histórica y la educación, al mismo tiempo que mantenemos elevados estándares de seguridad. De igual forma, sigue siendo tan importante como siempre bloquear las solicitudes que violen esos estándares. A continuación, presentamos evaluaciones de áreas de riesgo adicionales en las que estamos trabajando para permitir contenido seguro y de alta utilidad, y respaldar una expresión creativa más amplia para los usuarios.
Procedencia mediante C2PA y búsqueda interna reversible
Todas las imágenes generadas vienen con metadatos C2PA que identificarán una imagen como proveniente de GPT‑4o, para brindar transparencia. También hemos creado una herramienta de búsqueda interna que utiliza atributos técnicos de las generaciones para ayudar a verificar si el contenido proviene de nuestro modelo.
Bloqueando las cosas malas
Continuamos bloqueando solicitudes de imágenes generadas que puedan violar nuestras políticas de contenido, como materiales de abuso sexual infantil y deepfakes sexuales. Cuando las imágenes de personas reales están en contexto, intensificamos las restricciones respecto a qué tipo de imágenes se pueden crear, con salvaguardas particularmente sólidas en torno a la desnudez y la violencia gráfica. Como ocurre con cualquier lanzamiento, la seguridad nunca se termina y es más bien un área de inversión continua. A medida que aprendamos más sobre el uso real de este modelo, ajustaremos nuestras políticas como corresponda.
Para obtener más información sobre nuestro enfoque, visita el anexo de generación de imágenes de la tarjeta del sistema GPT‑4o.
Utilizando el razonamiento para impulsar la seguridad
De manera similar a nuestro trabajo de alineación deliberativa , hemos entrenado a un LLM con capacidad de razonamiento para trabajar directamente a partir de especificaciones de seguridad interpretables y escritas por humanos. Utilizamos este LLM con capacidad de razonamiento durante el desarrollo para ayudarnos a identificar y abordar ambigüedades en nuestras políticas. Junto con nuestros avances multimodales y las técnicas de seguridad existentes desarrolladas para ChatGPT y Sora, esto nos permite moderar tanto el texto de entrada como las imágenes de salida de acuerdo con nuestras políticas.
El lanzamiento de la generación de imágenes 4o empieza hoy para los usuarios Plus, Pro, Team y Free como el generador de imágenes predeterminado en ChatGPT, y próximamente estará disponible para Enterprise y Edu. También está disponible para usarlo en Sora. Para aquellas personas que quieran seguir usando DALL·E, aún se podrá acceder a través de DALL·E GPT.
Los desarrolladores pronto podrán generar imágenes con GPT‑4o a través de la API, y el acceso estará disponible en las próximas semanas.
Crear y personalizar imágenes es tan sencillo como chatear usando GPT‑4o: solo describe lo que necesitas, incluyendo detalles específicos como la relación de aspecto, colores exactos usando códigos hexadecimales o un fondo transparente. Debido a que este modelo crea imágenes más detalladas, las imágenes tardan más en renderizarse. La espera a menudo es de hasta un minuto.
Autor/a
OpenAILiderazgo
Gabriel Goh: Generación de imágenes
Jackie Shannon: Producto de ChatGPT
Mengchao Zhong, Wayne Chang: Ingeniería de ChatGPT
Rohan Sahai: Producto e Ingeniería de Sora
Brendan Quinn, Tomer Kaftan: Inferencia
Prafulla Dhariwal: Organización multimodal
Investigación
Investigación fundacional
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Investigación principal
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Colaboradores de investigación
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Comportamiento del modelo
Laurentia Romaniuk
Organización multimodal
Andrew Gibiansky, Yang Lu
Datos
Dirección de datos
Gildas Chabot, James Park Lennon
Datos
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderadores
Hazel Byrne, Jennifer Luckenbill, Mariano López
Asesores de datos humanos
Long Ouyang
Escalamiento
Dirección de inferencia
Brendan Quinn, Tomer Kaftan
Inferencia
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Aplicado
Dirección de producto de ChatGPT
Jackie Shannon
Dirección de ingeniería de ChatGPT
Mengchao Zhong, Wayne Chang
Dirección de diseño de producto
Matt Chan
Ciencia de datos
Xiaolin Hao
ChatGPT
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Dirección de producto de Sora
Rohan Sahai, Wesam Manassra
Producto e Ingeniería de Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Seguridad
Dirección de seguridad
Somay Jain
Seguridad
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Estrategia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing y comunicaciones
Dirección de marketing y comunicaciones
Minnia Feng, Natalie Summers, Taya Christianson
Comunicaciones
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Diseño y creatividad
Dirección
Kendra Rimbach, Veit Moeller
Diseño
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Agradecimientos Especiales
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco