Pensar con imágenes
OpenAI o3 y o4-mini suponen un importante avance en la percepción visual gracias al razonamiento con imágenes en la cadena de pensamiento.
OpenAI o3 y o4-mini son los últimos modelos con capacidad de razonamiento visual de nuestra serie Omni. Por primera vez, nuestros modelos pueden pensar con imágenes en su cadena de pensamiento en lugar de, simplemente, verlas.
Los modelos o3 y o4-mini, al igual que el anterior modelo OpenAI o1, están entrenados para pensar durante más tiempo antes de responder. Además, utilizan una larga cadena de pensamiento interno antes de darle una respuesta al usuario. Sin embargo, los modelos o3 y o4-mini amplían aún más esta capacidad al pensar con imágenes en su cadena de pensamiento. Esto se consigue transformando las imágenes que sube el usuario con herramientas que permiten recortarlas, ampliarlas y rotarlas, además de otras técnicas sencillas de procesamiento de imágenes. Y lo que es más importante, estas capacidades están incluidas de forma nativa, es decir, no dependen de modelos especializados independientes.
La inteligencia visual mejorada de ChatGPT te ayuda a resolver problemas más complejos mediante un análisis de imágenes más exhaustivo, preciso y fiable que nunca. De hecho, puede combinar sin problemas el razonamiento avanzado con herramientas como la búsqueda web y la manipulación de imágenes (aumentarlas, recortarlas, girarlas o mejorarlas automáticamente) para extraer información incluso de fotos con imperfecciones. Por ejemplo, puedes subir una foto de un conjunto de problemas de economía para recibir una explicación paso a paso. Igualmente, puedes compartir una captura de pantalla de un error de compilación para obtener de manera rápida un análisis de su origen.
Este enfoque abre un nuevo eje para el escalamiento computacional en la fase de inferencia que combina a la perfección el razonamiento visual y textual, tal y como refleja su rendimiento avanzado en pruebas comparativas multimodales. Esto supone un gran paso hacia el razonamiento multimodal.
Pensar con imágenes te permite interactuar con ChatGPT de manera más sencilla. Y es que puedes hacer preguntas simplemente sacando una foto sin tener que preocuparte por la posición de los objetos, de si el texto está al revés o de si hay diferentes problemas de física en una misma foto. Incluso si, a primera vista, los objetos no son obvios, el razonamiento visual permite que el modelo haga zoom para ver la imagen con más claridad.
Todos los ejemplos se han procesado con OpenAI o3.
Nuestros modelos de razonamiento visual más recientes funcionan en combinación con otras herramientas, como el análisis de datos de Python, la búsqueda web o la generación de imágenes, para resolver problemas más complejos de una forma creativa y eficaz. Así, ofrecemos a los usuarios nuestra primera experiencia autónoma multimodal.
Hemos probado OpenAI o3 y o4-mini en un conjunto diverso de exámenes humanos y pruebas comparativas mediante aprendizaje automático para destacar su mejora en el razonamiento visual frente a nuestros modelos multimodales anteriores. Estos nuevos modelos de razonamiento visual superan con creces a sus predecesores en todas las tareas multimodales que hemos probado.
Evaluamos todos los modelos en condiciones de «esfuerzo de razonamiento» alto, similares a variantes como «o4-mini-high» en ChatGPT.
En concreto, pensar con imágenes sin depender de la navegación conlleva mejoras importantes en todas las pruebas comparativas de percepción que hemos evaluado. Nuestros modelos se sitúan en la vanguardia a la hora de responder a preguntas STEM (MMMU, MathVista), en lectura y razonamiento de gráficos (CharXiv), en primitivos de percepción (VLMs are Blind) y en búsqueda visual (V*). En V*, nuestro método de razonamiento visual alcanza una precisión del 95,7 %, con lo que supera con creces la prueba comparativa.
A día de hoy, pensar con imágenes presenta las siguientes limitaciones:
- Cadenas de razonamiento excesivamente largas: los modelos pueden hacer llamadas a la herramienta y pasos de manipulación de imágenes redundantes o innecesarios, lo que implica crear cadenas de razonamiento excesivamente largas.
- Errores de percepción: los modelos pueden cometer errores básicos de percepción. Aunque las llamadas a las herramientas hagan avanzar correctamente el proceso de razonamiento, las interpretaciones visuales erróneas pueden conducir a respuestas finales incorrectas.
- Fiabilidad: los modelos pueden probar diferentes procesos de razonamiento visual entre múltiples intentos de resolver un problema, y esto implica que algunos puedan llevar a resultados incorrectos.
OpenAI o3 y o4-mini suponen un avance notable en las capacidades de razonamiento más punteras, lo que representa un paso importante para conseguir un razonamiento visual más avanzado y multimodal. Estos modelos ofrecen la mejor precisión de su categoría en tareas de percepción visual. Gracias a ello, pueden resolver problemas que, anteriormente, estaban fuera de su alcance.
En OpenAI, seguiremos perfeccionando las capacidades de razonamiento de los modelos con imágenes para que estos sean más concisos, menos redundantes y más fiables. Nos entusiasma seguir investigando el razonamiento multimodal para que la sociedad tenga la oportunidad de aplicar estas mejoras en su día a día.
Actualización del 16 de abril: hemos actualizado los resultados de o3 en Charxiv-r, Mathvista y vlmsareblind para reflejar un cambio en el sistema de prompts que no estaba presente en la evaluación original.
Autores
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








