Pensamiento con imágenes
OpenAI o3 y o4-mini representan un avance importante en la percepción visual al razonar con imágenes en su cadena de pensamiento.
OpenAI o3 y o4-mini son los últimos modelos de razonamiento visual de nuestra serie o. Por primera vez, nuestros modelos no solo pueden ver las imágenes, sino que también pueden pensar con ellas en su cadena de razonamiento.
Al igual que nuestro anterior modelo OpenAI o1, los modelos o3 y o4-mini están entrenados para pensar durante más tiempo antes de responder y utilizar una larga cadena interna de pensamiento antes de proporcionar una respuesta al usuario. Los modelos o3 y o4-mini amplían aún más esta capacidad al pensar con imágenes en su cadena de pensamiento, lo que se consigue convirtiendo las imágenes cargadas por el usuario con herramientas y permitiendo recortar, ampliar y rotar, además de otras técnicas sencillas de procesamiento de imágenes. Lo que es más importante es que estas capacidades son nativas, sin depender de modelos especializados independientes.
La inteligencia visual mejorada de ChatGPT ayuda a resolver problemas más complejos al analizar imágenes de forma más exhaustiva, precisa y fiable que nunca. Puede combinar a la perfección el razonamiento avanzado con herramientas como la búsqueda en Internet y la manipulación de imágenes (aumentando, recortando, volteando o mejorando automáticamente las imágenes) para extraer información incluso de fotos que sean imperfectas. Por ejemplo, puedes cargar una foto de un conjunto de problemas económicos para recibir explicaciones paso a paso o compartir una captura de pantalla de un error de compilación para obtener rápidamente un análisis de la causa principal.
Este enfoque permite un nuevo eje para la ampliación informática en tiempo de prueba que combina a la perfección el razonamiento visual y textual, como se refleja en su rendimiento de vanguardia en pruebas de referencia multimodales, lo que supone un paso significativo hacia el razonamiento multimodal.
El pensamiento con imágenes te permite interactuar con ChatGPT de forma más sencilla. Puedes hacer preguntas al tomar una foto sin preocuparte de la posición de los objetos, ya sea que el texto esté al revés o existan varios problemas de física en una foto. Aunque los objetos no sean obvios a primera vista, el razonamiento visual permite al modelo ampliarlos para verlos con más claridad.
Todos los ejemplos se llevaron a cabo con OpenAI o3.
Nuestros modelos de razonamiento visual más recientes funcionan en simultáneo con otras herramientas, como el análisis de datos en Python, la búsqueda en la web o la generación de imágenes, para resolver de forma creativa y eficaz problemas más complejos y ofrecer a los usuarios nuestra primera experiencia agéntica multimodal.
Para destacar la mejora del razonamiento visual frente a nuestros modelos multimodales anteriores, probamos OpenAI o3 y o4-mini en un conjunto diverso de evaluaciones humanas y puntos de referencia de ML. Estos nuevos modelos de razonamiento visual superan de forma significativa a sus predecesores en todas las tareas multimodales que evaluamos.
Todos los modelos se evalúan con configuraciones de “esfuerzo de razonamiento” elevadas, similares a variantes como “o4-mini-high” en ChatGPT.
En concreto, el pensamiento con imágenes, sin depender de la navegación, da lugar a mejoras significativas en todos los parámetros de percepción que hemos evaluado. Nuestros modelos se encuentran a la vanguardia en respuesta a preguntas STEM (MMMU, MathVista), lectura y razonamiento de gráficos (CharXiv), parámetros primitivos de percepción (VLMs are Blind) y búsqueda visual (V*). En V*, nuestro enfoque de razonamiento visual alcanza una precisión del 95,7 %, lo que resuelve ampliamente la prueba de referencia.
El pensamiento con imágenes tiene actualmente las siguientes limitaciones:
- Cadenas de razonamiento excesivamente largas: Los modelos pueden realizar solicitudes de herramientas y pasos de manipulación de imágenes redundantes o innecesarios, lo que da lugar a cadenas de pensamiento demasiado largas.
- Errores de percepción: Los modelos aún pueden cometer errores básicos de percepción. Incluso cuando las solicitudes de herramienta hacen avanzar correctamente el proceso de razonamiento, las interpretaciones visuales erróneas pueden dar lugar a respuestas finales incorrectas.
- Confiabilidad: Los modelos pueden intentar diferentes procesos de razonamiento visual entre múltiples intentos de un problema, algunos de los cuales pueden conducir a resultados incorrectos.
OpenAI o3 y o4-mini avanzan de forma significativa en las capacidades de razonamiento visual más avanzadas, lo que representa un paso importante hacia un razonamiento multimodal más amplio. Estos modelos ofrecen la mejor precisión en tareas de percepción visual, lo que le permite resolver problemas que antes estaban fuera de su alcance.
Perfeccionamos continuamente la capacidad de razonamiento de los modelos con imágenes para que sean más concisos, menos redundantes y más fiables. Nos entusiasma seguir investigando el razonamiento multimodal y que el público explore cómo estas mejoras pueden impulsar su trabajo diario.
Actualización al 16 de abril: los resultados de o3 en Charxiv-r, Mathvista y vlmsareblind se actualizaron para reflejar un cambio en el indicador del sistema que no estaba presente en la evaluación original.
Autores
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








