OpenAI o3 i o4-mini són els models de raonament visual més recents de la nostra sèrie o. Per primera vegada, els nostres models poden pensar amb imatges en la seva cadena de pensament, no només veure-les.
De manera semblant al nostre model anterior OpenAI o1, o3 i o4-mini estan entrenats per pensar més estona abans de respondre i utilitzen una llarga cadena de pensament interna abans de respondre a l’usuari. o3 i o4-mini amplien encara més aquesta capacitat pensant amb imatges en la seva cadena de pensament, cosa que s’aconsegueix transformant amb eines les imatges pujades pels usuaris, permetent-los retallar, fer zoom i girar, a més d’altres tècniques senzilles de processament d’imatges. Encara més important, aquestes capacitats venen de manera nativa, sense dependre de models especialitzats separats.
La intel·ligència visual millorada de ChatGPT t’ajuda a resoldre problemes més difícils analitzant les imatges d’una manera més exhaustiva, precisa i fiable que mai. Pot combinar sense friccions el raonament avançat amb eines com la cerca web i la manipulació d’imatges—fent automàticament zoom, retallant, capgirant o millorant les teves imatges—per extreure informació fins i tot de fotos imperfectes. Per exemple, pots pujar una foto d’un conjunt de problemes d’economia per rebre explicacions pas a pas, o compartir una captura de pantalla d’un error de compilació per obtenir ràpidament una anàlisi de la causa arrel.
Aquest enfocament habilita un nou eix per a l’escalat de càlcul en temps de prova que combina de manera fluida el raonament visual i textual, tal com es reflecteix en el seu rendiment d’estat de l’art en benchmarks multimodals, i marca un pas significatiu cap al raonament multimodal.
Pensar amb imatges et permet interactuar amb ChatGPT més fàcilment. Pots fer preguntes fent una foto sense preocupar-te per la posició dels objectes—tant si el text és cap per avall com si hi ha diversos problemes de física en una sola foto. Fins i tot si els objectes no són evidents a primera vista, el raonament visual permet al model fer zoom per veure-hi amb més claredat.
Tots els exemples s’han completat amb OpenAI o3.
Els nostres models de raonament visual més recents treballen en tàndem amb altres eines com l’anàlisi de dades amb Python, la cerca web i la generació d'imatges per resoldre problemes més complexos de manera creativa i eficaç, oferint als usuaris la nostra primera experiència multimodal basada en agents.
Per destacar la millora del raonament visual respecte als nostres models multimodals anteriors, vam provar OpenAI o3 i o4-mini amb un conjunt divers d’exàmens humans i benchmarks de ML. Aquests nous models de raonament visual superen significativament els seus predecessors en totes les tasques multimodals que vam provar.
Tots els models s’avaluen amb ajustos elevats d’«esforç de raonament», semblants a variants com «o4-mini-high» a ChatGPT.
En particular, pensar amb imatges—sense dependre de la navegació—comporta millores significatives en tots els benchmarks de percepció que hem avaluat. Els nostres models estableixen un nou estat de l’art en preguntes i respostes STEM (MMMU, MathVista), lectura i raonament sobre gràfics (CharXiv), primitives de percepció (VLMs are Blind) i cerca visual (V*). A V*, el nostre enfocament de raonament visual assoleix una precisió del 95,7 %, i pràcticament resol el benchmark.
Actualment, pensar amb imatges presenta les limitacions següents:
- Cadenes de raonament excessivament llargues: els models poden fer crides d’eina redundants o innecessàries i passos de manipulació d’imatges, cosa que dona lloc a cadenes de pensament massa llargues.
- Errors de percepció: els models encara poden cometre errors bàsics de percepció. Fins i tot quan les crides d’eina fan avançar correctament el procés de raonament, interpretacions visuals errònies poden portar a respostes finals incorrectes.
- Fiabilitat: els models poden provar processos de raonament visual diferents en diversos intents d’un problema, alguns dels quals poden conduir a resultats incorrectes.
OpenAI o3 i o4-mini fan avançar significativament les capacitats de raonament visual d’estat de l’art i representen un pas important cap a un raonament multimodal més ampli. Aquests models ofereixen una precisió líder en la seva categoria en tasques de percepció visual, cosa que els permet resoldre preguntes que abans quedaven fora del seu abast.
Continuem refinant les capacitats de raonament amb imatges dels models perquè siguin més concises, menys redundants i més fiables. Ens fa il·lusió continuar la nostra recerca en raonament multimodal i que les persones explorin com aquestes millores poden potenciar la seva feina quotidiana.
Actualització del 16 d’abril: els resultats d’o3 a Charxiv-r, Mathvista i vlmsareblind es van actualitzar per reflectir un canvi en la indicació del sistema que no era present a l’avaluació original.
Autors
Col·laboradors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








