Tänka med bilder
OpenAI:s o3 och o4-mini innebär ett stort steg framåt inom visuell förnimmelse eftersom de resonerar med bilder i sina tankekedjor.
OpenAI:s o3 och o4-mini är de senaste modellerna med visuellt resonemang i vår o-serie. För första gången någonsin kan våra modeller nu tänka med bilder i sina tankekedjor – inte bara se bilderna.
Liksom OpenAI:s tidigare o1‑modell har o3 och o4-mini tränats att tänka längre innan de svarar – och använda en lång, intern tankekedja innan de ger användaren ett svar. Modellerna o3 och o4-mini tar dock denna förmåga ett steg längre genom att tänka med bilder i sina tankekedjor. Detta är möjligt genom att omvandla bilder som laddats upp av användaren med hjälp av verktyg för att beskära, zooma in, rotera och andra enkla tekniker för bildbehandling. Än viktigare är att dessa förmågor är inbyggda, det vill säga inte beroende av någon separat, specialiserad modell.
ChatGPT:s förbättrade visuella intelligens hjälper dig att lösa svårare problem genom att analysera bilder mer ingående, precist och tillförlitligt än någonsin tidigare. Den kan smidigt kombinera avancerat resonemang med verktyg som webbsökning och bildmanipulering – zooma, beskära, vända eller förstärka bilderna automatiskt – för att hämta insikter ur foton som är allt annat än perfekta. Du kan till exempel ladda upp ett foto av ett finansiellt problem för att få det förklarat steg för steg, eller skicka en skärmdump av kompileringsfel för att snabbt erhålla en grundorsaksanalys.
Den här metoden öppnar nya möjligheter för att öka beräkningskapaciteten genom att blanda visuellt och textbaserat resonemang, vilket indikeras av oöverträffade resultat inom multimodala riktmärken och utgör ett stort steg mot att möjliggöra multimodala resonemang.
När ChatGPT tänker med bilder blir den enklare att interagera med. Du kan ställa frågor genom att ta ett foto, utan att behöva arrangera objekten först – till exempel upp-och-nedvänd text eller flera fysikrelaterade problem i ett foto. Även om objekten inte syns tydligt vid första anblicken gör det visuella resonemanget att modellen kan zooma in för att se bättre.
Alla exempel genomfördes med OpenAI o3.
Våra senaste modeller med visuellt resonemang fungerar i kombination med andra verktyg, som Python-dataanalys, webbsökning och bildgenerering, för att på kreativa och effektiva sätt lösa mer komplexa problem. Detta utgör den första multimodala agentupplevelsen för våra användare.
För att demonstrera förbättringen av visuellt resonemang i förhållande till våra tidigare multimodala modeller har vi testat OpenAI:s o3 och o4-mini med hjälp av en rad mänskliga prov och riktmärken för maskininlärning. Dessa nya modeller med visuellt resonemang presterar mycket bättre än sina föregångare på alla multimodala uppgifter som vi testade.
Vid utvärderingar har modellerna konfigurerats till högsta resonemangsnivå, liknande modeller såsom ”o4-mini-high” i ChatGPT.
Framför allt leder tänkande med bilder, utan webbsökning, till väsentligt bättre resultat inom alla riktmärken för synförmåga som vi testade. Våra modeller uppnådde oöverträffade resultat inom STEM-fråga-svara (MMMU, MathVista), läsa och resonera kring diagram (CharXiv), perceptual primitives (VLMs are Blind) och visuell sökning (V*). I V* uppnår vår metod för visuellt resonemang 95,7 % träffsäkerhet, vilket mer eller mindre löser riktmärket.
I nuläget har tänka med bilder följande begränsningar:
- Överdrivet långa resonemangskedjor: Modellerna kan göra överflödiga eller onödiga verktygsanrop och bildmanipulationssteg, vilket leder till överdrivet långa tankekedjor.
- Synrelaterade fel: Modellerna kan fortfarande begå grundläggande fel relaterade till synförmåga. Även om verktygsanrop för resonemangsprocessen framåt kan visuella feltolkningar leda till felaktiga svar.
- Tillförlitlighet: Modellerna kan prova olika visuella resonemang under flera försök att lösa ett problem, och vissa av dessa kan leda till felaktiga slutsatser.
OpenAI:s o3 och o4-mini är ett stort framsteg inom avancerad visuell resonemangsförmåga, och utgör ett viktigt steg på vägen mot bredare multimodala resonemang. Dessa modeller levererar klassledande precision på varseblivningsuppgifter, vilket gör att de kan lösa frågor som tidigare var omöjliga.
Vi fortsätter att finjustera modellernas förmåga att resonera med bilder, för att göra den mer koncis, minska antalet överflödiga steg och göra den mer tillförlitlig. Vi ser fram emot att fortsätta forska inom multimodala resonemang och se hur människor använder dessa i sitt dagliga arbete.
Uppdatering 16 april: resultaten för o3 på Charxiv-r, Mathvista och vlmsareblind har uppdaterats för att återspegla en systempromptsändring som inte inkluderades i den ursprungliga utvärderingen.
Författare
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








