Tenke med bilder
OpenAI o3 og o4-mini representerer et betydelig gjennombrudd i visuell persepsjon ved å resonnere med bilder i tankegangen.
OpenAI o3 og o4-mini er de nyeste visuelle resonneringsmodellene i o-serien vår. For første gang kan modellene våre tenke med bilder i tankeprosessen – ikke bare se dem.
På samme måte som vår tidligere OpenAI o1‑modell, er o3 og o4-mini opplært til å tenke lenger før de svarer – og bruke en lang intern tankerekke før de svarer brukeren. o3 og o4-mini utvider denne kapasiteten ytterligere ved å tenke med bilder i tankerekken sin, noe som oppnås ved å transformere bilder lastet opp av brukeren med verktøy, slik at de kan beskjære, zoome inn og rotere, i tillegg til andre enkle bildebehandlingsteknikker. Enda viktigere er det at disse funksjonene er innebygd, uten å være avhengige av separate spesialiserte modeller.
ChatGPTs forbedrede visuelle intelligens hjelper deg med å løse vanskelige problemer ved å analysere bilder grundigere, mer nøyaktig og pålitelig enn noensinne. Den kan sømløst kombinere avansert resonnering med verktøy som nettsøk og bildebehandling – automatisk zooming, beskjæring, snu eller forbedre bildene dine – for å trekke ut innsikt selv fra uperfekte bilder. For eksempel kan du laste opp et bilde av et økonomioppgavesett for å få steg-for-steg forklaringer, eller dele et skjermbilde av en byggefeil for å raskt få en analyse av rotårsaken.
Denne tilnærmingen muliggjør en ny måte for beregningsskalering ved testtid som sømløst blander visuell og tekstbasert resonnering, slik det gjenspeiles i deres toppmoderne ytelse på tvers av multimodale referansemålinger, og markerer et betydelig skritt mot multimodal resonnering.
Å tenke i bilder gjør det lettere å samhandle med ChatGPT. Du kan stille spørsmål ved å ta et bilde uten å bekymre deg for plasseringen av objektene – enten teksten er opp-ned eller det er flere fysikkproblemer på ett bilde. Selv om objekter ikke er åpenbare ved første øyekast, tillater visuell resonnering modellen å zoome inn for å se klarere.
Alle eksemplene ble utført med OpenAI o3.
Våre nyeste visuelle resonneringsmodeller fungerer i samspill med andre verktøy som Python dataanalyse, nettsøk, bildegenerering for å kreativt og effektivt løse mer komplekse problemer, og leverer vår første multimodale agentopplevelse til brukere.
For å fremheve forbedring i visuell resonnering sammenlignet med våre tidligere multimodale modeller, testet vi OpenAI o3 og o4-mini på et variert sett av menneskelige eksamener og ML-referansemålinger. Disse nye modellene for visuell resonnering presterer betydelig bedre enn sine forgjengere på alle de multimodale oppgavene vi testet.
Alle modeller evalueres ved høye innstillinger for “resonneringsinnsats”, tilsvarende varianter som “o4-mini-high” i ChatGPT.
Spesielt fører tenking med bilder – uten å stole på søking – til betydelige gevinster på alle perseptuelle referansemålinger vi har evaluert. Våre modeller setter ny standard for ytelse innen STEM-spørsmål og svar (MMMU, MathVista), diagramlesing og resonnering (CharXiv), persepsjonsprimitiver (VLMs are Blind), og visuell søking (V*). På V* oppnår vår visuelle resonneringsmetode 95,7 % nøyaktighet, og løser i stor grad referansemålet.
Å tenke med bilder har for tiden følgende begrensninger:
- Altfor lange resonnementkjeder: Modeller kan utføre overflødige eller unødvendige verktøykall og bildemanipuleringstrinn, noe som resulterer i altfor lange tankerekker.
- Persepsjonsfeil: Modeller kan fortsatt gjøre grunnleggende persepsjonsfeil. Selv når verktøy kaller korrekt driver resonnementsprosessen fremover, kan visuelle misforståelser føre til feil endelige svar.
- Pålitelighet: Modeller kan forsøke ulike visuelle resonnementsprosesser gjennom flere forsøk på et problem, hvorav noen kan føre til feil resultater.
OpenAI o3 og o4-mini gir en vesentlig forbedring av banebrytende evner innen visuell resonnering, og representerer et viktig skritt mot bredere multimodal resonnering. Disse modellene leverer toppnøyaktighet på oppgaver innen visuell persepsjon, noe som gjør det mulig å løse spørsmål som tidligere var utenfor rekkevidde.
Vi forbedrer kontinuerlig modellenes resonneringsevner med bilder for å bli mer konsise, mindre overflødige og mer pålitelige. Vi gleder oss til å fortsette forskningen vår på multimodal resonnering, og til at folk kan utforske hvordan disse forbedringene kan forbedre hverdagsarbeidet deres.
Oppdatering 16. april: resultatene for o3 på Charxiv-r, Mathvista og vlmsareblind ble oppdatert for å gjenspeile en endring i systemmeldingen som ikke var til stede i den opprinnelige evalueringen.
Forfattere
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








