Tænke med billeder
OpenAI o3 og o4-mini er et stort gennembrud inden for visuel perception, da de ræsonnerer med billeder i deres tankekæde.
OpenAI o3 og o4-mini er de seneste, visuelle ræsonneringsmodeller i vores o-serie. For første gang kan vores modeller tænke med billeder i deres tankekæde, og ikke bare se dem.
Ligesom med vores tidligere OpenAI o1‑model, er o3 og o4-mini trænet til at tænke i længere tid, inden de svarer, og bruger en lang, intern tankekæde, før de svarer brugeren. o3 og o4-mini udvider denne kapacitet yderligere ved at tænke med billeder i deres tankekæde, som opnås ved at forvandle bruger-uploadede billeder med værktøjer, så de kan beskære, zoome ind og rotere ud over andre enkle billedbehandlingsteknikker. Det vigtigste er, at disse egenskaber kommer naturligt uden at skulle stole på separate specialiserede modeller.
ChatGPT’s forbedrede, visuelle intelligens hjælper dig med at løse sværere problemer ved at analysere billeder mere grundigt, nøjagtigt og pålideligt end nogensinde før. Den kan problemfrit kombinere avanceret tænkning med værktøjer som websøgning og billedmanipulation – automatisk zoom, beskæring, vending eller forbedring af dine billeder for at hente indsigt selv fra ufuldkomne billeder. For eksempel kan du uploade et billede af et økonomisk problem, der er indstillet til at modtage trin-for-trin-forklaringer, eller dele et skærmbillede af en bygningsfejl for hurtigt at få en analyse af hovedårsagen.
Denne fremgangsmåde muliggør en ny akse til testtidsberegningsskalering, der problemfrit blander visuel og tekstuel ræsonnering, hvilket afspejles i deres avancerede ydeevne på tværs af multimodale benchmarks, hvilket markerer et betydeligt skridt mod multimodal ræsonnering.
Tænkning med billeder gør det muligt for dig nemmere at interagere med ChatGPT. Du kan stille spørgsmål ved at tage et billede uden at bekymre dig om placering af objekter – hvad enten teksten vender på hovedet, eller der er flere fysikproblemer på et billede. Selv hvis objekter ikke er indlysende ved første øjekast, gør den visuelle ræsonneringsmodel det muligt at zoome ind for bedre at kunne se.
Alle eksempler er blevet fuldført med OpenAI o3.
Vores seneste, visuelle ræsonneringsmodeller fungerer sammen med andre værktøjer som Python-dataanalyse, websøgning, billedgenerering til kreativt og effektivt at løse mere komplekse problemer og giver os vores første multimodale agentoplevelse til brugerne.
For at fremhæve forbedring af visuel ræsonnering i forhold til vores tidligere, multimodale modeller testede vi OpenAI o3 og o4-mini på forskellige, menneskelige eksamener og ML-benchmarks. Disse nye, visuelle ræsonneringsmodeller overgår markant deres forgængere på alle multimodale opgaver, vi har testet.
Alle modeller er evalueret ved høje indstillinger for "ræsonneringsindsats", svarende til varianter som ‘o4-mini-high’ i ChatGPT.
Særligt tænkning med billeder – uden at være afhængig af browsing – giver betydelige gevinster på tværs af alle benchmarks for forståelse, vi har evalueret. Vores modeller giver nye, avancerede resultater i STEM-spørgsmål-svar (MMMU, Mathvista), diagramlæsning og ræsonnering (CharXiv), perceptionsprimitiver (VLM'er er blinde) og visuel søgning (V*). På V* opnår vores visuelle ræsonneringstilgang 95,7 % nøjagtighed og løser stort set benchmarken.
Tænkning med billeder har følgende begrænsninger i øjeblikket:
- Ekstremt lange ræsonneringskæder: Modeller kan udføre overflødige eller unødvendige værktøjskald og billedmanipulationstrin, hvilket resulterer i alt for lange tankekæder.
- Perceptionsfejl: Modeller kan stadig begå grundlæggende perceptionsfejl. Selv når værktøjskald fremmer ræsonnementsprocessen på rette vis, kan visuelle misfortolkninger føre til forkerte endelige svar.
- Driftssikkerhed: Modeller kan forsøge forskellige visuelle ræsonneringsprocesser på flere forsøg ved et problem, hvoraf nogle kan føre til forkerte resultater.
OpenAI o3 and o4-mini fremmer markant avanceret visuelle ræsonneringsfunktioner, der repræsenterer et vigtigt skridt hen imod bredere multimodal ræsonnering. Disse modeller leverer nøjagtighed i topklasse på visuelle opfattelsesopgaver, hvilket gør det muligt for dem at opklare spørgsmål, der tidligere ikke var muligt.
Vi justerer kontinuerligt modellernes ræsonneringsfunktioner med billeder, så de er mere kortfattede, mindre overflødige og mere pålidelige. Vi er glade for at fortsætte vores research i multimodal ræsonnering, og for at folk kan udforske, hvordan disse forbedringer kan forbedre deres daglige arbejde.
Opdatering 16. april: resultater for o3 på Charxiv-r og Mathvista og vlmsareblind er blevet opdateret til at afspejle en ændring af systemprompt, der ikke var til stede i den oprindelige evaluering.
Skrevet af
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








