Denken met afbeeldingen
OpenAI o3 en o4-mini betekenen een belangrijke doorbraak in visuele perceptie door in hun Chain-of-Thought te redeneren met afbeeldingen.
OpenAI o3 en o4-mini zijn de nieuwste modellen voor visueel redeneren in onze o-serie. Voor het eerst kunnen onze modellen in hun Chain-of-Thought denken met afbeeldingen, meer dus dan er alleen naar kijken.
Net als ons eerdere OpenAI o1‑model zijn o3 en o4-mini getraind om langer na te denken. Ze gebruiken een lange interne gedachtegang voordat ze de gebruiker antwoord geven. In o3 en o4-mini wordt dit vermogen nog verder uitgebreid: in hun gedachtegang kunnen ze denken met afbeeldingen. Dit wordt bereikt door afbeeldingen die door de gebruiker zijn geüpload te transformeren met tools om bij te snijden, in te zoomen en te roteren, naast andere eenvoudige beeldbewerkingstechnieken. Nog belangrijker is dat deze mogelijkheden van nature aanwezig zijn, zonder dat er aparte gespecialiseerde modellen nodig zijn.
De verbeterde visuele intelligentie van ChatGPT helpt je om lastigere problemen op te lossen door afbeeldingen grondiger, nauwkeuriger en betrouwbaarder dan ooit te analyseren. Het kan naadloos geavanceerde redeneringen combineren met tools zoals zoeken op het web en beeldmanipulatie (automatisch inzoomen, bijsnijden, omdraaien of verbeteren van je afbeeldingen) om zelfs uit imperfecte foto's inzichten te halen. Je kunt bijvoorbeeld een foto uploaden van een economische probleemstelling om stap-voor-stap uitleg te krijgen, of een screenshot van een bouwfout delen om snel een analyse van de hoofdoorzaak te krijgen.
Deze benadering maakt een nieuwe as mogelijk voor computerschaling tijdens testen, waarbij visuele en tekstuele redeneringen naadloos in elkaar overgaan, zoals blijkt uit hun state-of-the-art prestaties in multimodale benchmarks, wat een belangrijke stap is in de richting van multimodaal redeneren.
Door te denken met afbeeldingen kun je eenvoudiger communiceren met ChatGPT. Je kunt vragen stellen door een foto te nemen zonder je zorgen te maken over de plaatsing van objecten, of de tekst nu ondersteboven staat of dat er meerdere fysieke problemen op één foto staan. Zelfs als objecten op het eerste gezicht niet duidelijk zijn, stelt visueel redeneren het model in staat om in te zoomen om ze duidelijker te zien.
Alle voorbeelden zijn uitgevoerd met OpenAI o3.
Onze nieuwste modellen voor visueel redeneren werken samen met andere tools zoals Python-gegevensanalyse, zoeken op het web en het genereren van afbeeldingen om op een creatieve en effectieve manier complexere problemen op te lossen en gebruikers onze eerste multimodale agent-ervaring te bieden.
Om de verbetering in visueel redeneren ten opzichte van onze vorige multimodale modellen goed te laten zien, hebben we OpenAI o3 en o4-mini getest op een diverse set menselijke examens en ML-benchmarks. Deze nieuwe modellen voor visueel redeneren presteren op alle multimodale taken die we hebben getest aanzienlijk beter dan hun voorgangers.
Alle modellen die worden geëvalueerd zijn ingesteld op een hoge 'redeneerinspanning', vergelijkbaar met varianten zoals 'o4-mini-high' in ChatGPT.
Vooral het denken met afbeeldingen, zonder te vertrouwen op browsen, leidt tot aanzienlijke verbeteringen in alle perceptie-benchmarks die we hebben geëvalueerd. Onze modellen leveren nieuwe topprestaties op het gebied van bèta/technische vragen beantwoorden (MMMU, MathVista), grafieken lezen en beredeneren (CharXiv), perceptieprimitieven (VLM's zijn Blind) en visueel zoeken (V*). Op V* behaalt onze visuele redeneerbenadering 95,7% nauwkeurigheid, waarmee de benchmark ruim wordt gehaald.
Denken met afbeeldingen heeft momenteel de volgende beperkingen:
- Buitensporig lange redeneerketens: Modellen gebruiken soms tools of beeldmanipulatie zonder dat dat nodig is, waardoor denkketens al te lang worden.
- Waarnemingsfouten: Modellen kunnen nog steeds elementaire waarnemingsfouten maken. Zelfs als het gebruik van tools het redeneerproces vooruit helpt, kunnen visuele misinterpretaties leiden tot onjuiste eindantwoorden.
- Betrouwbaarheid: Modellen kunnen bij meerdere invalshoeken voor een probleem verschillende visuele redeneerprocessen uitproberen, waarvan sommige tot onjuiste resultaten kunnen leiden.
OpenAI o3 en o4-mini zorgen voor een aanzienlijke verbetering van het geavanceerde vermogen om visueel te redeneren en zijn een belangrijke stap in de richting van breder multimodaal redeneren. Deze modellen leveren bij visuele waarnemingstaken de beste nauwkeurigheid in hun klasse, waardoor ze vragen kunnen oplossen die voorheen buiten bereik lagen.
Voortdurend gebruiken we afbeeldingen om het redeneervermogen van de modellen te verfijnen. Het wordt bondiger, doet minder overbodige dingen, en levert betrouwbaardere uitkomsten. We zetten ons onderzoek naar multimodaal redeneren volop voort. Mensen zullen ontdekken hoe hun dagelijkse werk hierdoor kan verbeteren.
Update 16 april: de resultaten voor o3 op Charxiv-r en Mathvista zijn geactualiseerd in verband met een wijziging in de systeemprompt die niet was meegenomen in de oorspronkelijke evaluatie.
Auteurs
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








