Denken in Bildern
OpenAI o3 und o4-mini markieren einen bedeutenden Fortschritt im Bereich der visuellen Wahrnehmung, da sie Bilder in ihre gedankliche Argumentation einbeziehen.
OpenAI o3 and o4-mini sind die neuesten Visual-Reasoning-Modelle unserer o-Serie. Erstmals können unsere Modelle Bilder in ihre gedankliche Argumentationskette einbeziehen – sie erkennen sie nicht nur, sondern denken damit.
Ähnlich wie das frühere Modell OpenAI o1 wurden o3 und o4-mini darauf trainiert, vor einer Antwort länger nachzudenken und dabei eine ausgedehnte innere Argumentationskette zu nutzen. o3 und o4-mini gehen noch einen Schritt weiter: Sie denken mit Bildern in ihrer gedanklichen Kette. Dazu verarbeiten sie vom Nutzer hochgeladene Bilder mithilfe von Tools. Sie können diese zuschneiden, vergrößern, drehen und weitere einfache Bildverarbeitungstechniken anwenden. Noch wichtiger: Diese Fähigkeiten sind nativ integriert. Sie beruhen nicht auf separaten Spezialmodellen.
Dank der erweiterten visuellen Intelligenz von ChatGPT lassen sich komplexere Aufgaben lösen – durch eine noch gründlichere, präzisere und verlässlichere Bildanalyse. Es kombiniert fortschrittliches Reasoning nahtlos mit Tools wie Websuche und Bildbearbeitung, etwa durch automatisches Vergrößern, Zuschneiden, Spiegeln oder Optimieren von Bildern, und gewinnt so selbst aus unvollständigen Fotos wertvolle Erkenntnisse. Du kannst zum Beispiel ein Foto eines Aufgabenblatts aus der Volkswirtschaftslehre hochladen und erhältst eine schrittweise Erklärung, oder einen Screenshot eines Build-Fehlers teilen, um schnell eine Ursachenanalyse zu bekommen.
Dieser Ansatz eröffnet eine neue Dimension der Rechenleistung zur Ausführungszeit, in der visuelles und textbasiertes Reasoning nahtlos ineinandergreifen. Das zeigen ihre Spitzenleistungen in multimodalen Benchmarks. Ein bedeutender Schritt in Richtung multimodales Reasoning.
Das Denken mit Bildern macht die Interaktion mit ChatGPT noch intuitiver. Du kannst einfach ein Foto machen und deine Frage stellen – ganz ohne dir Gedanken über die Anordnung der Elemente zu machen. Ganz gleich, ob der Text auf dem Kopf steht oder mehrere Physikaufgaben auf einem Bild zu sehen sind. Selbst wenn Objekte auf den ersten Blick nicht klar erkennbar sind, kann das Modell dank Visual Reasoning heranzoomen, um Details besser zu erkennen.
Alle Beispiele wurden mit OpenAI o3 durchgeführt.
Unsere neuesten Visual-Reasoning-Modelle arbeiten nahtlos mit anderen Tools wie Python-Datenanalyse, Websuche und Bildgenerierung zusammen. So lösen sie auch komplexere Aufgaben kreativ und effizient und ermöglichen Nutzern erstmals ein multimodales agentisches Erlebnis.
Um die Fortschritte im Visual Reasoning gegenüber unseren bisherigen multimodalen Modellen hervorzuheben, haben wir OpenAI o3 und o4-mini anhand einer Vielzahl menschlicher Prüfungen und ML-Benchmarks getestet. Diese neuen Visual-Reasoning-Modelle übertreffen ihre Vorgänger deutlich bei allen getesteten multimodalen Aufgaben.
Alle Modelle wurden unter Bedingungen mit hohem „Reasoning-Aufwand“ evaluiert – vergleichbar mit Varianten wie „o4-mini-high“ in ChatGPT.
Insbesondere das Denken mit Bildern, ganz ohne Browserzugriff, führt zu deutlichen Verbesserungen in allen Wahrnehmungs-Benchmarks, die wir untersucht haben. Unsere Modelle setzen neue Maßstäbe in der Beantwortung von MINT-Fragen (MMMU, MathVista), im Lesen und Interpretieren von Diagrammen (CharXiv), bei Wahrnehmungsgrundlagen (VLMs are Blind) sowie in der visuellen Suche (V*). Auf V* erreicht unser Visual-Reasoning-Ansatz eine Genauigkeit von 95,7 % und löst den Benchmark damit nahezu vollständig.
Das bildgestützte Denken ist derzeit in folgenden Bereichen eingeschränkt:
- Übermäßig lange Reasoning-Ketten: Die Modelle zeigen mitunter redundante oder unnötige Tool-Aufrufe und Bildbearbeitungsschritte, was zu übermäßig langen gedanklichen Ketten führen kann.
- Wahrnehmungsfehler: Die Modelle können weiterhin einfache Wahrnehmungsfehler machen. Selbst wenn Tool-Aufrufe den Denkprozess korrekt voranbringen, können visuelle Fehlinterpretationen zu falschen Endantworten führen.
- Zuverlässigkeit: Die Modelle können bei mehreren Durchläufen eines Problems unterschiedliche Visual-Reasoning-Strategien anwenden, von denen manche zu falschen Ergebnissen führen können.
OpenAI o3 und o4-mini erweitern die führenden Visual-Reasoning-Fähigkeiten deutlich und markieren einen wichtigen Schritt hin zu umfassenderem multimodalem Reasoning. Diese Modelle erzielen branchenführende Genauigkeit bei Aufgaben der visuellen Wahrnehmung und ermöglichen die Lösung von Fragen, die zuvor nicht zu bewältigen waren.
Wir verbessern die Reasoning-Fähigkeiten der Modelle im Umgang mit Bildern laufend. Das Ziel ist, sie präziser, verlässlicher und weniger redundant zu machen. Wir freuen uns darauf, unsere Forschung im Bereich des multimodalen Reasonings fortzusetzen. So können Menschen entdecken, wie diese Fortschritte ihre tägliche Arbeit bereichern.
Update vom 16. April: Die Ergebnisse für o3 bei CharXiv-r, MathVista und VLMsAreBlind wurden aktualisiert, um eine Änderung im System-Prompt zu berücksichtigen, die in der ursprünglichen Auswertung nicht enthalten war.
Autoren
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








