Réfléchir avec des images
OpenAI o3 et o4-mini représentent une avancée significative en matière de perception visuelle grâce au raisonnement imagé de leur chaîne de pensée.
OpenAI o3 et o4-mini sont les derniers modèles de raisonnement visuels de notre série o. Pour la première fois, nos modèles peuvent penser avec des images dans leur chaîne de pensée, et pas seulement les voir.
À l’instar de notre précédent modèle OpenAI o1, o3 et o4-mini sont entraînés pour penser plus longtemps avant de répondre, et pour utiliser une longue chaîne de pensée interne avant de répondre à l’utilisateur. o3 and o4-mini prolongent cette fonctionnalité en intégrant des images à leur réflexion dans leur chaîne de pensée, grâce à des outils qui transforment les images chargées par l’utilisateur, qui leur permettent de rogner, zoomer et faire pivoter en plus d’autres techniques simples de traitement de l’image. Mais surtout, ces fonctionnalités sont natives, et ne requièrent aucun modèle spécialisé distinct.
L’intelligence visuelle améliorée de ChatGPT vous aide à résoudre des problèmes plus complexes en analysant des images de façon plus rigoureuse, plus précise et plus fiable que jamais. Elle peut associer sans difficultés un raisonnement avancé à des outils tels que la recherche Web et la manipulation d’image : en zoomant, rognant, pivotant ou améliorant automatiquement vos images pour extraire des informations provenant même de photos imparfaites. Par exemple, vous pouvez charger une photo d’un problème économique pour recevoir des explications étape par étape, ou partager une capture d’écran d’une erreur de construction pour obtenir rapidement une analyse des causes d’origine.
Cette approche permet d’établir un nouvel axe pour la mise à l'échelle des calculs en temps de test, qui combine de manière transparente le raisonnement visuel et textuel, comme en témoignent leurs performances de pointe sur des évaluations multimodales, marquant une étape importante vers le raisonnement multimodal.
Réfléchir de façon imagée vous permet d’interagir avec ChatGPT plus facilement. Vous pouvez poser des questions en prenant une photo sans vous soucier du positionnement des objets : si le texte est à l’envers ou si une photo contient plusieurs problèmes de physique. Même si certains objets ne sont pas évidents au premier coup d’œil, le raisonnement visuel permet au modèle de zoomer pour y voir plus clair.
Tous les exemples ci-dessous ont été réalisés avec OpenAI o3.
Nos derniers modèles de raisonnement visuels fonctionnent en tandem avec d’autres outils tels que l’analyse de données Python, la recherche Web, la génération d’images pour résoudre de façon efficace et créative des problèmes plus complexes, et offrir ainsi notre première expérience agentique multimodale aux utilisateurs.
Pour mettre en évidence l'amélioration du raisonnement visuel par rapport à nos modèles multimodaux précédents, nous avons testé OpenAI o3 et o4-mini sur un ensemble varié d'examens humains et d’évaluations du ML. Ces nouveaux modèles de raisonnement visuels ont fait beaucoup mieux que leurs prédécesseurs sur toutes les tâches multimodales que nous avons testées.
Tous les modèles sont évalués sur des paramètres de raisonnement élevé, ce qui les met sur un pied d’égalité avec les variantes de type « o4-mini-high » dans ChatGPT.
En particulier, le raisonnement avec des images, sans passer par la navigation, entraîne des gains significatifs sur toutes les évaluations de la perception que nous avons réalisées. Nos modèles définissent les nouvelles performances de pointe dans la réponse aux questions STEM (MMMU, MathVista), la lecture et le raisonnement graphique (CharXiv), les primitifs de perception (les VLM ne voient pas) et la recherche visuelle (V*). Sur V*, notre approche de raisonnement visuelle atteint 95,7 % de précision, ce qui résout en grande partie l’évaluation.
La réflexion avec des images présente actuellement les limites suivantes :
- Des chaînes de raisonnement excessivement longues : Les modèles peuvent effectuer des appels d'outils et des étapes de manipulation d'images redondants ou inutiles, entraînant des chaînes de pensée trop longues.
- Des erreurs de perception : Les modèles peuvent encore commettre des erreurs de perception élémentaires. Même lorsque les outils permettent de faire progresser correctement le processus de raisonnement, des interprétations visuelles erronées peuvent entraîner des réponses finales incorrectes.
- La fiabilité : Les modèles peuvent tenter différents processus de raisonnement visuel parmi plusieurs essais d'un problème, dont certains peuvent conduire à des résultats erronés.
OpenAI o3 et o4-mini font considérablement progresser les capacités de raisonnement visuel de pointe, ce qui représente une étape importante vers un raisonnement multimodal plus large. Ces modèles offrent une précision exemplaire sur les tâches de perception visuelle, ce qui leur permet de répondre à des questions hors de leur portée jusqu’à présent.
Nous améliorons continuellement les capacités de raisonnement des modèles à partir d'images afin qu'ils soient plus concis, moins redondants et plus fiables. Nous sommes ravis de poursuivre nos recherches dans le domaine du raisonnement multimodal et d'aider les gens à découvrir comment ces améliorations peuvent faciliter leur travail quotidien.
Mise à jour du 16 avril : les résultats d’o3 aux évaluations Charxiv-r et Mathvista ont été mis à jour pour tenir compte d’une modification du prompt système qui n’était pas présent dans l’évaluation d’origine.
Auteur
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








