Ragionamento sulle immagini
OpenAI o3 e o4-mini rappresentano una svolta significativa nella percezione visiva, grazie alla capacità di ragionare sulle immagini nella loro catena di pensiero.
OpenAI o3 e o4-mini sono i più recenti modelli di ragionamento visivo della nostra serie o. Per la prima volta, i nostri modelli sono in grado di ragionare sulle immagini nella loro catena di pensiero e non solo di visualizzarle.
Analogamente al precedente modello OpenAI o1, o3 e o4-mini sono addestrati a ragionare più a lungo prima di rispondere all’utente, utilizzando una catena di pensiero interna estesa. o3 e o4-mini ampliano ulteriormente questa capacità ragionando sulle immagini nella loro catena di pensiero, trasformando le immagini caricate dall’utente con strumenti che consentono il ritaglio, l’ingrandimento e la rotazione, oltre ad altre semplici tecniche di elaborazione delle immagini. Cosa ancora più importante, queste funzionalità sono integrate nativamente, senza dover ricorrere a modelli specializzati separati.
L’intelligenza visiva avanzata di ChatGPT aiuta a risolvere problemi complessi analizzando le immagini in modo più approfondito, preciso e affidabile che mai. È in grado di combinare perfettamente il ragionamento avanzato con strumenti come la ricerca sul web e la manipolazione delle immagini, ingrandendole, ritagliandole, capovolgendole o migliorandole automaticamente, per estrarre informazioni anche da foto imperfette. Ad esempio, è possibile caricare una foto di un problema di economia per ricevere spiegazioni dettagliate o condividere uno screenshot di un errore di build per ottenere rapidamente un’analisi delle cause principali.
Questo approccio consente una nuova modalità per la scalabilità del calcolo in fase di test, che integra perfettamente il ragionamento visivo e testuale, come dimostrano le prestazioni all’avanguardia nei benchmark multimodali, segnando un passo significativo verso il ragionamento multimodale.
Il ragionamento sulle immagini permette di interagire più facilmente con ChatGPT. Puoi porre domande scattando una foto senza preoccuparti del posizionamento degli oggetti: che il testo sia capovolto o che ci siano più problemi di fisica in una sola foto, non fa differenza. Anche se gli oggetti non sono evidenti a prima vista, il ragionamento visivo consente al modello di ingrandirli per una visione più chiara.
Tutti gli esempi sono stati realizzati con OpenAI o3.
I nostri più recenti modelli di ragionamento visivo lavorano in sinergia con altri strumenti come l’analisi dati in Python, la ricerca sul web e la generazione di immagini per risolvere in modo creativo ed efficace problemi più complessi, offrendo agli utenti la nostra prima esperienza di agente multimodale.
Per evidenziare il miglioramento del ragionamento visivo rispetto ai nostri precedenti modelli multimodali, abbiamo testato OpenAI o3 e o4-mini su una serie diversificata di esami umani e benchmark di ML. Questi nuovi modelli di ragionamento visivo superano significativamente i loro predecessori in tutti i compiti multimodali testati.
Tutti i modelli sono valutati con impostazioni di “sforzo di ragionamento” alto, in maniera simile a varianti come “o4-mini-high” in ChatGPT.
In particolare, il ragionamento sulle immagini, senza affidarsi alla navigazione, porta a miglioramenti significativi in tutti i benchmark di percezione valutati. I nostri modelli stabiliscono nuovi standard di prestazioni nelle risposte alle domande STEM (MMMU, MathVista), nella lettura e nel ragionamento su grafici (CharXiv), nelle primitive di percezione (VLMs are Blind) e nella ricerca visiva (V*). In V*, il nostro approccio di ragionamento visivo raggiunge una precisione del 95,7%, superando ampiamente il benchmark.
Il ragionamento sulle immagini presenta attualmente le seguenti limitazioni:
- Catene di ragionamento eccessivamente lunghe: i modelli possono eseguire chiamate a strumenti e operazioni di manipolazione delle immagini ridondanti o non necessarie, generando catene di pensiero eccessivamente lunghe.
- Errori di percezione: i modelli possono ancora commettere errori di percezione basilari. Anche quando le chiamate agli strumenti supportano correttamente il processo di ragionamento, interpretazioni visive errate possono portare a risposte finali sbagliate.
- Affidabilità: i modelli possono tentare diversi processi di ragionamento visivo in più tentativi su uno stesso problema, alcuni dei quali possono portare a risultati errati.
OpenAI o3 e o4-mini migliorano significativamente lo stato dell’arte nelle capacità di ragionamento visivo, rappresentando un passo importante verso un ragionamento multimodale più ampio. Questi modelli offrono una precisione senza pari nelle attività di percezione visiva e permettono di trovare risposte a domande che prima erano irraggiungibili.
Continuiamo a perfezionare le capacità di ragionamento dei modelli con le immagini per renderle più concise, meno ridondanti e più affidabili. Siamo entusiasti di proseguire la nostra ricerca sul ragionamento multimodale e di scoprire come questi miglioramenti possano arricchire il lavoro quotidiano delle persone.
Aggiornamento del 16 aprile: i risultati di o3 in Charxiv-r, Mathvista e vlmsareblind sono stati aggiornati per tenere conto di una modifica al prompt di sistema assente nella valutazione originale.
Autori
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








