Ajattelu kuvien avulla
OpenAI o3 ja o4-mini edustavat merkittävää läpimurtoa visuaalisessa havainnoinnissa, sillä ne voivat päätellä kuvien avulla ajatusketjussaan.
OpenAI o3 ja o4-mini ovat o-sarjamme uusimmat visuaalisen päättelyn mallit. Ensimmäistä kertaa mallimme voivat ajatella kuvien avulla ajatusketjussaan eivätkä vain nähdä niitä.
Samoin kuin aiemmassa OpenAI o1 -mallissamme, o3 ja o4-mini on koulutettu ajattelemaan pidempään ennen vastaamista ja käyttämään pitkää sisäistä ajatusketjua ennen käyttäjälle vastaamista. o3 ja o4-mini laajentavat tätä kykyä entisestään ajattelemalla kuvien avulla ajatusketjussaan, mikä saavutetaan muuntamalla käyttäjän lataamia kuvia työkaluilla, jotka mahdollistavat niiden rajaamisen, zoomaamisen ja kiertämisen muiden yksinkertaisempien kuvankäsittelytekniikoiden lisäksi. Vielä tärkeämpää on, että nämä ominaisuudet tulevat alkuperäisesti ilman erillisiä erikoismalleja.
ChatGPT:n parannettu visuaalinen älykkyys auttaa ratkaisemaan vaikeampia ongelmia analysoimalla kuvia perusteellisemmin, tarkemmin ja luotettavammin kuin koskaan aikaisemmin. Se voi saumattomasti yhdistää edistyneen päättelyn työkaluihin, kuten verkkohakuun ja kuvankäsittelyyn, esimerkiksi kuvien automaattiseen zoomaamiseen, rajaamiseen, kääntämiseen tai parantamiseen, ja tehdä siten havaintoja jopa epätäydellisistä valokuvista. Voit esimerkiksi ladata kuvan taloustieteen ongelmasarjasta saadaksesi siitä vaiheittaiset selitykset tai jakaa kuvakaappauksen rakennusvirheestä saadaksesi siitä nopeasti perussyyanalyysin.
Tämä lähestymistapa mahdollistaa uuden akselin testiaikaiseen laskennan skaalaukseen, joka yhdistää saumattomasti visuaalisen ja tekstuaalisen päättelyn, mikä näkyy niiden huippuluokan suorituskyvyssä multimodaalisissa vertailuarvoissa ja on merkittävä askel kohti multimodaalista päättelykykyä.
Kuvien avulla ajatteleminen helpottaa ChatGPT:n käyttöä. Voit esittää kysymyksiä ottamalla kuvan murehtimatta objektien asettelusta, olipa teksti ylösalaisin tai useita fysiikan tehtäviä samassa kuvassa. Vaikka esineet eivät olisi ensi silmäyksellä ilmeisiä, visuaalinen päättely mahdollistaa mallille zoomaamisen, jotta se näkee selkeämmin.
Kaikki esimerkit tehtiin OpenAI o3:lla.
Uusimmat visuaalisen päättelyn mallimme toimivat rinnakkain muiden työkalujen, kuten Pythonin data-analyysin, verkkohaun ja kuvien luomisen kanssa monimutkaisempien ongelmien ratkaisemisessa luovasti ja tehokkaasti, tarjoten käyttäjille ensimmäisen multimodaalisen agenttikokemuksen.
Korostaaksemme visuaalisen päättelyn parannusta aiempiin multimodaalisiin malleihimme verrattuna testasimme OpenAI o3- ja o4-mini-malleja useilla ihmiskokeilla ja koneoppimisen vertailuarvoilla. Nämä uudet visuaalisen päättelyn mallit suoriutuvat merkittävästi edeltäjiään paremmin kaikissa testaamissamme multimodaalisissa tehtävissä.
Kaikki mallit arvioidaan korkeilla päättelyponnistuksen asetuksilla, jotka ovat samanlaisia kuin esimerkiksi ChatGPT:n o4-mini-high -muunnelmat.
Erityisesti kuvien avulla ajattelu, ilman turvautumista selaamiseen, johtaa merkittäviin parannuksiin kaikissa arvioimissamme havaintokyvyn vertailuarvoissa. Mallimme asettavat uuden huipputason suorituskyvyn STEM-kysymyksiin vastaamiseen (MMMU, MathVista), kaavioiden lukemiseen ja päättelyyn (CharXiv), havaintoalkioihin (VLM:t ovat sokeita) ja visuaaliseen hakemiseen (V*). V*-testissä visuaalisen päättelyn lähestymistapamme saavuttaa 95,7 %:n tarkkuuden, mikä ratkaisee pitkälti vertailuarvon.
Kuvien avulla ajattelussa on tällä hetkellä seuraavat rajoitukset:
- Liian pitkät päättelyketjut: Mallit saattavat suorittaa tarpeettomia työkalukutsuja ja kuvankäsittelyvaiheita, mikä johtaa liian pitkiin ajatusketjuihin.
- Havaintovirheet: Mallit voivat edelleen tehdä perustavanlaatuisia havaintovirheitä. Vaikka työkalujen kutsuminen edistäisi päättelyprosessia oikein, visuaaliset virhetulkinnat voivat johtaa virheellisiin lopullisiin vastauksiin.
- Luotettavuus: Mallit saattavat yrittää erilaisia visuaalisia päättelyprosesseja useiden ongelmanratkaisuyritysten aikana, joista osa voi johtaa virheellisiin tuloksiin.
OpenAI o3 ja o4-mini edistävät merkittävästi huippuluokan visuaalisen päättelyn ominaisuuksia ja ovat tärkeä askel kohti laajempaa multimodaalista päättelykykyä. Mallit tarjoavat huippuluokan tarkkuutta visuaalisen hahmottamisen tehtävissä, minkä ansiosta ne pystyvät ratkaisemaan aiemmin mahdottomiksi koettuja tehtäviä.
Parannamme jatkuvasti mallien päättelykykyä kuvien avulla, jotta ne olisivat ytimekkäämpiä, vähemmän päällekkäisiä ja luotettavampia. Olemme innoissamme, kun voimme jatkaa tutkimustamme multimodaalisen päättelyn parissa, ja toivomme, että ihmiset voivat selvittää, miten nämä parannukset voivat tehostaa heidän jokapäiväistä työtään.
Päivitys 16. huhtikuuta: Charxiv-r-, Mathvista- ja vlmsareblind-testeissä o3‑tulokset päivitettiin vastaamaan järjestelmäkehotteen muutosta, jota ei ollut alkuperäisessä arvioinnissa.
Tekijät
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








