Görsellerle düşünme
OpenAI o3 ve o4-mini, düşünce zincirindeki görüntülerle akıl yürütme yaparak görsel algıda önemli bir atılımı temsil ediyor.
Önceki OpenAI o1 modelimize benzer şekilde, o3 ve o4-mini, yanıt vermeden önce daha uzun süre düşünmek üzere eğitilmiştir ve kullanıcıya yanıt vermeden önce uzun bir dahili düşünce zinciri kullanır. o3 ve o4-mini, düşünce zincirlerinde görsellerle düşünerek bu yeteneği daha da genişletir. Bu, diğer basit görüntü işleme tekniklerine ek olarak, kullanıcı tarafından yüklenen görselleri kullanıcıların kırpmalarına, yakınlaştırmalarına ve döndürmelerine olanak tanıyan araçlarla dönüştürerek elde edilir. Daha da önemlisi, bu yetenekler ayrı, uzmanlaşmış modellere bağlı kalmadan, doğal olarak geliyor.
ChatGPT'nin gelişmiş görsel zekası, görselleri her zamankinden daha kapsamlı, doğru ve güvenilir bir şekilde analiz ederek daha zor sorunları çözmenize yardımcı oluyor. Gelişmiş akıl yürütmeyi web araması ve görsel işleme gibi araçlarla kusursuz bir şekilde birleştirebilir; görsellerinizi otomatik olarak yakınlaştırabilir, kırpabilir, çevirebilir veya geliştirebilir. Böylece kusurlu fotoğraflardan bile içgörüler elde edebilir. Örneğin, adım adım açıklamalar almak için ekonomi problemlerinin olduğu bir fotoğrafı yükleyebilir veya hızlı bir şekilde temel neden analizi elde etmek için bir derleme hatasının ekran görüntüsünü paylaşabilirsiniz.
Bu yaklaşım; görsel ve metinsel akıl yürütmeyi sorunsuz bir şekilde harmanlayan test zamanı hesaplama ölçeklendirmesi için yeni bir eksen sağlıyor ve çok modlu kıyaslamaların muhteşem performanslarında yansıtıldığı gibi, çok modlu akıl yürütme için önemli bir adım teşkil ediyor.
Görsellerle düşünmek ChatGPT ile daha kolay etkileşim kurmanızı sağlar. Nesnelerin konumlarını düşünmeden, metnin ters olup olmadığı veya bir fotoğrafta birden fazla fizik problemi olması gibi konularda fotoğraf çekerek soru sorabilirsiniz. Nesneler ilk bakışta belirgin olmasa bile, görsel akıl yürütme modelin daha net görmek için yakınlaştırma yapmasını sağlar.
Tüm örnekler OpenAI o3 ile yapılmıştır.
En son görsel akıl yürütme modellerimiz; Python veri analizi, web araması, görüntü oluşturma gibi diğer araçlarla birlikte çalışarak daha karmaşık sorunları yaratıcı ve etkili bir şekilde çözüyor ve kullanıcılara ilk çok modlu aracı deneyimimizi sunuyor.
Önceki çok modlu modellerimize kıyasla görsel akıl yürütmedeki gelişmeyi vurgulamak için, OpenAI o3 ve o4-mini'yi çeşitli insan sınavları ve ML kıyaslamalarında test ettik. Bu yeni görsel akıl yürütme modelleri, test ettiğimiz tüm çok modlu görevlerde öncüllerinden önemli ölçüde daha iyi performans gösteriyor.
Tüm modeller, ChatGPT'deki 'o4-mini-high' gibi varyantlara benzer şekilde yüksek 'akıl yürütme çabası' ayarlarında değerlendirilmiştir.
Özellikle, web'de gezinmeye dayanmadan görsellerle düşünmek, değerlendirdiğimiz tüm algılama ölçütlerinde önemli kazanımlar sağlıyor. Modellerimiz STEM soru cevaplama (MMMU, MathVista), grafik okuma ve akıl yürütme (CharXiv), algılama primitifleri (VLM'ler Kördür) ve görsel arama (V*) alanlarında yeni ve son teknoloji performanslar ortaya koymaktadır. V* üzerinde, görsel akıl yürütme yaklaşımımız %95,7 doğruluk oranına ulaşarak kıyaslama ölçütünü büyük ölçüde çözmüştür.
Görsellerle düşünmek şu anda aşağıdaki sınırlamalara sahiptir:
- Aşırı uzun düşünme zincirleri: Modeller, gereksiz veya tekrarlayan araç çağrıları ve görsel düzenleme adımlarını gerçekleştirebilir ve bu da aşırı uzun düşünce zincirlerinin oluşmasına neden olabilir.
- Algı hataları: Modeller halen temel algı hataları yapabilirler. Araç çağrıları akıl yürütme sürecini doğru bir şekilde ilerletse bile, görsel yanlış yorumlamalar nihai cevapların yanlış olmasına yol açabilir.
- Güvenilirlik: Modeller, bir problemin birden fazla çözümünde farklı görsel akıl yürütme süreçlerini deneyebilir ve bunların bir kısmı yanlış sonuçlara yol açabilir.
OpenAI o3 ve o4-mini, daha geniş kapsamlı çok modlu akıl yürütmeye doğru önemli bir adım teşkil ederek, son teknoloji görsel akıl yürütme yeteneklerini önemli ölçüde ilerletiyor. Bu modeller görsel algı görevlerinde sınıfının en iyisi seviyede bir doğruluk sunarak daha önce ulaşılması zor olan soruların çözülmesini sağlıyor.
Modellerin akıl yürütme yeteneklerini daha kısa ve öz, daha az gereksiz ve daha güvenilir olacak şekilde görsellerle sürekli olarak geliştiriyoruz. Çok modlu akıl yürütme konusundaki araştırmalarımızı sürdürmekten ve insanların bu gelişmelerin günlük işlerini nasıl geliştirebileceğini keşfetmelerinden heyecan duyuyoruz.
16 Nisan güncellemesi: o3 için Charxiv-r, Mathvista ve vlmsareblind sonuçları, orijinal değerlendirmede bulunmayan bir sistem istemi değişikliğini yansıtacak şekilde güncellendi.
Yazarlar
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








