OpenAI o3 და o4-mini ჩვენი o-სერიის უახლესი ვიზუალური მსჯელობის მოდელებია. პირველად, ჩვენს მოდელებს შეუძლიათ აზროვნების ჯაჭვში სურათებით იფიქრონ — და არა მხოლოდ დაინახონ ისინი.
ჩვენი უფრო ადრეული OpenAI o1 მოდელის მსგავსად, o3 და o4-mini გაწვრთნილია, რომ პასუხის გაცემამდე უფრო დიდხანს იფიქრონ — და მომხმარებლისთვის პასუხის დაბრუნებამდე გამოიყენონ გრძელი შიდა აზროვნების ჯაჭვი. o3 და o4-mini ამ შესაძლებლობას კიდევ უფრო აფართოებენ იმით, რომ თავიანთ აზროვნების ჯაჭვში სურათებით ფიქრობენ, რაც მიიღწევა მომხმარებლის მიერ ატვირთული სურათების ინსტრუმენტებით გარდაქმნით, რაც მათ ჭრის, მიახლოების და მოტრიალების, ასევე სურათის დამუშავების სხვა მარტივი ტექნიკების გამოყენების საშუალებას აძლევს. უფრო მნიშვნელოვანი კი ის არის, რომ ეს შესაძლებლობები ბუნებრივად არის ჩაშენებული და არ ეყრდნობა ცალკე სპეციალიზებულ მოდელებს.
ChatGPT‑ის გაუმჯობესებული ვიზუალური ინტელექტი უფრო რთული პრობლემების გადაჭრაში გეხმარებათ, რადგან ის სურათებს უფრო საფუძვლიანად, ზუსტად და საიმედოდ აანალიზებს, ვიდრე ოდესმე. მას შეუძლია შეუფერხებლად გააერთიანოს მოწინავე მსჯელობა ისეთ ინსტრუმენტებთან, როგორიცაა ვებზე ძიება და სურათის მანიპულაცია — ავტომატურად მოახდინოს თქვენი სურათების მიახლოება, მოჭრა, გადაბრუნება ან გაუმჯობესება — რათა არასრულყოფილი ფოტოებიდანაც კი მიიღოს საჭირო მიგნებები. მაგალითად, შეგიძლიათ ატვირთოთ ეკონომიკის ამოცანების ნაკრების ფოტო, რომ მიიღოთ ნაბიჯ-ნაბიჯ ახსნა, ან გააზიაროთ build error-ის სქრინშოთი, რათა სწრაფად მიიღოთ ძირეული მიზეზის ანალიზი.
ეს მიდგომა შესაძლებელს ხდის ტესტირების დროის გამოთვლითი მასშტაბირების ახალ ღერძს, რომელიც შეუფერხებლად აერთიანებს ვიზუალურ და ტექსტურ მსჯელობას; ეს აისახება მათ თანამედროვე დონის შედეგებში მულტიმოდალურ ბენჩმარკებზე და წარმოადგენს მნიშვნელოვან ნაბიჯს მულტიმოდალური მსჯელობისკენ.
სურათებით აზროვნება გაძლევთ საშუალებას ChatGPT‑თან უფრო მარტივად იურთიერთოთ. შეგიძლიათ კითხვები დასვათ ფოტოს გადაღებით, ისე რომ არ იდარდოთ ობიექტების განლაგებაზე — იქნება ტექსტი თავდაყირა თუ ერთ ფოტოში რამდენიმე ფიზიკის ამოცანა. მაშინაც კი, თუ ობიექტები ერთი შეხედვით აშკარა არ არის, ვიზუალური მსჯელობა მოდელს საშუალებას აძლევს, უკეთ დასანახად მასშტაბი გაზარდოს.
ყველა მაგალითი შესრულდა OpenAI o3‑ით.
ჩვენი უახლესი ვიზუალური მსჯელობის მოდელები თანხვედრაში მუშაობენ სხვა ინსტრუმენტებთან, როგორიცაა Python-ით მონაცემთა ანალიზი, ვებზე ძიება და სურათის გენერირება, რათა უფრო რთული პრობლემები შემოქმედებითად და ეფექტიანად გადაჭრან და მომხმარებლებს ჩვენი პირველი მულტიმოდალური აგენტური გამოცდილება შესთავაზონ.
ვიზუალური მსჯელობის გაუმჯობესების გამოსაკვეთად ჩვენს წინა მულტიმოდალურ მოდელებთან შედარებით, ჩვენ OpenAI o3 და o4-mini ადამიანების მრავალფეროვან გამოცდებსა და ML ბენჩმარკებზე გამოვცადეთ. ეს ახალი ვიზუალური მსჯელობის მოდელები ჩვენს მიერ შემოწმებულ ყველა მულტიმოდალურ ამოცანაზე მნიშვნელოვნად აჭარბებენ თავიანთ წინამორბედებს.
ყველა მოდელი შეფასებულია „მსჯელობის ძალისხმევის“ მაღალ პარამეტრებზე — ChatGPT‑ში „o4-mini-high“-ის მსგავსი ვარიანტების მსგავსად.
კერძოდ, სურათებით აზროვნება — ვებზე ძიებაზე დაყრდნობის გარეშე — მნიშვნელოვან გაუმჯობესებას იძლევა აღქმის ყველა ბენჩმარკში, რომელიც შევაფასეთ. ჩვენმა მოდელებმა დაადგინეს ახალი state-of-the-art შედეგები STEM კითხვებზე პასუხის გაცემაში (MMMU, MathVista), დიაგრამების წაკითხვასა და მსჯელობაში (CharXiv), აღქმის პრიმიტივებში (VLMs are Blind) და ვიზუალურ ძიებაში (V*). V*-ზე ჩვენი ვიზუალური მსჯელობის მიდგომა 95.7% სიზუსტეს აღწევს და პრაქტიკულად წყვეტს ამ ბენჩმარკს.
სურათებით აზროვნებას ამჟამად შემდეგი შეზღუდვები აქვს:
- ზედმეტად გრძელი მსჯელობის ჯაჭვები: მოდელებმა შეიძლება შეასრულონ განმეორებადი ან არასაჭირო ინსტრუმენტის გამოძახებები და სურათის დამუშავების ნაბიჯები, რის შედეგადაც მიიღება ზედმეტად გრძელი აზროვნების ჯაჭვი.
- აღქმის შეცდომები: მოდელებს კვლავ შეუძლიათ აღქმის საბაზისო შეცდომების დაშვება. მაშინაც კი, როცა ინსტრუმენტის გამოძახებები სწორად აძლიერებს მსჯელობის პროცესს, ვიზუალურმა არასწორმა ინტერპრეტაციამ შეიძლება არასწორ საბოლოო პასუხამდე მიიყვანოს.
- საიმედოობა: მოდელებმა პრობლემის მრავალჯერადი მცდელობისას შეიძლება სცადონ ვიზუალური მსჯელობის განსხვავებული პროცესები, რომელთაგან ზოგი არასწორ შედეგამდე მიდის.
OpenAI o3 და o4-mini მნიშვნელოვნად ავითარებენ თანამედროვე დონის ვიზუალური მსჯელობის შესაძლებლობებს და წარმოადგენენ მნიშვნელოვან ნაბიჯს უფრო ფართო მულტიმოდალური მსჯელობისკენ. ეს მოდელები ვიზუალური აღქმის ამოცანებში კლასში საუკეთესო სიზუსტეს იძლევა, რაც მათ საშუალებას აძლევს ამოხსნან კითხვები, რომლებიც ადრე მიუწვდომელი იყო.
ჩვენ მუდმივად ვაუმჯობესებთ მოდელების სურათებთან დაკავშირებულ მსჯელობის შესაძლებლობებს, რათა ისინი იყოს უფრო მოკლე, ნაკლებად განმეორებადი და უფრო საიმედო. მოხარულები ვართ, რომ ვაგრძელებთ ჩვენს კვლევას მულტიმოდალურ მსჯელობაში და რომ ადამიანებს შეუძლიათ გამოიკვლიონ, როგორ გააუმჯობესებს ეს წინსვლა მათ ყოველდღიურ სამუშაოს.
16 აპრილის განახლება: o3‑ის შედეგები Charxiv-r-ზე, Mathvista-ზე და vlmsareblind-ზე განახლდა, რათა ასახულიყო სისტემური მოთხოვნის ცვლილება, რომელიც თავდაპირველ შეფასებაში არ იყო წარმოდგენილი.
ავტორები
წვლილის შემტანები
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








