OpenAI o3 and o4-mini нь манай o-серийн хамгийн сүүлийн харааны сэтгэн бодох загварууд юм. Анх удаа манай загварууд бодлын хэлхээндээ зургаар сэтгэж чаддаг болсон—зөвхөн хараад зогсохгүй.
Өмнөх OpenAI o1 загвартай адил, o3 болон o4-mini нь хариулахаасаа өмнө илүү удаан сэтгэн бодохоор сургагдсан бөгөөд хэрэглэгчид хариу өгөхөөсөө өмнө урт дотоод бодлын хэлхээ ашигладаг. o3 болон o4-mini нь энэ чадварыг цааш өргөжүүлж, бодлын хэлхээндээ зургаар сэтгэдэг болсон бөгөөд үүнийг хэрэглэгчийн оруулсан зургуудыг хэрэгслээр хувиргах замаар хэрэгжүүлдэг. Ингэснээр тэд зүсэх, ойртуулах, эргүүлэх зэрэг энгийн зураг боловсруулах бусад аргуудыг ашиглаж чадна. Илүү чухал нь эдгээр чадвар нь тусдаа мэргэшсэн загваруудад найдалгүйгээр төрөлх байдлаар ирдэг.
ChatGPT‑ийн сайжруулсан харааны оюун ухаан нь зургийг урьд өмнөхөөс илүү нягт, үнэн зөв, найдвартай шинжилснээр илүү хэцүү асуудлыг шийдэхэд тусалдаг. Энэ нь дэвшилтэт сэтгэн бодохыг вэб хайлт болон зураг боловсруулах зэрэг хэрэгслүүдтэй саадгүй хослуулж чадна—таны зургийг автоматаар ойртуулах, зүсэх, эргүүлэх эсвэл сайжруулах замаар төгс биш зургаас ч ойлголт гаргаж авна. Жишээлбэл, та алхам алхмаар тайлбар авахын тулд эдийн засгийн бодлогын хуудасны зургийг оруулж болно, эсвэл шалтгааны үндсийг хурдан шинжлүүлэхийн тулд build error-ийн скриншот хуваалцаж болно.
Энэ арга нь тестийн үеийн тооцооллын масштабыг нэмэгдүүлэх шинэ тэнхлэгийг нээж, харааны болон текстэн сэтгэн бодохыг саадгүй хослуулдаг. Энэ нь олон төрлийн өгөгдөлтэй жишиг үзүүлэлтүүд дээрх тэдний state-of-the-art гүйцэтгэлээр илэрч байгаа бөгөөд олон төрлийн өгөгдөлтэй сэтгэн бодох чиглэлд чухал алхам болж байна.
Зургаар сэтгэн бодох нь ChatGPT‑тэй илүү хялбар харилцах боломж олгодог. Объектуудын байрлалд санаа зоволгүйгээр та зураг авч асуулт асууж болно—текст урвуу харсан эсэх, эсвэл нэг зурагт хэд хэдэн физикийн бодлого байгаа эсэхээс үл хамааран. Объектууд анхны харцаар тодорхой биш байсан ч харааны сэтгэн бодох нь загварт ойртуулж илүү тод харах боломж олгодог.
Бүх жишээг OpenAI o3 ашиглан гүйцэтгэсэн.
Манай хамгийн сүүлийн харааны сэтгэн бодох загварууд Python өгөгдлийн шинжилгээ, вэб хайлт, зураг үүсгэх зэрэг бусад хэрэгслүүдтэй уялдан ажиллаж, илүү төвөгтэй асуудлуудыг бүтээлч бөгөөд үр дүнтэйгээр шийдэж, хэрэглэгчдэд зориулсан анхны олон төрлийн өгөгдөлтэй агент туршлагыг хүргэж байна.
Манай өмнөх олон төрлийн өгөгдөлтэй загваруудтай харьцуулахад харааны сэтгэн бодох сайжирсныг тодруулахын тулд бид OpenAI o3 болон o4-mini-г хүний төрөл бүрийн шалгалт болон ML жишиг үзүүлэлтүүд дээр туршсан. Эдгээр шинэ харааны сэтгэн бодох загварууд бидний туршсан бүх олон төрлийн өгөгдөлтэй даалгаварт өмнөх хувилбаруудаасаа мэдэгдэхүйц илүү байна.
Бүх загварыг өндөр ‘сэтгэн бодох хүчин чармайлт’ тохиргоонд үнэлсэн бөгөөд энэ нь ChatGPT дахь ‘o4-mini-high’ зэрэг хувилбаруудтай төстэй.
Ялангуяа браузингт найдалгүйгээр зургаар сэтгэн бодох нь бидний үнэлсэн бүх хүртэхүйн жишиг үзүүлэлт дээр мэдэгдэхүйц ахиц авчирдаг. Манай загварууд STEM асуулт-хариулт (MMMU, MathVista), график унших ба сэтгэн бодох (CharXiv), хүртэхүйн суурь чадварууд (VLMs are Blind), мөн харааны хайлт (V*) дээр шинэ state-of-the-art гүйцэтгэл тогтоосон. V* дээр манай харааны сэтгэн бодох арга 95.7%-ийн нарийвчлалд хүрч, жишиг үзүүлэлтийг үндсэндээ шийдэж байна.
Зургаар сэтгэн бодох нь одоогоор дараах хязгаарлалтуудтай:
- Хэт урт бодлын хэлхээ: Загварууд давхардсан эсвэл шаардлагагүй хэрэгслийн дуудлага, зураг боловсруулах алхмуудыг хийж, хэт урт бодлын хэлхээ үүсгэж болзошгүй.
- Хүртэхүйн алдаа: Загварууд одоо ч хүртэхүйн суурь алдаа гаргаж болно. Хэрэгслийн дуудлагууд сэтгэн бодох үйл явцыг зөв урагшлуулсан ч харааны буруу тайлбар эцсийн буруу хариунд хүргэж болзошгүй.
- Найдвартай байдал: Загварууд нэг асуудлыг олон дахин оролдохдоо өөр өөр харааны сэтгэн бодох үйл явц туршиж болох бөгөөд тэдгээрийн зарим нь буруу үр дүнд хүргэж болзошгүй.
OpenAI o3 болон o4-mini нь state-of-the-art харааны сэтгэн бодох чадамжийг мэдэгдэхүйц ахиулж, илүү өргөн хүрээний олон төрлийн өгөгдөлтэй сэтгэн бодох чиглэлд чухал алхам болж байна. Эдгээр загварууд харааны хүртэхүйн даалгаварт ангилалдаа шилдэг нарийвчлалыг үзүүлж, өмнө нь хүршгүй байсан асуултуудыг шийдэх боломж олгож байна.
Бид загваруудын зургаар сэтгэн бодох чадварыг илүү товч, давхардал багатай, илүү найдвартай болгохоор тасралтгүй сайжруулж байна. Бид олон төрлийн өгөгдөлтэй сэтгэн бодох судалгаагаа үргэлжлүүлэхдээ, мөн эдгээр сайжруулалт хүмүүсийн өдөр тутмын ажлыг хэрхэн сайжруулахыг тэд судлан ашиглахыг харахдаа баяртай байна.
4-р сарын 16-ны шинэчлэлт: анхны үнэлгээнд байгаагүй системийн өгөгдлийн өөрчлөлтийг тусгахын тулд Charxiv-r, Mathvista, vlmsareblind дээрх o3‑ын үр дүнг шинэчилсэн.
Зохиогчид
Хувь нэмэр оруулагчид
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








