이미지를 이용한 생각
OpenAI o3 및 o4-mini는 생각의 흐름에서 이미지를 활용한 추론을 통해 시각적 인식의 획기적인 발전을 보여줍니다.
OpenAI o3 및 o4-mini는 o-시리즈의 최신 시각 추론 모델입니다. 단지 이미지를 보는 데 그치지 않고 생각의 흐름에서 이미지에 대해 사고하는 최초의 모델입니다.
기존의 OpenAI o1 모델과 비슷하게 o3 및 o4-mini는 답변하기 전에 더 오래 생각하고, 사용자에게 응답하기 전에 내부 생각의 흐름을 오래 사용하도록 설계되었습니다. o3 및 o4-mini는 생각의 흐름에서 이미지를 이용한 생각으로 이러한 기능을 더욱 향상할 계획입니다. 이를 위해 간단한 이미지 처리 기술과 함께, 이미지를 자르고 확대하고 회전하는 도구를 사용해 사용자가 업로드한 이미지를 변환하는 기능을 활용합니다. 무엇보다 중요한 것은 별도의 전용 모델에 의존하지 않고 이 기능이 기본적으로 제공된다는 점입니다.
ChatGPT의 향상된 시각적 인텔리전스는 이전보다 이미지를 상세하고 정확하고 신뢰할 수 있게 분석함으로써 사용자가 더욱 어려운 문제를 해결하도록 돕습니다. 웹 검색, 이미지 조작(자동으로 확대, 축소, 자르기, 뒤집기, 향상하기 등) 등의 도구와 고급 이성을 원활하게 결합하여 완벽하지 않은 사진에서도 인사이트를 추출할 수 있습니다. 예를 들어, 단계별 설명을 얻기 위해 경제학 문제들이 있는 사진을 업로드하거나 빠른 근원 분석을 위해 빌드 오류 스크린샷을 공유할 수 있습니다.
이러한 접근 방식은 시각 이성 및 텍스트 이성을 원활하게 결합하는 테스트 시간 연산 확장의 새로운 축을 마련할 수 있습니다. 멀티모달 벤치마크 전반에서 최첨단 성능이 반영됨으로써 멀티모달 이성을 향한 엄청난 발전을 이루는 것입니다.
이미지를 이용해 생각하면 ChatGPT와 더욱 쉽게 상호작용할 수 있습니다. 사진상에서 대상의 위치가 어디에 있든 질문할 수 있습니다. 텍스트가 뒤집혀 있어도 한 사진에 여러 가지 물리적 문제가 있어도 상관없습니다. 대상이 한눈에 알아보기 힘든 사진이라도 시각적 이성은 모델이 사진을 확대하여 더 명확하게 볼 수 있게 돕습니다.
OpenAI o3로 모든 예시가 완성되었습니다.
OpenAI의 최신 시각 추론 모델은 Python 데이터 분석, 웹 검색, 이미지 생성 등의 다른 도구와 함께 작동하여 더 복잡한 문제를 창의적이고 효과적으로 해결하고 사용자에게 최초의 멀티모달 에이전트식 경험을 제공합니다.
기존의 멀티모달 모델과 비교해 시각 추론의 우수함을 확인하기 위해, 다양한 인간 시험 및 ML 벤치마크에서 OpenAI o3 및 o4-mini를 테스트했습니다. 이 새로운 시각 추론 모델은 테스트를 진행한 멀티모달 작업 전체에서 이전 모델보다 뛰어난 성능을 보여주었습니다.
모든 모델은 높은 ‘추론 노력’ 설정에서 평가되었으며, 이는 ChatGPT의 ‘o4-mini-high’와 같은 변형과 유사한 수준입니다.
특히 탐색을 활용하지 않고 이미지를 이용해 생각하는 것은 저희가 평가한 모든 인지 벤치마크에서 높은 점수를 받았습니다. 우리 모델은 STEM 질문-답변(MMMU, MathVista), 차트 읽기 및 추론(CharXiv), 인지 기초 요소(VLMs are Blind) 및 시각 검색(V*)에서 최첨단 성능의 새로운 기준을 수립했습니다. V*에서 OpenAI의 시각적 추론 접근 방식은 거의 모든 벤치마크를 해결하여 95.7%의 정확도를 달성했습니다.
이미지를 이용한 생각은 다음과 같은 제약사항이 있습니다.
- 과도하게 긴 추론 사슬: 모델이 불필요한 도구 호출 및 이미지 조작 단계를 수행하여 생각하는 시간이 과도하게 길어질 수 있습니다.
- 인지 오류: 모델은 여전히 기본적인 인식 실수를 할 수 있습니다. 추론 과정에서 도구 호출이 올바르게 선행되더라도 시각적 오해석이 정확하지 않은 최종 답변을 도출할 수 있습니다.
- 신뢰성: 모델은 문제를 해결하려는 여러 번의 시도에서 다양한 시각적 추론 과정을 시도하여 정확하지 않은 답변을 도출할 수 있습니다.
OpenAI o3 및 o4-mini는 시각적 추론 기능을 크게 발전시키며, 더욱 광범위한 멀티모달 추론을 향한 중요한 단계를 나타냅니다. 이 모델은 시각적 인식 작업에서 최고 수준의 정확도를 보여주며 이전에 해결하지 못했던 문제를 해결할 수 있게 합니다.
OpenAI는 더욱 정확하고 불필요한 과정을 없애며 더 신뢰할 수 있는 이미지를 사용한 추론 기능을 위해 모델을 꾸준히 개선하고 있습니다. 앞으로 진행될 멀티모달 추론 리서치의 성과와 함께, 이러한 발전을 통해 사람들의 일상 업무가 향상되기를 기대합니다.
4월 16일 업데이트: Charxiv-r, Mathvista 및 vlmsareblind에서 o3의 결과가 업데이트되어 기존 평가에서 존재하지 않았던 시스템 프롬프트 변경이 반영되었습니다.
저자
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








