Myślenie przy użyciu obrazów
Modele o3 i o4-mini OpenAI stanowią znaczący przełom w przetwarzaniu informacji wizualnych dzięki zastosowaniu rozumowania przy użyciu obrazów w ich łańcuchu myśli.
OpenAI o3 i o4-mini to najnowsze modele rozumowania wizualnego z naszej serii o. Po raz pierwszy nasze modele potrafią używać obrazów w łańcuchu myśli, a nie tylko je widzieć.
Podobnie jak w przypadku naszego wcześniejszego modelu OpenAI o1 modele o3 i o4-mini zostały wytrenowane tak, aby przed udzieleniem odpowiedzi myślały dłużej i korzystały z długiego wewnętrznego łańcucha myśli. Ponadto modele o3 i o4-mini używają w łańcuchu myśli obrazów. Jest to możliwe dzięki przekształcaniu obrazów przesłanych przez użytkowników przy użyciu narzędzi umożliwiających kadrowanie, powiększanie i obracanie, a także innych prostych technik przetwarzania obrazów. Co ważniejsze, te zdolności są wbudowane i nie wymagają oddzielnych, specjalistycznych modeli.
Ulepszona inteligencja wizualna ChatGPT stosuje dokładniejszą, bardziej precyzyjną i niezawodną analizę obrazów niż kiedykolwiek wcześniej na potrzeby rozwiązywania trudniejszych problemów. Może sprawnie łączyć zaawansowane rozumowanie z narzędziami takimi jak wyszukiwanie w sieci i manipulowanie obrazami — automatycznie powiększając, przycinając, odwracając lub poprawiając obrazy — dzięki czemu może wydobywać informacje nawet z niedoskonałych zdjęć. Na przykład można przesłać zdjęcie zadania z ekonomii i otrzymać wyjaśnienia krok po kroku lub udostępnić zrzut ekranu z błędem kompilacji i szybko uzyskać analizę przyczyny źródłowej.
Takie podejście umożliwia stworzenie nowej osi skalowania nakładu obliczeniowego testów, które w płynny sposób łączy rozumowanie przy użyciu obrazu i tekstu. Widać to w wynikach osiąganych przez te rozwiązania w multimodalnych testach porównawczych, które są lepsze od wyników dotychczas najnowocześniejszych rozwiązań. Jest to znaczący krok w kierunku rozumowania multimodalnego.
Myślenie przy użyciu obrazów ułatwia korzystanie z ChatGPT. Można zadawać pytania, robiąc zdjęcie i nie martwić się o sposób położenia obiektów — czy tekst jest odwrócony lub czy jedno zdjęcie zawiera wiele zadań z fizyki. Nawet jeśli obiekty są trudne do rozpoznania na pierwszy rzut oka, rozumowanie wizualne pozwala modelowi powiększyć obraz, aby mógł zobaczyć więcej szczegółów.
Wszystkie przykłady zostały wykonane przy użyciu modelu OpenAI o3.
Nasze najnowsze modele rozumowania wizualnego współpracują z innymi narzędziami, takimi jak analiza danych przy użyciu języka Python, wyszukiwanie w sieci czy generowanie obrazów, dlatego umożliwiają kreatywne i skuteczne rozwiązywanie bardziej złożonych problemów, a użytkownicy mają dostęp do naszego pierwszego multimodalnego rozwiązania agentowego.
Aby zwrócić uwagę na poprawę rozumowania wizualnego w porównaniu z naszymi poprzednimi modelami multimodalnymi, przetestowaliśmy modele OpenAI o3 i o4-mini przy użyciu zestawu różnych egzaminów dla ludzi i testów porównawczych ML. Nowe modele rozumowania wizualnego osiągają znacznie lepsze wyniki niż ich poprzednicy we wszystkich przetestowanych przez nas zadaniach multimodalnych.
Wszystkie modele są oceniane przy ustawieniach wysoki dla „wysiłku związanego z rozumowaniem” — podobnie jak warianty takie jak „o4-mini-high” w ChatGPT.
Używanie w łańcuchu myśli obrazów — bez konieczności polegania na przeglądaniu — prowadzi w szczególności do znacznej poprawy we wszystkich testach porównawczych przetwarzania informacji wizualnych, które przeprowadziliśmy. Nasze modele wyznaczają nowe standardy w zakresie wyników w odpowiadaniu na pytania dotyczące nauk ścisłych, technologii, inżynierii i matematyki (MMMU, MathVista), rozumowania i czytania dotyczącego wykresów (CharXiv), elementach podstawowych percepcji (VLMs are Blind) oraz wyszukiwania wizualnego (V*). W przypadku V* nasze podejście do rozumowania wizualnego osiąga 95,7% dokładności, co stanowi rozwiązanie praktycznie całego testu porównawczego.
Myślenie przy użyciu obrazów ma obecnie następujące ograniczenia:
- Zbyt długie łańcuchy rozumowania: Modele mogą wykonywać zbędne lub niepotrzebne wywołania narzędzi i kroki manipulacji obrazem, skutkujące zbyt długimi łańcuchami myśli.
- Błędy dotyczące przetwarzania informacji wizualnych: Modele mogą nadal popełniać podstawowe błędy dotyczące przetwarzania informacji wizualnych. Nawet jeśli narzędzia prawidłowo przyspieszają proces rozumowania, błędna interpretacja wizualna może prowadzić do nieprawidłowych odpowiedzi końcowych.
- Niezawodność: Modele mogą podejmować próby zastosowania różnych procesów rozumowania wizualnego podczas wielokrotnych prób rozwiązania problemu, z których niektóre mogą prowadzić do błędnych wyników.
Modele OpenAI o3 i o4-mini znacznie przewyższają najnowocześniejsze zdolności rozumowania wizualnego, stanowiąc ważny krok w kierunku bardziej rozbudowanego rozumowania multimodalnego. Modele te zapewniają najlepszą w swojej klasie dokładność w zadaniach związanych z przetwarzaniem informacji wizualnych, umożliwiając udzielanie odpowiedzi na pytania, w przypadku których dotychczas nie można było to możliwe.
Ciągle udoskonalamy zdolności rozumowania wizualnego modeli. Chcemy, aby łańcuchy rozumowania były bardziej zwięzłe, występowało mniej zbędnych wywołań i rozumowanie było bardziej niezawodne. Cieszymy się, że możemy kontynuować badania nad rozumowaniem multimodalnym i że użytkownicy będą mogli odkrywać, w jaki sposób te ulepszenia mogą usprawnić ich codzienną pracę.
Aktualizacja z 16 kwietnia: zaktualizowano wyniki dla modelu o3 w testach Charxiv-r, Mathvista i vlmsareblind. Teraz odzwierciedlają zmianę w poleceniu systemu, która nie była uwzględniona w pierwotnej ocenie.
Autorzy
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








