Suy nghĩ bằng hình ảnh
OpenAI o3 và o4-mini đại diện cho một bước đột phá quan trọng trong lĩnh vực nhận thức thị giác, thông qua khả năng suy luận bằng hình ảnh trong chuỗi tư duy của các mô hình này.
OpenAI o3 và o4-mini là các mô hình suy luận hình ảnh mới nhất trong series o của chúng tôi. Lần đầu tiên, các mô hình của chúng tôi có thể tư duy bằng hình ảnh trong chuỗi tư duy—chứ không chỉ đơn thuần là nhìn thấy chúng.
Tương tự như mô hình OpenAI o1 trước đây, o3 và o4-mini được huấn luyện để suy nghĩ kỹ hơn trước khi trả lời—và sử dụng một chuỗi tư duy nội tại dài trước khi phản hồi người dùng. o3 và o4-mini tiếp tục mở rộng năng lực này bằng cách suy nghĩ với hình ảnh trong chuỗi tư duy của chúng. Điều này đạt được bằng cách chuyển đổi hình ảnh do người dùng tải lên bằng các công cụ, cho phép chúng cắt xén, phóng to, xoay, bên cạnh các kỹ thuật xử lý hình ảnh đơn giản khác. Quan trọng hơn, những năng lực này được tích hợp sẵn một cách tự nhiên mà không cần dựa vào các mô hình chuyên biệt riêng lẻ.
Trí tuệ thị giác nâng cao của ChatGPT sẽ giúp bạn giải quyết các vấn đề khó hơn bằng cách phân tích hình ảnh một cách kỹ lưỡng, chính xác và đáng tin cậy hơn bao giờ hết. Nó có thể kết hợp liền mạch khả năng suy luận nâng cao với các công cụ như tìm kiếm web và xử lý hình ảnh—tự động thu phóng, cắt xén, lật hoặc cải thiện chất lượng ảnh—để trích xuất thông tin chuyên sâu ngay cả từ những bức ảnh không hoàn hảo. Ví dụ: bạn có thể tải lên một bức ảnh chụp một tập các vấn đề về kinh tế để nhận được lời giải thích từng bước, hoặc chia sẻ ảnh chụp màn hình một lỗi lập trình để nhanh chóng có được bản phân tích nguyên nhân gốc rễ.
Cách tiếp cận này mở ra hướng đi mới cho việc mở rộng quy mô tính toán tại thời điểm thử nghiệm, kết hợp nhuần nhuyễn giữa suy luận hình ảnh và văn bản. Điều này được phản ánh qua hiệu suất hàng đầu trên các bài đánh giá đa phương thức, đánh dấu một bước tiến quan trọng hướng tới khả năng suy luận đa phương thức.
Tư duy bằng hình ảnh cho phép tương tác với ChatGPT dễ dàng hơn. Bạn có thể đặt câu hỏi bằng cách chụp một bức ảnh mà không cần lo lắng về vị trí của các vật thể—cho dù chữ bị ngược hay có nhiều vấn đề về mặt vật lý trong cùng một bức ảnh. Ngay cả khi các vật thể không rõ ràng ngay từ cái nhìn ban đầu, khả năng suy luận hình ảnh sẽ cho phép mô hình phóng to để nhìn rõ hơn.
Tất cả các ví dụ đều được hoàn thành bằng OpenAI o3.
Các mô hình suy luận hình ảnh mới nhất của chúng tôi hoạt động song song với các công cụ khác như phân tích dữ liệu bằng Python, tìm kiếm web, tạo sinh ảnh để giải quyết các vấn đề phức tạp hơn một cách sáng tạo và hiệu quả, mang đến cho người dùng những trải nghiệm đầu tiên ở dạng tác nhân đa phương thức.
Để làm nổi bật sự cải tiến về khả năng suy luận hình ảnh so với các mô hình đa phương thức trước đây, chúng tôi đã thử nghiệm OpenAI o3 và o4-mini trên một loạt các bài thi thực tế của con người và các bài đánh giá về ML. Các mô hình suy luận hình ảnh mới này vượt trội đáng kể so với các phiên bản tiền nhiệm ở tất cả các tác vụ đa phương thức mà chúng tôi đã thử nghiệm.
Tất cả các mô hình đều được đánh giá ở cài đặt ‘nỗ lực suy luận’ cao—tương tự như các phiên bản ‘o4-mini-high’ trong ChatGPT.
Đặc biệt, việc suy nghĩ bằng hình ảnh—mà không cần dựa vào trình duyệt—mang lại những cải tiến đáng kể trên tất cả các bài đánh giá về nhận thức mà chúng tôi đã đánh giá. Các mô hình của chúng tôi thiết lập hiệu suất tiên tiến nhất ở khía cạnh: trả lời câu hỏi STEM (MMMU, MathVista), đọc và suy luận biểu đồ (CharXiv), các nguyên tắc nhận thức cơ bản (VLMs are Blind), và tìm kiếm bằng hình ảnh (V*). Trên V*, phương pháp suy luận hình ảnh của chúng tôi đạt độ chính xác 95,7%, về cơ bản đã giải quyết được bài đánh giá này.
Việc suy nghĩ bằng hình ảnh hiện có những giới hạn sau:
- Chuỗi suy luận quá dài: Các mô hình có thể thực hiện các lệnh gọi công cụ và các bước xử lý hình ảnh thừa thãi hoặc không cần thiết, dẫn đến chuỗi tư duy quá dài.
- Lỗi nhận thức: Các mô hình vẫn có thể mắc những lỗi nhận thức cơ bản. Ngay cả khi các lệnh gọi công cụ thúc đẩy quá trình suy luận một cách chính xác, việc diễn giải sai hình ảnh vẫn có thể dẫn đến câu trả lời cuối cùng không chính xác.
- Độ tin cậy: Các mô hình có thể thử những quy trình suy luận hình ảnh khác nhau trong nhiều lần thử giải quyết vấn đề, và một số quy trình đó có thể dẫn đến kết quả sai.
OpenAI o3 và o4-mini đã thúc đẩy đáng kể các năng lực suy luận hình ảnh tiên tiến nhất, đại diện cho một bước tiến quan trọng hướng tới khả năng suy luận đa phương thức ở phạm vi rộng hơn. Các mô hình này mang lại độ chính xác tốt nhất trong các tác vụ nhận thức thị giác, cho phép giải quyết những câu hỏi mà trước đây nằm ngoài khả năng.
Chúng tôi đang liên tục tinh chỉnh năng lực suy luận bằng hình ảnh của các mô hình để súc tích hơn, bớt rườm rà và đáng tin cậy hơn. Chúng tôi rất hào hứng tiếp tục nghiên cứu về suy luận đa phương thức và mong muốn mọi người khám phá cách thức những cải tiến này có thể nâng cao công việc hàng ngày của họ.
Cập nhật ngày 16 tháng 4: kết quả của mô hình o3 trên Charxiv-r, Mathvista và vlmsareblind đã được cập nhật để phản ánh một thay đổi về lời nhắc hệ thống mà không có trong lần đánh giá ban đầu.
Tác giả
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








