Chúng tôi sẽ phát hành OpenAI o3‑mini, mô hình mới nhất, hiệu quả nhất về chi phí trong sê-ri mô hình suy luận, có sẵn trong cả ChatGPT lẫn API ngay hôm nay. Được tung ra ở dạng Bản xem trước vào tháng 12/2024, mô hình mạnh mẽ và nhanh chóng này đã mở rộng giới hạn của những gì các mô hình nhỏ có thể đạt được, mang lại các năng lực STEM (Khoa học, Công nghệ, Kỹ thuật, Toán học) vượt trội—với thế mạnh đặc biệt về khoa học, toán học và lập trình—đồng thời vẫn bảo đảm tiết kiệm chi phí và giảm độ trễ như của mô hình OpenAI o1‑mini.
OpenAI o3‑mini là mô hình suy luận nhỏ đầu tiên của chúng tôi hỗ trợ các tính năng được rất nhiều nhà phát triển yêu cầu, bao gồm gọi hàm(mở trong cửa sổ mới), Kết quả có cấu trúc(mở trong cửa sổ mới), và tin nhắn của nhà phát triển(mở trong cửa sổ mới), giúp mô hình sẵn sàng để triển khai thực tế ngay từ khi ra mắt. Giống như OpenAI o1‑mini và OpenAI o1‑preview, o3‑mini sẽ hỗ trợ streaming(mở trong cửa sổ mới). Ngoài ra, nhà phát triển có thể lựa chọn giữa ba tùy chọn mức độ suy luận(mở trong cửa sổ mới)—thấp, trung bình và cao—để tối ưu hóa cho các mục đích sử dụng cụ thể của họ. Sự linh hoạt này cho phép o3‑mini “tư duy sâu hơn” khi giải quyết các thách thức phức tạp hoặc ưu tiên tốc độ khi độ trễ là vấn đề cần quan tâm. Phiên bản o3‑mini không hỗ trợ khả năng xử lý hình ảnh, vì vậy nhà phát triển nên tiếp tục sử dụng OpenAI o1 cho các tác vụ suy luận hình ảnh. Phiên bản o3‑mini đang được triển khai trong API hoàn thiện hội thoại, API trợ lý và Batch API bắt đầu từ hôm nay cho một số nhà phát triển chọn lọc có bậc sử dụng API từ 3 đến 5(mở trong cửa sổ mới).
Người dùng ChatGPT Plus, Team và Pro có thể truy cập OpenAI o3‑mini bắt đầu từ hôm nay, quyền truy cập cho gói Enterprise sẽ ra mắt vào tháng Hai. Phiên bản o3‑mini sẽ thay thế OpenAI o1‑mini trong bộ chọn mô hình, cung cấp giới hạn số lượng yêu cầu cao hơn và độ trễ thấp hơn, trở thành một lựa chọn hấp dẫn cho các tác vụ lập trình, STEM và giải quyết vấn đề có tính logic. Trong quá trình nâng cấp này, chúng tôi sẽ tăng gấp ba giới hạn số lượng yêu cầu cho người dùng Plus và Team, từ 50 tin nhắn mỗi ngày với phiên bản o1‑mini lên 150 tin nhắn mỗi ngày với phiên bản o3‑mini. Ngoài ra, o3‑mini nay đã có tính năng tìm kiếm để đưa ra câu trả lời cập nhật mới nhất kèm theo liên kết đến các nguồn web liên quan. Đây là một nguyên mẫu ban đầu mà chúng tôi nỗ lực tích hợp tính năng tìm kiếm vào các mô hình suy luận của mình.
Bắt đầu từ hôm nay, người dùng gói miễn phí cũng có thể dùng thử OpenAI o3‑mini bằng cách chọn ‘Suy luận’ trong trình soạn tin nhắn hoặc bằng cách tạo lại một câu trả lời. Điều này đánh dấu lần đầu tiên một mô hình suy luận đã được cung cấp cho người dùng miễn phí trong ChatGPT.
Trong khi OpenAI o1 vẫn là mô hình suy luận kiến thức tổng quát rộng hơn, OpenAI o3‑mini sẽ đưa ra một lựa chọn thay thế chuyên biệt cho các lĩnh vực kỹ thuật đòi hỏi độ chính xác và tốc độ. Trong ChatGPT, o3‑mini sử dụng mức độ suy luận trung bình để mang lại sự cân bằng hợp lý giữa tốc độ và độ chính xác. Tất cả người dùng trả phí cũng sẽ có tùy chọn o3‑mini‑high trong bộ chọn mô hình để sử dụng phiên bản có trí thông minh cao hơn, tuy nhiên sẽ mất nhiều thời gian hơn một chút để tạo ra phản hồi. Người dùng Pro sẽ có quyền truy cập không giới hạn vào cả o3‑mini và o3‑mini‑high.
Tương tự như phiên bản tiền nhiệm OpenAI o1, OpenAI o3‑mini đã được tối ưu hóa cho khả năng suy luận trong lĩnh vực STEM. Phiên bản o3‑mini với mức độ suy luận trung bình đạt hiệu năng tương đương o1 trong toán học, lập trình và khoa học, đồng thời đưa ra phản hồi nhanh hơn. Đánh giá từ những chuyên gia thử nghiệm cho thấy o3‑mini tạo ra câu trả lời chính xác và rõ ràng hơn, với khả năng suy luận mạnh mẽ hơn so với OpenAI o1‑mini. Người thử nghiệm ưa chuộng các phản hồi của o3‑mini hơn o1‑mini trong 56% trường hợp và quan sát thấy tỷ lệ lỗi nghiêm trọng giảm 39% đối với các câu hỏi khó trong thực tế. Với mức độ suy luận trung bình, o3‑mini đạt hiệu suất tương đương o1 trong một số bài đánh giá trí thông minh và khả năng suy luận thử thách nhất, bao gồm AIME và GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
Với trí thông minh tương đương OpenAI o1, OpenAI o3‑mini mang lại hiệu năng nhanh hơn và hiệu quả cải thiện. Ngoài các bài đánh giá STEM được nêu ở trên, o3‑mini chứng minh kết quả vượt trội trong các bài đánh giá bổ sung về toán học và tính xác thực của thông tin với mức độ suy luận trung bình. Trong thử nghiệm A/B, o3‑mini đưa ra phản hồi nhanh hơn 24% so với o1‑mini, với thời gian phản hồi trung bình là 7,7 giây so với 10,16 giây.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
Một trong những kỹ thuật chủ chốt chúng tôi dùng để dạy OpenAI o3‑mini phản hồi an toàn là căn chỉnh có cân nhắc, theo đó chúng tôi huấn luyện mô hình suy luận về các thông số kỹ thuật an toàn do con người soạn thảo trước khi giải đáp lời nhắc của người dùng. Tương tự như OpenAI o1, chúng tôi nhận thấy o3‑mini vượt trội đáng kể so với GPT‑4o trong các bài đánh giá hóc búa về an toàn và bẻ khóa jailbreak. Trước khi triển khai, chúng tôi đã đánh giá cẩn thận các rủi ro về an toàn của o3‑mini bằng cách áp dụng cùng một cách tiếp cận về sự chuẩn bị, kiểm thử xâm nhập từ bên ngoài và các bài đánh giá an toàn như đã làm với o1. Chúng tôi xin cảm ơn những người kiểm thử mức độ an toàn đã đăng ký tham gia thử nghiệm o3‑mini trong giai đoạn đầu. Chi tiết về các bài đánh giá dưới đây, cùng với giải thích toàn diện về những rủi ro tiềm ẩn và tính hiệu quả của các biện pháp giảm thiểu hiện được nêu trong phiếu báo cáo hệ thống của o3‑mini.


Việc ra mắt OpenAI o3‑mini đánh dấu một bước tiến nữa trong sứ mệnh của OpenAI nhằm vượt qua các giới hạn của trí tuệ nhân tạo hiệu quả về chi phí. Bằng cách tối ưu hóa khả năng suy luận cho các lĩnh vực STEM mà vẫn bảo đảm chi phí thấp, chúng tôi đang làm cho AI chất lượng cao ngày càng dễ tiếp cận hơn. Mô hình này tiếp nối thành tích của chúng tôi trong việc giảm chi phí cho trí tuệ nhân tạo—giảm giá mỗi token tới 95% kể từ khi ra mắt GPT‑4—trong khi vẫn duy trì các năng lực suy luận hàng đầu. Khi việc áp dụng AI ngày càng mở rộng, chúng tôi vẫn kiên định với cam kết dẫn đầu trong lĩnh vực tiên phong này, xây dựng các mô hình cân bằng giữa trí thông minh, hiệu quả và tính an toàn ở quy mô lớn.
Tác giả
Huấn luyện
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Đánh giá
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Đánh giá tiên phong và mức độ chuẩn bị
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Kỹ thuật
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Tìm kiếm
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Sản phẩm
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
An toàn
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Mô phỏng tấn công bên ngoài
Lama Ahmad, Michael Lampe, Troy Peterson
Quản lý chương trình nghiên cứu
Carpus Chang, Kristen Ying
Lãnh đạo
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba