31 tháng 1, 2025

OpenAI o3‑mini

Thúc đẩy giới hạn năng lực suy luận mà vẫn hiệu quả về chi phí.

Đang tải…

Chúng tôi sẽ phát hành OpenAI o3‑mini, mô hình mới nhất, hiệu quả nhất về chi phí trong sê-ri mô hình suy luận, có sẵn trong cả ChatGPT lẫn API ngay hôm nay. Được tung ra ở dạng Bản xem trước vào tháng 12/2024⁠, mô hình mạnh mẽ và nhanh chóng này đã mở rộng giới hạn của những gì các mô hình nhỏ có thể đạt được, mang lại các năng lực STEM (Khoa học, Công nghệ, Kỹ thuật, Toán học) vượt trội—với thế mạnh đặc biệt về khoa học, toán học và lập trình—đồng thời vẫn bảo đảm tiết kiệm chi phí và giảm độ trễ như của mô hình OpenAI o1‑mini.

OpenAI o3‑mini là mô hình suy luận nhỏ đầu tiên của chúng tôi hỗ trợ các tính năng được rất nhiều nhà phát triển yêu cầu, bao gồm gọi hàm⁠(mở trong cửa sổ mới), Kết quả có cấu trúc⁠(mở trong cửa sổ mới), và tin nhắn của nhà phát triển⁠(mở trong cửa sổ mới), giúp mô hình sẵn sàng để triển khai thực tế ngay từ khi ra mắt. Giống như OpenAI o1‑mini và OpenAI o1‑preview, o3‑mini sẽ hỗ trợ streaming⁠(mở trong cửa sổ mới). Ngoài ra, nhà phát triển có thể lựa chọn giữa ba tùy chọn mức độ suy luận⁠(mở trong cửa sổ mới)—thấp, trung bình và cao—để tối ưu hóa cho các mục đích sử dụng cụ thể của họ. Sự linh hoạt này cho phép o3‑mini “tư duy sâu hơn” khi giải quyết các thách thức phức tạp hoặc ưu tiên tốc độ khi độ trễ là vấn đề cần quan tâm. Phiên bản o3‑mini không hỗ trợ khả năng xử lý hình ảnh, vì vậy nhà phát triển nên tiếp tục sử dụng OpenAI o1 cho các tác vụ suy luận hình ảnh. Phiên bản o3‑mini đang được triển khai trong API hoàn thiện hội thoại, API trợ lý và Batch API bắt đầu từ hôm nay cho một số nhà phát triển chọn lọc có bậc sử dụng API từ 3 đến 5⁠(mở trong cửa sổ mới).

Người dùng ChatGPT Plus, Team và Pro có thể truy cập OpenAI o3‑mini bắt đầu từ hôm nay, quyền truy cập cho gói Enterprise sẽ ra mắt vào tháng Hai. Phiên bản o3‑mini sẽ thay thế OpenAI o1‑mini trong bộ chọn mô hình, cung cấp giới hạn số lượng yêu cầu cao hơn và độ trễ thấp hơn, trở thành một lựa chọn hấp dẫn cho các tác vụ lập trình, STEM và giải quyết vấn đề có tính logic. Trong quá trình nâng cấp này, chúng tôi sẽ tăng gấp ba giới hạn số lượng yêu cầu cho người dùng Plus và Team, từ 50 tin nhắn mỗi ngày với phiên bản o1‑mini lên 150 tin nhắn mỗi ngày với phiên bản o3‑mini. Ngoài ra, o3‑mini nay đã có tính năng tìm kiếm để đưa ra câu trả lời cập nhật mới nhất kèm theo liên kết đến các nguồn web liên quan. Đây là một nguyên mẫu ban đầu mà chúng tôi nỗ lực tích hợp tính năng tìm kiếm vào các mô hình suy luận của mình.

Bắt đầu từ hôm nay, người dùng gói miễn phí cũng có thể dùng thử OpenAI o3‑mini bằng cách chọn ‘Suy luận’ trong trình soạn tin nhắn hoặc bằng cách tạo lại một câu trả lời. Điều này đánh dấu lần đầu tiên một mô hình suy luận đã được cung cấp cho người dùng miễn phí trong ChatGPT.

Trong khi OpenAI o1 vẫn là mô hình suy luận kiến thức tổng quát rộng hơn, OpenAI o3‑mini sẽ đưa ra một lựa chọn thay thế chuyên biệt cho các lĩnh vực kỹ thuật đòi hỏi độ chính xác và tốc độ. Trong ChatGPT, o3‑mini sử dụng mức độ suy luận trung bình để mang lại sự cân bằng hợp lý giữa tốc độ và độ chính xác. Tất cả người dùng trả phí cũng sẽ có tùy chọn o3‑mini‑high trong bộ chọn mô hình để sử dụng phiên bản có trí thông minh cao hơn, tuy nhiên sẽ mất nhiều thời gian hơn một chút để tạo ra phản hồi. Người dùng Pro sẽ có quyền truy cập không giới hạn vào cả o3‑mini và o3‑mini‑high.

Nhanh, mạnh mẽ và tối ưu hóa để suy luận cho STEM

Tương tự như phiên bản tiền nhiệm OpenAI o1, OpenAI o3‑mini đã được tối ưu hóa cho khả năng suy luận trong lĩnh vực STEM. Phiên bản o3‑mini với mức độ suy luận trung bình đạt hiệu năng tương đương o1 trong toán học, lập trình và khoa học, đồng thời đưa ra phản hồi nhanh hơn. Đánh giá từ những chuyên gia thử nghiệm cho thấy o3‑mini tạo ra câu trả lời chính xác và rõ ràng hơn, với khả năng suy luận mạnh mẽ hơn so với OpenAI o1‑mini. Người thử nghiệm ưa chuộng các phản hồi của o3‑mini hơn o1‑mini trong 56% trường hợp và quan sát thấy tỷ lệ lỗi nghiêm trọng giảm 39% đối với các câu hỏi khó trong thực tế. Với mức độ suy luận trung bình, o3‑mini đạt hiệu suất tương đương o1 trong một số bài đánh giá trí thông minh và khả năng suy luận thử thách nhất, bao gồm AIME và GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Kiến thức chung

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Đánh giá theo sở thích của con người

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Tốc độ và hiệu năng của mô hình

Với trí thông minh tương đương OpenAI o1, OpenAI o3‑mini mang lại hiệu năng nhanh hơn và hiệu quả cải thiện. Ngoài các bài đánh giá STEM được nêu ở trên, o3‑mini chứng minh kết quả vượt trội trong các bài đánh giá bổ sung về toán học và tính xác thực của thông tin với mức độ suy luận trung bình. Trong thử nghiệm A/B, o3‑mini đưa ra phản hồi nhanh hơn 24% so với o1‑mini, với thời gian phản hồi trung bình là 7,7 giây so với 10,16 giây.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

An toàn

Một trong những kỹ thuật chủ chốt chúng tôi dùng để dạy OpenAI o3‑mini phản hồi an toàn là căn chỉnh có cân nhắc, theo đó chúng tôi huấn luyện mô hình suy luận về các thông số kỹ thuật an toàn do con người soạn thảo trước khi giải đáp lời nhắc của người dùng. Tương tự như OpenAI o1, chúng tôi nhận thấy o3‑mini vượt trội đáng kể so với GPT‑4o trong các bài đánh giá hóc búa về an toàn và bẻ khóa jailbreak. Trước khi triển khai, chúng tôi đã đánh giá cẩn thận các rủi ro về an toàn của o3‑mini bằng cách áp dụng cùng một cách tiếp cận về sự chuẩn bị, kiểm thử xâm nhập từ bên ngoài và các bài đánh giá an toàn như đã làm với o1. Chúng tôi xin cảm ơn những người kiểm thử mức độ an toàn đã đăng ký tham gia thử nghiệm o3‑mini trong giai đoạn đầu. Chi tiết về các bài đánh giá dưới đây, cùng với giải thích toàn diện về những rủi ro tiềm ẩn và tính hiệu quả của các biện pháp giảm thiểu hiện được nêu trong phiếu báo cáo hệ thống của o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Kế hoạch tiếp theo

Việc ra mắt OpenAI o3‑mini đánh dấu một bước tiến nữa trong sứ mệnh của OpenAI nhằm vượt qua các giới hạn của trí tuệ nhân tạo hiệu quả về chi phí. Bằng cách tối ưu hóa khả năng suy luận cho các lĩnh vực STEM mà vẫn bảo đảm chi phí thấp, chúng tôi đang làm cho AI chất lượng cao ngày càng dễ tiếp cận hơn. Mô hình này tiếp nối thành tích của chúng tôi trong việc giảm chi phí cho trí tuệ nhân tạo—giảm giá mỗi token tới 95% kể từ khi ra mắt GPT‑4—trong khi vẫn duy trì các năng lực suy luận hàng đầu. Khi việc áp dụng AI ngày càng mở rộng, chúng tôi vẫn kiên định với cam kết dẫn đầu trong lĩnh vực tiên phong này, xây dựng các mô hình cân bằng giữa trí thông minh, hiệu quả và tính an toàn ở quy mô lớn.

Tác giả

OpenAI

Huấn luyện

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Đánh giá

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Đánh giá tiên phong và mức độ chuẩn bị

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Kỹ thuật

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Tìm kiếm

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Sản phẩm

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

An toàn

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Mô phỏng tấn công bên ngoài

Lama Ahmad, Michael Lampe, Troy Peterson

Quản lý chương trình nghiên cứu

Carpus Chang, Kristen Ying

Lãnh đạo

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ tất cả cộng tác viên của o1⁠.