Hôm nay chúng tôi sẽ phát hành GPT‑5.4 mini và nano, những mẫu nhỏ có khả năng nhất của chúng tôi từ trước đến nay. Chúng mang nhiều điểm mạnh của GPT‑5.4 đến các mô hình nhanh hơn, hiệu quả hơn được thiết kế cho khối lượng công việc lớn.
GPT‑5.4 mini cải thiện đáng kể so với GPT‑5 mini về mã hóa, suy luận, hiểu biết đa phương thức và sử dụng công cụ, trong khi chạy nhanh hơn gấp đôi. Nó cũng tiệm cận hiệu năng của mô hình GPT‑5.4 lớn hơn trong một số đánh giá, bao gồm SWE-Bench Pro và OSWorld-Verified.
GPT‑5.4 nano là phiên bản nhỏ nhất, rẻ nhất của GPT‑5.4 cho các tác vụ mà ở đó tốc độ và chi phí là điều quan trọng nhất. Đây cũng là một nâng cấp đáng kể so với GPT‑5 nano. Chúng tôi khuyến nghị sử dụng nó cho việc phân loại, trích xuất dữ liệu, xếp hạng và các tác nhân phụ viết mã trợ xử lý các nhiệm vụ hỗ trợ đơn giản hơn.
Những mô hình này được xây dựng cho các loại khối lượng công việc mà độ trễ trực tiếp định hình trải nghiệm sản phẩm: trợ lý viết mã cần phản hồi nhanh, các tác nhân phụ nhanh chóng hoàn thành các tác vụ hỗ trợ, các hệ thống sử dụng máy tính có thể chụp và phân tích ảnh chụp màn hình, và các ứng dụng đa phương thức có thể suy luận trên hình ảnh theo thời gian thực. Trong các cài đặt này, mô hình tốt nhất thường không phải là mô hình lớn nhất—đó là mô hình có thể phản hồi nhanh chóng, sử dụng các công cụ đáng tin cậy và vẫn thực hiện tốt các nhiệm vụ chuyên nghiệp phức tạp.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Cấp độ reasoning_effort cao nhất hiện có cho GPT‑5‑Mini là 'high'.
Dưới đây là những gì khách hàng của chúng tôi nghĩ sau khi thử nghiệm GPT‑5.4 mini và nano trong quy trình làm việc của họ:
"GPT-5.4 mini mang lại hiệu năng mạnh mẽ toàn diện cho một mô hình thuộc phân khúc này. Trong đánh giá của chúng tôi, nó phù hợp hoặc vượt quá các mô hình cạnh tranh trên một số nhiệm vụ đầu ra và thu hồi trích dẫn với chi phí thấp hơn nhiều. Nó cũng đạt tỷ lệ vượt qua đầu-cuối cao hơn và khả năng phân bổ nguồn mạnh hơn so với mô hình GPT-5.4 lớn hơn."
GPT‑5.4 mini và nano đặc biệt hiệu quả trong các quy trình viết mã được hưởng lợi từ việc lặp nhanh. Các mô hình xử lý các chỉnh sửa mục tiêu, điều hướng cơ sở mã, tạo giao diện người dùng và vòng lặp gỡ lỗi với độ trễ thấp, khiến chúng phù hợp với các tác vụ viết mã cần hoàn thành nhanh hơn và chi phí thấp hơn.
Trong các điểm chuẩn, GPT‑5.4 mini luôn vượt trội hơn GPT‑5‑mini ở độ trễ tương tự và tiếp cận mức GPT‑5.4 tỷ lệ thành công trong khi chạy nhanh hơn nhiều, mang lại một trong những cân bằng hiệu năng và độ trễ mạnh mẽ nhất cho các quy trình làm việc lập trình.
Chúng tôi ước tính độ trễ bằng cách xem xét hành vi sản xuất của các mô hình của chúng tôi và mô phỏng ngoại tuyến độ trễ này. Ước tính độ trễ có tính đến thời gian gọi công cụ (thời gian thực thi mã), token được lấy mẫu và token đầu vào. Độ trễ thực tế có thể khác biệt đáng kể và phụ thuộc vào nhiều yếu tố chưa được nắm bắt trong mô phỏng của chúng tôi. Tương tự, chi phí được ước tính dựa trên mức giá API của các mô hình này tại thời điểm viết. Chi phí có thể thay đổi trong tương lai. Các nỗ lực suy luận đã được quét từ low đến xhigh.
GPT‑5.4 mini cũng rất phù hợp với các hệ thống kết hợp nhiều mô hình có kích thước khác nhau. Ví dụ, trong Codex, một mô hình lớn hơn như GPT‑5.4 có thể xử lý việc lập kế hoạch, phối hợp và phán đoán cuối cùng, đồng thời ủy thác cho các tác nhân phụ GPT‑5.4 mini xử lý các tác vụ con hẹp hơn một cách song song—như tìm kiếm cơ sở mã, xem xét một tệp lớn hoặc xử lý các tài liệu hỗ trợ. Tìm hiểu cách hoạt động của các tác nhân phụ trong Codex trong tài liệu(mở trong cửa sổ mới).
Mô hình này trở nên hữu ích hơn khi các mô hình nhỏ hơn trở nên nhanh hơn và có khả năng hơn. Thay vì sử dụng một mô hình duy nhất cho mọi thứ, các nhà phát triển có thể xây dựng các hệ thống trong đó các mô hình lớn hơn quyết định những việc cần làm và các mô hình nhỏ hơn thực thi nhanh chóng ở quy mô lớn. GPT‑5.4 mini là mô hình mini mạnh mẽ nhất của chúng tôi cho đến nay, phù hợp với kiểu quy trình làm việc đó.
GPT‑5.4 mini cũng mạnh mẽ trong các tác vụ đa phương thức, đặc biệt là những tác vụ liên quan đến việc sử dụng máy tính. Mô hình này có thể nhanh chóng phân tích ảnh chụp màn hình giao diện người dùng phức tạp để hoàn thành các tác vụ sử dụng máy tính một cách nhanh chóng. Trên OSWorld-Verified, GPT‑5.4 mini có hiệu suất gần ngang bằng với GPT‑5.4, đồng thời vượt trội đáng kể so với GPT‑5 mini.
GPT‑5.4 mini hiện có sẵn trong API, Codex và ChatGPT.
Trong API, GPT‑5.4 mini hỗ trợ đầu vào văn bản và hình ảnh, sử dụng công cụ, gọi chức năng, tìm kiếm web, tìm kiếm tệp, sử dụng máy tính và kỹ năng. Nó có cửa sổ ngữ cảnh 400k và có giá 0,75 đô la cho mỗi 1 triệu mã thông báo đầu vào và 4,50 đô la cho mỗi 1 triệu mã thông báo đầu ra.
Trong Codex, GPT‑5.4 mini có sẵn trên ứng dụng Codex, giao diện dòng lệnh (CLI), tiện ích mở rộng IDE và phiên bản web. Nó chỉ sử dụng 30% hạn mức GPT‑5.4, cho phép các nhà phát triển nhanh chóng xử lý các nhiệm vụ viết mã đơn giản hơn trong Codex với chi phí chỉ khoảng một phần ba. Codex cũng có thể ủy thác cho các tác nhân phụ GPT‑5.4 mini để công việc ít tốn suy luận hơn chạy trên mô hình rẻ hơn.
Trong ChatGPT, GPT‑5.4 mini hiện đã có sẵn cho người dùng gói Free và Go thông qua tính năng “Thinking” trong menu +. Đối với tất cả người dùng khác, GPT‑5.4 mini có sẵn như một phương án dự phòng giới hạn tốc độ cho GPT‑5.4. Tư duy.
GPT‑5.4 nano chỉ có sẵn trong API và có giá 0,20 đô la cho mỗi 1 triệu mã thông báo đầu vào và $1,25 cho mỗi 1 triệu mã thông báo đầu ra.
Để biết thêm thông tin về các biện pháp bảo vệ của các mô hình, vui lòng xem phụ lục thẻ hệ thống trên Trung tâm An toàn Triển khai(mở trong cửa sổ mới) của chúng tôi.
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Cấp độ reasoning_effort cao nhất hiện có cho GPT‑5‑Mini là 'high'.
2 Khoảng cách chỉnh sửa tổng thể. OmniDocBench được chạy với `reasoning_effort` được đặt thành 'none' để phản ánh hiệu suất chi phí thấp, độ trễ thấp.


