Xin giới thiệu GPT‑5 dành cho nhà phát triển
Mô hình tốt nhất cho các tác vụ lập trình và tác vụ tự chủ.
Hôm nay, chúng tôi ra mắt GPT‑5 trên nền tảng API — mô hình tốt nhất của chúng tôi từ trước đến nay cho các tác vụ lập trình và tác vụ tự chủ.
GPT‑5 đạt mức tiên tiến nhất (SOTA) trong các bài đánh giá về khả năng lập trình, với điểm số 74,9% trên SWE-bench Đã xác minh và 88% trên Aider polyglot. Chúng tôi đã huấn luyện GPT‑5 để trở thành một cộng tác viên lập trình thực thụ. Mô hình này vượt trội trong việc tạo ra mã chất lượng cao và xử lý các tác vụ như sửa lỗi, chỉnh sửa mã, cũng như trả lời các câu hỏi về các cơ sở mã phức tạp. Mô hình này có khả năng điều hướng và cộng tác — nó có thể tuân theo các hướng dẫn rất chi tiết với độ chính xác cao và có thể giải thích cụ thể về hành động của mình, cả trước và trong quá trình gọi công cụ. Mô hình này cũng xuất sắc ở lĩnh vực lập trình front-end (giao diện tương tác với người dùng); trong thử nghiệm nội bộ, nó vượt trội so với OpenAI o3 trong 70% tác vụ phát triển web front-end.
Chúng tôi đã huấn luyện GPT‑5 trên các tác vụ lập trình thực tế, phối hợp cùng những người thử nghiệm sớm từ các công ty khởi nghiệp và doanh nghiệp lớn. Cursor cho biết GPT‑5 là “mô hình thông minh nhất mà họ từng sử dụng” và “cực kỳ thông minh, dễ điều hướng, thậm chí còn có một tính cách mà họ chưa từng thấy ở các mô hình khác.” Windsurf chia sẻ rằng GPT‑5 đạt mức tiên tiến nhất (SOTA) trong các bài đánh giá của họ và “có tỷ lệ lỗi khi gọi công cụ chỉ bằng một nửa so với các mô hình tiên tiến khác.” Vercel cho biết: “Đây là mô hình AI lập trình front-end tốt nhất, đạt hiệu suất hàng đầu cả về cảm quan thẩm mỹ lẫn chất lượng mã, khẳng định một đẳng cấp riêng biệt.”
GPT‑5 cũng xuất sắc trong các tác vụ tự chủ mất nhiều thời gian — đạt kết quả tiên tiến nhất (SOTA) trên τ2-bench telecom (96,7%), một bài đánh giá khả năng gọi công cụ vừa được ra mắt cách đây 2 tháng. Trí tuệ công cụ cải thiện của GPT‑5 cho phép nó kết nối hàng chục lệnh gọi công cụ — cả tuần tự lẫn song song — một cách ổn định mà không bị chệch hướng, giúp thực hiện các tác vụ phức tạp thực tế từ đầu đến cuối hiệu quả hơn nhiều. Nó cũng tuân theo hướng dẫn sử dụng công cụ một cách chính xác hơn, xử lý lỗi công cụ tốt hơn và vượt trội trong việc truy xuất nội dung từ ngữ cảnh dài. Manus cho biết GPT‑5 “đạt hiệu suất tốt nhất mà họ từng thấy từ một mô hình duy nhất trong các bài đánh giá nội bộ.” Notion cho biết: “Tốc độ phản hồi nhanh, đặc biệt ở chế độ suy luận thấp, khiến GPT‑5 trở thành mô hình lý tưởng khi bạn cần giải quyết các tác vụ phức tạp chỉ trong một lần.” Inditex chia sẻ: “Điều thực sự khiến [GPT‑5] khác biệt là chiều sâu trong khả năng suy luận: những câu trả lời tinh tế, nhiều lớp, phản ánh sự hiểu biết thực sự về chuyên môn.”
Chúng tôi xin giới thiệu các tính năng mới trong API để giúp nhà phát triển kiểm soát tốt hơn phản hồi của mô hình. GPT‑5 hỗ trợ tham số verbosity mới (các giá trị: low, medium, high) để giúp kiểm soát việc câu trả lời ngắn gọn, đi thẳng vào vấn đề hay dài và toàn diện. Tham số reasoning_effort của GPT‑5 hiện có thể đặt giá trị tối thiểu để nhận câu trả lời nhanh hơn mà không cần thực hiện suy luận mở rộng trước. Chúng tôi cũng đã bổ sung một loại công cụ mới — công cụ tùy chỉnh — cho phép GPT‑5 gọi công cụ bằng văn bản thuần thay vì JSON. Công cụ tùy chỉnh hỗ trợ việc ràng buộc theo ngôn ngữ phi ngữ cảnh do nhà phát triển cung cấp.
Chúng tôi ra mắt GPT‑5 trong ba phiên bản trên API —gpt-5, gpt-5-mini và gpt-5-nano— để giúp nhà phát triển linh hoạt hơn trong việc cân đối giữa hiệu suất, chi phí và độ trễ. Mặc dù GPT‑5 trong ChatGPT là một hệ thống gồm các mô hình suy luận, không suy luận và định tuyến, nhưng GPT‑5 trên nền tảng API chính là mô hình suy luận cung cấp hiệu suất tối đa cho ChatGPT. Đáng chú ý, GPT‑5 với khả năng suy luận tối thiểu là một mô hình khác so với mô hình không suy luận trong ChatGPT và được tinh chỉnh tốt hơn cho nhà phát triển. Mô hình không suy luận được sử dụng trong ChatGPT có tên là gpt-5-chat-latest.
Để tìm hiểu về GPT‑5 trong ChatGPT và biết thêm về các cải tiến khác của ChatGPT, hãy xem blog nghiên cứu của chúng tôi. Để biết thêm về việc các doanh nghiệp hào hứng sử dụng GPT‑5 ra sao, hãy xem blog dành cho doanh nghiệp của chúng tôi.
GPT‑5 là mô hình lập trình mạnh mẽ nhất mà chúng tôi từng ra mắt. Nó vượt trội hơn o3 trong các bài đánh giá về khả năng lập trình và các trường hợp sử dụng thực tế, đồng thời đã được tinh chỉnh để cho kết quả xuất sắc trong các sản phẩm lập trình tự chủ như Cursor, Windsurf, GitHub Copilot và Codex CLI. GPT‑5 đã gây ấn tượng mạnh với những người thử nghiệm alpha của chúng tôi, lập kỷ lục trong nhiều đánh giá nội bộ riêng của họ.
Phản hồi ban đầu về GPT‑5 trong các tác vụ lập trình thực tế
"GPT-5 là mô hình lập trình thông minh nhất mà chúng tôi từng sử dụng. Đội ngũ của chúng tôi nhận thấy GPT-5 cực kỳ thông minh, dễ điều hướng, thậm chí còn có một tính cách mà chúng tôi chưa từng thấy ở bất kỳ mô hình nào khác. Mô hình này không chỉ phát hiện được những lỗi tinh vi, ẩn sâu mà còn có thể vận hành các tác nhân nền đa bước, kéo dài để hoàn thành các tác vụ phức tạp — những loại vấn đề mà trước đây thường khiến các mô hình khác bị bế tắc. Nó đã trở thành công cụ chính hằng ngày của chúng tôi cho mọi việc, từ xác định phạm vi và lập kế hoạch PR cho đến hoàn thiện các bản dựng hoàn chỉnh.
Trên SWE-bench Đã xác minh — một tiêu chuẩn đánh giá dựa trên các tác vụ kỹ thuật phần mềm thực tế — GPT‑5 đạt 74,9%, tăng so với mức 69,1% của o3. Đáng chú ý, GPT‑5 đạt điểm số cao với hiệu quả và tốc độ nhanh hơn: so với o3 ở nỗ lực suy luận cao, GPT‑5 sử dụng ít hơn 22% token đầu ra và ít hơn 45% số lệnh gọi công cụ.
Trong SWE-bench Đã xác minh, một mô hình được cung cấp một kho mã và mô tả vấn đề, và phải tạo ra một bản vá để giải quyết vấn đề đó. Các nhãn văn bản cho biết mức độ nỗ lực suy luận. Điểm số của chúng tôi bỏ qua 23 trong số 500 vấn đề mà các giải pháp không đạt một cách tin cậy trên hạ tầng của chúng tôi. GPT‑5 được đưa một câu lệnh ngắn nhấn mạnh việc kiểm chứng giải pháp thật kỹ; chính là câu lệnh đó không đạt yêu cầu với o3.
Trên Aider polyglot — một tiêu chuẩn đánh giá về chỉnh sửa mã — GPT‑5 lập kỷ lục mới với 88%, giảm một phần ba tỷ lệ lỗi so với o3.
Trong Aider polygot(mở trong cửa sổ mới) (diff), một mô hình được giao một bài tập lập trình từ Exercism và phải viết lời giải của nó dưới dạng so sánh mã. Các mô hình lý luận được chạy với nỗ lực suy luận cao.
Chúng tôi cũng nhận thấy GPT‑5 rất xuất sắc trong việc đào sâu vào các cơ sở mã để trả lời câu hỏi về cách các thành phần khác nhau hoạt động hoặc tương tác với nhau. Trong một cơ sở mã phức tạp như hệ thống học củng cố của OpenAI, chúng tôi nhận thấy GPT‑5 có thể giúp chúng tôi suy luận và trả lời các câu hỏi về mã của mình, từ đó tăng tốc quy trình làm việc hằng ngày.
Khi tạo mã front-end cho các ứng dụng web, GPT‑5 có tư duy thẩm mỹ hơn, tham vọng và chính xác hơn. Khi so sánh trực tiếp với o3, GPT‑5 được những người thử nghiệm của chúng tôi ưa thích hơn trong 70% trường hợp.
Dưới đây là một vài ví dụ thú vị, được chọn lọc kỹ, về những gì GPT‑5 có thể làm chỉ với một câu lệnh:
Câu lệnh: Vui lòng tạo một trang đích đẹp mắt và chân thực cho một dịch vụ cung cấp cho dân ghiền cà phê gói dịch vụ $200/tháng, bao gồm cho thuê thiết bị và huấn luyện rang xay cà phê cũng như cách pha chế espresso hoàn hảo nhất. Đối tượng mục tiêu là những người trung niên ở khu vực vịnh, có thể làm việc trong ngành công nghệ, được giáo dục tốt, có thu nhập dư dả và đam mê nghệ thuật cũng như khoa học về cà phê. Tối ưu tỷ lệ chuyển đổi cho đăng ký gói 6 tháng.
Xem thêm ví dụ về GPT‑5 trong thư viện của chúng tôi tại đây(mở trong cửa sổ mới).
GPT‑5 là một cộng tác viên xuất sắc hơn, đặc biệt trong các sản phẩm lập trình tự chủ như Cursor, Windsurf, GitHub Copilot và Codex CLI. Trong quá trình làm việc, GPT‑5 có thể xuất kế hoạch, bản cập nhật và tóm tắt giữa các lệnh gọi công cụ. So với các mô hình trước đây của chúng tôi, GPT‑5 chủ động hơn trong việc hoàn thành các tác vụ đầy tham vọng mà không cần dừng lại để chờ bạn cho phép hoặc chùn bước trước độ phức tạp cao.
Dưới đây là một ví dụ về cách GPT‑5 thể hiện như thế nào khi xử lý một tác vụ phức tạp (trong trường hợp này là tạo một trang web cho nhà hàng):
Sau khi người dùng yêu cầu một trang web cho nhà hàng của họ, GPT‑5 đưa ra một kế hoạch nhanh, tạo khung ứng dụng, thiết lập các thành phần phụ thuộc, tạo nội dung cho trang, chạy bản dựng để kiểm tra lỗi biên dịch, tóm tắt công việc và đề xuất các bước tiếp theo tiềm năng. Video này đã được tua nhanh khoảng 3 lần để bạn không phải chờ lâu; tổng thời gian thực tế để tạo trang web là khoảng ba phút.
Hơn cả lập trình tự chủ, GPT‑5 còn giỏi hơn trong các tác vụ tự chủ nói chung. GPT‑5 lập kỷ lục mới trong các bài đánh giá khả năng tuân thủ hướng dẫn (69,6% trên Scale MultiChallenge, được chấm bởi o3‑mini) và khả năng gọi công cụ (96,7% trên τ2-bench telecom). Trí tuệ công cụ cải thiện cho phép GPT‑5 kết nối các hành động một cách đáng tin cậy hơn để hoàn thành các tác vụ thực tế.
Phản hồi ban đầu về GPT‑5 đối với các tác vụ tự chủ
“GPT-5 là một bước tiến lớn. Nó đạt hiệu suất tốt nhất mà chúng tôi từng thấy từ một mô hình đơn lẻ trên các bài đánh giá nội bộ của chúng tôi. GPT-5 đã xuất sắc trong nhiều tác vụ tự chủ — ngay cả trước khi chúng tôi chỉnh sửa một dòng mã nào hay tùy biến câu lệnh. Tính năng tạo phần mở đầu mới và khả năng kiểm soát việc sử dụng công cụ một cách chính xác hơn đã giúp cải thiện đáng kể độ ổn định và khả năng điều hướng của các tác nhân.”
GPT‑5 tuân thủ hướng dẫn đáng tin cậy hơn bất kỳ phiên bản tiền nhiệm nào, đạt điểm cao trên COLLIE, Scale MultiChallenge và các bài đánh giá tuân thủ hướng dẫn nội bộ của chúng tôi.
Trong COLLIE(mở trong cửa sổ mới), các mô hình phải viết văn bản đáp ứng nhiều ràng buộc khác nhau. Trong Scale MultiChallenge(mở trong cửa sổ mới), các mô hình được thử thách trong các cuộc hội thoại đa bước để sử dụng đúng bốn loại thông tin từ các thông điệp trước đó. Điểm số của chúng tôi được tính bằng cách sử dụng o3‑mini làm thang chấm điểm, vốn chính xác hơn so với GPT‑4o. Trong bài đánh giá nội bộ về khả năng tuân thủ hướng dẫn của API OpenAI, các mô hình phải tuân theo những hướng dẫn khó, được xây dựng dựa trên phản hồi thực tế từ các nhà phát triển. Các mô hình lý luận được chạy với nỗ lực suy luận cao.
Chúng tôi đã nỗ lực cải thiện khả năng gọi công cụ theo cách hữu ích nhất với nhà phát triển. GPT‑5 giỏi hơn trong việc tuân theo hướng dẫn sử dụng công cụ, xử lý lỗi của công cụ, và chủ động thực hiện nhiều lệnh gọi công cụ tuần tự hoặc song song. Khi được yêu cầu, GPT‑5 cũng có thể soạn các thông điệp mở đầu trước và giữa các lệnh gọi công cụ để cập nhật tiến độ cho người dùng trong các tác vụ tự chủ kéo dài.
Hai tháng trước, τ2-bench telecom được Sierra.ai công bố như một bài đánh giá sử dụng công cụ đầy thử thách, cho thấy hiệu suất của mô hình ngôn ngữ giảm đáng kể khi tương tác với trạng thái môi trường mà có thể bị người dùng thay đổi. Trong bản công bố(mở trong cửa sổ mới) của họ, không có mô hình nào đạt trên 49%. GPT‑5 đạt 97%.
Trong τ2-bench(mở trong cửa sổ mới), một mô hình phải sử dụng các công cụ để hoàn thành một tác vụ dịch vụ khách hàng, trong đó một người dùng có khả năng giao tiếp và thực hiện các hành động có tác động thực tế. Các mô hình lý luận được chạy với nỗ lực suy luận cao.
GPT‑5 cũng cho thấy những cải thiện mạnh mẽ về hiệu suất trong ngữ cảnh dài. Trên OpenAI-MRCR — thang đo khả năng truy xuất thông tin có ngữ cảnh dài — GPT‑5 vượt trội hơn o3 và GPT‑4.1, với khoảng cách chênh lệch tăng đáng kể khi độ dài đầu vào lớn hơn.
Trong OpenAI-MRCR(mở trong cửa sổ mới) (giải pháp đồng tham chiếu đa vòng), nhiều yêu cầu “cây kim” giống hệt nhau của người dùng được chèn vào các “đống cỏ” dài gồm các yêu cầu và phản hồi tương tự, và mô hình được yêu cầu tái tạo phản hồi cho cây kim thứ i. Tỷ lệ khớp trung bình đo lường mức độ khớp chuỗi trung bình giữa phản hồi của mô hình và câu trả lời đúng. Các điểm tại mức 256k token đầu vào tối đa thể hiện giá trị trung bình trên khoảng 128k–256k token đầu vào, v.v. Ở đây, 256k tương đương với 256 × 1.024 = 262.144 token. Các mô hình lý luận được chạy với nỗ lực suy luận cao.
Chúng tôi cũng đang triển khai mã nguồn mở cho BrowseComp Long Context(mở trong cửa sổ mới), một bài đánh giá mới về khả năng hỏi đáp trong ngữ cảnh dài. Trong bài đánh giá này, mô hình sẽ nhận được một truy vấn của người dùng, một danh sách dài các kết quả tìm kiếm có liên quan và phải trả lời câu hỏi dựa trên các kết quả tìm kiếm đó. Chúng tôi đã thiết kế BrowseComp Long Context để vừa thực tế, vừa khó và có đáp án đúng được xác thực một cách đáng tin cậy. Với đầu vào từ 128K–256K token, GPT‑5 đưa ra câu trả lời chính xác trong 89% trường hợp.
Trong API, tất cả các mô hình GPT‑5 có thể nhận tối đa 272.000 token đầu vào và xuất tối đa 128.000 token suy luận & đầu ra, với tổng độ dài ngữ cảnh lên tới 400.000 token.
GPT‑5 đáng tin cậy hơn các mô hình trước đây của chúng tôi. Trên các câu lệnh từ bài đánh giá LongFact và FactScore, GPT‑5 giảm khoảng 80% số lỗi thực tế so với o3. Điều này khiến nó phù hợp hơn cho các trường hợp sử dụng tự chủ, nơi tính chính xác đóng vai trò quan trọng — đặc biệt là trong hoạt động lập trình, tra cứu dữ liệu và ra quyết định.
Điểm càng cao càng kém. LongFact(mở trong cửa sổ mới) và FActScore(mở trong cửa sổ mới) bao gồm các câu hỏi mở nhằm tìm kiếm thông tin sự thật. Chúng tôi sử dụng một thang chấm điểm dựa trên LLM có khả năng duyệt web để kiểm tra tính chính xác của các phản hồi với câu lệnh từ các bài đánh giá này và đo lường tỷ lệ các tuyên bố sai sự thật. Chi tiết về việc triển khai và chấm điểm có thể được tìm thấy trong thẻ thông tin hệ thống. Các mô hình lý luận sử dụng nỗ lực suy luận cao. Tính năng tìm kiếm không được bật.
Nhìn chung, GPT‑5 đã được huấn luyện để tự nhận thức tốt hơn về những hạn chế của chính mình và xử lý tốt hơn các tình huống bất ngờ. Chúng tôi cũng đã huấn luyện GPT‑5 để chính xác hơn nhiều trong các câu hỏi về y tế (đọc thêm trong blog nghiên cứu của chúng tôi). Giống như với tất cả các mô hình ngôn ngữ khác, chúng tôi khuyến nghị bạn nên xác minh kết quả của GPT‑5 khi mức độ rủi ro cao.
Nhà phát triển có thể kiểm soát thời gian suy nghĩ của GPT‑5 thông qua tham số reasoning_effort trong API. Ngoài các giá trị trước đây —low, medium (mặc định) và high — GPT‑5 còn hỗ trợ tham số minimal, giúp giảm thiểu quá trình suy luận để trả về câu trả lời nhanh hơn.
Các giá trị reasoning_effort cao sẽ tối đa hóa chất lượng, còn giá trị thấp sẽ tối đa hóa tốc độ. Không phải mọi tác vụ đều hưởng lợi như nhau từ việc tăng cường suy luận, vì vậy bạn nên thử nghiệm để tìm ra mức phù hợp nhất cho các trường hợp sử dụng mà bạn quan tâm.
Ví dụ: mức suy luận cao hơn low không mang lại nhiều lợi ích cho các tác vụ truy xuất ngữ cảnh dài tương đối đơn giản, nhưng lại tăng thêm vài điểm phần trăm cho CharXiv Reasoning(mở trong cửa sổ mới), một bài đánh giá suy luận trực quan.
Nỗ lực suy luận của GPT‑5 mang lại những lợi ích khác nhau tùy theo từng tác vụ. Đối với CharXiv Reasoning, GPT‑5 được cấp quyền truy cập vào công cụ Python.
Để giúp điều chỉnh độ dài mặc định của câu trả lời từ GPT‑5, chúng tôi đã giới thiệu một tham số API mới verbosity, với các giá trị low, medium (default) và high. Nếu hướng dẫn cụ thể mâu thuẫn với tham số verbosity, thì hướng dẫn cụ thể sẽ được ưu tiên. Ví dụ: nếu bạn yêu cầu GPT‑5 “viết một bài luận dài 5 đoạn văn”, thì phản hồi của mô hình sẽ luôn có 5 đoạn văn bất kể mức verbosity (tuy nhiên, bản thân các đoạn văn có thể dài hoặc ngắn hơn).
Verbosity=low
Verbosity=medium
Verbosity=high
Nếu được yêu cầu, GPT‑5 sẽ viết ra các thông điệp mở đầu hiển thị cho người dùng trước và giữa các lệnh gọi công cụ. Không giống như các thông điệp suy luận ẩn, những thông điệp hiển thị này cho phép GPT‑5 truyền đạt kế hoạch và tiến độ cho người dùng cuối, giúp họ hiểu được cách tiếp cận và ý định đằng sau các lệnh gọi công cụ.
Chúng tôi đang giới thiệu một loại công cụ mới — công cụ tùy chỉnh — cho phép GPT‑5 gọi công cụ bằng văn bản thuần thay vì JSON. Để ràng buộc GPT‑5 tuân theo định dạng của công cụ tùy chỉnh, nhà phát triển có thể cung cấp một biểu thức chính quy (regex) hoặc thậm chí ngôn ngữ phi ngữ cảnh(mở trong cửa sổ mới) cụ thể hơn.
Trước đây, giao diện của chúng tôi dành cho các công cụ do nhà phát triển xác định yêu cầu phải gọi chúng bằng JSON — một định dạng phổ biến được sử dụng rộng rãi bởi các API web và các nhà phát triển nói chung. Tuy nhiên, việc xuất JSON hợp lệ yêu cầu mô hình phải thoát hoàn hảo tất cả dấu ngoặc kép, dấu gạch chéo ngược, ký tự xuống dòng và các ký tự ra lệnh khác. Mặc dù các mô hình của chúng tôi được huấn luyện tốt để xuất JSON, nhưng với các đầu vào dài như hàng trăm dòng mã hoặc một báo cáo dài 5 trang, khả năng xảy ra lỗi sẽ tăng lên. Với công cụ tùy chỉnh, GPT‑5 có thể viết đầu vào cho công cụ dưới dạng văn bản thuần mà không cần phải thoát tất cả các ký tự theo yêu cầu.
Trên SWE-bench Đã xác minh, khi sử dụng công cụ tùy chỉnh thay vì công cụ JSON, GPT‑5 đạt điểm số gần như tương đương.
GPT‑5 nâng tầm giới hạn về an toàn và là một mô hình mạnh mẽ, đáng tin cậy và hữu ích hơn. GPT‑5 ít có khả năng gặp "ảo giác" hơn đáng kể so với các mô hình trước đây, trung thực hơn trong việc truyền đạt hành động và khả năng của mình tới người dùng, và đưa ra câu trả lời hữu ích nhất có thể trong khi vẫn tuân thủ các giới hạn an toàn. Bạn có thể đọc thêm trong blog nghiên cứu của chúng tôi.
GPT‑5 hiện đã có trên nền tảng API với ba phiên bản: gpt-5, gpt-5-mini, và gpt-5-nano. Mô hình này hiện áp dụng trên API Phản hồi, API Hoàn thiện hội thoại và là mặc định trong Codex CLI. GPT‑5 có giá $1,25/1 triệu token đầu vào và $10/1 triệu token đầu ra; GPT‑5 mini có giá $0,25/1 triệu token đầu vào và $2/1 triệu token đầu ra; và GPT‑5 nano có giá $0,05/1 triệu token đầu vào và $0,40/1 triệu token đầu ra.
Những mô hình này hỗ trợ các tham số API reasoning_effort và verbosity cũng như công cụ tùy chỉnh. Chúng cũng hỗ trợ gọi công cụ song song, các công cụ tích hợp sẵn (tìm kiếm web, tìm kiếm tệp, tạo sinh ảnh và nhiều hơn nữa), các tính năng API cốt lõi (phát trực tuyến, Dữ liệu đầu ra cấu trúc, v.v.), và các tính năng tiết kiệm chi phí như lưu câu lệnh vào bộ nhớ cache và Batch API.
Phiên bản không suy luận của GPT‑5 được dùng trong ChatGPT có sẵn trên API với tên gọi gpt-5-chat-latest, với mức giá $1,25/1 triệu token đầu vào và $10/1 triệu token đầu ra.
GPT‑5 cũng sẽ được triển khai trên các nền tảng của Microsoft, bao gồm Microsoft 365 Copilot, Copilot, GitHub Copilot và Azure AI Foundry.
Bạn có thể xem tài liệu về GPT‑5(mở trong cửa sổ mới), thông tin mức giá(mở trong cửa sổ mới) và hướng dẫn đặt câu lệnh(mở trong cửa sổ mới) để bắt đầu.
Trí tuệ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Có sự chênh lệch nhỏ về số liệu báo cáo trong bài blog trước của chúng tôi bởi các số liệu đó được chạy trên phiên bản HLE cũ.
Đa phương thức
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Lập trình
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 N US$ | 75 N US$ | 49 N US$ | 86 N US$ | 66 N US$ | 34 N US$ | 31 N US$ | 9 N US$ |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Chúng tôi bỏ qua 23/500 vấn đề không thể chạy trên hạ tầng của mình. Danh sách đầy đủ 23 tác vụ bị bỏ qua gồm 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' và 'sphinx-doc__sphinx-9367'.
Tuân thủ hướng dẫn
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Lưu ý: Chúng tôi nhận thấy thang chấm điểm mặc định trong MultiChallenge (GPT-4o) thường xuyên chấm nhầm các câu trả lời của mô hình. Chúng tôi nhận thấy việc chuyển đổi thang chấm điểm sang mô hình lý luận, như o3-mini, giúp cải thiện đáng kể độ chính xác của kết quả đánh giá đối với các mẫu chúng tôi điều tra.
Gọi hàm
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Ngữ cảnh dài
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Ảo giác
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


