Bỏ qua nội dung chính
OpenAI

Ra mắt GPT‑5.4

Được thiết kế phục vụ nhu cầu làm việc chuyên nghiệp

Đang tải…

Hôm nay, chúng tôi phát hành GPT‑5.4 trong ChatGPT (dưới dạng GPT‑5.4 Thinking), API và Codex. Đây là mô hình tiên phong có năng lực và hiệu quả nhất của chúng tôi phục vụ nhu cầu làm việc chuyên nghiệp. Chúng tôi cũng phát hành GPT‑5.4 Pro trong ChatGPT và API, dành cho những người muốn đạt hiệu suất tối đa cho các tác vụ phức tạp.

GPT‑5.4 tập hợp những điểm tốt nhất từ các tiến bộ gần đây của chúng tôi về suy luận, viết mã và các quy trình làm việc tác nhân vào một mô hình tiên phong duy nhất. Nó tích hợp các khả năng mã hóa hàng đầu trong ngành của GPT‑5.3‑Codex đồng thời cải thiện cách thức mô hình hoạt động trên các công cụ, môi trường phần mềm và các tác vụ chuyên nghiệp liên quan đến bảng tính, bản trình bày và tài liệu. Kết quả là một mô hình có thể hoàn thành chính xác, hiệu quả và nhanh chóng những công việc thực tế phức tạp—đáp ứng đúng những gì bạn yêu cầu với số lần trao đổi qua lại ít hơn.

Trong ChatGPT, bắt đầu từ hôm nay, GPT‑5.4 Thinking giờ đây có thể cung cấp trước kế hoạch về quá trình tư duy của mình, để bạn điều chỉnh hướng đi ngay trong lúc phản hồi khi đang vận hành, và nhận được kết quả đầu ra cuối cùng sát với những gì bạn cần hơn mà không cần phải trao đổi thêm. GPT‑5.4 Thinking còn cải thiện khả năng nghiên cứu sâu trên web, đặc biệt đối với các truy vấn có tính đặc thù cao, đồng thời duy trì ngữ cảnh tốt hơn đối với những câu hỏi đòi hỏi thời gian suy nghĩ dài hơn. Cùng nhau, những cải tiến này mang lại câu trả lời chất lượng cao hơn, được đưa ra nhanh hơn nhưng vẫn phù hợp với nhiệm vụ trước mắt.

Trong Codex và API, GPT‑5.4 là mô hình tổng quát đầu tiên mà chúng tôi đã phát hành với khả năng sử dụng máy tính nguyên bản, tiên tiến nhất, cho phép các tác nhân vận hành máy tính và thực hiện các quy trình làm việc phức tạp trên nhiều ứng dụng. Mô hình này hỗ trợ tối đa 1 triệu token ngữ cảnh, cho phép các tác nhân lập kế hoạch, thực thi và xác minh các tác vụ trong các khoảng thời gian dài. GPT‑5.4 cũng cải thiện cách các mô hình hoạt động trên các hệ sinh thái lớn gồm công cụ và trình kết nối với tìm kiếm công cụ, giúp các tác nhân tìm và sử dụng đúng công cụ hiệu quả hơn mà không làm giảm trí tuệ. Cuối cùng, GPT‑5.4 là mô hình suy luận tiết kiệm token nhất của chúng tôi cho đến nay, sử dụng ít token hơn đáng kể để giải quyết vấn đề khi so với GPT‑5.2—giúp giảm mức sử dụng token và tăng tốc độ.

Cùng với những tiến bộ trong suy luận tổng quát, viết mã và công việc liên quan kiến thức chuyên môn, GPT‑5.4 cho phép các tác nhân đáng tin cậy hơn, quy trình làm việc của nhà phát triển triển khai nhanh hơn và kết quả đầu ra chất lượng cao hơn trên ChatGPT, API và Codex.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (thắng hoặc hòa)

83,0%

70,9%

70,9%

SWE-bench Pro (Công khai)

57,7%

56.8%

55,6%

OSWorld-Đã xác minh

75,0%

74,0%* 

47.3%

Toolathlon

54.6%

51,9%

46,3%

BrowseComp

82,7%

77.3%

65,8%

*Trước đây đã được báo cáo là 64,7%. GPT‑5.3‑Codex đạt 74,0% với một tham số API mới được giới thiệu giúp bảo toàn độ phân giải ảnh gốc.

Công việc tri thức

Xây dựng dựa trên năng lực suy luận tổng quát của GPT‑5.2, GPT‑5.4 mang lại kết quả nhất quán và trau chuốt hơn nữa trong các tác vụ thực tế quan trọng đối với chuyên gia.

Trên GDPval, công cụ đánh giá kiểm tra khả năng các tác nhân tạo ra công việc tri thức xác định rõ ràng ở 44 nghề nghiệp, GPT‑5.4 đạt mức tiêu chuẩn mới, tương đương hoặc vượt qua các chuyên gia trong ngành ở 83.0% số lần so sánh, so với 71.0% đối với GPT‑5.2.

Trong GDPval, các mô hình cố gắng thực hiện công việc kiến thức được xác định rõ ràng, bao gồm 44 nghề nghiệp từ 9 ngành hàng đầu đóng góp vào GDP của Hoa Kỳ. Các nhiệm vụ yêu cầu sản phẩm công việc thực tế như bản trình bày bán hàng, bảng tính kế toán, lịch trình chăm sóc khẩn cấp, hồ sơ thuế, sơ đồ sản xuất, hoặc video ngắn. Nỗ lực suy luận được đặt ở mức xhigh cho GPT‑5.4 và mức heavy cho GPT‑5.2 (một cấp độ thấp hơn một chút trong ChatGPT).

“GPT-5.4 là mô hình tốt nhất mà chúng tôi từng thử. Hiện tại, mô hình này đang dẫn đầu bảng xếp hạng chuẩn APEX-Agents của chúng tôi, dùng để đo lường hiệu suất của mô hình trong lĩnh vực dịch vụ chuyên nghiệp. Nó vượt trội trong việc tạo ra các sản phẩm có tầm nhìn dài hạn như bản trình chiếu, mô hình tài chính và phân tích pháp lý, mang lại hiệu suất cao nhất đồng thời hoạt động nhanh hơn và với chi phí thấp hơn so với các mô hình tiên phong cạnh tranh.”
— Brendan Foody, Giám đốc điều hành của Mercor

Chúng tôi đặc biệt tập trung cải thiện khả năng tạo và chỉnh sửa bảng tính, bản trình bày và tài liệu của GPT‑5.4. Theo tiêu chuẩn nội bộ về các nhiệm vụ mô hình hóa bảng tính mà một chuyên viên phân tích ngân hàng đầu tư cấp dưới có thể thực hiện, GPT‑5.4 đạt điểm trung bình là 87.5%, so với 68.4% của GPT‑5.2. Trong một tập hợp các câu lệnh đánh giá bài thuyết trình, những bài thuyết trình do GPT‑5.4 tạo ra được các giám khảo con người ưa thích hơn các bài của GPT‑5.2 trong 68,0% trường hợp, nhờ tính thẩm mỹ tốt hơn, sự đa dạng hình ảnh cao hơn và việc sử dụng khả năng tạo hình ảnh hiệu quả hơn.

Ví dụ so sánh song song kết quả đầu ra bảng tính từ GPT-5.2 so với GPT-5.4

Tài liệu đã được tạo với nỗ lực suy luận được đặt thành xhigh

Bạn có thể dùng thử các năng lực này trong ChatGPT bằng GPT‑5.4 Thinking hoặc Pro. Nếu bạn là khách hàng doanh nghiệp, chúng tôi khuyên bạn nên sử dụng các plugin ChatGPT dành cho Excel và Google Sheets(mở trong cửa sổ mới) mới được phát hành hôm nay. Chúng tôi cũng đã cập nhật bảng tính(mở trong cửa sổ mới)kỹ năng thuyết trình(mở trong cửa sổ mới) hiện có trong Codex và API.

Để tạo nên GPT‑5.4 tốt hơn trong công việc thực tế, chúng tôi tiếp tục đạt tiến bộ trong việc giảm ảo giác và lỗi. GPT‑5.4 là mô hình có tính xác thực cao nhất của chúng tôi từ trước đến nay: trên một tập các câu lệnh đã được xóa định danh nơi người dùng gắn cờ các lỗi sai về dữ kiện, Các tuyên bố cá nhân ít có 33% khả năng sai và các câu trả lời đầy đủ của nó ít có khả năng chứa bất kỳ lỗi nào ít hơn 18% so với GPT‑5.2.

“GPT-5.4 thiết lập một tiêu chuẩn mới cho công việc pháp lý đòi hỏi xử lý nhiều tài liệu.” Trong bài đánh giá BigLaw Bench của chúng tôi, nó đạt điểm 91%. So với các mô hình khác, GPT-5.4 hiện đang vượt trội hơn trong việc cấu trúc phân tích giao dịch phức tạp, duy trì độ chính xác xuyên suốt các hợp đồng dài hạn và cung cấp mức độ chi tiết cao mà các luật sư yêu cầu.”
— Niko Grupen, Trưởng bộ phận Nghiên cứu Ứng dụng tại Harvey

Sử dụng máy tính và thị giác

GPT‑5.4 là mô hình đa dụng đầu tiên của chúng tôi với khả năng sử dụng máy tính nguyên bản đồng thời đánh dấu một bước tiến lớn cho cả nhà phát triển lẫn các tác nhân. Đây là mô hình tốt nhất hiện có dành cho các nhà phát triển xây dựng các tác nhân hoàn thành các tác vụ thực tế trên các trang web và hệ thống phần mềm.

Chúng tôi thiết kế GPT‑5.4 để đạt hiệu suất cao trên nhiều loại khối lượng công việc sử dụng máy tính. Mô hình này rất xuất sắc trong việc viết mã để vận hành máy tính thông qua các thư viện như Playwright, cũng như đưa ra các lệnh chuột và bàn phím để phản hồi ảnh chụp màn hình. Có thể điều chỉnh hành vi của mô hình này thông qua thông điệp nhà phát triển, nghĩa là các nhà phát triển có thể điều chỉnh hành vi để phù hợp với các trường hợp sử dụng cụ thể. Các nhà phát triển thậm chí có thể cấu hình hành vi an toàn của mô hình để phù hợp với các mức độ chấp nhận rủi ro khác nhau bằng cách chỉ định các chính sách xác nhận tùy chỉnh.

Hiệu suất và tính linh hoạt của mô hình được thể hiện qua các bài đánh giá chuẩn đo lường khả năng sử dụng máy tính trong các bối cảnh khác nhau. Trên OSWorld-Verified, thước đo khả năng của một mô hình trong việc điều hướng môi trường máy tính để bàn thông qua ảnh chụp màn hình và các thao tác bàn phím/chuột, GPT‑5.4 đạt tỷ lệ thành công tối tân 75.0%, vượt xa mức 47.3% của GPT‑5.2, và vượt qua hiệu suất của con người ở mức 72.4%.1

Trên WebArena-Verified, ứng dụng giúp kiểm tra việc sử dụng trình duyệt, GPT‑5.4 đạt tỷ lệ thành công dẫn đầu 67,3% khi sử dụng cả tương tác dựa trên DOM và ảnh chụp màn hình, so với 65,4% của GPT‑5.2. Trên Online-Mind2Web, ứng dụng cũng kiểm tra khả năng sử dụng trình duyệt, GPT‑5.4 đạt tỷ lệ thành công 92.8% chỉ bằng các quan sát dựa trên ảnh chụp màn hình, cải thiện so với Agent Mode của ChatGPT Atlas, vốn đạt tỷ lệ thành công 70.9%.

Nhường quyền xử lý công cụ diễn ra khi một trợ lý tạm nhường quyền để chờ phản hồi từ công cụ. Nếu 3 công cụ được gọi song song, sau đó thêm 3 công cụ nữa được gọi song song, thì số lần nhường quyền sẽ là 2. Nhường quyền xử lý công cụ là thước đo gần đúng tốt hơn dành cho độ trễ so với số lượt gọi công cụ vì chúng phản ánh lợi ích của cơ chế thực thi song song.

GPT‑5.4 giải thích ảnh chụp màn hình của giao diện trình duyệt và tương tác với các yếu tố giao diện người dùng thông qua nhấp chuột dựa trên tọa độ để gửi email và lên lịch sự kiện.

Khả năng sử dụng máy tính nâng cao của GPT‑5.4 được xây dựng dựa trên các khả năng nhận thức thị giác tổng quát được cải thiện của mô hình. Trên MMMU-Pro, một bài kiểm tra về khả năng hiểu hình ảnh và suy luận của một mô hình, GPT‑5.4 đạt tỷ lệ thành công 81,2% mà không dùng công cụ, cải thiện so với 79.5%. Cải thiện khả năng nhận thức thị giác cũng đồng nghĩa với việc nâng cao khả năng phân tích cú pháp tài liệu. Trên OmniDocBench, GPT‑5.4 không có nỗ lực suy luận đạt lỗi trung bình (được đo lường bằng khoảng cách chỉnh sửa chuẩn hóa giữa dự đoán của mô hình và giá trị chuẩn) là 0.109, cải thiện so với 0.140 của GPT‑5.2.

MMMUPro được chạy với nỗ lực suy luận được đặt ở mức xhigh. OmniDocBench được chạy với mức độ suy luận được đặt thành none, để phản ánh hiệu suất chi phí thấp, độ trễ thấp.

Chúng tôi cũng đang cải thiện khả năng hiểu trực quan đối với các hình ảnh dày đặc, độ phân giải cao, nơi độ trung thực hình ảnh đầy đủ là điều quan trọng. Bắt đầu từ GPT‑5.4, chúng tôi đang giới thiệu một cấp độ original thông tin chi tiết đầu vào(mở trong cửa sổ mới) hình ảnh hỗ trợ khả năng nhận biết với độ trung thực đầy đủ lên đến tổng cộng 10.24M điểm ảnh hoặc kích thước tối đa 6000 điểm ảnh, tùy theo mức nào thấp hơn; cấp độ thông tin chi tiết đầu vào hình ảnh high hiện hỗ trợ lên đến tổng cộng 2.56M điểm ảnh hoặc kích thước tối đa 2048 điểm ảnh. Trong giai đoạn thử nghiệm ban đầu với người dùng API, chúng tôi đã quan sát thấy những cải thiện đáng kể về khả năng bản địa hóa, khả năng hiểu hình ảnh và độ chính xác khi nhấp khi sử dụng chế độ gốc hoặc chi tiết cao.

“Trong các đánh giá của chúng tôi đo lường hiệu suất sử dụng máy tính trên ~ 30K HOA và cổng thuế tài sản, GPT-5.4 đạt được tỷ lệ thành công 95% trong lần thử đầu tiên và 100% trong ba lần thử, so với ~ 73— 79% với các mô hình CUA trước đó. Nó cũng hoàn thành các phiên nhanh hơn ~ 3 lần trong khi sử dụng mã thông báo ít hơn ~ 70%, cải thiện đáng kể độ tin cậy và hiệu quả chi phí trên quy mô lớn. "
— Dod Fraser, Giám đốc điều hành của Mainstay

Trong API, nhà phát triển có thể truy cập năng lực này bằng công cụ thao tác máy tính đã cập nhật. Vui lòng xem tài liệu cập nhật(mở trong cửa sổ mới) của chúng tôi để biết những cách thức tối ưu được đề xuất.

Mã hóa

GPT‑5.4 kết hợp thế mạnh về mã hóa của GPT‑5.3‑Codex với các khả năng hàng đầu về công việc liên quan đến tri thức và sử dụng máy tính, những yếu tố quan trọng nhất trong các tác vụ dài hạn, nơi mô hình có thể sử dụng công cụ, lặp lại và đẩy công việc đi xa hơn với ít can thiệp thủ công hơn. Mô hình này ngang bằng hoặc vượt trội hơn GPT‑5.3‑Codex trên SWE-Bench Pro, đồng thời có độ trễ thấp hơn khi suy luận.

Chúng tôi ước tính độ trễ bằng cách xem xét hành vi sản xuất của các mô hình của chúng tôi và mô phỏng ngoại tuyến độ trễ này. Ước tính độ trễ có tính đến thời gian gọi công cụ (thời gian thực thi mã), token được lấy mẫu và token đầu vào. Độ trễ thực tế có thể khác biệt đáng kể và phụ thuộc vào nhiều yếu tố chưa được nắm bắt trong mô phỏng của chúng tôi. Các nỗ lực suy luận đã được quét từ none đến xhigh.

Khi được bật, chế độ /fast trong Codex mang lại tốc độ token nhanh hơn tới 1.5x vớiGPT‑5.4. Đều cùng một mô hình và cùng một trí tuệ, chỉ là nhanh hơn. Điều đó có nghĩa là người dùng có thể thực hiện các tác vụ lập trình, lặp lại và gỡ lỗi đồng thời vẫn duy trì mạch suy nghĩ. Các nhà phát triển có thể truy cập GPT‑5.4 với tốc độ nhanh tương tự thông qua API bằng cách sử dụng xử lý ưu tiên(mở trong cửa sổ mới).

Trong quá trình thẩm định và thử nghiệm nội bộ, chúng tôi nhận thấy GPT‑5.4 vượt trội trong các tác vụ frontend phức tạp, với kết quả có tính thẩm mỹ cao hơn rõ rệt và chức năng tốt hơn so với bất kỳ mô hình nào chúng tôi đã ra mắt trước đây.

Để minh họa cho khả năng sử dụng máy tính và lập trình được cải tiến của mô hình khi hoạt động song song, chúng tôi cũng đang phát hành một kỹ năng Codex thử nghiệm có tên là “Playwright (Interactive)(mở trong cửa sổ mới)”. Điều này cho phép Codex gỡ lỗi trực quan các ứng dụng web và Electron; thậm chí có thể dùng để kiểm thử một ứng dụng mà mô hình đang xây dựng, ngay trong khi đang xây dựng ứng dụng đó.

Trò chơi mô phỏng công viên giải trí được tạo bằng GPT‑5.4 từ một câu lệnh đơn giản, sử dụng Playwright Interactive để thử nghiệm trên trình duyệt và tạo hình ảnh cho bộ tài sản đồ họa phối cảnh. Mô phỏng bao gồm vị trí đường đi dựa trên gạch, xây dựng trò chơi và phong cảnh, tìm đường của khách, xếp hàng và chu kỳ đi xe, trong khi các chỉ số công viên như tiền, số lượng khách, hạnh phúc, độ sạch sẽ và xếp hạng tăng hoặc giảm dựa trên cách bố trí hoạt động và cách khách phản ứng với nó. Playwright được sử dụng để tự động hóa các bài kiểm tra trình duyệt bằng cách xây dựng và mở rộng công viên, đặt và gỡ bỏ các con đường và điểm tham quan, kiểm tra điều hướng camera, và xác minh rằng khách tham quan, hàng đợi, trạng thái trò chơi và các chỉ số giao diện người dùng được cập nhật chính xác qua nhiều vòng chơi.

Câu lệnh: Sử dụng $playwright-interactive và $imagegen. Tạo một trò chơi mô phỏng công viên giải trí chủ đề isometric tương tác mà tôi có thể xây dựng và điều hướng trong trình duyệt. Dùng imagegen để thiết lập tầm nhìn hình ảnh tổng thể và tạo các tài sản của trò chơi, bao gồm các trò chơi/điểm tham quan, lối đi, địa hình, cây cối, nước, quầy đồ ăn, đồ trang trí, tòa nhà, biểu tượng và minh họa UI. Thế giới nên có cảm giác đồng nhất, trau chuốt và giàu chi tiết thị giác, với định hướng nghệ thuật cao cấp hoạt động tốt từ góc nhìn isometric. Hãy cho phép tôi đặt và xóa lối đi, thêm điểm tham quan, bố trí cảnh quan, và di chuyển quanh công viên mượt mà trong khi theo dõi hoạt động của khách, trạng thái trò chơi/điểm tham quan và sự phát triển của công viên. Bao gồm chuyển động của khách đáng tin, các hệ thống quản lý công viên đơn giản như tiền, vệ sinh, xếp hàng và mức độ hạnh phúc, và khiến trải nghiệm mang cảm giác vui nhộn, rõ ràng và hoàn chỉnh thay vì như một bản mẫu thô. Ưu tiên sự duyên dáng, khả năng đọc và cảm giác chơi tốt hơn là tính hiện thực. 

Khi thử nghiệm chơi, hãy đảm bảo xây dựng và mở rộng công viên thông qua nhiều vòng chơi, xác minh rằng vị trí và điều hướng hoạt động trơn tru, xác nhận rằng khách có phản ứng với bố cục công viên và các điểm tham quan, đồng thời đảm bảo hình ảnh, giao diện người dùng và tương tác ổn định và gắn kết.

“Các kỹ sư của chúng tôi tìm thấy GPT-5.4 tự nhiên và quyết đoán hơn các mô hình trước đây. Nó giải quyết các vấn đề mơ hồ mà không cần phải suy nghĩ lại, và nó chủ động trong việc song song hóa công việc để đảm bảo mọi thứ luôn vận hành trơn tru.”
— Lee Robinson, Phó chủ tịch giáo dục nhà phát triển tại Cursor

Sử dụng công cụ

Với GPT‑5.4, Chúng tôi đã cải thiện đáng kể cách thức các mô hình hoạt động với các công cụ bên ngoài. Các tác nhân giờ đây có thể hoạt động trên các hệ sinh thái công cụ lớn hơn, chọn đúng công cụ một cách đáng tin cậy hơn và hoàn thành các quy trình làm việc nhiều bước với chi phí và độ trễ thấp hơn.

Tìm kiếm công cụ

Trong API, GPT‑5.4 giới thiệu tìm kiếm công cụ(mở trong cửa sổ mới), cho phép các mô hình hoạt động hiệu quả khi được cung cấp nhiều công cụ.

Trước đây, khi một mô hình được cung cấp công cụ, toàn bộ định nghĩa của công cụ đều được đưa vào câu lệnh ngay từ đầu. Đối với các hệ thống có nhiều công cụ, điều này có thể thêm hàng nghìn—hoặc thậm chí hàng chục nghìn—token vào mọi yêu cầu, làm tăng chi phí, làm chậm phản hồi và làm chật ngữ cảnh với nguồn thông tin mà mô hình có thể sẽ không bao giờ sử dụng.

Với tính năng tìm kiếm công cụ, GPT‑5.4 thay vào đó nhận được một danh sách gọn nhẹ các công cụ có sẵn cùng với khả năng tìm kiếm công cụ. Khi mô hình cần sử dụng một công cụ, nó có thể tra cứu định nghĩa của công cụ đó và thêm nó vào cuộc hội thoại tại thời điểm đó.

Cách tiếp cận này giúp giảm đáng kể số lượng token cần thiết cho các quy trình làm việc sử dụng nhiều công cụ và bảo toàn bộ nhớ đệm, giúp các yêu cầu nhanh hơn và rẻ hơn. Điều này cũng cho phép các tác nhân làm việc một cách đáng tin cậy với các hệ sinh thái công cụ lớn hơn nhiều. Đối với các máy chủ MCP có thể chứa hàng chục nghìn token định nghĩa công cụ, mức tăng hiệu quả có thể là đáng kể.

Để chứng minh mức tăng hiệu quả, chúng tôi đã đánh giá 250 tác vụ từ điểm chuẩn MCP Atlas(mở trong cửa sổ mới) của Scale với tất cả 36 máy chủ MCP được bật ở hai chế độ: (1) hiển thị mọi chức năng MCP trực tiếp trong bối cảnh mô hình và (2) đặt tất cả các máy chủ MCP phía sau tìm kiếm công cụ. Cấu hình tìm kiếm công cụ đã giảm tổng mức sử dụng token xuống 47% trong khi vẫn đạt được cùng độ chính xác.

Số lượng token ví dụ đến từ việc trung bình 250 tác vụ trong tập dữ liệu công khai MCP-Atlas.

Chủ động gọi công cụ

GPT‑5.4 cũng cải thiện khả năng gọi công cụ, giúp chính xác và hiệu quả hơn khi quyết định thời điểm và cách thức sử dụng các công cụ trong quá trình suy luận, đặc biệt là trong API.  So với GPT‑5.2, nó đạt độ chính xác cao hơn trong ít lượt hơn trên Toolathlon, một bộ tiêu chuẩn kiểm tra mức độ các tác nhân AI có thể sử dụng các công cụ và API trong thế giới thực để hoàn thành các tác vụ nhiều bước. Ví dụ, một tác nhân cần đọc email, trích xuất các tệp đính kèm bài tập, tải chúng lên, chấm điểm và ghi lại kết quả trong một bảng tính.

Nhường quyền xử lý công cụ diễn ra khi một trợ lý tạm nhường quyền để chờ phản hồi từ công cụ. Nếu 3 công cụ được gọi song song, sau đó thêm 3 công cụ nữa được gọi song song, thì số lần nhường quyền sẽ là 2. Nhường quyền xử lý công cụ là thước đo gần đúng tốt hơn dành cho độ trễ so với số lượt gọi công cụ vì chúng phản ánh lợi ích của cơ chế thực thi song song.

Đối với các trường hợp sử dụng nhạy cảm với độ trễ, nơi mức độ suy luận được ưu tiên đặt là None (Không), GPT‑5.4 tiếp tục cải thiện so với các phiên bản tiền nhiệm.

Trong τ2-bench⁠(mở trong cửa sổ mới), mô hình phải sử dụng các công cụ để hoàn thành một tác vụ dịch vụ khách hàng, trong đó có thể có một người dùng mô phỏng có thể giao tiếp và thực hiện các hành động lên trạng thái thế giới. Nỗ lực suy luận được đặt thành None.

Tìm kiếm trên web tăng cường

GPT‑5.4 giỏi hơn trong tìm kiếm tự chủ trên web. Trên BrowseComp, một thước đo mức độ các tác nhân AI có thể kiên trì duyệt web để tìm thông tin khó tìm, GPT‑5.4 tăng vọt 17%abs so với GPT‑5.2, và GPT‑5.4 Pro thiết lập một tiêu chuẩn tiên tiến mới với 89,3%.

Trong thực tế, điều này có nghĩa là GPT‑5.4 Thinking mạnh hơn trong việc trả lời các câu hỏi đòi hỏi phải kết hợp thông tin từ nhiều nguồn trên web. Tính năng này có thể tìm kiếm bền bỉ hơn qua nhiều vòng để xác định các nguồn liên quan nhất, đặc biệt đối với các câu hỏi kiểu “cây kim trong đống cỏ”, và tổng hợp chúng thành một câu trả lời rõ ràng, có lập luận chặt chẽ.

Trong BrowseComp, chúng tôi sử dụng một bộ chặn tìm kiếm loại trừ các trang web có chứa câu trả lời chuẩn khỏi quá trình đánh giá để ngăn ngừa nguy cơ nhiễm dữ liệu và đảm bảo có một thước đo hiệu suất công bằng. GPT‑5.4 được đo lường vào thời điểm muộn hơn so với GPT‑5.2, vì vậy điểm số phản ánh những thay đổi trong mô hình, hệ thống tìm kiếm của chúng tôi và trạng thái của Internet. GPT‑5.4 đã được thử nghiệm với một danh sách chặn dài hơn, đã cập nhật. Các mô hình sử dụng công cụ tìm kiếm trên ChatGPT, có thể có một số khác biệt nhỏ so với tìm kiếm bằng API.

“GPT-5.4 xhigh là công nghệ tiên tiến nhất hiện nay dành cho việc sử dụng công cụ nhiều bước.” Zapier thực hiện một số bài kiểm tra đánh giá hiệu năng công cụ nghiêm ngặt nhất trong ngành, thử nghiệm các mô hình trên hàng trăm quy trình làm việc thực tế tiên tiến. GPT-5.4 đã hoàn thành nhiệm vụ mà các mô hình trước đó đã bỏ cuộc - đây là mô hình hoạt động bền bỉ nhất cho đến nay.”
— Wade, Giám đốc điều hành tại Zapier

Khả năng điều hướng hành vi

Tương tự như cách Codex phác thảo cách tiếp cận của mình khi bắt đầu làm việc, GPT‑5.4 Thinking trong ChatGPT giờ đây sẽ phác thảo quá trình làm việc của mình bằng một phần mở đầu cho các truy vấn dài hơn, phức tạp hơn. Bạn cũng có thể thêm hướng dẫn hoặc điều chỉnh hướng đi giữa chừng trong khi phản hồi. Điều này giúp dễ dàng hơn trong việc chỉ dẫn mô hình hướng tới đúng kết quả mà bạn muốn mà không cần bắt đầu lại hoặc cần nhiều lượt bổ sung. Tính năng này hiện đã khả dụng trên chatgpt.com(mở trong cửa sổ mới) và ứng dụng Android, và sẽ sớm có mặt trên ứng dụng iOS.

Mô hình cũng có thể suy nghĩ lâu hơn về các nhiệm vụ khó khăn trong khi vẫn duy trì nhận thức rõ ràng hơn về các bước trước đó trong cuộc trò chuyện. Điều này cho phép xử lý các quy trình dài hơn và các câu lệnh phức tạp hơn, đồng thời vẫn giữ cho các câu trả lời mạch lạc và phù hợp trong suốt quá trình.

Video này đã được tua nhanh để minh họa.

An toàn

Trong những tháng gần đây, chúng tôi đã tiếp tục cải thiện các biện pháp bảo vệ mà chúng tôi giới thiệu cùng với GPT‑5.3‑Codex, đồng thời chuẩn bị GPT‑5.4 để triển khai. Tương tự như GPT‑5.3‑Codex, chúng tôi đang coi GPT‑5.4 là năng lực mạng ở mức Cao theo Khung chuẩn bị của chúng tôi, và chúng tôi đang triển khai nó với các biện pháp bảo vệ tương ứng như được ghi lại trong thẻ hệ thống. Những nội dung này bao gồm một ngăn xếp an toàn mạng được mở rộng, bao gồm các hệ thống giám sát, các biện pháp kiểm soát truy cập đáng tin cậy, và chặn không đồng bộ đối với các yêu cầu có rủi ro cao hơn dành cho khách hàng trên các bề mặt Không lưu giữ dữ liệu ngoài mức cần thiết (ZDR), cùng với việc tiếp tục đầu tư vào hệ sinh thái bảo mật rộng lớn hơn.

Bởi vì các năng lực an ninh mạng vốn dĩ là sử dụng kép, chúng tôi duy trì cách tiếp cận phòng ngừa đối với việc triển khai trong khi tiếp tục hiệu chỉnh các chính sách và phân loại của mình. Đối với một số khách hàng trên bề mặt ZDR, việc chặn ở cấp độ yêu cầu vẫn là một phần trong các biện pháp giảm thiểu rủi ro an ninh mạng của chúng tôi; vì các bộ phân loại vẫn đang được cải thiện, có thể xảy ra một số trường hợp nhầm khi chúng tôi tiếp tục tinh chỉnh các biện pháp bảo vệ này. Những cập nhật này nhằm cải thiện cách các biện pháp bảo vệ vận hành trong thực tế, bao gồm giảm các trường hợp từ chối không cần thiết và các phản hồi có quá nhiều lời rào đón, đồng thời vẫn duy trì các biện pháp bảo vệ mạnh mẽ chống lại việc lạm dụng.

Chúng tôi đã tiếp tục nghiên cứu về an toàn đối với khả năng giám sát Chuỗi tư duy (CoT) để hiểu rõ hơn cách các mô hình suy luận và giúp phát hiện hành vi sai trái tiềm ẩn. Trong khuôn khổ công trình này, chúng tôi ra mắt một đánh giá mã nguồn mở mới, khả năng kiểm soát CoT,  đo lường xem liệu các mô hình có thể cố ý làm mơ hồ suy luận của mình để né tránh việc giám sát hay không. Chúng tôi nhận thấy năng lực của GPT‑5.4 Thinking trong việc kiểm soát CoT của mình ở mức thấp, đây là đặc tính tích cực đối với tính an toàn, cho thấy mô hình thiếu khả năng che giấu suy luận của mình và việc giám sát CoT vẫn là một công cụ an toàn hiệu quả.

Tính khả dụng và mức giá

GPT‑5.4 bắt đầu được triển khai dần từ hôm nay trên ChatGPT và Codex. Trong API, GPT‑5.4 hiện đã có sẵn dưới dạng gpt-5.4. GPT‑5.4 Pro cũng được cung cấp trong API dưới dạng gpt-5.4-pro dành cho nhà phát triển cần hiệu suất tối đa cho các tác vụ phức tạp nhất.

Trong ChatGPT, bắt đầu từ hôm nay, GPT‑5.4 Thinking được cung cấp bắt đầu từ hôm nay cho người dùng ChatGPT Plus, Team và Pro, thay thế GPT‑5.2 Tư duy. GPT‑5.2 Thinking sẽ vẫn có sẵn trong ba tháng dành cho người dùng trả phí trong trình chọn mô hình dưới phần Mô hình Cũ, sau đó sẽ được ngừng cung cấp vào ngày 5 tháng 6 năm 2026. Những người dùng gói Enterprise và Edu có thể bật tùy chọn truy cập sớm thông qua cài đặt quản trị viên. GPT‑5.4 Pro có sẵn cho các gói Pro và Enterprise. Cửa sổ ngữ cảnh(mở trong cửa sổ mới) trong ChatGPT cho GPT‑5.4 Thinking vẫn giữ nguyên từ GPT‑5.2 Thinking.

GPT‑5.4 là mô hình suy luận chính thức đầu tiên của chúng tôi tích hợp các khả năng mã hóa tiên phong của GPT‑5.3‑codex và đang được triển khai trên ChatGPT, API và Codex. Chúng tôi gọi nó là GPT‑5.4 để phản ánh bước nhảy đó và để đơn giản hóa việc lựa chọn giữa các mô hình khi sử dụng Codex. Theo thời gian, bạn có thể kỳ vọng các mô hình Instant và các mô hình Thinking của chúng tôi sẽ phát triển với tốc độ khác nhau.

GPT‑5.4 trong Codex hỗ trợ thử nghiệm cho cửa sổ ngữ cảnh 1M. Các nhà phát triển có thể thử điều này bằng cách định model_context_window cấu hình và model_auto_compact_token_limit. Các yêu cầu vượt quá giới hạn cửa sổ ngữ cảnh tiêu chuẩn 272K sẽ được tính vào giới hạn sử dụng với tốc độ gấp đôi bình thường.

Trong API, GPT‑5.4 có giá cao hơn mỗi token so với GPT‑5.2 để phản ánh các khả năng được cải thiện của mô hình này, trong khi hiệu quả token cao hơn giúp giảm tổng số token cần thiết cho nhiều tác vụ. Biểu giá Batch và Flex có sẵn ở mức bằng một nửa mức giá API tiêu chuẩn, trong khi Xử lý ưu tiên có sẵn ở mức gấp đôi mức giá API tiêu chuẩn.

Mô hình API

Mức giá đầu vào

Mức giá đầu vào lưu bộ nhớ tạm

Mức giá đầu ra

gpt-5.2

1,75 USD / triệu token

0,175 USD / triệu token

14 USD / triệu token

gpt-5.4

2,50 USD / triệu token

0,25 USD / triệu token

15 USD / triệu token

gpt-5.2-pro

21 USD / triệu token

-

168 USD / triệu token

gpt-5.4-pro

30 USD / triệu token

-

180 USD / triệu token

Đánh giá

Chuyên gia

Đánh giá

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83,0%

82.0%

70,9%

70,9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

Các nhiệm vụ mô hình hóa ngân hàng đầu tư (Nội bộ)

87,3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

Mã hóa

Đánh giá

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-bench Pro (Công khai)

57,7%

56.8%

55,6%

Terminal-Bench 2.0

75.1%

77.3%

62.2%

Sử dụng máy tính và thị giác

Đánh giá

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Đã xác minh

75,0%

74.0%

47.3%

MMMU Pro (không có công cụ)

81.2%

79.5%

MMMU Pro (có công cụ)

82.1%

80.4%

Sử dụng công cụ

Đánh giá

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82,7%

89.3%

77.3%

65,8%

77,9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51,9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

Học thuật

Đánh giá

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Nghiên cứu khoa học tiên phong

33.0%

36.7%

25.2%

FrontierMath Bậc 1–3

47.6%

40.7%

FrontierMath bậc 4

27.1%

38.0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

92,4%

93,2%

Bài kiểm tra cuối cùng của con người (không có công cụ)

39.8%

42.7%

34.5%

36.6%

Bài kiểm tra cuối cùng của con người (có công cụ)

52.1%

58.7%

45.5%

50.0%

Ngữ cảnh dài

Đánh giá

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94,0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks parents 0–128K (độ chính xác)

89.8%

89.0%

Graphwalks parents 256K–1M (độ chính xác)

32.4%

OpenAI MRCR v2 8-needle 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-needle 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-needle 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-needle 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-needle 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-needle 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-needle 256K–512K

57.5%

OpenAI MRCR v2 8-needle 512K–1M

36.6%

Lập luận trừu tượng

Đánh giá

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Đã xác minh)

93.7%

94.5%

86,2%

90.5%

ARC-AGI-2 (Đã xác minh)

73.3%

83.3%

52,9%

54.2% (cao)

Đánh giá không có suy luận

Đánh giá

GPT‑5.4
(không có)

GPT‑5.2
(không có)

GPT‑4.1

OmniDocBench (khoảng cách chỉnh sửa chuẩn hóa)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

Các bài đánh giá được chạy với nỗ lực suy luận được đặt ở mức xhigh, ngoại trừ những trường hợp được chỉ định khác. Các bài kiểm tra hiệu suất đã được thực hiện trong môi trường nghiên cứu, điều này có thể cung cấp kết quả hơi khác so với ChatGPT trong môi trường sản xuất trong một số trường hợp.

Tác giả

OpenAI

Ghi chú cuối trang