Ra mắt GPT‑5.2
Mô hình tiên tiến nhất dành cho các tác nhân làm việc chuyên nghiệp và vận hành dài hạn.
Chúng tôi đã ra mắt GPT‑5.2, dòng mô hình mạnh AI mẽ nhất từ trước đến nay dành cho công việc tri thức chuyên nghiệp.
Hiện người dùng trung bình của ChatGPT Enterprise cho biết AI giúp họ tiết kiệm 40–60 phút mỗi ngày, và những người dùng nhiều cho biết nó giúp họ tiết kiệm hơn 10 giờ mỗi tuần. Chúng tôi đã thiết kế GPT‑5.2 để mở ra nhiều giá trị kinh tế hơn cho mọi người; nó vượt trội hơn trong việc tạo bảng tính, xây dựng trình bày, viết mã, nhận diện ảnh, hiểu ngữ cảnh dài, sử dụng công cụ và xử lý các dự án phức tạp, nhiều bước.
GPT‑5.2 thiết lập một tiêu chuẩn mới trong nhiều tiêu chí đánh giá, bao gồm GDPval, nơi nó vượt trội hơn các chuyên gia trong ngành ở các nhiệm vụ công việc kiến thức được xác định rõ ràng, trải rộng trong 44 nghề nghiệp.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (thắng hoặc hòa) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (public) | 55,6% | 50,8% |
SWE-bench đã được xác minh | 80,0% | 76,3% |
GPQA Diamond (không có công cụ) | 92,4% | 88,1% |
CharXiv Reasoning (với Python) | 88,7% | 80,3% |
HMMT (Tháng 2 năm 2025) | 99,4% | 96,3% |
FrontierMath (Cấp độ 1–3) | 40,3% | 31,0% |
ARC-AGI-1 (Đã xác minh) | 86,2% | 72,8% |
ARC-AGI-2 (Đã xác minh) | 52,9% | 17,6% |
Notion(mở trong cửa sổ mới), Box(mở trong cửa sổ mới), Shopify(mở trong cửa sổ mới), Harvey(mở trong cửa sổ mới) và Zoom(mở trong cửa sổ mới) quan sát thấy GPT‑5.2 thể hiện khả năng suy luận dài hạn và hiệu suất kích hoạt công cụ hàng đầu. Databricks(mở trong cửa sổ mới), Hex(mở trong cửa sổ mới) và Triple Whale(mở trong cửa sổ mới) nhận thấy GPT‑5.2 xuất sắc trong các nhiệm vụ khoa học dữ liệu vận hành bởi tác nhân và phân tích tài liệu. Cognition(mở trong cửa sổ mới), Warp(mở trong cửa sổ mới), Charlie Labs(mở trong cửa sổ mới), JetBrains(mở trong cửa sổ mới) và Augment Code(mở trong cửa sổ mới) cho biết GPT‑5.2 mang lại hiệu suất mã hóa tiên tiến hàng đầu, với những cải tiến có thể đo lường được trong các lĩnh vực như mã hóa tương tác, đánh giá mã và phát hiện lỗi.
Trên ChatGPT, GPT‑5.2 Instant, Thinking và Pro sẽ bắt đầu được triển khai từ hôm nay, bắt đầu với các gói trả phí. Trong API, các bản này hiện có sẵn cho tất cả các nhà phát triển.
Nói chung, GPT‑5.2 mang lại những cải tiến đáng kể về trí tuệ tổng quát, khả năng hiểu ngữ cảnh dài, chủ động chọn và kích hoạt công cụ và khả năng nhận diện hình ảnh—giúp thực hiện các nhiệm vụ phức tạp, thực tế từ đầu đến cuối tốt hơn bất kỳ mô hình nào trước đây.
GPT‑5.2 Thinking là mô hình tốt nhất để sử dụng chuyên nghiệp và thực tế. Trên GDPval, một công cụ đánh giá đo lường các nhiệm vụ tri thức được xác định rõ ràng trong 44 ngành nghề, GPT‑5.2 Thinking thiết lập một điểm số tiên tiến mới và là mô hình đầu tiên của chúng tôi hoạt động ở mức độ chuyên gia con người hoặc cao hơn. Cụ thể, theo các giám khảo chuyên gia, GPT‑5.2 Thinking đánh bại hoặc ngang bằng với các chuyên gia hàng đầu trong ngành trong 70,9% các so sánh về nhiệm vụ công việc kiến thức trên GDPval, theo đánh giá của các chuyên gia nhân loại. Các nhiệm vụ này bao gồm việc tạo các bài thuyết trình, bảng tính và các tài liệu khác. GPT‑5.2 Thinking tạo ra các kết quả đầu ra cho các nhiệm vụ GDPval với tốc độ nhanh hơn >11 lần và chi phí <1% so với các chuyên gia, cho thấy rằng khi kết hợp với sự giám sát của con người, GPT‑5.2 có thể hỗ trợ công việc chuyên nghiệp. Ước tính tốc độ và chi phí dựa trên các chỉ số lịch sử; tốc độ trong ChatGPT có thể thay đổi.
Trong GDPval, các mô hình cố gắng thực hiện công việc kiến thức được xác định rõ ràng, bao gồm 44 nghề nghiệp từ 9 ngành hàng đầu đóng góp vào GDP của Hoa Kỳ. Các nhiệm vụ yêu cầu sản phẩm công việc thực tế như bản trình bày bán hàng, bảng tính kế toán, lịch trình chăm sóc khẩn cấp, hồ sơ thuế, sơ đồ sản xuất, hoặc video ngắn. Trong ChatGPT, GPT‑5.2 Thinking có những công cụ mới mà GPT‑5 Thinking không có.
Khi đánh giá một sản phẩm đầu ra đặc biệt tốt, một giám khảo của GDPval đã nhận xét, "Đây là một bước nhảy vọt đáng chú ý và thú vị về chất lượng đầu ra... [nó] dường như được thực hiện bởi một công ty chuyên nghiệp với đội ngũ nhân viên, và có bố cục được thiết kế rất tốt cùng với lời khuyên cho cả hai sản phẩm, mặc dù với một sản phẩm chúng tôi vẫn còn một số lỗi nhỏ cần sửa chữa."
Ngoài ra, trong tiêu chuẩn nội bộ của chúng tôi về các nhiệm vụ mô hình hóa bảng tính của chuyên viên phân tích ngân hàng đầu tư cấp dưới—chẳng hạn như lập mô hình ba báo cáo cho một công ty Fortune 500 với định dạng và trích dẫn phù hợp, hoặc xây dựng mô hình mua lại bằng đòn bẩy cho một giao dịch rút niêm yết—điểm trung bình của GPT‑5.2 Thinking cho mỗi nhiệm vụ cao hơn 9,3% so với GPT‑5.1. tăng từ 59,1% lên 68,4%.
Các so sánh song song cho thấy sự cải tiến về độ tinh vi và định dạng trong bảng tính và trang trình chiếu được tạo bởi GPT‑5.2 Thinking:

Lời nhắc: Tạo một mô hình lập kế hoạch lực lượng lao động: tổng số nhân sự, kế hoạch tuyển dụng, tỷ lệ nghỉ việc, và tác động đến ngân sách. Bao gồm các phòng ban kỹ thuật, tiếp thị, pháp lý và bán hàng.
Để sử dụng các khả năng bảng tính và trình bày mới trong ChatGPT, bạn phải có một gói đăng ký trả phí và chọn GPT‑5.2 Thinking hoặc Pro. Với các yêu cầu phức tạp, hệ thống có thể mất vài phút để hoàn thành bản dựng.
GPT‑5.2 Thinking thiết lập một tiêu chuẩn tiên tiến mới với 55,6% trên SWE-bench Pro, một đánh giá nghiêm ngặt về kỹ thuật phần mềm thực tế. Không giống như SWE-bench Đã xác minh, chỉ kiểm tra Python, SWE-bench Pro kiểm tra bốn ngôn ngữ và nhằm mục đích chống nhiễm bẩn, thách thức, đa dạng và có liên quan đến công nghiệp hơn.
Trong SWE-bench Pro(mở trong cửa sổ mới), một mô hình được cung cấp một kho lưu trữ mã và phải tạo ra một bản vá để giải quyết một nhiệm vụ kỹ thuật phần mềm thực tế.
Trên SWE-bench đã xác minh (không được hiển thị), điểm của GPT‑5.2 Thinking của chúng tôi đạt mức cao mới là 80%.
Đối với sử dụng chuyên nghiệp hàng ngày, nó biến thành một mô hình có thể gỡ lỗi mã sản xuất một cách đáng tin cậy hơn, thực hiện các yêu cầu tính năng, tái cấu trúc các cơ sở mã lớn và triển khai các bản sửa lỗi từ đầu đến cuối với ít sự can thiệp thủ công hơn.
GPT‑5.2 Thinking cũng giỏi hơn trong kỹ thuật phần mềm phía người dùng so với GPT‑5.1 Thinking. Những người thử nghiệm ban đầu nhận thấy nó mạnh mẽ hơn đáng kể trong phát triển tương tác phía người dùng và công việc UI phức tạp hoặc không thông thường—đặc biệt là liên quan đến các yếu tố 3D—khiến nó trở thành đối tác mạnh mẽ hàng ngày cho các kỹ sư trên toàn bộ hệ thống. Hãy xem một vài ví dụ về những gì có thể được tạo ra từ một lời nhắc duy nhất:
Lời nhắc: Tạo một ứng dụng một trang trong một tệp HTML duy nhất với các yêu cầu sau:
- Tên: Mô Phỏng Sóng Đại Dương
- Mục tiêu: Hiển thị sóng động chân thực.
- Tính năng: Thay đổi tốc độ gió, chiều cao sóng, ánh sáng.
- Giao diện người dùng nên êm dịu và chân thực.
Những người thử nghiệm ban đầu đã chia sẻ phản hồi của họ về năng lực viết mã của GPT‑5.2:
"GPT-5.2 đại diện cho bước nhảy vọt lớn nhất của các mô hình GPT trong lập trình chủ động kể từ GPT-5 và là một mô hình lập trình SOTA trong tầm giá của nó. Việc nâng cấp phiên bản không thể hiện hết sự nhảy vọt về trí tuệ. Chúng tôi rất hào hứng khi biến mô hình này thành mặc định trên toàn bộ Windsurf và một số khối lượng công việc cốt lõi của Devin."
GPT‑5.2 Thinking ít suy diễn sai hơn GPT‑5.1 Thinking. Trên một tập hợp các truy vấn đã được ẩn danh từ ChatGPT, các phản hồi có lỗi ít phổ biến hơn 38%rel. Đối với các chuyên gia, điều này có nghĩa là ít sai sót hơn khi sử dụng mô hình cho nghiên cứu, viết, phân tích và hỗ trợ ra quyết định—làm cho mô hình trở nên đáng tin cậy hơn cho công việc kiến thức hàng ngày.
Nỗ lực lập luận được đặt ở mức tối đa có sẵn và công cụ tìm kiếm đã được cho phép. Lỗi đã được phát hiện bởi các mô hình khác, mà chính chúng cũng có thể mắc lỗi. Tỷ lệ lỗi ở mức độ tuyên bố thấp hơn nhiều so với tỷ lệ lỗi ở mức độ phản hồi, vì hầu hết các phản hồi chứa nhiều tuyên bố.
Giống như tất cả các mô hình, GPT‑5.2 Thinking không phải hoàn hảo. Đối với điều gì quan trọng, hãy kiểm tra kỹ lưỡng các câu trả lời.
Khả năng tư duy của GPT‑5.2 thiết lập một tiêu chuẩn mới trong suy luận ngữ cảnh dài, đạt được hiệu suất hàng đầu trên OpenAI MRCRv2—một đánh giá kiểm tra khả năng của mô hình trong việc tích hợp thông tin trải rộng trên các tài liệu dài. Trong các nhiệm vụ thực tế như phân tích tài liệu sâu, yêu cầu thông tin liên quan qua hàng trăm nghìn token, GPT‑5.2 Thinking có độ chính xác cao hơn đáng kể so với GPT‑5.1 Thinking. Đặc biệt, đây là mô hình đầu tiên mà chúng tôi thấy đạt độ chính xác gần 100% trên biến thể MRCR 4-needle (với tối đa 256k token).
Về mặt thực tiễn, điều này cho phép các chuyên gia sử dụng GPT‑5.2 để làm việc với các tài liệu dài—như báo cáo, hợp đồng, bài nghiên cứu, bản ghi, và các dự án nhiều tệp—trong khi vẫn duy trì sự mạch lạc và chính xác trên hàng trăm nghìn token. Điều này khiến GPT‑5.2 đặc biệt thích hợp cho phân tích sâu, tổng hợp và quy trình làm việc phức tạp từ nhiều nguồn.
Trong OpenAI-MRCR(mở trong cửa sổ mới) v2 (giải pháp đồng tham chiếu đa vòng), nhiều yêu cầu đoạn thông tin ‘kim nhỏ’ giống hệt nhau được chèn vào những ‘đống rơm’ văn bản rất dài gồm các yêu cầu và phản hồi tương tự. Mô hình được yêu cầu truy xuất đúng phản hồi của chiếc kim thứ n. Phiên bản 2 của bộ đánh giá đã sửa khoảng 5% nhiệm vụ vốn có giá trị đáp án chuẩn không chính xác. Phiên bản 2 của đánh giá sửa khoảng 5% các nhiệm vụ có giá trị thực tế không chính xác. Tỷ lệ khớp trung bình đo lường mức độ khớp chuỗi trung bình giữa phản hồi của mô hình và câu trả lời đúng. Các điểm tại mức 256k token đầu vào đã lưu vào bộ nhớ tạm tối đa thể hiện giá trị trung bình trên khoảng 128k–256k token đầu vào đã lưu vào bộ nhớ tạm, v.v. Ở đây, 256k đại diện cho 256 * 1.024 = 262.114 token. Nỗ lực suy luận được đặt ở mức tối đa có sẵn.
Đối với các nhiệm vụ hưởng lợi từ tư duy vượt ra ngoài khuôn khổ ngữ cảnh tối đa, GPT‑5.2` Thinking tương thích với endpoint Responses /compact mới của chúng tôi, giúp mở rộng khuôn khổ ngữ cảnh hiệu quả của mô hình này. Điều này cho phép GPT‑5.2 Thinking xử lý các quy trình làm việc nặng về công cụ và kéo dài, mà nếu không sẽ bị giới hạn bởi độ dài ngữ cảnh. Đọc thêm trong tài liệu API(mở trong cửa sổ mới) của chúng tôi.
GPT‑5.2 Thinking là mô hình nhận diện hình ảnh mạnh nhất của chúng tôi từ trước đến nay, giảm tỷ lệ lỗi khoảng một nửa trong việc suy luận biểu đồ và hiểu giao diện phần mềm.
Đối với hoạt động sử dụng chuyên nghiệp hàng ngày, điều này có nghĩa là mô hình có thể diễn giải chính xác hơn các bảng điều khiển, ảnh chụp màn hình sản phẩm, sơ đồ kỹ thuật và báo cáo trực quan—hỗ trợ các quy trình làm việc trong tài chính, vận hành, kỹ thuật, thiết kế và hỗ trợ khách hàng, nơi thông tin trực quan đóng vai trò trung tâm.
Trong CharXiv Reasoning(mở trong cửa sổ mới), các mô hình trả lời câu hỏi về biểu đồ trực quan từ các bài báo khoa học. Một công cụ Python đã được kích hoạt và hoạt động lập luận được đặt ở mức tối đa.
Trong ScreenSpot-Pro(mở trong cửa sổ mới), các mô hình phải suy luận về ảnh chụp màn hình độ phân giải cao của giao diện đồ họa người dùng từ nhiều môi trường chuyên nghiệp khác nhau. Một công cụ Python đã được cho phép và nỗ lực suy luận được đặt ở mức tối đa. Nếu không có công cụ Python, điểm số sẽ thấp hơn nhiều. Chúng tôi khuyến nghị cho phép công cụ Python trong các nhiệm vụ thị giác như thế này.
So với các mô hình trước đây, GPT‑5.2 Thinking có khả năng nắm bắt mạnh mẽ hơn về cách thức các yếu tố được định vị trong một hình ảnh, điều này hỗ trợ trong các nhiệm vụ mà bố cục tương đối đóng vai trò then chốt trong việc giải quyết vấn đề. Trong ví dụ dưới đây, chúng tôi yêu cầu mô hình xác định các thành phần trong ảnh đầu vào (trong trường hợp này là một bo mạch chủ) và trả về các nhãn với các hộp giới hạn xấp xỉ. Ngay cả trên một hình ảnh chất lượng thấp, GPT‑5.2 xác định các vùng chính và đặt các hộp gần đúng với vị trí thực của từng thành phần, trong khi GPT‑5.1 chỉ gắn nhãn một vài phần và thể hiện sự hiểu biết yếu hơn nhiều về cách sắp xếp không gian của chúng.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking đạt trạng thái tiên tiến mới với 98,7% trên Tau2-bench Telecom, thể hiện khả năng sử dụng công cụ một cách đáng tin cậy trong các nhiệm vụ dài và nhiều lượt.
Đối với các trường hợp sử dụng nhạy cảm với độ trễ, GPT‑5.2 Thinking cũng hoạt động tốt hơn nhiều trong khâu lập luận.effort=’none’, vượt trội đáng kể so với GPT‑5.1 và GPT‑4.1.
Trong τ2-bench(mở trong cửa sổ mới), các mô hình sử dụng công cụ để hoàn thành các nhiệm vụ hỗ trợ khách hàng trong một tương tác nhiều lượt với một người dùng mô phỏng. Đối với miền viễn thông, chúng tôi đã bao gồm một hướng dẫn ngắn, hữu ích chung trong lời nhắc hệ thống để cải thiện hiệu suất. Chúng tôi loại trừ tập hợp con Hàng không vì chất lượng chấm điểm thực tế thấp hơn.
Đối với các chuyên gia, điều này chuyển thành các quy trình làm việc mạnh mẽ từ đầu đến cuối—chẳng hạn như giải quyết các trường hợp hỗ trợ khách hàng, lấy dữ liệu từ nhiều hệ thống, thực hiện phân tích và tạo ra các kết quả cuối cùng với ít tình trạng gián đoạn giữa các bước.
Ví dụ, khi bạn đặt một câu hỏi dịch vụ khách hàng phức tạp cần giải quyết nhiều bước, mô hình có thể điều phối hiệu quả hơn một quy trình công việc đầy đủ qua nhiều tác nhân. Trong trường hợp dưới đây, một du khách báo cáo chuyến bay bị hoãn, lỡ chuyến nối tiếp, phải ở lại qua đêm tại New York, và có yêu cầu về chỗ ngồi y tế. GPT‑5.2 quản lý toàn bộ chuỗi nhiệm vụ—đặt lại chỗ, chỗ ngồi hỗ trợ đặc biệt, và bồi thường—mang đến kết quả hoàn chỉnh hơn so với GPT‑5.1.
GPT‑5.1

GPT‑5.2

Một trong những hy vọng của chúng tôi đối với AI là nó sẽ đẩy nhanh nghiên cứu khoa học vì lợi ích của mọi người. Để đạt được điều này, chúng tôi đã làm việc và lắng nghe các nhà khoa học để xem AI có thể tăng tốc công việc của họ như thế nào, và tháng trước chúng tôi đã chia sẻ một số thí nghiệm hợp tác ban đầu tại đây.
Chúng tôi tin tưởng GPT‑5.2 Pro và GPT‑5.2 Thinking là những mô hình tư duy tốt nhất trên thế giới để hỗ trợ và thúc đẩy các nhà khoa học. Trên GPQA Diamond, tiêu chuẩn đánh giá Hỏi & Đáp ở cấp độ sau đại học không thể tra cứu trên Google, GPT‑5.2 Pro đạt 93,2%, theo sát là GPT‑5.2 Thinking ở mức 92,4%.
Trong GPQA Diamond(mở trong cửa sổ mới), các mô hình trả lời các câu hỏi trắc nghiệm về vật lý, hóa học và sinh học. Không có công cụ nào được cho phép và nỗ lực suy luận được đặt ở mức tối đa.
Trên FrontierMath (Cấp độ 1–3), một đánh giá về toán học trình độ chuyên gia, GPT‑5.2 Thinking đã thiết lập một tiêu chuẩn mới, giải quyết 40,3% các vấn đề.
Trong FrontierMath(mở trong cửa sổ mới), các mô hình giải quyết các vấn đề toán học ở cấp độ chuyên gia. Một công cụ Python đã được cho phép và nỗ lực suy luận được đặt ở mức tối đa.
Chúng ta đang bắt đầu thấy các mô hình AI thúc đẩy tiến bộ trong toán học và khoa học một cách có ý nghĩa và rõ ràng. Ví dụ, trong công việc gần đây với GPT‑5.2 Pro, các nhà nghiên cứu đã khám phá một câu hỏi mở trong lý thuyết học thống kê. Trong một bối cảnh hẹp và được xác định rõ, mô hình đã đề xuất một chứng minh mà sau đó được các tác giả xác minh và xem xét với các chuyên gia bên ngoài, minh họa cách các mô hình tiên tiến có thể hỗ trợ nghiên cứu toán học dưới sự giám sát chặt chẽ của con người.
Trên ARC-AGI-1 (Đã xác minh), một tiêu chuẩn được thiết kế để đo lường khả năng suy luận tổng quát, GPT‑5.2 là mô hình đầu tiên vượt qua ngưỡng 90%, cải thiện từ 87% của o3‑preview năm ngoái trong khi giảm chi phí để đạt được hiệu suất đó khoảng 390 lần.
Trên ARC-AGI-2 (đã xác minh), điều này làm tăng độ khó và cô lập tốt hơn khả năng suy luận linh hoạt, GPT‑5.2 Thinking đạt được một trạng thái tiến bộ mới đối với các mô hình chuỗi tư duy, đạt 52,9%. GPT‑5.2 Pro hoạt động thậm chí tốt hơn, đạt 54,2%, mở rộng thêm khả năng của mô hình trong việc suy luận qua các vấn đề mới và trừu tượng.
Những cải tiến trong các đánh giá này phản ánh khả năng của GPT‑5.2. khả năng suy luận nhiều bước mạnh mẽ hơn, độ chính xác định lượng cao hơn và giải quyết vấn đề đáng tin cậy hơn trong các nhiệm vụ kỹ thuật phức tạp.
Đây là những gì mà những người thử nghiệm ban đầu của chúng tôi nói về GPT‑5.2:
"GPT-5.2 mở ra một thay đổi hoàn toàn về kiến trúc cho chúng tôi. Chúng tôi đã thu gọn một hệ thống đa tác nhân dễ vỡ thành một siêu tác nhân duy nhất với hơn 20 công cụ. Điều tuyệt vời nhất là, nó hoạt động hiệu quả. Tác nhân lớn này nhanh hơn, thông minh hơn và dễ bảo trì gấp 100 lần. Chúng tôi đang thấy độ trễ giảm đáng kể, khả năng kích hoạt công cụ mạnh mẽ hơn nhiều, và chúng tôi không còn cần những lời nhắc hệ thống phức tạp vì 5.2 sẽ thực thi một cách gọn gàng chỉ với một lời nhắc đơn giản, một dòng. Cảm giác cứ như phép thuật không vậy.”
Trong ChatGPT, người dùng sẽ nhận thấy GPT‑5.2 sử dụng hàng ngày sẽ tốt hơn—có cấu trúc hơn, đáng tin cậy hơn và vẫn thú vị khi trò chuyện.
GPT‑5.2 Instant là công cụ nhanh chóng và mạnh mẽ dành cho công việc và học tập hàng ngày, với những cải tiến rõ rệt trong các câu hỏi tìm kiếm thông tin, hướng dẫn cách làm và hướng dẫn từng bước, viết kỹ thuật và dịch thuật, dựa trên giọng điệu ấm áp hơn được giới thiệu trong GPT‑5.1 Instant. Những người thử nghiệm ban đầu đặc biệt lưu ý đến các giải thích rõ ràng hơn, làm nổi bật thông tin chính ngay từ đầu.
GPT‑5.2 Thinking được thiết kế để làm việc sâu hơn, giúp người dùng giải quyết các nhiệm vụ phức tạp hơn với độ hoàn thiện cao hơn—đặc biệt là trong việc lập trình, tóm tắt tài liệu dài, trả lời câu hỏi về các tệp đã tải lên, xử lý từng bước các bài toán và logic, và hỗ trợ lập kế hoạch và ra quyết định với cấu trúc rõ ràng và chi tiết hữu ích hơn.
GPT‑5.2 Pro là lựa chọn thông minh nhất và đáng tin cậy nhất của chúng tôi cho các câu hỏi khó, nơi mà câu trả lời chất lượng cao hơn đáng để chờ đợi, với các thử nghiệm ban đầu cho thấy có ít lỗi nghiêm trọng hơn và hiệu suất mạnh mẽ hơn trong các lĩnh vực phức tạp như lập trình.
GPT‑5.2 phát triển dựa trên nghiên cứu hoàn thành an toàn mà chúng tôi đã giới thiệu với GPT‑5, giúp mô hình học cách đưa ra câu trả lời hữu ích nhất trong khi vẫn duy trì các ranh giới an toàn.
Với bản phát hành này, chúng tôi tiếp tục công việc củng cố phản hồi của mô hình trong các cuộc trò chuyện nhạy cảm, với những cải tiến đáng kể trong cách thức chúng phản hồi các lời nhắc chỉ ra dấu hiệu tự tử hoặc tự hại bản thân, căng thẳng về sức khỏe tâm thần, hoặc tình trạng phụ thuộc cảm xúc vào mô hình. Những can thiệp có mục tiêu này đã dẫn đến việc giảm các phản hồi không mong muốn trong cả GPT‑5.2. Instant và GPT‑5.2 Thinking so với các mô hình GPT‑5.1, GPT‑5 Instant và Thinking. Có thể tìm hiểu thông tin chi tiết bổ sung trong thẻ hệ thống.
Chúng tôi đang trong giai đoạn đầu triển khai mô hình dự đoán độ tuổi để có thể tự động áp dụng các biện pháp bảo vệ nội dung cho người dùng dưới 18 tuổi, nhằm hạn chế truy cập vào nội dung nhạy cảm. Điều này dựa trên cách tiếp cận hiện có của chúng tôi đối với những người dùng mà chúng tôi biết là dưới 18 tuổi và kiểm soát của phụ huynh.
GPT‑5.2 là một bước trong chuỗi cải tiến liên tục, và chúng tôi còn rất nhiều việc phải làm. Mặc dù phiên bản này mang lại những cải tiến đáng kể về trí tuệ và hiệu suất làm việc, chúng tôi biết rằng vẫn có những lĩnh vực mà mọi người mong muốn nhiều hơn. Trong ChatGPT, chúng tôi đang làm việc để giải quyết các vấn đề đã biết như từ chối quá mức, đồng thời tiếp tục nâng cao tiêu chuẩn an toàn và độ tin cậy tổng thể. Những thay đổi này rất phức tạp, và chúng tôi đang tập trung vào việc thực hiện chúng một cách chính xác.
GPT‑5.2 Instant | GPT‑5.1 Instant | GPT‑5.2 | GPT‑5.1 Thinking | |
Sức khỏe tâm thần | 0,995 | 0,883 | 0,915 | 0,684 |
Phụ thuộc cảm xúc | 0,938 | 0,945 | 0,955 | 0,785 |
Tự làm hại bản thân | 0,938 | 0,925 | 0,963 | 0,937 |
Trong ChatGPT, chúng tôi sẽ bắt đầu triển khai GPT‑5.2 (Instant, Thinking, và Pro) từ hôm nay, bắt đầu với các gói trả phí (Plus, Pro, Business, Enterprise). Chúng tôi đang dần triển khai GPT‑5.2 để giữ cho ChatGPT hoạt động mượt mà và đáng tin cậy nhất có thể; nếu bạn không thấy nó ngay lúc đầu, vui lòng thử lại sau. Trong ChatGPT, GPT‑5.1 sẽ vẫn được cung cấp cho người dùng trả phí trong ba tháng dưới các mô hình cũ, sau đó chúng tôi sẽ ngừng cung cấp GPT‑5.1.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Trong nền tảng API của chúng tôi, GPT‑5.2 Thinking hiện đã được cung cấp trong API Phản hồi và API Hoàn thiện Hội thoại dưới dạng gpt-5.2, và GPT‑5.2 Instant dưới dạng gpt-5.2-chat-latest. GPT‑5.2 Pro được cung cấp trong API Phản hồi dưới dạng gpt-5.2-pro. Các nhà phát triển hiện có thể đặt tham số suy luận trong GPT‑5.2 Pro, và cả GPT‑5.2 Pro và GPT‑5.2 Thinking nay đã hỗ trợ nỗ lực lý luận thứ năm mới của xhigh, cho các nhiệm vụ mà chất lượng là quan trọng nhất.
GPT‑5.2 có giá 1,75 USD/1 triệu token đầu vào và 14 USD/1 triệu token đầu ra, với mức giảm giá 90% cho đầu vào đã lưu vào bộ nhớ tạm. Trong nhiều đánh giá về tính tự chủ, chúng tôi nhận thấy rằng mặc dù GPT‑5.2 có chi phí cho mỗi token cao hơn, nhưng chi phí để đạt được một mức độ chất lượng nhất định lại rẻ hơn nhờ vào hiệu quả token cao hơn của GPT‑5.2.
Mặc dù mức giá đăng ký ChatGPT vẫn giữ nguyên, trong API, GPT‑5.2 có giá cao hơn mỗi token so với GPT‑5.1 vì nó là một mô hình mạnh mẽ hơn. Nó vẫn có giá thấp hơn các mô hình tiên tiến khác, vì vậy mọi người có thể tiếp tục sử dụng nó sâu trong công việc hàng ngày và các ứng dụng cốt lõi của họ.
Mô hình | Đầu vào | Đầu vào lưu trong bộ nhớ tạm | Đầu ra |
gpt-5.2 / gpt-5.2-chat-latest | 1.75 USD | 0,175 USD | 14 USD |
gpt-5.2-pro | 21 USD | - | 168 USD |
gpt-5.1 / gpt-5.1-chat-latest | 1,25 USD | 0,125 USD | 10 USD |
gpt-5-pro | 15 USD | - | 120 USD |
Chúng tôi hiện không có kế hoạch ngừng sử dụng GPT‑5.1, GPT‑5, hoặc GPT‑4.1 trong API và sẽ thông báo trước bất kỳ kế hoạch ngừng hỗ trợ nào với thời gian thông báo đầy đủ dành cho các nhà phát triển. Mặc dù GPT‑5.2 sẽ hoạt động tốt ngay khi ra mắt trong Codex, chúng tôi kỳ vọng sẽ phát hành một phiên bản GPT‑5.2 được tối ưu hóa cho Codex trong vài tuần tới.
GPT‑5.2 được xây dựng với sự hợp tác của các đối tác lâu năm của chúng tôi là NVIDIA và Microsoft. Các trung tâm dữ liệu Azure và GPU NVIDIA, bao gồm H100, H200 và GB200-NVL72, là nền tảng cho cơ sở hạ tầng huấn luyện quy mô lớn của OpenAI, thúc đẩy những tiến bộ đáng kể trong trí thông minh của mô hình. Cùng nhau, sự hợp tác này cho phép chúng tôi mở rộng năng lực tính toán một cách tự tin và đưa các mô hình mới ra thị trường nhanh chóng hơn.
Sau đây là báo cáo về điểm chuẩn toàn diện dành cho GPT‑5.2. Thiking, cùng với một tập hợp con dành cho GPT‑5.2 Pro
Chuyên gia
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Mã hóa
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Sự thật
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Ngữ cảnh dài
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Tầm nhìn
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Sử dụng công cụ
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Học thuật
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Lập luận trừu tượng
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Các mô hình đã được chạy với nỗ lực suy luận tối đa khả dụng trong API của chúng tôi (siêu cao đối với GPT‑5.2 Thinking & Pro, và cao cho GPT‑5.1 Thinking), ngoại trừ các đánh giá chuyên nghiệp, nơi mà GPT‑5.2 Thinking được thực hiện với nỗ lực dồn lực suy luận, mức tối đa có sẵn trong ChatGPT Pro. Các bài kiểm tra hiệu suất đã được thực hiện trong môi trường nghiên cứu, điều này có thể cung cấp kết quả hơi khác so với ChatGPT trong môi trường sản xuất trong một số trường hợp.
* Đối với SWE-Lancer, chúng tôi bỏ qua 40/237 vấn đề không chạy được trên hạ tầng của chúng tôi.


