Bỏ qua nội dung chính
OpenAI

Thúc đẩy khoa học và toán học bằng GPT‑5.2

GPT‑5.2 là mô hình mạnh nhất của chúng tôi từ trước đến nay hoạt động trong lĩnh vực toán học và khoa học.

Đang tải…

Một trong những hy vọng của chúng tôi về mô hình AI mạnh mẽ là nó sẽ thúc đẩy nhanh chóng nghiên cứu khoa học vì lợi ích của tất cả mọi người, hỗ trợ các nhà nghiên cứu khám phá nhiều ý tưởng hơn, kiểm tra nhanh hơn và biến những phát hiện thành tác động. 

Trong năm qua, chúng tôi đã làm việc chặt chẽ với các nhà khoa học trong các lĩnh vực toán học, vật lý, sinh học và khoa học máy tính để hiểu rõ những mặt nào AI có thể hỗ trợ—và mặt nào vẫn còn hạn chế. Tháng trước, chúng tôi đã xuất bản một bài báo tổng hợp các nghiên cứu điển hình ban đầu trong các lĩnh vực toán học, vật lý, sinh học, khoa học máy tính, thiên văn học và khoa học vật liệu, trong đó GPT‑5 đã hỗ trợ các nhà nghiên cứu cho thấy cách GPT‑5 đã bắt đầu đóng góp vào công việc khoa học thực tế. Với GPT‑5.2, chúng tôi bắt đầu thấy những lợi ích đó trở nên nhất quán và đáng tin cậy hơn.

Hiệu suất mạnh mẽ hơn ở những lĩnh vực coi độ chính xác là điều quan trọng.

GPT‑5.2 Pro và GPT‑5.2 Thinking là những mô hình mạnh nhất của chúng tôi cho đến nay hoạt động trong lĩnh vực khoa học và toán học.

Khả năng suy luận toán học vững chắc là nền tảng cho độ tin cậy trong hoạt động khoa học và kỹ thuật. Nó cho phép các mô hình tuân theo logic nhiều bước, duy trì sự nhất quán về số lượng và tránh các lỗi nhỏ có thể tích lũy trong các phân tích thực tế—từ mô phỏng và thống kê đến dự báo và mô hình hóa. Những cải tiến dựa trên các tiêu chuẩn như FrontierMath không chỉ phản ánh một kỹ năng hẹp, mà còn thể hiện khả năng suy luận và trừu tượng hóa tổng quát mạnh mẽ hơn, những khả năng này được áp dụng trực tiếp vào các quy trình khoa học như lập trình, phân tích dữ liệu và thiết kế thí nghiệm.

Những khả năng này cũng gắn liền chặt chẽ với tiến bộ hướng tới trí tuệ tổng quát. Một hệ thống có thể suy luận một cách đáng tin cậy thông qua khả năng trừu tượng, duy trì tính nhất quán qua các chuỗi tư duy dài, và khái quát hóa qua các miền đang thể hiện những đặc điểm nền tảng của AGI—không phải là những mẹo cụ thể cho từng nhiệm vụ, mà là những kỹ năng suy luận rộng rãi, có thể chuyển giao, quan trọng trong khoa học, kỹ thuật và ra quyết định trong thế giới thực.

Chúng tôi tin tưởng GPT‑5.2 Pro và GPT‑5.2 Thinking là những mô hình tư duy tốt nhất trên thế giới để hỗ trợ và thúc đẩy các nhà khoa học. Trên GPQA Diamond, tiêu chuẩn đánh giá Hỏi & Đáp ở cấp độ sau đại học không thể tra cứu trên Google, GPT‑5.2 Pro đạt 93,2%, theo sát là GPT‑5.2 Thinking ở mức 92,4%.

Trong GPQA Diamond(mở trong cửa sổ mới), các mô hình trả lời câu hỏi trắc nghiệm về vật lý, hóa học và sinh học. Không có công cụ nào được kích hoạt và năng lực suy luận được đặt ở mức tối đa.

Trên FrontierMath (Tier 1–3), một đánh giá về toán học trình độ chuyên gia, GPT‑5.2 Thinking đã thiết lập một tiêu chuẩn mới, giải quyết 40,3% các vấn đề.

Trong FrontierMath(mở trong cửa sổ mới), các mô hình giải các bài toán học ở cấp độ chuyên gia. Một công cụ Python đã được kích hoạt và năng lực suy luận được đặt ở mức tối đa.

Nghiên cứu tình huống

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(mở trong cửa sổ mới).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Hướng tới tương lai

Kết quả này gợi ý một hướng đi hữu ích về cách thức các hệ thống AI có thể hỗ trợ nghiên cứu khoa học, đặc biệt là trong các các miền có nền tảng lý thuyết tiên đề như toán học và khoa học máy tính lý thuyết. Trong những bối cảnh như thế này, các mô hình tiên phong có thể giúp khám phá các chứng minh, kiểm tra các giả thuyết và xác định các mối liên kết mà nếu không sẽ đòi hỏi nỗ lực đáng kể của con người mới phát hiện được.

Đồng thời, các hệ thống này không phải là những nhà nghiên cứu độc lập. Đánh giá của chuyên gia, xác minh và hiểu biết về lĩnh vực vẫn là điều cần thiết. Ngay cả những mô hình có khả năng cao cũng có thể mắc lỗi hoặc dựa vào những giả định không được nêu ra. Nhưng chúng cũng có thể tạo ra các lập luận chi tiết, có cấu trúc mà đáng để con người nghiên cứu và tinh chỉnh cẩn thận. Do đó, để đạt được tiến bộ đáng tin cậy với AI, cần có các quy trình làm việc đảm bảo sự xác thực, tính minh bạch và sự hợp tác luôn được duy trì.

Khi được xem như một nghiên cứu điển hình, kết quả này minh họa một phương thức thực hành nghiên cứu mới nổi. Các mô hình như GPT‑5.2 có thể đóng vai trò là công cụ hỗ trợ lý luận toán học và thúc đẩy khám phá giai đoạn đầu, trong khi trách nhiệm về tính chính xác, diễn giải và ngữ cảnh vẫn thuộc về các nhà nghiên cứu. Nếu được sử dụng cẩn thận, các hệ thống như vậy có thể giúp hợp lý hóa các khía cạnh quan trọng của công việc lý thuyết mà không làm mất đi vai trò trung tâm của sự phán đoán của con người trong nghiên cứu khoa học.