Thúc đẩy khoa học và toán học bằng GPT‑5.2
GPT‑5.2 là mô hình mạnh nhất của chúng tôi từ trước đến nay hoạt động trong lĩnh vực toán học và khoa học.
Một trong những hy vọng của chúng tôi về mô hình AI mạnh mẽ là nó sẽ thúc đẩy nhanh chóng nghiên cứu khoa học vì lợi ích của tất cả mọi người, hỗ trợ các nhà nghiên cứu khám phá nhiều ý tưởng hơn, kiểm tra nhanh hơn và biến những phát hiện thành tác động.
Trong năm qua, chúng tôi đã làm việc chặt chẽ với các nhà khoa học trong các lĩnh vực toán học, vật lý, sinh học và khoa học máy tính để hiểu rõ những mặt nào AI có thể hỗ trợ—và mặt nào vẫn còn hạn chế. Tháng trước, chúng tôi đã xuất bản một bài báo tổng hợp các nghiên cứu điển hình ban đầu trong các lĩnh vực toán học, vật lý, sinh học, khoa học máy tính, thiên văn học và khoa học vật liệu, trong đó GPT‑5 đã hỗ trợ các nhà nghiên cứu cho thấy cách GPT‑5 đã bắt đầu đóng góp vào công việc khoa học thực tế. Với GPT‑5.2, chúng tôi bắt đầu thấy những lợi ích đó trở nên nhất quán và đáng tin cậy hơn.
GPT‑5.2 Pro và GPT‑5.2 Thinking là những mô hình mạnh nhất của chúng tôi cho đến nay hoạt động trong lĩnh vực khoa học và toán học.
Khả năng suy luận toán học vững chắc là nền tảng cho độ tin cậy trong hoạt động khoa học và kỹ thuật. Nó cho phép các mô hình tuân theo logic nhiều bước, duy trì sự nhất quán về số lượng và tránh các lỗi nhỏ có thể tích lũy trong các phân tích thực tế—từ mô phỏng và thống kê đến dự báo và mô hình hóa. Những cải tiến dựa trên các tiêu chuẩn như FrontierMath không chỉ phản ánh một kỹ năng hẹp, mà còn thể hiện khả năng suy luận và trừu tượng hóa tổng quát mạnh mẽ hơn, những khả năng này được áp dụng trực tiếp vào các quy trình khoa học như lập trình, phân tích dữ liệu và thiết kế thí nghiệm.
Những khả năng này cũng gắn liền chặt chẽ với tiến bộ hướng tới trí tuệ tổng quát. Một hệ thống có thể suy luận một cách đáng tin cậy thông qua khả năng trừu tượng, duy trì tính nhất quán qua các chuỗi tư duy dài, và khái quát hóa qua các miền đang thể hiện những đặc điểm nền tảng của AGI—không phải là những mẹo cụ thể cho từng nhiệm vụ, mà là những kỹ năng suy luận rộng rãi, có thể chuyển giao, quan trọng trong khoa học, kỹ thuật và ra quyết định trong thế giới thực.
Chúng tôi tin tưởng GPT‑5.2 Pro và GPT‑5.2 Thinking là những mô hình tư duy tốt nhất trên thế giới để hỗ trợ và thúc đẩy các nhà khoa học. Trên GPQA Diamond, tiêu chuẩn đánh giá Hỏi & Đáp ở cấp độ sau đại học không thể tra cứu trên Google, GPT‑5.2 Pro đạt 93,2%, theo sát là GPT‑5.2 Thinking ở mức 92,4%.
Trong GPQA Diamond(mở trong cửa sổ mới), các mô hình trả lời câu hỏi trắc nghiệm về vật lý, hóa học và sinh học. Không có công cụ nào được kích hoạt và năng lực suy luận được đặt ở mức tối đa.
Trên FrontierMath (Tier 1–3), một đánh giá về toán học trình độ chuyên gia, GPT‑5.2 Thinking đã thiết lập một tiêu chuẩn mới, giải quyết 40,3% các vấn đề.
Trong FrontierMath(mở trong cửa sổ mới), các mô hình giải các bài toán học ở cấp độ chuyên gia. Một công cụ Python đã được kích hoạt và năng lực suy luận được đặt ở mức tối đa.
Nghiên cứu tình huống
Kết quả này gợi ý một hướng đi hữu ích về cách thức các hệ thống AI có thể hỗ trợ nghiên cứu khoa học, đặc biệt là trong các các miền có nền tảng lý thuyết tiên đề như toán học và khoa học máy tính lý thuyết. Trong những bối cảnh như thế này, các mô hình tiên phong có thể giúp khám phá các chứng minh, kiểm tra các giả thuyết và xác định các mối liên kết mà nếu không sẽ đòi hỏi nỗ lực đáng kể của con người mới phát hiện được.
Đồng thời, các hệ thống này không phải là những nhà nghiên cứu độc lập. Đánh giá của chuyên gia, xác minh và hiểu biết về lĩnh vực vẫn là điều cần thiết. Ngay cả những mô hình có khả năng cao cũng có thể mắc lỗi hoặc dựa vào những giả định không được nêu ra. Nhưng chúng cũng có thể tạo ra các lập luận chi tiết, có cấu trúc mà đáng để con người nghiên cứu và tinh chỉnh cẩn thận. Do đó, để đạt được tiến bộ đáng tin cậy với AI, cần có các quy trình làm việc đảm bảo sự xác thực, tính minh bạch và sự hợp tác luôn được duy trì.
Khi được xem như một nghiên cứu điển hình, kết quả này minh họa một phương thức thực hành nghiên cứu mới nổi. Các mô hình như GPT‑5.2 có thể đóng vai trò là công cụ hỗ trợ lý luận toán học và thúc đẩy khám phá giai đoạn đầu, trong khi trách nhiệm về tính chính xác, diễn giải và ngữ cảnh vẫn thuộc về các nhà nghiên cứu. Nếu được sử dụng cẩn thận, các hệ thống như vậy có thể giúp hợp lý hóa các khía cạnh quan trọng của công việc lý thuyết mà không làm mất đi vai trò trung tâm của sự phán đoán của con người trong nghiên cứu khoa học.


