Các bài nộp First Proof đầu tiên của chúng tôi
Chúng tôi muốn chia sẻ các nỗ lực chứng minh của mình dành cho First Proof, một thử thách toán học kiểm tra liệu AI có thể tạo ra lời chứng minh có thể kiểm chứng cho các bài toán đặc thù theo miền hay không.
Chúng tôi đã chạy một mô hình nội bộ trên tất cả 10 bài toán First Proof(mở trong cửa sổ mới), một thử thách toán học ở cấp độ nghiên cứu được thiết kế để kiểm tra liệu các hệ thống AI có thể tạo ra các nỗ lực chứng minh đúng, có thể kiểm chứng hay không. Không giống như các câu trả lời ngắn hoặc toán học theo kiểu thi đấu, những bài toán này đòi hỏi phải xây dựng các lập luận từ đầu đến cuối trong các lĩnh vực chuyên biệt, và tính đúng đắn rất khó xác định nếu không có sự thẩm định của chuyên gia. Các tác giả của các bài toán First Proof là những chuyên gia hàng đầu trong các lĩnh vực tương ứng của họ, và ít nhất một vài bài toán đã được bỏ ngỏ trong nhiều năm trước khi các tác giả tìm ra lời giải. Một khoa học thuật có sự chồng lấn đáng kể với các lĩnh vực chủ đề có thể giải quyết nhiều vấn đề trong một tuần.
Chúng tôi đã chia sẻ(mở trong cửa sổ mới) các lần thử chứng minh của mình vào Thứ Bảy, ngày 14 tháng 2 năm 2026 lúc 12:00 sáng PT. Dựa trên phản hồi từ các chuyên gia, chúng tôi tin rằng ít nhất năm lần thử chứng minh của mô hình (các bài toán 4, 5, 6, 9 và 10) có khả năng cao là đúng, và một số lần thử khác vẫn đang được xem xét. Ban đầu, chúng tôi tin rằng nỗ lực của chúng tôi cho bài 2 có lẽ là đúng. Dựa trên bình luận chính thức về First Proof và phân tích thêm từ cộng đồng, chúng tôi hiện tin rằng điều đó không chính xác. Chúng tôi rất biết ơn sự tham gia và mong muốn tiếp tục quá trình xem xét. Quý vị có thể tìm thấy toàn bộ các lần thử chứng minh của chúng tôi tại đây(mở trong cửa sổ mới). Bản in trước bao gồm tất cả mười nỗ lực chứng minh, cùng với một phụ lục mới được thêm vào với các mẫu câu lệnh và ví dụ nhằm mô phỏng các tương tác thủ công của chúng tôi với các mô hình trong suốt quá trình.
Chúng tôi tin rằng nghiên cứu tiên phong mới lạ có lẽ là cách quan trọng nhất để đánh giá khả năng của các mô hình AI thế hệ tiếp theo. Các tiêu chuẩn đánh giá rất hữu ích, nhưng chúng có thể bỏ qua một số phần khó khăn nhất của nghiên cứu: duy trì các chuỗi suy luận dài, chọn đúng các khái niệm trừu tượng, xử lý sự mơ hồ trong các tuyên bố vấn đề, và đưa ra các lập luận có thể chịu được sự kiểm tra kỹ lưỡng của các chuyên gia. Những thách thức tiên phong như First Proof giúp chúng tôi kiểm tra sức chịu đựng của các năng lực đó trong những bối cảnh mà tính chính xác không dễ dàng để xác minh và các chế độ thất bại cung cấp thông tin hữu ích.
“Hiện tại, chúng tôi đang huấn luyện một mô hình mới với trọng tâm chính là nâng cao mức độ nghiêm ngặt trong tư duy của nó, nhằm mục tiêu mô hình có thể suy nghĩ liên tục trong nhiều giờ và vẫn duy trì sự tự tin cao vào các kết luận của mình. Khi các vấn đề First Proof được công bố, nó có vẻ như là môi trường thử nghiệm hoàn hảo, vì vậy vào cuối tuần tôi đã thử nghiệm. Nó đã có thể giải quyết được hai trong số các vấn đề (#9 và #10). Khi được huấn luyện, nó ngày càng trở nên có khả năng hơn, cuối cùng đã giải quyết–theo ước tính của chúng tôi–ít nhất ba vấn đề nữa. Chúng tôi đặc biệt hài lòng khi nó giải quyết được #6 và sau đó, hai ngày sau, #4, vì những vấn đề đó thuộc các lĩnh vực quen thuộc với nhiều người trong chúng tôi. "Thật đáng kinh ngạc khi chứng kiến một mô hình trở nên thông minh hơn một cách rõ ràng qua từng ngày.”
– James R. Lee (Nhà nghiên cứu OpenAI, Nghiên cứu về suy luận)
Chúng tôi đã chạy mô hình với sự giám sát hạn chế từ con người. Khi đề xuất các phiên bản của mô hình trong quá trình huấn luyện, đôi khi chúng tôi gợi ý các chiến lược thử lại có vẻ đã mang lại kết quả tốt trong các lần thử trước. Trong một số lần thử, chúng tôi đã yêu cầu mô hình mở rộng hoặc làm rõ các phần của chứng minh sau khi nhận được phản hồi từ chuyên gia, nhằm làm cho suy luận dễ dàng hơn để xác minh. Chúng tôi cũng tạo điều kiện cho việc trao đổi qua lại giữa mô hình này và ChatGPT để xác minh, định dạng và phong cách. Đối với một số vấn đề, chúng tôi trình bày kết quả tốt nhất trong một vài lần thử, được chọn lựa dựa trên đánh giá của con người. Đây là một đợt chạy nước rút nhanh và quy trình của chúng tôi không được gọn gàng như chúng tôi mong muốn trong một cuộc đánh giá được kiểm soát đúng cách. Chúng tôi mong muốn thảo luận với các nhà tổ chức First Proof về một thí nghiệm nghiêm ngặt hơn và một khuôn khổ đánh giá cho các lần lặp lại trong tương lai.
Công trình này phát triển dựa trên các kết quả trước đó từ các mô hình suy luận tiên phong trong toán học và khoa học. Vào tháng 7 năm 2025, chúng tôi đã đạt thành tích huy chương vàng(mở trong cửa sổ mới) tại Olympic Toán Quốc tế với một mô hình suy luận đa dụng (35/42 điểm). Vào tháng 11 năm 2025, chúng tôi đã chia sẻ “Các thí nghiệm ban đầu về tăng tốc khoa học với GPT‑5”, một tập hợp các nghiên cứu điển hình trong đó GPT‑5 đã giúp các nhà nghiên cứu đạt được tiến bộ cụ thể trong các lĩnh vực toán học, vật lý, sinh học và các lĩnh vực khác, cùng với những hạn chế mà chúng tôi đã quan sát thấy. Và gần đây nhất, chúng tôi đã báo cáo về một hợp tác vật lý trong đó GPT‑5.2 đã đề xuất một biểu thức ứng viên cho một công thức biên độ gluon, sau đó được một mô hình nội bộ chính thức chứng minh và được các tác giả xác minh.
Chúng tôi mong muốn có sự gắn kết sâu sắc hơn với cộng đồng về cách đánh giá suy luận ở cấp độ nghiên cứu, bao gồm cả phản hồi từ các chuyên gia về những nỗ lực này, và chúng tôi rất hào hứng khi có thể đưa những khả năng mới này vào các mô hình công khai trong tương lai.


