2026년 2월 20일

OpenAI의 First Proof 제출물

AI가 영역별 문제에 대해 확인 가능한 증명을 생성할 수 있는지 테스트하는 수학 챌린지인 First Proof의 증명 시도를 공유합니다.

로딩 중...

AI 시스템이 정확하고 검증 가능한 증명 시도를 생성할 수 있는지 테스트하도록 설계된 연구 수준의 수학 챌린지인 10개의 First Proof⁠(새 창에서 열기) 문제 전체에서 내부 모델을 실행했습니다. 단답형이나 경쟁 스타일의 수학과는 달리, 이러한 문제는 전문 영역에서 처음부터 끝까지 논증을 세워야 하며 전문가의 검토 없이는 정확성을 확립하기 어렵습니다. First Proof 문제의 저자들은 각 분야의 최고 전문가들이며, 적어도 몇몇 문제는 저자들이 해결책을 찾기 전까지 수년 동안 풀리지 않았던 문제였습니다. 해당 주제 분야와 상당히 겹치는 학과라면, 일주일 만에 많은 문제를 해결할 수 있을 것입니다.

2026년 2월 14일 토요일 오전 12:00(태평양 표준시 기준)에 증명 시도를 공유⁠(새 창에서 열기)했습니다. 전문가들의 피드백에 따르면 이 모델의 증명 시도 중 최소 5개(문제 4, 5, 6, 9, 10)가 정답일 가능성이 높다고 판단되며, 나머지 몇 개는 아직 검토 중입니다. 처음에는 문제 2에 대한 시도가 옳다고 생각했습니다. 공식적인 First Proof 논평과 추가 커뮤니티 분석을 바탕으로 지금은 이것이 잘못된 것이라고 생각합니다. 참여해 주셔서 감사드리며 앞으로도 지속적인 검토를 부탁드리겠습니다. 전체 증명 시도 목록은 여기⁠(새 창에서 열기)에서 확인할 수 있습니다. 이 프리프린트에는 10개의 모든 증명 시도와 더불어, 진행 과정 중에 모델과의 수동 상호작용을 시뮬레이션하기 위한 프롬프트 패턴과 예제와 함께 새로 추가된 부록이 포함되어 있습니다.

새로운 프론티어 연구는 차세대 AI 모델의 기능을 평가하는 가장 중요한 방법이라고 생각합니다. 벤치마크는 유용하지만 긴 추론의 사슬을 유지하고, 올바른 추상화를 선택하고, 문제 진술의 모호성을 처리하고, 전문가의 면밀한 검증을 통과하는 논거를 만드는 등 연구에서 가장 어려운 부분을 놓칠 수 있습니다. First Proof와 같은 프런티어 과제는 정답을 검증하기 어려운 환경에서 실패 양상이 유의미할 때 이러한 역량을 스트레스 테스트하는 데 도움이 됩니다.

“현재 우리는 사고의 엄밀성을 높이는 데 중점을 둔 새로운 모델을 훈련하고 있으며, 모델이 수 시간 동안 지속적으로 사고하고 결론에 대한 높은 확신을 유지할 수 있도록 하는 것이 목표입니다. First Proof 문제가 발표되었을 때 완벽한 테스트베드처럼 보였기 때문에 주말 동안 직접 사용해 보았습니다. 이미 두 개의 문제(9번과 10번)를 해결할 수 있었습니다. 훈련이 거듭되면서 점점 더 많은 문제를 해결할 수 있게 되었고, 결국 우리 추정으로는 최소 세 개의 문제를 더 해결했습니다. 특히 6번 문제와 이틀 뒤 4번 문제를 해결했을 때 기뻤는데, 이 문제들은 우리에게 익숙한 분야였기 때문입니다. 모델이 날마다 눈에 띄게 더 똑똑해지는 모습을 보는 것은 정말 놀라운 일입니다.”

– James R. Lee(OpenAI 연구원, 추론)

모델 실행은 제한적인 인간 감독 하에 수행되었습니다. 훈련 과정에서 모델의 버전을 제시할 때, 이전 시도에서 효과가 있었던 전략을 다시 시도할 것을 제안하기도 했습니다. 일부 시도에서는, 추론을 더 쉽게 검증하기 위해 전문가 피드백을 받은 후 증명의 일부를 확장하거나 명확히 해달라고 모델에 요청했습니다. 또한 검증, 서식, 스타일을 위해 이 모델과 ChatGPT 간의 상호 작용을 용이하게 했습니다. 일부 문제의 경우, 사람의 판단으로 선택된 몇 가지 시도 중 가장 좋은 방법을 제시합니다. 이는 빠른 속도로 진행되었기 때문에 제대로 통제된 평가에서 기대하는 만큼 깔끔하게 진행되지 못했습니다. 향후 반복 작업을 위해 더 엄격한 실험 및 평가 프레임워크에 대해 First Proof 주최 측과 논의하기를 기대합니다.

이 연구는 수학과 과학 분야의 프론티어 추론 모델에서 나온 초기 결과를 기반으로 합니다. 2025년 7월, 범용 추론 모델을 사용하여 국제 수학 올림피아드(IMO)에서 금메달 수준의 성과⁠(새 창에서 열기)를 달성했습니다(35/42점). 2025년 11월, “GPT‑5로 과학을 가속화하는 초기 실험”이라는 제목으로 수학, 물리학, 생물학 및 기타 분야에서 연구자들이 GPT‑5를 통해 구체적인 진전을 이룬 사례 연구와 그 한계에 대해 설명했습니다. 그리고 가장 최근에는 GPT‑5.2가 글루온 진폭 공식에 대한 후보 식을 제안한 후 내부 모델에 의해 공식적으로 증명되고 저자들이 검증한 물리학 협업을 보고했습니다.

이러한 시도에 대한 전문가 피드백을 비롯하여, 연구 수준의 추론을 평가하는 방법에 대해 커뮤니티와 더 깊이 있게 소통하기를 기대합니다. 앞으로 공개될 모델에서 이러한 새로운 기능을 제공할 수 있게 되어 기대가 큽니다.