Переход к основному контенту
OpenAI

Наши результаты First Proof

Мы делимся нашими попытками доказательства для First Proof — математического соревнования, проверяющего, может ли ИИ создавать проверяемые доказательства по задачам, специфичным для определенной области.

Загрузка…

Мы запустили внутреннюю модель на всех 10 задачах First Proof(открывается в новом окне), представляющих собой исследовательское математическое испытание, предназначенное для проверки того, могут ли системы ИИ создавать корректные, поддающиеся проверке попытки доказательства. В отличие от математики с короткими ответами или соревновательной математики, эти задачи требуют построения сквозных аргументов в специализированных областях, и корректность трудно установить без экспертной проверки. Авторы задач First Proof — ведущие эксперты в своих областях, и по крайней мере пара задач оставалась открытой годами, прежде чем авторам удалось найти решения. Академическая кафедра, имеющая значительное пересечение с предметными областями, теоретически могла бы решить большинство задач за одну неделю.

Мы поделились(открывается в новом окне) нашими попытками доказательств в субботу, 14 февраля 2026 года в 00:00 по тихоокеанскому времени. На основании отзывов экспертов мы полагаем, что как минимум пять попыток доказательства модели (задачи 4, 5, 6, 9 и 10) имеют высокую вероятность быть правильными, а несколько других все еще находятся на рассмотрении. Изначально мы полагали, что наша попытка решения задачи 2, вероятно, была правильной. На основании официального комментария к First Proof и дальнейшего анализа сообщества мы теперь полагаем, что она неверна. Мы благодарны за участие и с нетерпением ожидаем дальнейших отзывов. Полный набор наших попыток доказательств можно найти здесь(открывается в новом окне). Статья включает все десять попыток доказательств, а также недавно добавленное приложение с шаблонами промптов и примерами, которые призваны имитировать наши ручные взаимодействия с моделями в процессе.

Мы полагаем, что новаторские передовые исследования, возможно, являются наиболее важным способом оценки возможностей ИИ-моделей следующего поколения. Бенчмарки полезны, но они могут упускать некоторые из самых сложных аспектов исследований: поддержание длинных цепочек рассуждений, выбор правильных абстракций, работа с неоднозначностью в формулировках задач и создание аргументов, выдерживающих экспертную проверку. Передовые задачи, такие как в First Proof, помогают нам проводить стресс-тестирование этих возможностей в условиях, где проверка корректности нетривиальна, а режимы отказа предоставляют полезную информацию.

«В настоящее время мы обучаем новую модель, основное внимание которой уделяется повышению строгости её мышления, с целью, чтобы модель могла непрерывно думать в течение многих часов и сохранять высокую уверенность в своих выводах. Когда были объявлены задачи First Proof, это показалось идеальной тестовой площадкой, поэтому на выходных я её опробовал. Уже удалось решить две из задач (№ 9 и № 10). По мере обучения модель становилась всё более способной, и в конечном итоге, по нашим оценкам, она решила как минимум ещё три задачи. Мы были особенно рады, когда удалось решить № 6, а затем, два дня спустя, № 4, поскольку эти задачи были из областей, знакомых многим из нас. Невероятно наблюдать, как модель день за днём ощутимо умнеет.»

– Джеймс Р. Ли (James R. Lee) (исследователь OpenAI в аспекте рассуждений)

Мы запускали модель с ограниченным человеческим надзором. При создании промптов для версий модели в процессе обучения мы иногда предлагали повторить стратегии, которые показали себя успешными в предыдущих попытках. Для некоторых попыток мы попросили модель расширить или уточнить части доказательства после получения экспертной обратной связи, чтобы рассуждения было легче проверять. Мы также организовали обмен мнениями между этой моделью и ChatGPT для проверки, форматирования и стиля. Для некоторых задач мы представляем лучший из нескольких вариантов, выбранный на основе человеческого суждения. Это был быстрый спринт, и наш процесс был не таким отлаженным, как нам хотелось бы в условиях должным образом контролируемой оценки. Мы с нетерпением ждем возможности обсудить с организаторами First Proof условия более строгого эксперимента и рамки оценки для будущих итераций.

Эта работа основывается на более ранних результатах передовых моделей рассуждений в математике и других точных науках. В июле 2025 года мы достигли уровня золотой медали(открывается в новом окне) на Международной математической олимпиаде с универсальной моделью рассуждений общего назначения (35/42 балла). В ноябре 2025 года мы представили «Ранние эксперименты по ускорению научного прогресса с помощью GPT‑5» — набор кейсов, где GPT‑5 помогал исследователям достигать конкретного прогресса в математике, физике, биологии и других областях, а также описали наблюдаемые ограничения. И совсем недавно мы сообщили о сотрудничестве в области физики, в рамках которого GPT‑5.2 предложила кандидатное выражение для формулы амплитуды глюона, которое впоследствии было формально доказано внутренней моделью и подтверждено авторами.

Мы с нетерпением ждем более глубокого взаимодействия с сообществом по вопросу оценки рассуждений исследовательского уровня, включая экспертные отзывы об этих попытках, и рады сделать эти новые возможности доступными в будущих открытых моделях.

Автор

OpenAI