20 лютого 2026 р.

Наші результати First Proof

Ми ділимося нашими спробами доказу для First Proof — математичного змагання, яке перевіряє, чи може ШІ створювати докази, що перевіряються, по завданнях, специфічним для певної галузі.

Перегляньте наш набір спроб доказів

Завантаження…

Ми запустили внутрішню модель на всіх 10 завданнях First Proof⁠(відкривається у новому вікні), що є дослідним математичним випробуванням, призначеним для перевірки того, чи можуть системи ШІ створювати коректні спроби доказу, що піддаються перевірці. На відміну від математики з короткими відповідями або математики для змагань, ці завдання вимагають побудови наскрізних аргументів у спеціалізованих областях, і коректність важко встановити без експертної перевірки. Автори завдань First Proof є провідними експертам у своїх галузях, і принаймні пара завдань залишалися відкритими роками, перш ніж авторам вдалося знайти рішення. Академічна кафедра, яка має значний перетин з предметними областями, теоретично могла б вирішити більшість завдань за тиждень.

Ми поділилися⁠(відкривається у новому вікні) нашими спробами доказів у суботу, 14 лютого 2026 року о 00:00 за тихоокеанським часом. На підставі відгуків експертів ми вважаємо, що щонайменше п'ять спроб доказу моделі (завдання 4, 5, 6, 9 та 10) мають високу ймовірність бути правильними, а декілька інших досі перебувають на розгляді. Спочатку ми вважали, що наша спроба вирішення задачі 2, імовірно, була правильною. На підставі офіційного коментаря First Proof і подальшого аналізу спільноти ми тепер вважаємо, що вона неправильна. Ми вдячні за співпрацю та з нетерпінням чекаємо на подальші відгуки. Повний набір наших спроб доказів можна знайти тут⁠(відкривається у новому вікні). Стаття включає всі десять спроб доказів, а також нещодавно доданий додаток із шаблонами промптів та прикладами, які покликані імітувати наші ручні взаємодії з моделями у процесі.

Ми вважаємо, що новаторські передові дослідження, можливо, є найважливішим способом оцінки можливостей ШІ-моделей наступного покоління. Бенчмарки корисні, але вони можуть упускати деякі з найскладніших аспектів досліджень: підтримання довгих ланцюжків міркувань, вибір правильних абстракцій, робота з неоднозначністю у формулюваннях завдань та створення аргументів, що витримують експертну перевірку. Передові завдання, такі як у First Proof, допомагають нам проводити стрес-тестування цих можливостей в умовах, де перевірка коректності нетривіальна, а режими відмови надають корисну інформацію.

«Наразі ми навчаємо нову модель, основна увага якої приділяється підвищенню суворості її мислення з метою, щоб модель могла безперервно думати протягом багатьох годин і зберігати високу впевненість у своїх висновках. Коли були оголошені завдання First Proof, це здалося ідеальним тестовим майданчиком, тому на вихідних я його випробував. Уже вдалося вирішити два з завдань (№9 та №10). У міру навчання модель ставала все більш здатною, і зрештою, за нашими оцінками, вона вирішила щонайменше ще три завдання. Ми були особливо раді, коли вдалося вирішити № 6, а потім, через два дні, № 4, оскільки ці завдання були з областей, знайомих багатьом з нас. Неймовірно спостерігати, як модель день за днем відчутно розумнішає.»

— Джеймс Р. Лі (James R. Lee) (дослідник OpenAI в області міркувань)

Ми запускали модель із обмеженим людським наглядом. При створенні промптів для версій моделі у процесі навчання ми іноді пропонували повторити стратегії, які показали себе успішними у попередніх спробах. Для деяких спроб ми попросили модель розширити або уточнити частини доказу після отримання експертного зворотного зв'язку, щоб міркування було легше перевіряти. Ми також організували обмін думками між цією моделлю та ChatGPT для перевірки, форматування та стилю. Для деяких завдань ми представляли найкращий з кількох варіантів, вибраний на основі людської думки. Це був швидкий спринт, і наш процес був не таким налагодженим, як нам хотілося б в умовах належно контрольованої оцінки. Ми з нетерпінням чекаємо на можливість обговорити з організаторами First Proof умови більш суворого експерименту та рамки оцінки для майбутніх ітерацій.

Ця робота ґрунтується на більш ранніх результатах передових моделей міркувань у математиці та інших точних науках. У липні 2025 року ми досягли рівня золотої медалі⁠(відкривається у новому вікні) на Міжнародній математичній олімпіаді з універсальною моделлю міркувань загального призначення (35/42 бали). У листопаді 2025 року ми представили «Ранні експерименти з прискорення наукового прогресу за допомогою GPT‑5» — набір кейсів, де GPT‑5 допомагав дослідникам досягати конкретного прогресу в математиці, фізиці, біології та інших галузях, а також описали обмеження, які ми спостерігали. А нещодавно ми повідомили про співпрацю в галузі фізики, у рамках якої GPT‑5.2 запропонувала вираз для формули амплітуди глюону, який згодом був формально доведений внутрішньою моделлю та підтверджений авторами.

Ми з нетерпінням чекаємо більш глибокої взаємодії зі спільнотою щодо оцінки міркувань дослідницького рівня, включаючи експертні відгуки про ці спроби, і будемо раді зробити ці нові можливості доступними в майбутніх відкритих моделях.

2026

Автор

OpenAI

Продовжити читати

Переглянути всі

Як два налаштування утричі підвищили наш результат у тесті ARC-AGI-3

Дослідження29 лип. 2026 р.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Компанія29 лип. 2026 р.

Scientific computing agentic AI card image (1x1)

Наукові обчислення в епоху автономного ШІ

Публікація28 лип. 2026 р.