20 февруари 2026 г.

Подадени материали за Първо доказателство

Споделяме нашите опити за извеждане на доказателство за „Първо доказателство“ – математическо предизвикателство, което проверява дали ИИ може да създава проверими доказателства по задачи от конкретна математическа област.

Прегледайте нашия набор от опити за извеждане на доказателство

Зареждане…

Изпробвахме вътрешен модел върху всичките 10 задачи от „Първо доказателство“⁠(отваря се в нов прозорец), изследователско математическо предизвикателство, създадено да провери дали системите с ИИ могат да създават правилни и проверими опити за доказателство. За разлика от задачите с кратък отговор или състезателната математика, тези задачи изискват изграждане на цялостни аргументи в специализирани области, а точността е трудно да се установи без експертна оценка. Авторите на задачите от „Първо доказателство“ са водещи експерти в съответните си области и поне няколко от задачите останаха нерешени в продължение на години, преди авторите да намерят решения. Академичен отдел, който има значително припокриване с предметните области, би могъл да реши много от задачите в рамките на една седмица.

Споделихме⁠(отваря се в нов прозорец) нашите опити за доказване в събота, 14 февруари 2026 г. в 00:00 ч. PT. Въз основа на обратната връзка от експерти, смятаме, че поне пет от опитите за доказателство на модела (задачи 4, 5, 6, 9 и 10) имат голям шанс да са правилни, а няколко други остават в процес на преглед. Първоначално вярвахме, че опитът ни за задача 2 вероятно е правилен. Въз основа на официалния коментар към „Първо доказателство“ и допълнителен анализ от общността, сега вярваме, че това е неправилно. Благодарим Ви за ангажираността и очакваме с нетърпение текущия преглед. Пълният набор от нашите опити за доказателство може да бъде намерен тук⁠(отваря се в нов прозорец). Предпечатът включва всички десет опита за доказателство, плюс новодобавено приложение с шаблони на подкани и примери, които целят да симулират нашите ръчни взаимодействия с моделите по време на процеса.

Смятаме, че авангардните проучвания са вероятно най-важният начин за оценка на възможностите на следващото поколение модели ИИ. Еталоните са полезни, но могат да пропуснат някои от най-трудните аспекти на проучванията: поддържане на дълги вериги от структурирано анализиране, избор на правилните абстракции, справяне с неясноти в описанията на проблемите и създаване на аргументи, които издържат на експертна проверка. Авангардни предизвикателства като „Първо доказателство“ ни помагат да тестваме тези възможности в условия, при които е трудно да се провери верността, а режимите на отказ предоставят полезна информация.

„В момента обучаваме нов модел, чийто основен фокус е повишаване на строгостта в разсъжденията му, с цел моделът да може да мисли непрекъснато в продължение на много часове и да остава силно уверен в заключенията си. Когато бяха обявени задачите в „Първо доказателство“, това изглеждаше като идеалната тестова среда, затова го изпробвах през уикенда. Вече успя да реши две от задачите (#9 и #10). С напредването на обучението си, той ставаше все по-способен и в крайна сметка, според нашата оценка, реши поне още три задачи. Бяхме особено доволни, когато реши #6 и след това, два дни по-късно, #4, тъй като тези задачи бяха от области, познати на много от нас. Невероятно е да наблюдавате как един модел става осезаемо по-интелигентен ден след ден.“

– Джеймс Р. Лий (изследовател в OpenAI, структурирано анализиране)

Пуснахме модела с ограничено човешко наблюдение. Когато подканвахме версии на модела по време на обучението, понякога предлагахме стратегии за повторни опити, които се оказаха успешни при по-ранни опити. За някои опити помолихме модела да разшири или изясни части от доказателство след получаване на обратна връзка от експерти, за да направи структурираното анализиране по-лесно за проверка. Също така улеснихме обмен на информация между този модел и ChatGPT за проверка, форматиране и стил. За някои задачи представяме най-доброто от няколко опита, избрано чрез човешка преценка. Това беше бърз спринт и процесът ни не беше толкова изчистен, колкото бихме желали при правилно контролирана оценка. Очакваме с нетърпение да обсъдим с организаторите на „Първо доказателство“ по-строга рамка за експерименти и оценка за бъдещи итерации.

Тази работа надгражда по-ранни резултати от авангардни модели със структурирано анализиране в областта на математиката и науката. През юли 2025 г. постигнахме представяне на ниво златен медал⁠(отваря се в нов прозорец) на Международната олимпиада по математика с модел със структурирано анализиране (35/42 точки). През ноември 2025 г. споделихме „Ранни експерименти за ускоряване на науката с GPT‑5“, набор от казуси, в които GPT‑5 помогна на изследователите да постигнат конкретен напредък в математиката, физиката, биологията и други области, заедно с ограниченията, които наблюдавахме. И съвсем наскоро съобщихме за сътрудничество във физиката, при което GPT‑5.2 предложи кандидат-израз за формула за амплитуда на глуон, който след това беше формално доказан от вътрешен модел и потвърден от авторите.

Очакваме с нетърпение да ангажираме общността по-задълбочено относно това как да оценяваме структурираното анализиране на изследователско ниво, включително експертна обратна връзка за тези опити, и сме развълнувани да направим тези нови възможности достъпни в бъдещи публични модели.

2026 г.

Автор

OpenAI

Продължавайте да четете

Вижте всички

Как включването на две настройки утрои резултатите ни в бенчмарка ARC-AGI-3

Проучване29.07.2026 г.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Компания29.07.2026 г.

Scientific computing agentic AI card image (1x1)

Научните изчисления в ерата на агентния изкуствен интелект

Публикация28.07.2026 г.