Подадени материали за Първо доказателство
Споделяме нашите опити за извеждане на доказателство за „Първо доказателство“ – математическо предизвикателство, което проверява дали ИИ може да създава проверими доказателства по задачи от конкретна математическа област.
Изпробвахме вътрешен модел върху всичките 10 задачи от „Първо доказателство“(отваря се в нов прозорец), изследователско математическо предизвикателство, създадено да провери дали системите с ИИ могат да създават правилни и проверими опити за доказателство. За разлика от задачите с кратък отговор или състезателната математика, тези задачи изискват изграждане на цялостни аргументи в специализирани области, а точността е трудно да се установи без експертна оценка. Авторите на задачите от „Първо доказателство“ са водещи експерти в съответните си области и поне няколко от задачите останаха нерешени в продължение на години, преди авторите да намерят решения. Академичен отдел, който има значително припокриване с предметните области, би могъл да реши много от задачите в рамките на една седмица.
Споделихме(отваря се в нов прозорец) нашите опити за доказване в събота, 14 февруари 2026 г. в 00:00 ч. PT. Въз основа на обратната връзка от експерти, смятаме, че поне пет от опитите за доказателство на модела (задачи 4, 5, 6, 9 и 10) имат голям шанс да са правилни, а няколко други остават в процес на преглед. Първоначално вярвахме, че опитът ни за задача 2 вероятно е правилен. Въз основа на официалния коментар към „Първо доказателство“ и допълнителен анализ от общността, сега вярваме, че това е неправилно. Благодарим Ви за ангажираността и очакваме с нетърпение текущия преглед. Пълният набор от нашите опити за доказателство може да бъде намерен тук(отваря се в нов прозорец). Предпечатът включва всички десет опита за доказателство, плюс новодобавено приложение с шаблони на подкани и примери, които целят да симулират нашите ръчни взаимодействия с моделите по време на процеса.
Смятаме, че авангардните проучвания са вероятно най-важният начин за оценка на възможностите на следващото поколение модели ИИ. Еталоните са полезни, но могат да пропуснат някои от най-трудните аспекти на проучванията: поддържане на дълги вериги от структурирано анализиране, избор на правилните абстракции, справяне с неясноти в описанията на проблемите и създаване на аргументи, които издържат на експертна проверка. Авангардни предизвикателства като „Първо доказателство“ ни помагат да тестваме тези възможности в условия, при които е трудно да се провери верността, а режимите на отказ предоставят полезна информация.
„В момента обучаваме нов модел, чийто основен фокус е повишаване на строгостта в разсъжденията му, с цел моделът да може да мисли непрекъснато в продължение на много часове и да остава силно уверен в заключенията си. Когато бяха обявени задачите в „Първо доказателство“, това изглеждаше като идеалната тестова среда, затова го изпробвах през уикенда. Вече успя да реши две от задачите (#9 и #10). С напредването на обучението си, той ставаше все по-способен и в крайна сметка, според нашата оценка, реши поне още три задачи. Бяхме особено доволни, когато реши #6 и след това, два дни по-късно, #4, тъй като тези задачи бяха от области, познати на много от нас. Невероятно е да наблюдавате как един модел става осезаемо по-интелигентен ден след ден.“
– Джеймс Р. Лий (изследовател в OpenAI, структурирано анализиране)
Пуснахме модела с ограничено човешко наблюдение. Когато подканвахме версии на модела по време на обучението, понякога предлагахме стратегии за повторни опити, които се оказаха успешни при по-ранни опити. За някои опити помолихме модела да разшири или изясни части от доказателство след получаване на обратна връзка от експерти, за да направи структурираното анализиране по-лесно за проверка. Също така улеснихме обмен на информация между този модел и ChatGPT за проверка, форматиране и стил. За някои задачи представяме най-доброто от няколко опита, избрано чрез човешка преценка. Това беше бърз спринт и процесът ни не беше толкова изчистен, колкото бихме желали при правилно контролирана оценка. Очакваме с нетърпение да обсъдим с организаторите на „Първо доказателство“ по-строга рамка за експерименти и оценка за бъдещи итерации.
Тази работа надгражда по-ранни резултати от авангардни модели със структурирано анализиране в областта на математиката и науката. През юли 2025 г. постигнахме представяне на ниво златен медал(отваря се в нов прозорец) на Международната олимпиада по математика с модел със структурирано анализиране (35/42 точки). През ноември 2025 г. споделихме „Ранни експерименти за ускоряване на науката с GPT‑5“, набор от казуси, в които GPT‑5 помогна на изследователите да постигнат конкретен напредък в математиката, физиката, биологията и други области, заедно с ограниченията, които наблюдавахме. И съвсем наскоро съобщихме за сътрудничество във физиката, при което GPT‑5.2 предложи кандидат-израз за формула за амплитуда на глуон, който след това беше формално доказан от вътрешен модел и потвърден от авторите.
Очакваме с нетърпение да ангажираме общността по-задълбочено относно това как да оценяваме структурираното анализиране на изследователско ниво, включително експертна обратна връзка за тези опити, и сме развълнувани да направим тези нови възможности достъпни в бъдещи публични модели.


