First Proof үшін алғашқы дәлел жіберімдеріміз
AI нақты сала есептерінде тексерілетін дәлелдер жасай ала ма дегенді сынайтын First Proof математика сайысына арналған дәлел ұмтылыстарымызбен бөлісеміз.
Біз барлық 10 First Proof(жаңа терезеде ашылады) есебінде ішкі модельді іске қостық. Бұл — AI жүйелері дұрыс, тексерілетін дәлел ұмтылыстарын жасай ала ма дегенді сынауға арналған зерттеу деңгейіндегі математика сыны. Қысқа жауапты не олимпиадалық стильдегі математикадан өзгеше, бұл есептер маманданған салаларда басынан аяғына дейін уәж құруды талап етеді, ал дұрыстығын сарапшы тексеруінсіз анықтау қиын. First Proof есептерінің авторлары өз салаларындағы жетекші сарапшылар, әрі кемінде бірнеше есептің шешімі авторлар тапқанға дейін жылдар бойы ашық болды. Тақырыптық салалармен елеулі түрде қиылысатын академиялық бөлім бір аптада бұл есептердің көбін шешуі әбден мүмкін.
Біз дәлел ұмтылыстарымызды 2026 жылғы сенбі, 14 ақпан, PT 12:00 AM кезінде жарияладық(жаңа терезеде ашылады). Сарапшылар пікіріне сүйенсек, модельдің кемінде бес дәлел ұмтылысының (4, 5, 6, 9 және 10-есептер) дұрыс болу ықтималдығы жоғары деп сенеміз, ал тағы бірнешеуі әлі қаралуда. Бастапқыда 2-есепке арналған ұмтылысымыз, бәлкім, дұрыс деп ойладық. First Proof ресми түсіндірмесі мен қауымдастықтың қосымша талдауы негізінде енді оның қате екеніне сенеміз. Қызығушылық танытқандарға алғыс айтамыз және қараудың жалғасуын күтеміз. Дәлел ұмтылыстарымыздың толық жинағын осында(жаңа терезеде ашылады) табуға болады. Препринтке барлық он дәлел ұмтылысы, сондай-ақ үдеріс барысында модельдермен қолмен өзара әрекетімізді үлгілеуге арналған көмексөз үлгілері мен мысалдары бар жаңадан қосылған қосымша кіреді.
Біздіңше, жаңа озық зерттеу келесі буын AI модельдерінің мүмкіндіктерін бағалаудың, бәлкім, ең маңызды жолы. Бенчмарктер пайдалы, бірақ олар зерттеудің ең қиын тұстарының кейбірін жіберіп алуы мүмкін: ұзақ ой қорыту тізбектерін сақтау, дұрыс абстракцияларды таңдау, есеп тұжырымдарындағы екіұштылықпен жұмыс істеу және сарапшы сынынан өтетін уәждер шығару. First Proof сияқты озық сынақтар бізге бұл мүмкіндіктерді дұрыстығын тексеру оңай емес әрі сәтсіздік режимдері де мағыналы болатын жағдайларда стресс-тесттеуге көмектеседі.
«Қазір біз жаңа модельді оқытып жатырмыз, онда негізгі басымдықтардың бірі — оның ойлауындағы қатаңдық деңгейін арттыру; мақсатымыз — модель көптеген сағат бойы үздіксіз ойлап, қорытындыларына жоғары сеніммен қала алуы. First Proof есептері жарияланғанда, бұл мінсіз сынақ алаңы сияқты көрінді, сондықтан демалыс күндері мен оны байқап көрдім. Ол сол кезде-ақ екі есепті (#9 және #10) шеше алды. Оқытылған сайын оның қабілеті арта түсті де, біздің бағалауымызша, ақырында кемінде тағы үшеуін шешті. Әсіресе оның #6-ны, содан кейін екі күннен соң #4-ті шешкеніне қуандық, өйткені ол есептер көпшілігімізге таныс салалардан еді. Модельдің күн сайын көзге көрінерліктей ақылды бола түскенін көру шынымен таңғаларлық.»
– Джеймс Р. Ли (OpenAI зерттеушісі, ой қорыту)
Біз модельді шектеулі адам қадағалауымен іске қостық. Оқыту барысында модель нұсқаларына көмексөз бергенде, кейде алдыңғы ұмтылыстарда жемісті көрінген стратегияларды қайта байқап көруді ұсындық. Кейбір ұмтылыстар үшін сарапшы пікірін алғаннан кейін дәлелдің кей бөліктерін кеңейтуді не нақтылауды сұрадық, сонда ой қорытуын тексеру жеңіл болсын дедік. Сондай-ақ тексеру, пішімдеу және стиль үшін осы модель мен ChatGPT арасында алмасуды ұйымдастырдық. Кейбір есептер үшін бірнеше ұмтылыстың ішінен адам пайымына сүйеніп таңдалған ең жақсысын ұсынамыз. Бұл жылдам спринт болды, сондықтан үдерісіміз тиісті түрде бақыланатын бағалауда қалағанымыздай таза болмады. Болашақ итерациялар үшін неғұрлым қатаң эксперимент пен бағалау негіздемесі туралы First Proof ұйымдастырушыларымен талқылауларды күтеміз.
Бұл жұмыс математика мен ғылымдағы озық ойлайтын модельдердің алдыңғы нәтижелеріне сүйенеді. 2025 жылғы шілдеде біз жалпы мақсаттағы ойлайтын модельмен Халықаралық математика олимпиадасында алтын медаль деңгейіндегі нәтижеге(жаңа терезеде ашылады) жеттік (42 ұпайдың 35-і). 2025 жылғы қарашада біз “GPT‑5 көмегімен ғылымды жеделдетудегі ерте эксперименттер” материалын жарияладық. Бұл — GPT‑5 математика, физика, биология және өзге салаларда зерттеушілерге нақты ілгерілеуге көмектескен жағдайлық зерттеулер жинағы, сондай-ақ біз байқаған шектеулер. Ал ең соңында GPT‑5.2 глюон амплитудасы формуласына кандидат өрнек ұсынған, оны кейін ішкі модель формалды түрде дәлелдеп, авторлар тексерген физика саласындағы ынтымақтастық туралы хабарладық.
Зерттеу деңгейіндегі ой қорытуды қалай бағалау керек деген тақырыпта қауымдастықпен тереңірек өзара іс-қимылды, оның ішінде осы ұмтылыстарға сарапшы пікірін асыға күтеміз және бұл жаңа мүмкіндіктерді болашақ қоғамдық модельдерде ұсынуға қуаныштымыз.


