Անցնել հիմնական բովանդակությանը
OpenAI

Գիտության և մաթեմատիկայի զարգացում GPT‑5.2‑ի միջոցով

GPT‑5.2‑ը մեր մինչ օրս ամենահզոր մոդելն է մաթեմատիկայի և գիտության աշխատանքների համար։

Բեռնվում է…

Մեր հույսերից մեկն այն է, որ հզոր ԱԲ-ն կխթանի գիտական հետազոտությունները՝ ի շահ բոլորի, օգնելով հետազոտողներին ուսումնասիրել ավելի շատ գաղափարներ, ավելի արագ փորձարկել դրանք և հայտնագործությունները վերածել ազդեցության։ 

Վերջին տարվա ընթացքում մենք սերտորեն աշխատել ենք մաթեմատիկայի, ֆիզիկայի, կենսաբանության և համակարգչային գիտության ոլորտների գիտնականների հետ՝ հասկանալու, թե որտեղ կարող է ԱԲ-ն օգնել և որտեղ դեռևս թերանում է։ Անցած ամիս մենք հրապարակեցինք մի հոդված, որը հավաքում է մաթեմատիկայի, ֆիզիկայի, կենսաբանության, համակարգչային գիտության, աստղագիտության և նյութագիտության վաղ շրջանի դեպքերի ուսումնասիրությունները, որոնցում GPT‑5‑ը օգնել է հետազոտողներին՝ ցույց տալով, թե ինչպես է GPT‑5‑ը արդեն սկսել նպաստել իրական գիտական աշխատանքին։ GPT‑5.2-ով, մենք սկսում ենք տեսնել, որ այդ ձեռքբերումները դառնում են ավելի կայուն և ավելի հուսալի:

Ավելի ուժեղ կատարողականություն այնտեղ, որտեղ ճշգրտությունը կարևոր է։

GPT‑5.2 Pro և GPT‑5.2 Thinking-ը մեր մինչ այժմ ամենաուժեղ մոդելներն են գիտական և մաթեմատիկական աշխատանքի համար։

Ուժեղ մաթեմատիկական հիմնավորումը գիտական և տեխնիկական աշխատանքներում հուսալիության հիմքն է: Այն թույլ է տալիս մոդելներին հետևել բազմաքայլ տրամաբանությանը, պահպանել քանակների հետևողականությունը և խուսափել աննշան սխալներից, որոնք կարող են բարդանալ իրական վերլուծություններում՝ սկսած սիմուլյացիաներից և վիճակագրությունից մինչև կանխատեսումներ և մոդելավորում։ FrontierMath-ի նման չափորոշիչների բարելավումները արտացոլում են ոչ թե նեղ հմտություն, այլ ավելի ուժեղ ընդհանուր դատողություն և աբստրակցիա՝ կարողություններ, որոնք ուղղակիորեն կիրառվում են գիտական աշխատանքային հոսքերում, ինչպիսիք են կոդավորումը, տվյալների վերլուծությունը և փորձարարական նախագծումը։

Այս կարողությունները նույնպես սերտորեն կապված են ընդհանուր բանականության զարգացման ուղղությամբ առաջընթացի հետ։ Համակարգը, որը կարող է հուսալիորեն դատողություններ անել աբստրակցիայի միջոցով, պահպանել հետևողականություն մտքի երկար շղթաներում և ընդհանրացնել տարբեր ոլորտների, ցուցաբերում է AGI-ի հիմնարար հատկանիշներ՝ ոչ թե առաջադրանքին հատուկ հնարքներ, այլ լայն, փոխանցելի հիմնավորման հմտություններ, որոնք կարևոր են գիտության, ճարտարագիտության և իրական աշխարհում որոշումների կայացման համար։

Մենք կարծում ենք, որ GPT‑5.2 Pro-ն և GPT‑5.2 Thinking-ը գիտնականներին օգնելու և արագացնելու աշխարհի լավագույն մոդելներն են։ GPQA Diamond-ում, որը Google-ի ապացույցների հարցուպատասխանի համալսարանական մակարդակի չափանիշ է, GPT‑5.2 Pro-ն հավաքել է 93,2% արդյունք, որին հաջորդում է GPT‑5.2 Thinking-ը՝ 92,4%-ով։

GPQA Diamond(բացվում է նոր պատուհանում)-ում մոդելները պատասխանում են ֆիզիկայի, քիմիայի և կենսաբանության բազմակի ընտրության հարցերին։ Ոչ մի գործիք միացված չէր, և հիմնավորման ջանքերը սահմանված էին առավելագույնի։

FrontierMath (Tier 1–3), փորձագիտական մակարդակի մաթեմատիկայի գնահատում, GPT‑5.2 Thinking-ը սահմանեց նոր չափանիշ՝ լուծելով խնդիրների 40.3%-ը:

FrontierMath(բացվում է նոր պատուհանում)-ում մոդելները լուծում են փորձագիտական մակարդակի մաթեմատիկական խնդիրներ։ Python գործիքը միացվել է, և հիմնավորման ջանքերը սահմանվել են առավելագույնի։

Դեպքի ուսումնասիրություն

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(բացվում է նոր պատուհանում).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Նայելով դեպի ապագա

Այս արդյունքը ենթադրում է օգտակար ուղղություն այն մասին, թե ինչպես կարող են արհեստական բանականության համակարգերը աջակցել գիտական հետազոտություններին, մասնավորապես՝ աքսիոմատիկ տեսական հիմքեր ունեցող ոլորտներում, ինչպիսիք են մաթեմատիկան և տեսական ինֆորմատիկան։ Նման պայմաններում առաջատար մոդելները կարող են օգնել ուսումնասիրել ապացույցները, ստուգել վարկածները և բացահայտել կապեր, որոնք այլապես զգալի մարդկային ջանք կպահանջեին բացահայտելու համար։

Միևնույն ժամանակ, այս համակարգերը անկախ հետազոտողներ չեն։ Փորձագիտական դատողությունը, հաստատումը և տիրույթի ըմբռնումը շարունակում են մնալ էական։ Նույնիսկ բարձր ունակ մոդելները կարող են սխալներ թույլ տալ կամ հիմնվել չհայտարարված ենթադրությունների վրա։ Բայց նրանք կարող են նաև ստեղծել մանրամասն, կառուցվածքային փաստարկներ, որոնք արժանի են մարդու կողմից ուշադիր ուսումնասիրության և բարելավման։ Հուսալի առաջընթացը ԱԲ-ի հետ կախված է աշխատանքային հոսքերից, որոնք ապահովում են վավերացումը, թափանցիկությունը և համագործակցությունը՝ մշտապես պահպանելով դրանք։

Դիտարկված որպես դեպքի ուսումնասիրություն, այս արդյունքը ցույց է տալիս հետազոտական պրակտիկայի նոր ձևի առաջացումը։ GPT‑5.2‑ի նման մոդելները կարող են ծառայել որպես գործիքներ՝ մաթեմատիկական հիմնավորումը աջակցելու և վաղ փուլերի ուսումնասիրությունը արագացնելու համար, մինչդեռ ճշգրտության, մեկնաբանության և համատեքստի պատասխանատվությունը մնում է մարդկային հետազոտողների վրա։ Զգուշորեն օգտագործվելու դեպքում նման համակարգերը կարող են օգնել օպտիմալացնել տեսական աշխատանքի կարևոր կողմերը՝ առանց գիտական հետազոտություններում մարդկային դատողության կենտրոնական դերը փոխարինելու։