Үндсэн агуулга руу алгасах
OpenAI

2025 оны арван хоёрдугаар сарын 11

НийтлэлБүтээгдэхүүнКомпани

GPT‑5.2‑оор шинжлэх ухаан ба математикийг ахиулах нь

GPT‑5.2 нь математик, шинжлэх ухааны ажилд зориулсан манай хамгийн хүчтэй загвар юм.

Ачаалж байна…

Хүчтэй AI-ийн талаархи бидний нэг найдвар бол энэ нь шинжлэх ухааны судалгааг хүн бүрийн сайн сайхны төлөө хурдасгаж, судлаачдад илүү олон санаа судлах, тэдгээрийг хурдан турших, нээлтүүдийг бодит үр нөлөө болгоход тусална гэсэн явдал юм.

Өнгөрсөн жилийн хугацаанд бид математик, физик, биологи, компьютерын шинжлэх ухааны салбарын эрдэмтэдтэй нягт хамтран ажиллаж, AI хаана тусалж чадах, мөн хаана одоо ч хүрэлцэхгүй байгааг ойлгохоор ажилласан. Өнгөрсөн сард бид өгүүлэл нийтэлсэн бөгөөд түүнд GPT‑5 судлаачдад тусалсан математик, физик, биологи, компьютерын шинжлэх ухаан, одон орон, материал судлалын салбар дахь эхний кейсүүдийг нэгтгэн, GPT‑5 бодит шинжлэх ухааны ажилд аль хэдийн хэрхэн хувь нэмэр оруулж эхэлснийг харуулсан. GPT‑5.2-ын тусламжтайгаар эдгээр ахиц илүү тогтвортой, илүү найдвартай болж эхэлж байгааг бид харж байна.

Нарийвчлал чухал үед илүү хүчтэй гүйцэтгэл

GPT‑5.2 Pro болон GPT‑5.2 Thinking нь шинжлэх ухаан, математикийн ажилд зориулсан манай хамгийн хүчтэй загварууд юм.

Хүчтэй математик сэтгэн бодох чадвар нь шинжлэх ухаан, техникийн ажлын найдвартай байдлын суурь юм. Энэ нь загваруудад олон алхамт логикийг дагах, хэмжигдэхүүнүүдийг тогтвортой хадгалах, мөн симуляци, статистикаас эхлээд таамаглал, загварчлал хүртэлх бодит шинжилгээнд хуримтлагдаж болох нарийн алдаанаас зайлсхийх боломж олгодог. FrontierMath зэрэг шалгуур үзүүлэлтүүд дээрх сайжруулалт нь явцуу нэг чадварыг бус, харин илүү хүчтэй ерөнхий сэтгэн бодох болон хийсвэрлэлтийг илэрхийлдэг бөгөөд эдгээр чадвар нь код бичих, өгөгдөл шинжлэх, туршилтын загвар гаргах зэрэг шинжлэх ухааны ажлын урсгалд шууд хэрэгждэг.

Эдгээр чадвар нь ерөнхий оюун ухаан руу чиглэсэн ахицтай мөн нягт холбоотой. Хийсвэрлэлээр найдвартай сэтгэн бодож, урт дараалсан бодлын турш тууштай байдлыг хадгалж, салбар хооронд ерөнхийшүүлж чаддаг систем нь AGI-ийн суурь шинжүүдийг харуулж байна—энэ нь тодорхой даалгаварт зориулсан мэх бус, харин шинжлэх ухаан, инженерчлэл, бодит ертөнцийн шийдвэр гаргалтад чухал өргөн хүрээний, шилжүүлэн хэрэглэх боломжтой сэтгэн бодох чадвар юм.

GPT‑5.2 Pro болон GPT‑5.2 Thinking нь эрдэмтдэд тусалж, тэдний ажлыг хурдасгахад дэлхийн хамгийн шилдэг загварууд гэж бид үзэж байна. Төгсөлтийн түвшний, Google-оор шууд хариулах боломжгүй асуулт-хариултын шалгуур болох GPQA Diamond-д GPT‑5.2 Pro 93.2%-д хүрч, GPT‑5.2 Thinking 92.4%-аар араас нь нягт дагаж байна.

GPQA Diamond(шинэ цонхонд нээгдэнэ)-д загварууд физик, хими, биологийн талаархи олон сонголттой асуултад хариулдаг. Ямар ч хэрэгсэл идэвхжүүлээгүй байсан бөгөөд сэтгэн бодох хүчин чармайлтыг дээд хэмжээнд тохируулсан.

Мэргэжлийн түвшний математикийн үнэлгээ болох FrontierMath (Tier 1–3)-д GPT‑5.2 Thinking шинэ дээд амжилт тогтоож, бодлогуудын 40.3%-ийг шийдсэн.

FrontierMath(шинэ цонхонд нээгдэнэ)-д загварууд мэргэжлийн түвшний математикийн бодлогуудыг шийддэг. Python хэрэгсэл идэвхжүүлсэн байсан бөгөөд сэтгэн бодох хүчин чармайлтыг дээд хэмжээнд тохируулсан.

Кейс судалгаа

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(шинэ цонхонд нээгдэнэ).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Цааш харвал

Энэ үр дүн нь ялангуяа математик болон онолын компьютерын шинжлэх ухаан зэрэг аксиомчилсон онолын суурьтай салбаруудад AI системүүд шинжлэх ухааны судалгааг хэрхэн дэмжиж болох талаар хэрэгтэй чиглэлийг санал болгож байна. Ийм орчинд хил хязгаар загварууд нь баталгаа судлах, таамаглалуудыг шалгах, өөрөөр бол хүний ихээхэн хүчин чармайлт шаардах байсан холбоосуудыг илрүүлэхэд тусалж чадна.

Үүний зэрэгцээ эдгээр систем нь бие даасан судлаачид биш юм. Мэргэжлийн дүгнэлт, баталгаажуулалт, салбарын ойлголт зайлшгүй чухал хэвээр байна. Маш өндөр чадвартай загварууд хүртэл алдаа гаргаж эсвэл хэлэгдээгүй таамаглалд тулгуурлаж болно. Гэвч тэд мөн хүний нягт судалгаа, сайжруулалт шаардахуйц дэлгэрэнгүй, бүтэцтэй тайлбаруудыг гаргаж чадна. Тиймээс AI-тай найдвартай ахиц гаргах нь баталгаажуулалт, ил тод байдал, хамтын ажиллагааг ажлын урсгалын төвд нь байлгах дээр тулгуурладаг.

Кейс судалгааны үүднээс харвал энэ үр дүн нь судалгааны практикийн шинэ хэлбэрийг харуулж байна. GPT‑5.2 зэрэг загварууд нь математик сэтгэн бодохыг дэмжих, эхний шатны эрэл хайгуулыг хурдасгах хэрэгсэл болж чадна, харин зөв байдал, тайлбар, нөхцөл байдлын хариуцлага нь хүний судлаачдад хэвээр үлдэнэ. Ийм системийг болгоомжтой ашиглавал тэд шинжлэх ухааны эрэлд хүний дүгнэлтийн гол үүргийг орлохгүйгээр онолын ажлын чухал талуудыг илүү үр ашигтай болгож магадгүй.