۱۱ دسمبر، ۲۰۲۵

GPT‑5.2 کے ساتھ سائنس اور ریاضی کو فروغ دینا

GPT‑5.2 ریاضی اور سائنس کے کام کے لیے ہمارا اب تک کا مضبوط ترین ماڈل ہے۔

لوڈ ہو رہا ہے…

ہماری مضبوط AI کے لیے ایک امید یہ ہے کہ یہ سائنسی تحقیق کو ہر ایک کے فائدے کے لیے تیز کرے گی، محققین کو زیادہ خیالات دریافت کرنے، ان کی تیزی سے جانچ کرنے، اور دریافتوں کو اثر میں تبدیل کرنے میں مدد دے گی۔

گزشتہ سال کے دوران، ہم نے ریاضی، طبیعیات، حیاتیات، اور کمپیوٹر سائنس کے سائنسدانوں کے ساتھ قریبی تعاون کیا ہے تاکہ یہ سمجھا جا سکے کہ AI کہاں مدد کر سکتا ہے—اور کن امور میں یہ اب بھی ناکام ہے۔ پچھلے مہینے، ہم نے ایک مقالہ شائع کیا⁠ جس میں ریاضی، طبیعیات، حیاتیات، کمپیوٹر سائنس، فلکیات، اور مواد سائنس میں ابتدائی کیس اسٹڈیز کو مرتب کیا گیا ہے جن میں GPT‑5 نے محققین کی مدد کی، یہ ظاہر کرتے ہوئے کہ GPT‑5 نے حقیقی سائنسی کام میں کس طرح تعاون کرنا شروع کر دیا ہے۔ GPT‑5.2 کے ساتھ، ہم دیکھ رہے ہیں کہ یہ فوائد زیادہ مستقل اور قابل اعتماد ہو رہے ہیں۔

جہاں درستگی اہمیت رکھتی ہے، وہاں بہتر کارکردگی

GPT‑5.2 Pro اور GPT‑5.2 Thinking ہمارے سائنسی اور ریاضیاتی کام کے لیے اب تک کے مضبوط ترین ماڈلز ہیں۔

مضبوط ریاضیاتی استدلال سائنسی اور تکنیکی کاموں میں بھروسے کی بنیاد فراہم کرتا ہے۔ یہ ماڈلز کثیر المراحل منطق کیو فالو کرنے، مقداروں کو مستقل رکھنے، اور ان باریک غلطیوں سے بچنے کے لیے فعال کرتے ہیں جو حقیقی تجزیات میں مرکب ہو سکتی ہیں—سمولیشنز اور شماریات سے لے کر پیش گوئی اور ماڈلنگ تک۔ FrontierMath جیسے بینچ مارکس پر بہتری کسی محدود مہارت کی عکاسی نہیں کرتی، بلکہ عمومی استدلال اور تجرید کی مضبوط صلاحیتوں کی نشاندہی کرتی ہے، جو براہ راست سائنسی ورک فلو جیسے کوڈنگ، ڈیٹا تجزیہ، اور تجرباتی ڈیزائن میں منتقل ہوتی ہیں۔

یہ صلاحیتیں عمومی ذہانت کی طرف پیشرفت کے ساتھ بھی قریبی طور پر منسلک ہیں۔ ایک نظام جو تجرید کے ذریعے قابل اعتماد طریقے سے استدلال کر سکتا ہے، طویل سوچ کی زنجیروں میں مطابقت برقرار رکھ سکتا ہے، اور مختلف شعبوں میں عمومی طور پر استدلال کر سکتا ہے، وہ خصوصیات ظاہر کر رہا ہے جو AGI کی بنیاد ہیں—یہ ٹاسک مخصوص چالیں نہیں ہیں، بلکہ وسیع، منتقلی پذیر استدلال کی مہارتیں ہیں جو سائنس، انجینئرنگ، اور حقیقی دنیا کے فیصلے کرنے میں اہمیت رکھتی ہیں۔

ہمیں یقین ہے کہ GPT‑5.2 Pro اور GPT‑5.2 Thinking سائنسدانوں کی مدد اور ان کی رفتار بڑھانے کے لیے دنیا کے بہترین مڈلز ہیں۔ GPQA Diamond پر، جو گریجویٹ سطح کا Google پروف سوال و جواب کا معیار ہے، GPT‑5.2 Pro نے 93.2% اسکور کیا، اور GPT‑5.2 Thinking نے اس کے قریب 92.4% اسکور حاصل کیا۔

GPQA Diamond⁠(نئی ونڈو میں کھلتا ہے) میں، ماڈلز فزکس، کیمسٹری، اور بایولوجی کے کثیر انتخابی سوالات کے جوابات دیتے ہیں۔ کوئی ٹول فعال نہیں کیا گیا تھا اور استدلالی کوشش کو زیادہ سے زیادہ سطح پر مقرر کیا گیا تھا۔

FrontierMath (Tier 1–3) پر، جو ماہر سطح کے ریاضی کا جائزہ ہے، GPT‑5.2 Thinking نے ایک نیا معیار قائم کیا، 40.3% مسائل کو حل کرتے ہوئے۔

FrontierMath⁠(نئی ونڈو میں کھلتا ہے) میں، ماڈلز ماہر سطح کے ریاضی کے مسائل حل کرتے ہیں۔ ایک Python ٹول فعال کیا گیا تھا، اور استدلالی کوشش کو زیادہ سے زیادہ سطح پر مقرر کیا گیا تھا۔

کیس اسٹڈی

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators⁠(نئی ونڈو میں کھلتا ہے).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

مستقبل کی طرف دیکھتے ہوئے

یہ نتیجہ ایک مفید سمت کی نشاندہی کرتا ہے کہ AI سسٹمز سائنسی تحقیق کی سپورٹ کیسے کر سکتے ہیں، خاص طور پر ان شعبے میں جہاں اصولی نظریاتی بنیادیں موجود ہیں جیسے کہ ریاضی اور نظریاتی کمپیوٹر سائنس۔ ایسی ترتیبات میں، سرحدی ماڈلز دریافت کریں ثبوتوں کی، مفروضات کی جانچ اور ایسے روابط کی نشاندہی کرنے میں مدد کر سکتے ہیں جو بصورت دیگر انسانی کوشش کے بغیر دریافت کرنا مشکل ہو سکتے ہیں۔

اسی وقت، یہ نظام آزاد محقق نہیں ہیں۔ ماہرین کی رائے، تصدیق، اور شعبہ کی سمجھ بوجھ ضروری ہیں۔ حتیٰ کہ انتہائی قابل ماڈلز بھی غلطیاں کر سکتے ہیں یا غیر بیان شدہ مفروضات پر انحصار کر سکتے ہیں۔ لیکن وہ تفصیلی، منظم دلائل بھی پیش کر سکتے ہیں جو انسانی مطالعہ اور بہتری کے مستحق ہیں۔ لہذا AI کے ساتھ قابل اعتماد پیشرفت کرنے کے لیے ان ورک فلو پر انحصار ہوتا ہے جو توثیق، شفافیت اور تعاون کو مضبوطی سے دائرے میں رکھتے ہیں۔

ایک کیس اسٹڈی کے طور پر دیکھا جائے تو یہ نتیجہ تحقیق کے عمل کے ابھرتے ہوئے طریقہ کار کی وضاحت کرتا ہے۔ GPT‑5.2 جیسے ماڈلز ریاضیاتی استدلال کی حمایت اور ابتدائی مرحلے کی تحقیق کو تیز کرنے کے لیے ٹولز کے طور پر کام کر سکتے ہیں، جبکہ درستگی، تشریح، اور سیاق و سباق کی ذمہ داری انسانی محققین پر رہتی ہے۔ اگر احتیاط سے استعمال کیا جائے، تو ایسے نظام نظریاتی کام کے اہم پہلوؤں کو منظم کرنے میں مدد کر سکتے ہیں، بغیر سائنسی تحقیق میں انسانی فیصلے کے مرکزی کردار کو متاثر کیے۔

مصنف

OpenAI

پڑھتے رہیں

سب دیکھیں

How AI is expanding what we do at work > Cover image

How AI is expanding what people do at work

کمپنی۲۷ جولائی، ۲۰۲۶

ChatGPT میں ہیلتھ کا آغاز

پروڈکٹ۲۳ جولائی، ۲۰۲۶

How news organizations are using AI > Card Image

خبری ادارے اپنے اہم مشن کے لیے مصنوعی ذہانت کیسے برتتے ہیں

کمپنی۲۲ جولائی، ۲۰۲۶