۱۶ دسمبر، ۲۰۲۵

AI کی سائنسی تحقیقاتی ٹاسک انجام دینے کی صلاحیت کا جائزہ

ہم FrontierScience کو متعارف کرا رہے ہیں، جو ایک نیا بینچ مارک ہے جو فزکس، کیمسٹری، اور بایولوجی میں ماہر سطح کی سائنسی استدلال کے لیے AI کی صلاحیتوں کا جائزہ لیتا ہے۔

کاغذ کو پڑھیں

ایک جزوی گرافک دکھایا گیا ہے جس کا پس منظر ہلکا سبز اور زردی مائل ہے، اور اس میں ایک بڑا، کٹا ہوا لفظ نظر آتا ہے جو "Fro…" سے شروع ہوتا ہے۔ دائیں جانب تہہ در تہہ متن کے بلاکس موجود ہیں جن میں جانچ کے معیارات درج ہیں، جیسے "حقائق پر مبنی"، "جانچے جانے کے قابل"، "غیر جانبدار"، اور "مشکل"۔

لوڈ ہو رہا ہے…

استدلال کو سائنسی کام میں مرکزیت حاصل ہے۔ سائنس دان صرف حقائق یاد نہیں کرتے؛ وہ نئے مفروضے پیش کرتے ہیں، انہیں آزماتے اور بہتر بناتے ہیں، اور مختلف شعبوں کے علم کو آپس میں جوڑتے ہیں۔ جیسے جیسے اے آئی ماڈلز زیادہ طاقتور ہوتے جا رہے ہیں، اصل سوال یہ ہے کہ وہ کس طرح گہرے استدلال کے ذریعے سائنسی تحقیق میں حقیقی مدد فراہم کر سکتے ہیں۔

گزشتہ ایک سال کے دوران، ہمارے اے آئی ماڈلز نے اہم سنگِ میل عبور کیے ہیں، جن میں انٹرنیشنل میتھ اولمپیاڈ، اورانٹرنیشنل اولمپیاڈ ان انفارمیٹکس کے عالمی مقابلوں میں گولڈ میڈل سطح کی کارکردگی بھی شامل ہے۔ ساتھ ہی، ہمارے سب سے طاقتور ماڈلز، جیسے GPT‑5، حقیقی سائنسی کام کو نمایاں طور پر تیز کرنے لگے ہیں۔ محققین ان سسٹمز کو مختلف شعبوں اور زبانوں میں تحقیقی مواد تلاش کرنے اور پیچیدہ ریاضیاتی ثبوتوں پر کام کرنے کے لیے استعمال کر رہے ہیں۔ بہت سے معاملات میں، جو کام پہلے کئی دنوں یا ہفتوں میں مکمل ہوتا تھا، اب صرف چند گھنٹوں میں ہو جاتا ہے۔ اس پیش رفت کو ہمارے تحقیقی مقالے ابتدائی تجربات جو یہ دکھاتے ہیں کہ GPT‑5 سائنسی تحقیق کو کیسے تیز کر سکتا ہے⁠ میں بیان کیا گیا ہے، جو نومبر 2025 میں شائع ہوا۔ اس مقالے میں اس بات کے ابتدائی شواہد پیش کیے گئے ہیں کہ GPT‑5 سائنسی تحقیق کے کام کو واضح طور پر تیز کر سکتا ہے۔

FrontierScience کا تعارف

چونکہ سائنسی ترقی کو تیز کرنا AI کے ذریعے انسانیت کو فائدہ پہنچانے کے سب سے امید افزا مواقع میں سے ایک ہے، ہم اپنے ماڈلز کو مشکل ریاضی اور سائنس کے ٹاسک پر بہتر بنا رہے ہیں اور ان ٹولز پر کام کر رہے ہیں جو سائنسدانوں کو ان سے زیادہ سے زیادہ فائدہ اٹھانے میں مدد دیں گے۔

جب GPQA⁠(نئی ونڈو میں کھلتا ہے)جو پی ایچ ڈی ماہرین کے تیار کردہ "Google-Proof" سائنسی سوالات پر مشتمل ایک بینچ مارک ہے، نومبر 2023 میں جاری ہوا، تو GPT‑4 نے 39٪ اسکور حاصل کیا، جو ماہرین کے معیار 70٪ سے کافی کم تھا۔ دو سال بعد، GPT‑5.2 نے 92٪ اسکور کیا۔ جیسے جیسے ماڈلز کی استدلال اور علم کی صلاحیتیں بڑھتی جا رہی ہیں، زیادہ مشکل بینچ مارکس ماڈلز کی سائنسی تحقیق کو تیز کرنے کی صلاحیت کو ماپنے اور پیش گوئی کرنے کے لیے اہم ہوں گے۔ پرانے سائنسی بینچ مارکس زیادہ تر ملٹی پل چوائس سوالات تک محدود ہوتے ہیں، یا اب حد سے زیادہ استعمال ہو چکے ہیں، یا پھر اصل سائنسی سوچ اور تحقیق پر پوری طرح مرکوز نہیں ہوتے۔

اس خلاء کو پر کرنے کے لیے، ہم FrontierScience متعارف کروا رہے ہیں: ایک نیا بینچ مارک جو ماہر سطح کی سائنسی قابلیتوں کی پیمائش کے لیے بنایا گیا ہے۔ FrontierScience کو فزکس، کیمسٹری، اور بایولوجی کے ماہرین نے تیار کیا ہے اور اس کی تصدیق بھی کی ہے۔ اس میں سینکڑوں سوالات شامل ہیں جو جان بوجھ کر مشکل، منفرد، اور سائنسی فہم کے لیے بامعنی بنائے گئے ہیں۔ FrontierScience میں سوالات کی دو اقسام شامل ہیں۔ "اولمپیاڈ" ٹریک اولمپیاڈ طرز کی اعلیٰ سائنسی سوچ کو جانچتا ہے، جبکہ "ریسرچ" ٹریک حقیقی دنیا کی سائنسی تحقیق کی صلاحیتوں کو ناپتا ہے۔ ماڈلز کی سائنسی صلاحیتوں کے بارے میں واضح سمجھ فراہم کر کے، یہ ہمیں پیش رفت کو ناپنے اور اے آئی کی مدد سے سائنسی تحقیق کو آگے بڑھانے میں مدد دیتا ہے۔

ہمارے ابتدائی جائزوں میں، GPT‑5.2 ہمارا سب سے اعلیٰ کارکردگی کا ماڈل ہے جو FrontierScience-اولمپیاڈ میں 77٪ اور ریسرچ میں 25٪ اسکور کے ساتھ دیگر جدید ماڈلز سے آگے ہے۔ ہم نے ماہر سطح کے سوالات حل کرنے میں نمایاں پیش رفت دیکھی ہے، لیکن ابھی مزید بہتری کی گنجائش باقی ہے، خاص طور پر ایسے کھلے انداز کے تحقیقی سوالات میں جن کے لیے گہری تحقیق درکار ہوتی ہے۔ سائنس دانوں کے لیے اس کا مطلب یہ ہے کہ موجودہ اے آئی ماڈلز پہلے ہی اُن تحقیقی کاموں میں مدد کر سکتے ہیں جن میں منظم استدلال شامل ہوتا ہے۔ تاہم، یہ بھی واضح ہوتا ہے کہ کھلے انداز کی دقت طلب صلاحیت کو بہتر بنانے کے لیے ابھی خاصی محنت درکار ہے۔ یہ نتائج اس بات کے مطابق ہیں کہ سائنسدان آج کے ماڈلز کس طرح استعمال کر رہے ہیں: تحقیق کے عمل کو تیز کرنے کے لیے جبکہ مسئلے کی تشکیل اور توثیق کے لیے انسانی فیصلے پر انحصار کرتے ہیں، اور بڑھتی ہوئی حد تک ایسے خیالات اور روابط دریافت کریں جو بصورت دیگر دریافت کرنے میں زیادہ وقت لیتے ہیں—بشمول، کچھ معاملات میں نئی بصیرت افروز معلومات فراہم کرنا جن کا ماہرین پھر جائزہ لیتے ہیں اور جانچتے ہیں۔

آخرکار، اے آئی کی سائنسی صلاحیت کا سب سے اہم پیمانہ یہ ہے کہ آیا وہ نئی دریافتوں میں مدد دیتی ہے یا نہیں، کیونکہ یہی دریافتیں سائنس اور معاشرے کے لیے واقعی اہم ہوتی ہیں۔ FrontierScience اس سے بھی اوپر ہے۔ یہ ہمیں ماہر سطح کی سائنسی استدلال کے لئے ایک رہنمائی فراہم کرتا ہے، جو ہمیں معیاری سوالات کے ایک سیٹ پر ماڈلز کی جانچ کرنے، ان کی کامیابی یا ناکامی کو دیکھنے، اور یہ شناخت کرنے کی اجازت دیتا ہے کہ ہمیں انہیں کہاں بہتر کرنے کی ضرورت ہے۔ تاہم، FrontierScience کی اپنی حدود بھی ہیں۔ یہ محدود دائرے میں ماہرین کے لکھے گئے سوالات پر توجہ دیتا ہے اور سائنس دانوں کے روزمرہ کے تمام کاموں کی نمائندگی نہیں کرتا۔ اس کے باوجود، سائنسی میدان کو زیادہ مشکل، منفرد، اور بامعنی بینچ مارکس کی ضرورت ہے، اور FrontierScience اس سمت میں ایک اہم قدم ہے۔

FrontierScience کیا پیمائش کرتا ہے اور ہم نے اسے کیسے بنایا

FrontierScience کی مکمل جانچ 700 سے زیادہ متنی سوالات پر مشتمل ہے (جن میں سے 160 گولڈ سیٹ میں شامل ہیں) جو فزکس، کیمسٹری، اور بایولوجی کے ذیلی شعبوں کا احاطہ کرتے ہیں۔ بینچ مارک ایک اولمپیاڈ اورایک ریسرچ کی تقسیم پر مشتمل ہے۔ FrontierScience-اولمپیاڈ میں 100 سوالات شامل ہیں جو بین الاقوامی اولمپیاڈ میڈلسٹوں نے سائنسی استدلال کو محدود، مختصر جواب کے فارمیٹ میں جانچنے کے لیے تیار کیے ہیں۔ اولمپیاڈ سیٹ کو اس طرح ڈیزائن کیا گیا تھا کہ اس میں ایسے نظریاتی سوالات شامل ہوں جو کم از کم بین الاقوامی اولمپیاڈ مقابلوں کے مسائل جتنے مشکل ہوں۔ FrontierScience-ریسرچ میں 60 اصل تحقیقی کام شامل ہیں جو پی ایچ ڈی سطح کے سائنس دانوں، (ڈاکٹریٹ طلبہ، پروفیسرز، اور پوسٹ ڈاکٹریٹ محققین) نے تیار کیے ہیں۔ ان کاموں کی درجہ بندی 10 نکاتی معیار پر کی جاتی ہے۔ ریسرچ سیٹ کو اس طرح تیار کیا گیا ہے کہ اس میں مکمل اور کئی مراحل پر مشتمل ایسے کام شامل ہوں، جن کی مشکل سطح وہی ہو جو ایک پی ایچ ڈی سائنس دان کو اپنی حقیقی تحقیق کے دوران پیش آ سکتی ہے۔

نمونہ سوالات

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

FrontierScience کا ہر ٹاسک فزکس، کیمسٹری، یا بایولوجی کے کسی ماہر نے تحریر کیا ہے اور اس کی تصدیق بھی کی ہے۔ اولمپیاڈ سیٹ کے لیے، تمام ماہرین نے کم از کم ایک (اور اکثر نے ایک سے زیادہ ) بین الاقوامی اولمپیاڈ مقابلے میں میڈل حاصل کیا ہے۔ ریسرچ سیٹ کے لیے، تمام ماہرین کے پاس اپنے متعلقہ شعبے میں پی ایچ ڈی ڈگری موجود ہے۔

اولمپیاڈ کے سوالات 42 سابق بین الاقوامی میڈلسٹوں اور قومی ٹیموں کے کوچز کے تعاون سے تیار کیے گئے، جنہوں نے مجموعی طور پر 109 اولمپیاڈ میڈلز جیت رکھے ہیں۔ ریسرچ کے سوالات 45 ماہر سائنسدانوں اور شعبہ کے ماہرین کے تعاون سے بنائے گئے تھے۔ تمام سائنسدان یا تو ڈاکٹریٹ کے امیدوار تھے، پوسٹ ڈاکٹریٹ محققین تھے، یا پروفیسر تھے۔ ان کے مہارت کے شعبے مختلف اور اہم سائنسی مضامین پر محیط تھے، جیسے کوانٹم الیکٹروڈائنامکس سے لے کر مصنوعی آرگیننک کیمسٹری اور ارتقائی بایولوجی تک۔

دونوں سیٹس کے لیے ٹاسکس تیار کرتے وقت OpenAI کے داخلی ماڈلز کے لیے مشکل ٹاسکس شامل کرنا تھا (مثلاً، ان ٹاسکس کو خارج کرنا جنہیں نمونے کامیابی سے حل کر لیتے تھے، اس لیے ہم توقع کرتے ہیں کہ یہ جائزہ جان بوجھ کر ان ماڈلز کے لیے نسبتاً زیادہ مشکل بنایا گیا ہے)۔ ہم اولمپیاڈ کے 100 سوالات اور ریسرچ کے 60 سوالات پر مشتمل گولڈ سیٹس کو اوپن سورس کر رہے ہیں۔ باقی سوالات کو نجی رکھا گیا ہے تاکہ ڈیٹا کنٹیمنیشن کو ٹریک کیا جا سکے اور جائزہ منصفانہ رہے۔

ایک فلوچارٹ جو ٹاسک تیار کرنے کے چار مراحل کو دکھاتا ہے—تخلیق، جائزہ، حل، اور نظرثانی—ہر مرحلے کی مختصر وضاحت کے ساتھ نشانِ درستگی یہ ظاہر کرنے کے لیے ہیں کہ ٹاسکس حقائق پر مبنی، جانچے جانے کے قابل، غیر جانبدار، اور مشکل معیار پر پورا اترتے ہیں۔

ٹاسک چار مراحل سے گزرتے ہیں: تخلیق، جائزہ، حل، نظرثانی۔ آزاد ماہرین ایک دوسرے کے ٹاسک کا جائزہ لیتے ہیں تاکہ تصدیق کریں کہ یہ معیار کے مطابق ہے۔

ہم ماڈل کی کارکردگی کی جانچ کیسے کرتے ہیں

اولمپیاڈ سیٹ میں سوالات اس طرح بنائے گئے ہیں کہ ان کے جوابات آسانی سے جانچے جا سکیں: خواہ کسی عدد، ریاضیاتی تعبیر، یا قریب ترین لفظی مماثلت کے ذریعے، جس سے درستگی کی تصدیق کرنا آسان ہو جاتا ہے۔ تاہم اس آسان جانچ کے بدلے، سوالات کی وسعت اور کھلا پن کچھ حد تک کم ہو جاتا ہے۔ ریسرچ سیٹ کی کے لیے، کھلے انداز اور دقت طلب سوالات کے جوابات کی منصفانہ جانچ کے مد نظر ہم ایک واضح اسکورنگ نظام (روبریک) استعمال کرتے ہیں۔ ہر سوال کے ساتھ ایک تفصیلی روبریک شامل ہوتی ہے جس میں کئی الگ الگ اور واضح طور پر جانچے جانے والے نکات ہوتے ہیں، اور کل اسکور 10 پوائنٹس پر مشتمل ہوتا ہے۔ یہ روبریک صرف حتمی جواب کی درستگی نہیں دیکھتی، بلکہ درمیان کے استدلالی مراحل کی درستگی کو بھی جانچتی ہے، جس سے ماڈل کی کارکردگی اور غلطیوں کو بہتر انداز میں سمجھا جا سکتا ہے۔ کسی حل کو "درست" مانا جاتا ہے اگر اسے کم از کم 10 میں سے 7 پوائنٹس مل جائیں۔

جوابات کی جانچ ایک ماڈل پر مبنی گریڈر (GPT‑5) کے ذریعے یا تو مختصر درست جواب سے موازنہ کر کے یا روبریک کے معیار کے مطابق اسکور دے کر کی جاتی ہے۔ اگرچہ ہر جواب کو کسی انسانی ماہر سے جانچوانا بہترین ہوتا، لیکن بڑے پیمانے پر یہ ممکن نہیں۔ اسی لیے ہم نے روبریک اس طرح تیار کی ہے کہ اسے ماڈل کے ذریعے قابلِ اعتماد طور پر جانچا جا سکے۔ ہم نے ایک تصدیقی نظام تیار کیا تاکہ یہ یقینی بنایا جا سکے کہ روبرکس اور سوالات مشکل اور درستگی کے لحاظ سے اچھی طرح سے ہم آہنگ ہیں۔

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

ریسرچ سیٹ کے ہر کام کی جانچ 10 پوائنٹس پر مشتمل روبریک کے ذریعے کی جاتی ہے، جسے کسی انسانی ماہر یا ماڈل پر مبنی گریڈر دونوں استعمال کر سکتے ہیں۔ ماڈلز کی جانچ کو بڑے پیمانے پر ممکن بنانے کے لیے، ہم جوابات کی درجہ بندی کے لیے ایک دوسرے اے آئی ماڈل کا استعمال کرتے ہیں۔

ماڈل کی کارکردگی

ہم نے FrontierScience-اولمپیاڈ اور FrontierScience-ریسرچ پر کئی جدید ماڈلز کا جائزہ لیا: GPT‑5.2، Claude Opus 4.5، اور Gemini 3 Pro، GPT‑4o، OpenAI o4-mini، اور OpenAI o3۔ تمام استدلالی ماڈلز کو "اعلیٰ" استدلالی کوشش پر جانچا گیا، سوائے GPT‑5.2 کے جو "xhigh" پر جانچا گیا۔ ہمارے ابتدائی جائزوں میں، GPT‑5.2 ہمارا سب سے اعلیٰ کارکردگی کا ماڈل ہے جو FrontierScience-اولمپیاڈ میں 77٪ اور ریسرچ میں 25٪ اسکور کے ساتھ دیگر جدید ماڈلز سے آگے ہے۔ Gemini 3 Pro اولمپیاڈ سیٹ پر GPT‑5.2 کے مساوی ہے (اسکور 76٪)۔

ہم نے ماہر سطح کے سوالات حل کرنے میں نمایاں پیش رفت دیکھی ہے، خاص طور پر کھلے انداز کے دقت طلب تحقیقی سوالات۔ ابھی بھی مزید کرنے کی گنجائش موجود ہے: ناکامیوں کے لیے نقلوں کا تجزیہ کرنے سے، جدید ماڈلز بعض اوقات استدلال، منطق، اور حساب کتاب میں غلطیاں کرتے ہیں، مخصوص سائنسی تصورات کو نہیں سمجھتے، اور حقائق میں غلطیاں کرتے ہیں۔

ہم مختلف جدید ماڈلز کی درستگی کا آپس میں موازنہ کرتے ہیں۔ ان سب میں، GPT‑5.2 نے FrontierScience-ریسرچ کے سوالات اور اولمپیاڈ سیٹ دونوں پر سب سے بہتر کارکردگی دکھائی ہے۔

ہم GPT‑5.2 اور o3 کے لیے استدلال کی کوششوں کے دوران درستگیوں کا موازنہ کرتے ہیں۔ زیادہ دیر تک سوچنے سے درستگی میں بہتری آتی ہے۔

محدودیتیں اور آگے کیا ہے

اگرچہ FrontierScience سائنسی بینچ مارکس کی مشکل سطح کو آگے لے جاتا ہے، لیکن اس کی کچھ حدود اب بھی موجود ہیں۔ FrontierScience کے سوالات محدود اور واضح دائرے میں بنائے گئے ہیں۔ یہ زیادہ تر یا تو حتمی جواب کی جانچ پر توجہ دیتے ہیں (Olympiad سیٹ میں)، یا پھر تحقیقی کام مکمل کرنے کے لیے اختیار کیے گئے استدلال کی جانچ پر (Research سیٹ میں)۔ اس کے علاوہ، طویل تحقیقی کاموں میں کئی حصوں پر مشتمل روبریک کے ذریعے جانچ کرنا، صرف ایک حتمی جواب چیک کرنے کے مقابلے میں کم معروضی ہوتا ہے۔

FrontierScience مشکل اور ماہرین کے لکھے گئے سوالات پر ماڈلز کی سوچ کو زیادہ تفصیل سے دکھاتا ہے، لیکن یہ اس بات کی مکمل تصویر پیش نہیں کرتا کہ عملی طور پر سائنسی عمل کیسے کیا جاتا ہے۔ خاص طور پر، یہ سائنسی تحقیق کے کچھ اہم پہلوؤں کا جائزہ نہیں لیتا: جیسے یہ کہ ماڈلز کس طرح بالکل نئے مفروضے بناتے ہیں، یا وہ مختلف اقسام کے ڈیٹا کے ساتھ کیسے تعامل کرتے ہیں، مثلاً ویڈیوز، حقیقی تجربات، اور جسمانی دنیا کے تجرباتی نظام۔

آگے دیکھتے ہوئے، ہم توقع کرتے ہیں کہ سائنسی استدلال میں پیشرفت بہتر عمومی استدلالی نظاموں میں بہتری اور سائنسی قابلیتوں کو بہتر بنانے کی کوششوں دونوں سے آئے گی۔ FrontierScience بہت سارے دوسرے ٹولز کے طرح ہی ہے۔ جیسے جیسے ماڈلز بہتر ہوتے جائیں گے، ہم اس بینچ مارک کو مزید نکھارتے رہیں گے، اسے نئے سائنسی شعبوں تک وسعت دیں گے، اور اسے ایسے حقیقی دنیا کے جائزوں کے ساتھ جوڑیں گے جو یہ دکھائیں کہ یہ سسٹمز حقیقت میں سائنس دانوں کو کیا کچھ کرنے کے قابل بناتے ہیں۔ FrontierScience جیسے بینچ مارکس ہمیں آج کے AI سسٹمز کی کمزوریوں کو سمجھنے میں مدد دیتے ہیں تاکہ ہم اپنے کام کو سائنسی دریافت میں قابل اعتماد ماڈلز بنانے پر مرکوز کر سکیں۔

مصنف

OpenAI

پڑھتے رہیں

سب دیکھیں

GPT-Red: مضبوطی کے لیے خود بہتری کو کھولنا

حفاظت۱۵ جولائی، ۲۰۲۶

کوڈنگ جائزوں میں سگنل کو شور سے الگ کرنا

تحقیق۸ جولائی، ۲۰۲۶

GeneBench-Pro متعارف کروا رہے ہیں

تحقیق۳۰ جون، ۲۰۲۶