ارزیابی توانایی هوش مصنوعی در انجام وظایف پژوهشی علمی
ما FrontierScience را معرفی میکنیم، یک معیار جدید که تواناییهای هوش مصنوعی را برای استدلال علمی در سطح کارشناسی ارزیابی میکند و شامل حوزههای فیزیک، شیمی و زیستشناسی میشود.

استدلال در قلب کار علمی قرار دارد. فراتر از به خاطر سپردن حقایق، دانشمندان فرضیهها را ایجاد میکنند، آنها را آزمایش و بهبود میبخشند و ایدهها را در زمینههای مختلف تلفیق میکنند. با افزایش توانایی مدلهای ما، سوال اصلی این است که چگونه میتوانند به طور عمیق استدلال کنند تا به تحقیقات علمی کمک کنند.
در سال گذشته، مدلهای ما به نقاط عطف مهمی دست یافتهاند، از جمله کسب عملکرد مدال طلا در المپیاد بینالمللی ریاضی و المپیاد بینالمللی انفورماتیک. به طور همزمان، ما شروع به مشاهده کردهایم که مدلهای بسیار توانمند ما، مانند GPT‑5، به طور معناداری جریانهای کاری علمی واقعی را تسریع میکنند. پژوهشگران از این سیستمها برای وظایفی مانند جستوجوی منابع علمی در رشتهها و زبانهای مختلف و کار بر روی اثباتهای ریاضی پیچیده استفاده میکنند. در بسیاری از موارد، مدل کارهایی را که ممکن بود روزها یا هفتهها طول بکشد، به چند ساعت کاهش میدهد. این پیشرفت در مقاله ما آزمایشهای اولیه تسریع علم با GPT‑5 که در نوامبر 2025 منتشر شده است، مستند شده و شواهد اولیهای ارائه میدهد که نشان میدهد GPT‑5 میتواند به طور قابل اندازهگیری جریانهای کاری علمی را تسریع کند.
از آنجا که تسریع پیشرفت علمی یکی از امیدوارکنندهترین فرصتها برای بهرهمندی بشریت از هوش مصنوعی است، ما در حال بهبود مدلهای خود در وظایف دشوار ریاضی و علمی هستیم و بر روی ابزارهایی کار میکنیم که به دانشمندان کمک میکند تا بیشترین بهره را از آنها ببرند.
زمانی که GPQA(در یک پنجره جدید باز میشود)، یک معیار علمی «ضد گوگل» از سؤالاتی که توسط کارشناسان دکترا نوشته شدهاند، در نوامبر 2023 منتشر شد، GPT‑4 امتیاز 39٪ را کسب کرد که کمتر از خط پایه کارشناسان با 70٪ بود. دو سال بعد، GPT‑5.2 نمره ۹۲٪ را به دست آورد. با افزایش تواناییهای استدلال و دانش مدلها، معیارهای پیچیدهتری برای سنجش و پیشبینی توانایی مدلها در تسریع تحقیقات علمی اهمیت پیدا خواهند کرد. بنچمارکهای علمی پیشین عمدتاً بر سؤالات چندگزینهای تمرکز دارند، اشباع شدهاند یا به طور مرکزی بر علم تمرکز ندارند.
برای پر کردن این شکاف، ما FrontierScience را معرفی میکنیم: یک معیار جدید که برای اندازهگیری تواناییهای علمی در سطح متخصص ساخته شده است. FrontierScience توسط کارشناسان در زمینههای فیزیک، شیمی و زیستشناسی نوشته و تأیید شده و شامل صدها سوال است که به گونهای طراحی شدهاند که دشوار، اصیل و معنادار باشند. FrontierScience شامل دو مسیر از سؤالات است: المپیاد، که تواناییهای استدلال علمی به سبک المپیاد را اندازهگیری میکند، و پژوهش، که تواناییهای پژوهش علمی در دنیای واقعی را میسنجد. ارائه بینش بیشتر در مورد قابلیتهای علمی مدلها به ما کمک میکند تا پیشرفت را دنبال کرده و علم تسریعشده توسط هوش مصنوعی را ارتقا دهیم.
در ارزیابیهای اولیه ما، GPT‑5.2 بهترین مدل ما در FrontierScience-Olympiad (با امتیاز ۷۷٪) و Research (با امتیاز ۲۵٪) است و از دیگر مدلهای پیشرو جلوتر است. ما پیشرفت قابل توجهی در حل سوالات در سطح کارشناسی مشاهده کردهایم، در حالی که فضای بیشتری برای پیشرفت، به ویژه در وظایف تحقیقاتی باز، باقی مانده است. برای دانشمندان، این نشان میدهد که مدلهای فعلی میتوانند از بخشهایی از تحقیقات که شامل استدلال ساختاریافته هستند، پشتیبانی کنند، در حالی که تأکید میکند که کار زیادی برای بهبود توانایی آنها در انجام تفکر باز و بدون محدودیت باقی مانده است. این نتایج با نحوه استفاده دانشمندان از مدلهای امروزی همخوانی دارد: برای تسریع جریانهای کاری تحقیقاتی در حالی که برای چارچوببندی و اعتبارسنجی مشکلات به قضاوت انسانی متکی هستند، و به طور فزایندهای برای کشف ایدهها و ارتباطاتی که در غیر این صورت زمان بسیار بیشتری برای کشف نیاز داشتند—از جمله در برخی موارد، ارائه بینشهای جدیدی که سپس توسط کارشناسان ارزیابی و آزمایش میشوند.
در نهایت، مهمترین معیار برای تواناییهای علمی هوش مصنوعی، کشفهای جدیدی است که به ایجاد آنها کمک میکند؛ اینها هستند که در نهایت برای علم و جامعه اهمیت دارند. FrontierScience در بالادست آن قرار دارد. این به ما یک ستاره راهنما برای استدلال علمی در سطح کارشناسی ارشد میدهد، که به ما اجازه میدهد مدلها را بر روی مجموعهای استاندارد از سوالات آزمایش کنیم، ببینیم کجا موفق میشوند یا شکست میخورند، و مشخص کنیم کجا نیاز به بهبود آنها داریم. FrontierScience محدود و در جنبههای کلیدی دارای محدودیتهایی است (مثلاً تمرکز بر مسائل محدود و نوشتهشده توسط کارشناسان) و همه فعالیتهای روزمره دانشمندان را پوشش نمیدهد. اما این حوزه به معیارهای علمی دشوارتر، اصیلتر و معنادارتری نیاز دارد و FrontierScience گامی به جلو در این جهت برداشته است.
ارزیابی کامل FrontierScience بیش از ۷۰۰ سوال متنی (با ۱۶۰ سوال در مجموعه طلایی) را در بر میگیرد که زیرشاخههای فیزیک، شیمی و زیستشناسی را پوشش میدهد. معیار سنجش از یک المپیاد و یک بخش تحقیقاتی تشکیل شده است. المپیاد FrontierScience شامل 100 سوال است که توسط مدالآوران المپیاد بینالمللی طراحی شدهاند تا استدلال علمی را در قالب پاسخهای کوتاه و محدود ارزیابی کند. مجموعه المپیاد به گونهای طراحی شده است که شامل سوالات نظری باشد که حداقل به اندازه مسائل در رقابتهای بینالمللی المپیاد دشوار باشند. FrontierScience-Research شامل ۶۰ زیرمجموعه تحقیقاتی اصلی است که توسط دانشمندان دارای مدرک دکترا (دانشجویان دکترا، اساتید یا پژوهشگران پسادکترا) طراحی شدهاند و با استفاده از یک معیار ۱۰ امتیازی ارزیابی میشوند. مجموعه تحقیقاتی ایجاد شده تا شامل وظایف چندمرحلهای و مستقل باشد که در سطح دشواری است که یک دانشمند دکترا ممکن است در طول تحقیقاتش با آن روبرو شود.
هر وظیفه در FrontierScience توسط یک متخصص حوزه در فیزیک، شیمی یا زیستشناسی نوشته و تأیید میشود. برای مجموعه المپیاد، به همه کارشناسان در حداقل یک (و اغلب چندین) رقابت بینالمللی المپیاد مدال اهدا شد. برای مجموعه تحقیقاتی، همه کارشناسان دارای مدرک دکتری مرتبطی هستند.
سؤالات المپیاد با همکاری ۴۲ مدالآور بینالمللی سابق یا مربیان Teamهای ملی در حوزههای مربوطه ایجاد شدهاند که در مجموع ۱۰۹ مدال المپیاد را شامل میشوند. سؤالات پژوهشی با همکاری ۴۵ دانشمند و متخصص حوزه واجد شرایط ایجاد شدند. همه دانشمندان یا دانشجویان دکترا، پژوهشگران پسادکترا، یا استادان بودند. حوزههای تخصصی آنها طیف وسیعی از رشتههای علمی تخصصی و مهم را در بر میگرفت، از الکترودینامیک کوانتومی تا شیمی آلی سنتزی و زیستشناسی تکاملی.
فرآیند ایجاد وظایف برای هر دو مجموعه شامل انتخابهایی در برابر مدلهای داخلی OpenAI بود (مثلاً حذف وظایفی که مدلها به درستی انجام داده بودند، بنابراین انتظار داریم که ارزیابی تا حدی به ضرر این مدلها نسبت به دیگران باشد). ما مجموعه طلایی المپیاد شامل 100 سوال و مجموعه طلایی تحقیقاتی شامل 60 سوال را به صورت متنباز منتشر میکنیم و سایر سوالات را برای ردیابی آلودگی نگه میداریم.

وظایف از چهار مرحله عبور میکنند: ایجاد، بازبینی، حل، و اصلاح. کارشناسان مستقل وظایف یکدیگر را بررسی میکنند تا مطمئن شوند که با معیارها مطابقت دارد.
مجموعه المپیاد با یک پاسخ کوتاه قابل ارزیابی است: یا با یک عدد، عبارت، یا تطابق رشتهای مبهم، که به تأیید صحت کمک میکند. با این حال، این تأیید اغلب با بیانگری و باز بودن مسئله تداخل دارد. برای مجموعه پژوهشی، ما یک معماری مبتنی بر روبریک را برای ارزیابی وظایف بازتر معرفی میکنیم. هر سوال شامل یک معیار نمرهدهی با چندین مورد مستقل و به طور عینی قابل ارزیابی است که مجموعاً ۱۰ امتیاز دارد. معیار نمرهدهی نه تنها دقت پاسخ نهایی را ارزیابی میکند، بلکه درستی مراحل استدلال میانی را نیز بررسی میکند و امکان تحلیل دقیقتری از عملکرد و شکستهای مدل را فراهم میکند. یک راهحل زمانی "درست" در نظر گرفته میشود که حداقل ۷ از ۱۰ امتیاز معیار را دریافت کند.
پاسخها توسط یک ارزیاب مبتنی بر مدل (GPT‑5) بر اساس معیارهای پاسخ کوتاه یا معیارهای ارزیابی بررسی میشوند. در حالی که ما ترجیح میدهیم از یک کارشناس انسانی برای ارزیابی هر پاسخ استفاده کنیم، این روش مقیاسپذیر نیست، بنابراین معیارها را به گونهای طراحی کردیم که با استفاده از یک ارزیاب مدل قابل بررسی باشند. ما یک فرآیند تأیید ایجاد کردیم تا اطمینان حاصل کنیم که معیارها و سوالات به خوبی با سطح دشواری و صحت تنظیم شدهاند.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
شکست 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
پاس 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
پاس 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
پاس 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
شکست 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
هر کار در مجموعه تحقیقاتی با استفاده از یک معیار ارزیابی که مجموعاً ۱۰ امتیاز دارد، نمرهدهی میشود و میتواند توسط یک کارشناس یا یک ارزیاب مدل استفاده شود. برای افزایش تواناییمان در ارزیابی مدلها، از مدل دیگری برای نمرهدهی به پاسخها استفاده میکنیم.
ما چند مدل پیشرو را ارزیابی کردیم: GPT‑5.2، Claude Opus 4.5، Gemini 3 Pro، GPT‑4o، OpenAI o4-mini، و OpenAI o3 در FrontierScience-Olympiad و FrontierScience-Research. همه مدلهای استدلال با تلاش استدلالی «بالا» ارزیابی شدند به جز GPT‑5.2 که با «xhigh» ارزیابی شد. در ارزیابیهای اولیه ما، GPT‑5.2 بهترین مدل ما در FrontierScience-Olympiad (با امتیاز ۷۷٪) و Research (با امتیاز ۲۵٪) است و از دیگر مدلهای پیشرو جلوتر است. Gemini 3 Pro با GPT‑5.2 در مجموعه المپیاد (با امتیاز ۷۶٪) قابل مقایسه است.
ما پیشرفت قابل توجهی در حل سوالات در سطح کارشناسی مشاهده کردهایم، به ویژه در وظایف تحقیقاتی با سبک باز. هنوز فضای بیشتری برای رشد وجود دارد: از تحلیل رونوشتها برای شکستها، مدلهای پیشرفته گاهی اوقات در استدلال، منطق و محاسبه اشتباه میکردند، مفاهیم علمی خاص را درک نمیکردند و نادرستیهای واقعی داشتند.
ما دقتها را در چندین مدل پیشرو مقایسه میکنیم. GPT‑5.2 بهترین عملکرد را در مجموعههای FrontierScience-Research و Olympiad دارد.
ما دقتها را در تلاشهای استدلالی برای GPT‑5.2 و o3 مقایسه میکنیم. زمان بیشتر برای فکر کردن منجر به بهبود دقت میشود.
در حالی که FrontierScience گامی به جلو در افزایش دشواری معیارهای علمی است، هنوز محدودیتهای زیادی وجود دارد. FrontierScience شامل سوالاتی با بیانیه مسئله محدود است که بر ارزیابی پاسخ نهایی (المپیاد) یا ارزیابی استدلال برای تکمیل یک وظیفه تحقیقاتی (پژوهش) تمرکز دارد. علاوه بر این، استفاده از روبریکهای دارای اجزای متعدد برای وظایف طولانیتر، کمتر از بررسی پاسخ نهایی عینی است.
FrontierScience یک نمای با وضوح بالاتر از استدلال مدلها در مورد سوالات دشوار و نوشتهشده توسط کارشناسان ارائه میدهد، اما تصویر کاملی از چگونگی انجام علم در عمل ارائه نمیدهد. بهویژه، این ارزیابی بخش مهمی از تحقیقات علمی را در بر نمیگیرد: اینکه چگونه مدلها فرضیههای واقعاً جدیدی ایجاد میکنند یا با چندین حالت، از جمله دادههای ویدئویی و سیستمهای تجربی واقعی در دنیای فیزیکی تعامل دارند.
با نگاهی به آینده، انتظار داریم پیشرفت در استدلال علمی هم از سیستمهای استدلال عمومی بهتر و هم از تلاشهای متمرکز بر بهبود تواناییهای علمی به دست آید. FrontierScience یکی از ابزارهای متعدد است و با بهبود مدلها، قصد داریم این معیار را تکرار کنیم، آن را به حوزههای جدید گسترش دهیم و با ارزیابیهای واقعی بیشتری که بررسی میکنند این سیستمها واقعاً چه کارهایی را برای دانشمندان ممکن میسازند، همراه کنیم. معیارهایی مانند FrontierScience به ما کمک میکنند تا نقاط ضعف سیستمهای هوش مصنوعی امروزی را درک کنیم و کارمان را بر روی تبدیل مدلها به شرکای قابلاعتماد در اکتشافات علمی متمرکز کنیم.


