۲۵ آذر ۱۴۰۴

ارزیابی توانایی هوش مصنوعی در انجام وظایف پژوهشی علمی

ما FrontierScience را معرفی می‌کنیم، یک معیار جدید که توانایی‌های هوش مصنوعی را برای استدلال علمی در سطح کارشناسی ارزیابی می‌کند و شامل حوزه‌های فیزیک، شیمی و زیست‌شناسی می‌شود.

مقاله را مطالعه کنید

گرافیکی جزئی با پس‌زمینه‌ای با گرادیان نرم سبز و زرد، کلمه‌ای بزرگ که با «Fro…» شروع می‌شود و بلوک‌های متنی لایه‌بندی شده در سمت راست که معیارهای بررسی مانند «واقعی»، «قابل درجه‌بندی»، «عینی» و «دشوار» را فهرست می‌کند.

در حال بارگذاری…

استدلال در قلب کار علمی قرار دارد. فراتر از به خاطر سپردن حقایق، دانشمندان فرضیه‌ها را ایجاد می‌کنند، آن‌ها را آزمایش و بهبود می‌بخشند و ایده‌ها را در زمینه‌های مختلف تلفیق می‌کنند. با افزایش توانایی مدل‌های ما، سوال اصلی این است که چگونه می‌توانند به طور عمیق استدلال کنند تا به تحقیقات علمی کمک کنند.

در سال گذشته، مدل‌های ما به نقاط عطف مهمی دست یافته‌اند، از جمله کسب عملکرد مدال طلا در المپیاد بین‌المللی ریاضی و المپیاد بین‌المللی انفورماتیک. به طور همزمان، ما شروع به مشاهده کرده‌ایم که مدل‌های بسیار توانمند ما، مانند GPT‑5، به طور معناداری جریان‌های کاری علمی واقعی را تسریع می‌کنند. پژوهشگران از این سیستم‌ها برای وظایفی مانند جست‌وجوی منابع علمی در رشته‌ها و زبان‌های مختلف و کار بر روی اثبات‌های ریاضی پیچیده استفاده می‌کنند. در بسیاری از موارد، مدل کارهایی را که ممکن بود روزها یا هفته‌ها طول بکشد، به چند ساعت کاهش می‌دهد. این پیشرفت در مقاله ما آزمایش‌های اولیه تسریع علم با GPT‑5⁠ که در نوامبر 2025 منتشر شده است، مستند شده و شواهد اولیه‌ای ارائه می‌دهد که نشان می‌دهد GPT‑5 می‌تواند به طور قابل اندازه‌گیری جریان‌های کاری علمی را تسریع کند.

معرفی FrontierScience

از آنجا که تسریع پیشرفت علمی یکی از امیدوارکننده‌ترین فرصت‌ها برای بهره‌مندی بشریت از هوش مصنوعی است، ما در حال بهبود مدل‌های خود در وظایف دشوار ریاضی و علمی هستیم و بر روی ابزارهایی کار می‌کنیم که به دانشمندان کمک می‌کند تا بیشترین بهره را از آن‌ها ببرند.

زمانی که GPQA⁠(در یک پنجره جدید باز می‌شود)، یک معیار علمی «ضد گوگل» از سؤالاتی که توسط کارشناسان دکترا نوشته شده‌اند، در نوامبر 2023 منتشر شد، GPT‑4 امتیاز 39٪ را کسب کرد که کمتر از خط پایه کارشناسان با 70٪ بود. دو سال بعد، GPT‑5.2 نمره ۹۲٪ را به دست آورد. با افزایش توانایی‌های استدلال و دانش مدل‌ها، معیارهای پیچیده‌تری برای سنجش و پیش‌بینی توانایی مدل‌ها در تسریع تحقیقات علمی اهمیت پیدا خواهند کرد. بنچمارک‌های علمی پیشین عمدتاً بر سؤالات چندگزینه‌ای تمرکز دارند، اشباع شده‌اند یا به طور مرکزی بر علم تمرکز ندارند.

برای پر کردن این شکاف، ما FrontierScience را معرفی می‌کنیم: یک معیار جدید که برای اندازه‌گیری توانایی‌های علمی در سطح متخصص ساخته شده است. FrontierScience توسط کارشناسان در زمینه‌های فیزیک، شیمی و زیست‌شناسی نوشته و تأیید شده و شامل صدها سوال است که به گونه‌ای طراحی شده‌اند که دشوار، اصیل و معنادار باشند. FrontierScience شامل دو مسیر از سؤالات است: المپیاد، که توانایی‌های استدلال علمی به سبک المپیاد را اندازه‌گیری می‌کند، و پژوهش، که توانایی‌های پژوهش علمی در دنیای واقعی را می‌سنجد. ارائه بینش بیشتر در مورد قابلیت‌های علمی مدل‌ها به ما کمک می‌کند تا پیشرفت را دنبال کرده و علم تسریع‌شده توسط هوش مصنوعی را ارتقا دهیم.

در ارزیابی‌های اولیه ما، GPT‑5.2 بهترین مدل ما در FrontierScience-Olympiad (با امتیاز ۷۷٪) و Research (با امتیاز ۲۵٪) است و از دیگر مدل‌های پیشرو جلوتر است. ما پیشرفت قابل توجهی در حل سوالات در سطح کارشناسی مشاهده کرده‌ایم، در حالی که فضای بیشتری برای پیشرفت، به ویژه در وظایف تحقیقاتی باز، باقی مانده است. برای دانشمندان، این نشان می‌دهد که مدل‌های فعلی می‌توانند از بخش‌هایی از تحقیقات که شامل استدلال ساختاریافته هستند، پشتیبانی کنند، در حالی که تأکید می‌کند که کار زیادی برای بهبود توانایی آن‌ها در انجام تفکر باز و بدون محدودیت باقی مانده است. این نتایج با نحوه استفاده دانشمندان از مدل‌های امروزی همخوانی دارد: برای تسریع جریان‌های کاری تحقیقاتی در حالی که برای چارچوب‌بندی و اعتبارسنجی مشکلات به قضاوت انسانی متکی هستند، و به طور فزاینده‌ای برای کشف ایده‌ها و ارتباطاتی که در غیر این صورت زمان بسیار بیشتری برای کشف نیاز داشتند—از جمله در برخی موارد، ارائه بینش‌های جدیدی که سپس توسط کارشناسان ارزیابی و آزمایش می‌شوند.

در نهایت، مهم‌ترین معیار برای توانایی‌های علمی هوش مصنوعی، کشف‌های جدیدی است که به ایجاد آن‌ها کمک می‌کند؛ این‌ها هستند که در نهایت برای علم و جامعه اهمیت دارند. FrontierScience در بالادست آن قرار دارد. این به ما یک ستاره راهنما برای استدلال علمی در سطح کارشناسی ارشد می‌دهد، که به ما اجازه می‌دهد مدل‌ها را بر روی مجموعه‌ای استاندارد از سوالات آزمایش کنیم، ببینیم کجا موفق می‌شوند یا شکست می‌خورند، و مشخص کنیم کجا نیاز به بهبود آنها داریم. FrontierScience محدود و در جنبه‌های کلیدی دارای محدودیت‌هایی است (مثلاً تمرکز بر مسائل محدود و نوشته‌شده توسط کارشناسان) و همه فعالیت‌های روزمره دانشمندان را پوشش نمی‌دهد. اما این حوزه به معیارهای علمی دشوارتر، اصیل‌تر و معنادارتری نیاز دارد و FrontierScience گامی به جلو در این جهت برداشته است.

FrontierScience چه چیزی را اندازه‌گیری می‌کند و چگونه آن را ساختیم

ارزیابی کامل FrontierScience بیش از ۷۰۰ سوال متنی (با ۱۶۰ سوال در مجموعه طلایی) را در بر می‌گیرد که زیرشاخه‌های فیزیک، شیمی و زیست‌شناسی را پوشش می‌دهد. معیار سنجش از یک المپیاد و یک بخش تحقیقاتی تشکیل شده است. المپیاد FrontierScience شامل 100 سوال است که توسط مدال‌آوران المپیاد بین‌المللی طراحی شده‌اند تا استدلال علمی را در قالب پاسخ‌های کوتاه و محدود ارزیابی کند. مجموعه المپیاد به گونه‌ای طراحی شده است که شامل سوالات نظری باشد که حداقل به اندازه مسائل در رقابت‌های بین‌المللی المپیاد دشوار باشند. FrontierScience-Research شامل ۶۰ زیرمجموعه تحقیقاتی اصلی است که توسط دانشمندان دارای مدرک دکترا (دانشجویان دکترا، اساتید یا پژوهشگران پسادکترا) طراحی شده‌اند و با استفاده از یک معیار ۱۰ امتیازی ارزیابی می‌شوند. مجموعه تحقیقاتی ایجاد شده تا شامل وظایف چندمرحله‌ای و مستقل باشد که در سطح دشواری است که یک دانشمند دکترا ممکن است در طول تحقیقاتش با آن روبرو شود.

نمونه سوالات

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

هر وظیفه در FrontierScience توسط یک متخصص حوزه در فیزیک، شیمی یا زیست‌شناسی نوشته و تأیید می‌شود. برای مجموعه المپیاد، به همه کارشناسان در حداقل یک (و اغلب چندین) رقابت بین‌المللی المپیاد مدال اهدا شد. برای مجموعه تحقیقاتی، همه کارشناسان دارای مدرک دکتری مرتبطی هستند.

سؤالات المپیاد با همکاری ۴۲ مدال‌آور بین‌المللی سابق یا مربیان Team‌های ملی در حوزه‌های مربوطه ایجاد شده‌اند که در مجموع ۱۰۹ مدال المپیاد را شامل می‌شوند. سؤالات پژوهشی با همکاری ۴۵ دانشمند و متخصص حوزه واجد شرایط ایجاد شدند. همه دانشمندان یا دانشجویان دکترا، پژوهشگران پسادکترا، یا استادان بودند. حوزه‌های تخصصی آن‌ها طیف وسیعی از رشته‌های علمی تخصصی و مهم را در بر می‌گرفت، از الکترودینامیک کوانتومی تا شیمی آلی سنتزی و زیست‌شناسی تکاملی.

فرآیند ایجاد وظایف برای هر دو مجموعه شامل انتخاب‌هایی در برابر مدل‌های داخلی OpenAI بود (مثلاً حذف وظایفی که مدل‌ها به درستی انجام داده بودند، بنابراین انتظار داریم که ارزیابی تا حدی به ضرر این مدل‌ها نسبت به دیگران باشد). ما مجموعه طلایی المپیاد شامل 100 سوال و مجموعه طلایی تحقیقاتی شامل 60 سوال را به صورت متن‌باز منتشر می‌کنیم و سایر سوالات را برای ردیابی آلودگی نگه می‌داریم.

فلوچارتی که چهار مرحله از یک خط لوله توسعه وظیفه را نشان می‌دهد—ایجاد، بازبینی، حل و اصلاح—با توضیحات مختصر از هر مرحله و علامت‌های تیک برای معیارهای واقعی، قابل ارزیابی، عینی و دشوار.

وظایف از چهار مرحله عبور می‌کنند: ایجاد، بازبینی، حل، و اصلاح. کارشناسان مستقل وظایف یکدیگر را بررسی می‌کنند تا مطمئن شوند که با معیارها مطابقت دارد.

چگونه عملکرد مدل را ارزیابی می‌کنیم

مجموعه المپیاد با یک پاسخ کوتاه قابل ارزیابی است: یا با یک عدد، عبارت، یا تطابق رشته‌ای مبهم، که به تأیید صحت کمک می‌کند. با این حال، این تأیید اغلب با بیانگری و باز بودن مسئله تداخل دارد. برای مجموعه پژوهشی، ما یک معماری مبتنی بر روبریک را برای ارزیابی وظایف بازتر معرفی می‌کنیم. هر سوال شامل یک معیار نمره‌دهی با چندین مورد مستقل و به طور عینی قابل ارزیابی است که مجموعاً ۱۰ امتیاز دارد. معیار نمره‌دهی نه تنها دقت پاسخ نهایی را ارزیابی می‌کند، بلکه درستی مراحل استدلال میانی را نیز بررسی می‌کند و امکان تحلیل دقیق‌تری از عملکرد و شکست‌های مدل را فراهم می‌کند. یک راه‌حل زمانی "درست" در نظر گرفته می‌شود که حداقل ۷ از ۱۰ امتیاز معیار را دریافت کند.

پاسخ‌ها توسط یک ارزیاب مبتنی بر مدل (GPT‑5) بر اساس معیارهای پاسخ کوتاه یا معیارهای ارزیابی بررسی می‌شوند. در حالی که ما ترجیح می‌دهیم از یک کارشناس انسانی برای ارزیابی هر پاسخ استفاده کنیم، این روش مقیاس‌پذیر نیست، بنابراین معیارها را به گونه‌ای طراحی کردیم که با استفاده از یک ارزیاب مدل قابل بررسی باشند. ما یک فرآیند تأیید ایجاد کردیم تا اطمینان حاصل کنیم که معیارها و سوالات به خوبی با سطح دشواری و صحت تنظیم شده‌اند.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

هر کار در مجموعه تحقیقاتی با استفاده از یک معیار ارزیابی که مجموعاً ۱۰ امتیاز دارد، نمره‌دهی می‌شود و می‌تواند توسط یک کارشناس یا یک ارزیاب مدل استفاده شود. برای افزایش توانایی‌مان در ارزیابی مدل‌ها، از مدل دیگری برای نمره‌دهی به پاسخ‌ها استفاده می‌کنیم.

عملکرد مدل

ما چند مدل پیشرو را ارزیابی کردیم: GPT‑5.2، Claude Opus 4.5، Gemini 3 Pro، GPT‑4o، OpenAI o4-mini، و OpenAI o3 در FrontierScience-Olympiad و FrontierScience-Research. همه مدل‌های استدلال با تلاش استدلالی «بالا» ارزیابی شدند به جز GPT‑5.2 که با «xhigh» ارزیابی شد. در ارزیابی‌های اولیه ما، GPT‑5.2 بهترین مدل ما در FrontierScience-Olympiad (با امتیاز ۷۷٪) و Research (با امتیاز ۲۵٪) است و از دیگر مدل‌های پیشرو جلوتر است. Gemini 3 Pro با GPT‑5.2 در مجموعه المپیاد (با امتیاز ۷۶٪) قابل مقایسه است.

ما پیشرفت قابل توجهی در حل سوالات در سطح کارشناسی مشاهده کرده‌ایم، به ویژه در وظایف تحقیقاتی با سبک باز. هنوز فضای بیشتری برای رشد وجود دارد: از تحلیل رونوشت‌ها برای شکست‌ها، مدل‌های پیشرفته گاهی اوقات در استدلال، منطق و محاسبه اشتباه می‌کردند، مفاهیم علمی خاص را درک نمی‌کردند و نادرستی‌های واقعی داشتند.

ما دقت‌ها را در چندین مدل پیشرو مقایسه می‌کنیم. GPT‑5.2 بهترین عملکرد را در مجموعه‌های FrontierScience-Research و Olympiad دارد.

ما دقت‌ها را در تلاش‌های استدلالی برای GPT‑5.2 و o3 مقایسه می‌کنیم. زمان بیشتر برای فکر کردن منجر به بهبود دقت می‌شود.

محدودیت‌ها و گام‌های بعدی

در حالی که FrontierScience گامی به جلو در افزایش دشواری معیارهای علمی است، هنوز محدودیت‌های زیادی وجود دارد. FrontierScience شامل سوالاتی با بیانیه مسئله محدود است که بر ارزیابی پاسخ نهایی (المپیاد) یا ارزیابی استدلال برای تکمیل یک وظیفه تحقیقاتی (پژوهش) تمرکز دارد. علاوه بر این، استفاده از روبریک‌های دارای اجزای متعدد برای وظایف طولانی‌تر، کمتر از بررسی پاسخ نهایی عینی است.

FrontierScience یک نمای با وضوح بالاتر از استدلال مدل‌ها در مورد سوالات دشوار و نوشته‌شده توسط کارشناسان ارائه می‌دهد، اما تصویر کاملی از چگونگی انجام علم در عمل ارائه نمی‌دهد. به‌ویژه، این ارزیابی بخش مهمی از تحقیقات علمی را در بر نمی‌گیرد: اینکه چگونه مدل‌ها فرضیه‌های واقعاً جدیدی ایجاد می‌کنند یا با چندین حالت، از جمله داده‌های ویدئویی و سیستم‌های تجربی واقعی در دنیای فیزیکی تعامل دارند.

با نگاهی به آینده، انتظار داریم پیشرفت در استدلال علمی هم از سیستم‌های استدلال عمومی بهتر و هم از تلاش‌های متمرکز بر بهبود توانایی‌های علمی به دست آید. FrontierScience یکی از ابزارهای متعدد است و با بهبود مدل‌ها، قصد داریم این معیار را تکرار کنیم، آن را به حوزه‌های جدید گسترش دهیم و با ارزیابی‌های واقعی بیشتری که بررسی می‌کنند این سیستم‌ها واقعاً چه کارهایی را برای دانشمندان ممکن می‌سازند، همراه کنیم. معیارهایی مانند FrontierScience به ما کمک می‌کنند تا نقاط ضعف سیستم‌های هوش مصنوعی امروزی را درک کنیم و کارمان را بر روی تبدیل مدل‌ها به شرکای قابل‌اعتماد در اکتشافات علمی متمرکز کنیم.

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

GPT-Red: فعال‌سازی خودبهبودی برای افزایش استحکام

ایمنی۲۴ تیر ۱۴۰۵

جدا کردن سیگنال از نویز در ارزیابی‌های کدنویسی

تحقیق۱۷ تیر ۱۴۰۵

معرفی GeneBench-Pro

تحقیق۹ تیر ۱۴۰۵