تخطي إلى المحتوى الرئيسي
OpenAI

16 ديسمبر 2025

البحثنشر

تقييم قدرة الذكاء الاصطناعي على تنفيذ مهام البحث العلمي

نقدم FrontierScience، معيارًا جديدًا يقيّم قدرات الذكاء الاصطناعي في الاستدلال العلمي على مستوى الخبراء في الفيزياء والكيمياء وعلم الأحياء.

رسم جزئي بخلفية متدرجة ناعمة باللونين الأخضر والأصفر، تظهر فيه كلمة كبيرة مقصوصة تبدأ بـ "Fro..."، وعلى الجهة اليمنى كتل نصية متداخلة تسرد معايير المراجعة، مثل: "قائم على الوقائع"، و"قابل للتقييم"، و"موضوعي"، و"صعب".
جاري التحميل...

الاستدلال هو جوهر العمل العلمي. إلى جانب استرجاع الحقائق، ينشئ العلماء الفرضيات، ويختبرونها وينقحونها، ويجمعون الأفكار عبر المجالات. مع تزايد قدرات نماذجنا، يبقى السؤال المركزي هو كيف يمكنها استخدم التفكير المنطقي المتعمق للمساهمة في البحث العلمي.

خلال العام الماضي، وصلت نماذجنا إلى محطات مفصلية مهمّة، من بينها إحراز أداء يعادل الميدالية الذهبية في الأولمبياد الدولي للرياضيات والأولمبياد الدولي للمعلوماتية. وبالتوازي مع ذلك، بدأنا نرى نماذجنا الأكثر قدرة، مثل GPT‑5، تُسرّع بصورة ملموسة مسارات العمل العلمي الحقيقية. يستخدم الباحثون هذه النظم في مهام تشمل البحث في الأدبيات عبر التخصّصات واللغات، والتعامل مع براهين رياضية معقّدة. وفي كثير من الحالات، يختصر النموذج عملًا قد يستغرق أيّامًا أو أسابيع إلى ساعات فقط. وقد وُثّق هذا التقدّم في ورقتنا البحثية Early science acceleration experiments with GPT‑5 المنشورة في نوفمبر 2025، والتي تقدّم دليلًا مبكرًا على أنّ GPT‑5 قادر على تسريع مسارات العمل العلمي بشكل يمكن قياسه.

الإعلان عن FrontierScience

نظرًا لكون تسريع التقدّم العلمي أحد أكثر الفرص الواعدة لتمكين الذكاء الاصطناعي من إفادة البشرية، نعمل على تحسين نماذجنا في المهام الصعبة في الرياضيات والعلوم، كما نطوّر الأدوات التي ستساعد العلماء على الاستفادة القصوى منها.

عند إطلاق GPQA(يفتح في نافذة جديدة)، وهو معيار علمي "مقاوم للبحث في Google" يضم أسئلة وضعها خبراء حاصلون على درجة الدكتوراة، في نوفمبر 2023، سجّل GPT‑4 نسبة 39%، أي دون خط الأساس المعتمد للخبراء البالغ 70%. وبعد عامين، حقّق GPT‑5.2 نسبة 92%. ومع استمرار تطوّر قدرات النماذج في الاستدلال والمعرفة على نطاق أوسع، ستصبح المعايير الأكثر صعوبة ضرورية لقياس قدرة النماذج على تسريع الأبحاث العلمية والتنبؤ بها. تجدر الإشارة إلى أنّ معظم المعايير العلمية السابقة تتركّز على أسئلة الاختيار من متعدّد، أو وصلت إلى مرحلة التشبّع، أو لا تركّز بشكل محوري على العلوم.

لسدّ هذه الفجوة، نطرح FrontierScience: معيارًا جديدًا مُصمّمًا لقياس القدرات العلمية على مستوى الخبراء. وقد جرى إعداد FrontierScience والتحقّق منه من قبل خبراء في مجالات الفيزياء والكيمياء وعلم الأحياء، وهو يتكوّن من مئات الأسئلة المصمّمة لتكون صعبة وأصيلة وذات معنى. ويتضمّن FrontierScience مسارين من الأسئلة: مسار الأولمبياد العلمي، الذي يقيس قدرات الاستدلال العلمي بأسلوب الأولمبيادات، ومسار البحث العلمي، الذي يقيس القدرات المرتبطة بالبحث العلمي في العالم الحقيقي. ويسهم توفير رؤية أعمق حول القدرات العلمية للنماذج في تتبّع التقدّم وتعزيز العلم المدعوم بالذكاء الاصطناعي.

في التقييمات الأولية، يُعدّ GPT‑5.2 أفضل نماذجنا أداءً على معيار "FrontierScience–الأولمبياد العلمي"، بنسبة 77%، وعلى معيار "FrontierScience–البحث العلمي"، بنسبة 25%، متقدمًا بذلك على النماذج المتقدمة الأخرى. وقد شهدنا تقدّمًا كبيرًا في القدرة على حل الأسئلة على مستوى الخبراء، مع بقاء مساحة واسعة لمزيد من التطوّر، خصوصًا في المهام البحثية المفتوحة التي تتطلّب تفكيرًا غير محدّد الإجابة. بالنسبة للعلماء، تشير هذه النتائج إلى أنّ النماذج الحالية يمكنها بالفعل دعم أجزاء من العمل البحثي التي تعتمد على الاستدلال المنظّم، مع إبراز الحاجة المستمرة إلى تحسين قدرتها على تنفيذ أنماط التفكير المفتوح. وتتوافق هذه النتائج مع طريقة استخدام العلماء للنماذج المتوفّرة اليوم: لتسريع مسارات العمل البحثي، مع الاعتماد على الحكم البشري في تحديد المشكلات والتحقّق من صحة النتائج؛ كما تُستخدم بشكل متزايد لاستكشاف أفكار وروابط قد يستغرق كشفها وقتًا أطول بكثير، وتقديم رؤى جديدة في بعض الحالات يخضعها الخبراء لاحقًا للتقييم والاختبار.

في نهاية المطاف، يبقى المعيار الأهم لقياس القدرات العلمية للذكاء الاصطناعي هو الاكتشافات الجديدة التي يساعد على إنتاجها؛ فهي التي تُحدث الأثر الحقيقي في العلم والمجتمع. ويأتي FrontierScience كمرحلة تسبق ذلك، إذ يوفّر لنا مرجعًا يوجّه تقييم الاستدلال العلمي على مستوى الخبراء، ويتيح اختبار النماذج عبر مجموعة قياسية من الأسئلة، ورصد نقاط نجاحها أو إخفاقها، وتحديد الجوانب التي تحتاج إلى تحسين. ومع أنّ FrontierScience نطاقه ضيّق وله قيود في جوانب أساسية، مثل تركيزه على مشكلات محدّدة يضعها الخبراء، إلّا أنّه لا يدّعي تمثيل كل ما يقوم به العلماء في عملهم اليومي. ومع ذلك، يحتاج هذا المجال إلى معايير علمية أصعب، وأكثر أصالة، وذات معنى أكبر، ويُعدّ FrontierScience خطوةً متقدّمة في هذا الاتجاه.

ما الذي يقيسه FrontierScience وكيف قمنا بتطويره

يشمل التقييم الكامل لـ FrontierScience أكثر من 700 سؤال نصّي (منها 160 سؤالًا في المجموعة الذهبية)، تغطّي تخصصات فرعية في الفيزياء والكيمياء وعلم الأحياء. ويتكوّن المعيار من قسمين: الأولمبياد العلمي والبحث العلمي يضم "FrontierScience–الأولمبياد العلمي" مئة سؤال صمّمها حاصلون على ميداليات في الأولمبيادات الدولية لتقييم مهارات الاستدلال العلمي ضمن إطار محدّد وبإجابات قصيرة. وقد جرى تصميم هذا القسم ليشمل أسئلة نظرية لا تقلّ صعوبة عن مسائل الأولمبيادات الدولية. أما "FrontierScience–البحث العلمي" فيتكوّن من ستين مهمة بحثية أصلية صمّمها علماء حاصلون على درجة الدكتوراة (مرشحون للدكتوراه، أساتذة جامعيون، أو باحثون بعد الدكتوراة)، وتُقيَّم باستخدام سلّم من عشر نقاط. وقد أُعدّ هذا القسم ليشمل مهامًا بحثية متكاملة ومكوّنة من عدّة خطوات، بدرجة صعوبة مماثلة لما قد يواجهه عالم حاصل على الدكتوراة أثناء عمله البحثي.

أسئلة نموذجية

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

  • B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
  • B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
  • B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
  • B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

يكتب كل مهمة ضمن FrontierScience ويُراجعها خبير مختص في الفيزياء أو الكيمياء أو علم الأحياء. وفي مجموعة "الأولمبياد العلمي"، حصل جميع الخبراء على ميدالية واحدة على الأقل، وغالبًا عدة ميداليات، في مسابقات أولمبياد دولية. أمّا في مجموعة "البحث العلمي"، فيحمل جميع الخبراء درجة الدكتوراة في مجال ذي صلة.

تم إعداد أسئلة مسار الأولمبياد بالتعاون مع 42 من الحاصلين سابقًا على ميداليات في المسابقات الدولية أو المدربين الوطنيين للفرق في المجالات ذات الصلة، بإجمالي 109 ميدالية أولمبية. كما تم إعداد أسئلة مسار البحث بالتعاون مع 45 عالمًا وخبيرًا مختصًا. وكان جميع العلماء المشاركين إمّا طلبة دكتوراه، أو باحثين بعد الدكتوراة، أو أساتذة. وقد شملت مجالات خبرتهم طيفًا واسعًا من التخصصات العلمية الدقيقة والمهمة، بدءًا من الديناميكا الكهربائية الكمية، مرورًا بالكيمياء العضوية الاصطناعية، ووصولًا إلى علم الأحياء التطوري.

تمثّلت عملية إنشاء المهام في كلا المسارين في إجراء عملية انتقاء تستند جزئيًا إلى أداء النماذج الداخلية لدى OpenAI؛ فعلى سبيل المثال، جرى استبعاد المهام التي نجحت النماذج في حلّها. وبذلك، نتوقّع أن تكون منهجية التقييم منحازة نسبيًا ضد هذه النماذج مقارنة بغيرها. نقوم بإتاحة مجموعة الأولمبياد الذهبية المكوّنة من 100 سؤال، ومجموعة الأبحاث الذهبية التي تضم 60 سؤالًا، بينما نحتفظ بالأسئلة الأخرى لاستخدامها في تتبّع احتمالات التلوّث البياني.

مخطط انسيابي يوضّح أربع مراحل سير عمل تطوير المهام—التطوير، والمراجعة، والحسم، والتنقيح—مع أوصاف موجزة لكل مرحلة، وعلامات تحقق تشير إلى استيفاء معايير مثل: قائم على الوقائع، وقابل للتقييم، وموضوعي، وعالي الصعوبة.

تمرّ المهام بأربع مراحل: التطوير، والمراجعة، والحسم، والتنقيح. ويقوم خبراء مستقلون بمراجعة مهام بعضهم بعضًا للتحقق من توافقها مع معايير التقييم المعتمدة.

كيف نقيّم أداء النماذج

تتيح مجموعة الأولمبياد إجراء التقييم من خلال إجابة قصيرة يمكن تصحيحها، سواء كانت رقمًا، أو تعبيرًا، أو مطابقة نصية تقريبية، مما يسهّل التحقّق من صحة الحل. إلا أن هذا النوع من التحقّق يأتي غالبًا على حساب مستوى التعبير والانفتاح في صياغة المشكلة. أما في مجموعة البحث، فنقدّم بنية تقييم تعتمد على معايير التقييم لتصحيح المهام الأكثر انفتاحًا. يتضمّن كل سؤال جدول تقييم يحتوي على بنود مستقلة وقابلة للقياس الموضوعي، بمجموع 10 نقاط. ويُقيّم جدول التقييم ليس فقط دقة الإجابة النهائية، بل أيضًا صحة خطوات الاستدلال الوسيطة، مما يتيح تحليلًا أكثر دقة لأداء النماذج ونقاط إخفاقها. تُعدّ الإجابة "صحيحة" إذا حصلت على 7 نقاط من أصل 10 في جدول التقييم.

تُقيَّم الاستجابات بواسطة مُقيِّم قائم على النماذج (GPT‑5) وفقًا لإجابة قصيرة أو لمعايير سلم التقييم (Rubric). وبينما نفضّل، من حيث المبدأ، الاستعانة بخبير بشري لتقييم كل استجابة، فإن هذا النهج غير قابل للتوسّع. لذلك صُمِّم سلم التقييم بحيث يمكن التحقق منه باستخدام مُقيِّم آلي. كما طوّرنا مسار تحقق يهدف إلى ضمان معايرة معايير التقييم والأسئلة بدقة من حيث مستوى الصعوبة وصحة النتائج.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

  1. π-Electron Count and Ring Currents

    Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.

  2. Charge Distribution and Frontier Orbitals

    Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

  1. UV-Vis Absorption (Q and B Bands)

    The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

    Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:

    • Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
    • Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
  2. NMR Spectroscopy and Aromatic Ring Currents

    Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

    More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

  • Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
نجاح 1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

فشل 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.
Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

نجاح 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

نجاح 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

نجاح 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

فشل 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

تُقيَّم كل مهمة ضمن مجموعة "البحث العلمي" باستخدام معيار تقييم من 10 نقاط يمكن أن يعتمده خبير بشري أو مُقيِّم آلي. لتوسيع نطاق قدرتنا على تقييم النماذج، نعتمد على نموذج آخر لتصحيح الاستجابات.

أداء النموذج

قمنا بتقييم عدة نماذج رائدة، شملت: GPT‑5.2، وClaude Opus 4.5، وGemini 3 Pro، وGPT‑4o، وOpenAI o4-mini، وOpenAI o3 على مجموعتي FrontierScience-الأولمبياد العلمي وFrontierScience-البحث العلمي. وقد تم تقييم جميع نماذج الاستدلال عند مستوى جهد استدلال "high"، باستثناء GPT‑5.2 الذي خضع للتقييم عند مستوى "xhigh". في التقييمات الأولية، يُعدّ GPT‑5.2 أفضل نماذجنا أداءً على معيار FrontierScience–الأولمبياد العلمي، بنسبة 77%، وعلى معيار FrontierScience–البحث العلمي، بنسبة 25%، متقدمًا بذلك على النماذج المتقدمة الأخرى. كما جاء أداء Gemini 3 Pro قريبًا من GPT‑5.2 على مجموعة "الأولمبياد العلمي"، محققًا 76%، ما يشير إلى تقارب ملحوظ بين النموذجين في هذا السياق.

لقد شهدنا تقدمًا كبيرًا في حل الأسئلة على مستوى الخبراء، ولا سيما المهام البحثية المفتوحة. ومع ذلك، لا تزال هناك مساحة لمزيد من التطوير؛ إذ أظهر تحليل سجلات الإجابات أن نماذج الطليعة ارتكبت أحيانًا أخطاء في الاستدلال والمنطق والحساب، ولم تفهم بعض المفاهيم العلمية المتخصصة بدقة، كما وقعت في بعض عدم الدقة الواقعية.

نقارن معدلات الدقة عبر عدد من نماذج متقدمة، ويُعد GPT‑5.2 الأعلى أداءً على كلٍ من مجموعة "FrontierScience-البحث العلمي" ومجموعة "الأولمبياد العلمي".

نقارن معدلات الدقة عبر مستويات مختلفة من جهد الاستدلال لكلٍ من GPT‑5.2 وo3. ويُظهر التحليل أن زيادة زمن الاستدلال تؤدي إلى تحسّن ملحوظ في الدقة.

القيود والخطوات القادمة

على الرغم من أن FrontierScience يمثّل خطوة متقدمة من حيث مستوى صعوبة المقاييس العلمية، فإنه لا يزال يعاني من عدد من القيود. إذ يتكوّن من أسئلة ذات صياغة محدودة للمشكلة، تركّز إمّا على تقييم الإجابة النهائية (في مجموعة "الأولمبياد العلمي") أو على تقييم مسار الاستدلال لإتمام مهمة بحثية (في مجموعة "البحث العلمي"). إضافةً إلى ذلك، فإن استخدام مقاييس تقييم متعددة العناصر في المهام الطويلة يكون أقل موضوعية مقارنة بالتحقق من الإجابة النهائية مباشرةً. 

يوفّر FrontierScience رؤية أدقّ لقدرات نماذج الذكاء الاصطناعي على الاستدلال عند التعامل مع أسئلة صعبة صاغها خبراء، لكنه لا يقدّم صورة مكتملة عن كيفية إجراء البحث العلمي في الواقع العملي. وعلى وجه الخصوص، لا يقيّم جانبًا جوهريًا من البحث العلمي، يتمثّل في قدرة النماذج على توليد فرضيات جديدة بحق، أو التفاعل مع وسائط متعددة، بما في ذلك بيانات الفيديو والأنظمة التجريبية الحقيقية في العالم المادي.

مستقبلًا، نتوقع أن يأتي التقدم في الاستدلال العلمي من مسارين متكاملين: تطوير أنظمة استدلال عامة أكثر قوة، وبذل جهود مركّزة لتعزيز القدرات العلمية المتخصصة. ويُعد FrontierScience أداة واحدة ضمن مجموعة من الأدوات؛ ومع تحسّن النماذج، نعتزم تطوير هذا المعيار بشكل دوري، وتوسيعه ليشمل مجالات جديدة، وربطه بتقييمات أكثر واقعية تركّز على ما تُمكّنه هذه الأنظمة فعليًا للعلماء. وتسهم معايير مثل FrontierScience في تعميق فهمنا لنقاط الضعف في أنظمة الذكاء الاصطناعي الحالية، بما يساعدنا على توجيه جهودنا نحو جعل هذه النماذج شركاء موثوقين في مسيرة الاكتشاف العلمي.