تخطي إلى المحتوى الرئيسي
OpenAI

11 ديسمبر 2025

نشرالمنتجالشركة

تطوير العلوم والرياضيات باستخدام GPT‑5.2

يُعد GPT‑5.2 أقوى نماذجنا حتى الآن في أعمال الرياضيات والعلوم.

جاري التحميل...

نأمل أن يسهم الذكاء الاصطناعي المتقدم في تسريع الأبحاث العلمية بما يعود بالنفع على الجميع، ومساعدة الباحثين على استكشاف أفكار جديدة، واختبارها بسرعة أكبر، وتحويل الاكتشافات إلى نتائج مؤثرة. 

خلال العام الماضي، عملنا بشكل وثيق مع علماء في مجالات الرياضيات والفيزياء والأحياء وعلوم الحاسوب لفهم المجالات التي يمكن للذكاء الاصطناعي أن يضيف فيها قيمة، وأين لا يزال محدودًا. الشهر الماضي، نشرنا ورقة بحثية تتضمن دراسات حالة أولية في مجالات الرياضيات والفيزياء والأحياء وعلوم الحاسوب وعلم الفلك وعلوم المواد، توضّح كيف ساعد GPT‑5 الباحثين بالفعل وبدأ يساهم في أعمال علمية حقيقية. ومع GPT‑5.2 أصبحت هذه المكاسب أكثر اتساقًا وموثوقية.

أداء أقوى في المجالات التي تتطلب دقة عالية

يُعد GPT‑5.2 Pro وGPT‑5.2 Thinking أقوى نماذجنا في المجالات العلمية والرياضيات.

الاستدلال المتين في مجال الرياضيات هو أساس الموثوقية في العمل العلمي والتقني، إذ يمكّن النماذج من اتباع منطق متعدد الخطوات، والحفاظ على الاتساق الكمي، وتجنب الأخطاء الدقيقة التي قد تتراكم في التحليلات الواقعية من المحاكاة والإحصاء إلى التنبؤ والنمذجة. التحسينات على معايير مثل FrontierMath لا تعكس مهارة محدودة، بل قدرات أعلى في الاستدلال العام والتجريد، وهي قدرات تنتقل مباشرة إلى سير العمل العلمي مثل البرمجة والتحليل البياني وتصميم التجارب.

ترتبط هذه القدرات ارتباطًا وثيقًا بالتقدم نحو الذكاء العام الاصطناعي. فالنظام القادر على الاستدلال المجرد بشكل موثوق، والحفاظ على اتساق التفكير عبر سلاسل طويلة من الخطوات، والتعميم عبر مختلف المجالات، يُظهر سمات أساسية للذكاء العام الاصطناعي. وهذه ليست مهارات موجهة لمهام محددة، بل قدرات استدلالية واسعة وقابلة للنقل تُعد ذات أهمية في مجالات العلوم والهندسة وصنع القرار في العالم الواقعي.

نعتقد أن GPT‑5.2 Pro وGPT‑5.2 Thinking هما أفضل النماذج في العالم لدعم الباحثين وتسريع عملهم. ففي اختبار GPQA Diamond، وهو معيار للأسئلة والأجوبة على مستوى الدراسات العليا ومصمم ليكون مقاومًا للبحث عبر Google، حقق GPT‑5.2 Pro نسبة 93.2%، تلاه GPT‑5.2 Thinking بنسبة 92.4%.

في اختبار GPQA Diamond(يفتح في نافذة جديدة)، تجيب النماذج عن أسئلة اختيار من متعدد في مجالات الفيزياء والكيمياء والأحياء. ولم يتم تفعيل أي أدوات، وتم ضبط إعداد جهد الاستدلال على الحد الأقصى.

في اختبار FrontierMath (المستويات 1–3)، وهو تقييم لمسائل الرياضيات على مستوى الخبراء، حقق GPT‑5.2 Thinking رقمًا قياسيًا جديدًا حيث نجحا في حل 40.3% من المسائل.

في اختبار FrontierMath(يفتح في نافذة جديدة)، تتعامل النماذج مع مسائل رياضيات على مستوى الخبراء. وتم تفعيل أداة Python وضبط إعداد جهد الاستدلال على الحد الأقصى.

دراسة حالة

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(يفتح في نافذة جديدة).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

نظرة إلى المستقبل

تشير هذه النتيجة إلى اتجاه مهم لكيفية دعم أنظمة الذكاء الاصطناعي للبحث العلمي، خاصة في المجالات ذات الأسس النظرية البديهية مثل الرياضيات وعلوم الحاسوب النظرية. ففي مثل هذه السياقات، يمكن للنماذج المتقدمة أن تسهم في استكشاف البراهين، واختبار الفرضيات، وتحديد الروابط التي قد تتطلب جهدًا بشريًا كبيرًا لاكتشافها.

وفي الوقت نفسه، تبقى هذه الأنظمة أدوات مساعدة وليست باحثين مستقلين. فالحكم الخبير، وعمليات التحقق، والفهم العميق للمجال لا تزال عناصر أساسية لا يمكن الاستغناء عنها. وحتى النماذج عالية القدرات قد تقع في أخطاء أو تبني افتراضات غير مصرح بها. ومع ذلك، يمكنها تقديم حجج مفصلة ومنظمة تستدعي الدراسة البشرية الدقيقة. ومن ثمّ، فإن تحقيق تقدّم موثوق باستخدام الذكاء الاصطناعي يتطلّب مسارات عمل ترتكز على التحقق والشفافية والتعاون المستمر.

تُبرز هذه النتيجة، إذا ما نُظر إليها بوصفها دراسة حالة، نمطًا بحثيًا جديدًا آخذًا في التبلور. فالنماذج من قبيل GPT‑5.2 يمكن أن تؤدي دور أدوات داعمة في عمليات الاستدلال الرياضي وتسريع الاستكشاف في مراحله الأولية، في حين تظل مسؤولية التحقق من الصحة والتفسير والسياق موكولة إلى الباحثين البشريين. وعند توظيفها بشكل مدروس، قد تُسهم هذه الأنظمة في ترشيد جوانب جوهرية من العمل النظري دون أن تنتقص من الدور المحوري للحكم البشري في البحث العلمي.