۲۰ آذر ۱۴۰۴

پیشرفت در علوم و ریاضیات با GPT‑5.2

GPT‑5.2 قوی‌ترین مدل ما تا به حال برای کارهای ریاضی و علمی است.

در حال بارگذاری…

یکی از امیدهای ما برای هوش مصنوعی قوی این است که تحقیقات علمی را به نفع همه تسریع کند، به محققان کمک کند تا ایده‌های بیشتری را بررسی کنند، سریع‌تر آن‌ها را آزمایش کنند و کشفیات را به نتایج ملموس تبدیل کنند.

در طول سال گذشته، ما به‌طور نزدیک با دانشمندان در حوزه‌های ریاضیات، فیزیک، زیست‌شناسی و علوم کامپیوتر همکاری کرده‌ایم تا بفهمیم هوش مصنوعی کجا می‌تواند کمک کند—و کجا هنوز ناکارآمد است. ماه گذشته، ما مقاله‌ای منتشر کردیم⁠ که مطالعات موردی اولیه در حوزه‌های ریاضی، فیزیک، زیست‌شناسی، علوم کامپیوتر، نجوم و علوم مواد را گردآوری می‌کند و نشان می‌دهد که چگونه GPT‑5 به محققان کمک کرده و از هم‌اکنون به کار علمی واقعی کمک می‌کند. با GPT‑5.2، ما شروع به دیدن این پیشرفت‌ها به صورت پایدارتر و قابل اعتمادتر کرده‌ایم.

عملکرد قوی‌تر در جایی که دقت مهم است

GPT‑5.2 Pro و GPT‑5.2 مدل‌های Thinking قوی‌ترین مدل‌های ما تاکنون برای کارهای علمی و ریاضی هستند.

استدلال قوی ریاضی پایه‌ای برای اطمینان در کارهای علمی و فنی است. این به مدل‌ها امکان می‌دهد که منطق چند مرحله‌ای را دنبال کنند، مقادیر را به‌طور مداوم حفظ کنند و از خطاهای ظریفی که می‌توانند در تحلیل‌های واقعی، از شبیه‌سازی‌ها و آمار تا پیش‌بینی و مدل‌سازی، انباشته شوند، جلوگیری کنند. بهبودها در معیارهایی مانند FrontierMath نشان‌دهنده یک مهارت محدود نیستند، بلکه بیانگر استدلال و انتزاع عمومی قوی‌تری هستند، قابلیت‌هایی که به طور مستقیم به جریان‌های کاری علمی مانند کدنویسی، تحلیل داده و طراحی تجربی منتقل می‌شوند.

این قابلیت‌ها همچنین به پیشرفت به سوی هوش عمومی به‌طور نزدیکی مرتبط هستند. سیستمی که بتواند به طور قابل اعتمادی از طریق انتزاع استدلال کند، ثبات را در زنجیره‌های طولانی تفکر حفظ کند و در حوزه‌های مختلف تعمیم دهد، ویژگی‌هایی را نشان می‌دهد که برای AGI بنیادی هستند—نه ترفندهای خاص وظیفه، بلکه مهارت‌های استدلال گسترده و قابل انتقال که در علم، مهندسی و تصمیم‌گیری‌های دنیای واقعی اهمیت دارند.

ما به GPT‑5.2 اعتقاد داریم Pro و GPT‑5.2 Thinking بهترین مدل‌های جهان برای کمک و تسریع کار دانشمندان است. در GPQA Diamond، یک معیار پرسش و پاسخ در سطح تحصیلات تکمیلی و مقاوم در برابر جستجوی گوگل، GPT‑5.2 Pro به ۹۳.۲ درصد دست یافت و پس از آن GPT‑5.2 با اختلاف کمی قرار گرفت Thinking در حال حاضر ۹۲.۴٪ است.

در GPQA Diamond⁠(در یک پنجره جدید باز می‌شود)، مدل‌ها به سوالات چند گزینه‌ای درباره فیزیک، شیمی و زیست‌شناسی جواب می‌دهند. هیچ ابزاری فعال نبود و تلاش استدلال به حداکثر ممکن تنظیم شد.

در FrontierMath (سطح ۱–۳)، ارزیابی ریاضیات در سطح کارشناسی، GPT‑5.2 Thinking یک استاندارد جدید ایجاد کرد و ۴۰.۳٪ از مسائل را حل کرد.

در FrontierMath⁠(در یک پنجره جدید باز می‌شود)، مدل‌ها مسائل ریاضی در سطح کارشناسی ارشد را حل می‌کنند. یک ابزار پایتون فعال شد و تلاش برای استدلال به حداکثر تنظیم شد.

مطالعه موردی

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators⁠(در یک پنجره جدید باز می‌شود).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

با نگاهی به آینده

این نتیجه نشان می‌دهد که چگونه سیستم‌های هوش مصنوعی می‌توانند از تحقیقات علمی حمایت کنند، به‌ویژه در حوزه‌هایی با پایه‌های نظری اصولی مانند ریاضیات و علوم کامپیوتر نظری. در محیط‌هایی مانند این، مدل‌های پیشرفته می‌توانند به کشف اثبات‌ها، آزمایش فرضیه‌ها، و شناسایی ارتباطاتی کمک کنند که در غیر این صورت به تلاش انسانی قابل توجهی نیاز دارد.

در عین حال، این سیستم‌ها محققان مستقل نیستند. قضاوت کارشناسی، تأیید و درک حوزه همچنان ضروری است. حتی مدل‌های بسیار توانمند ممکن است اشتباه کنند یا به فرضیات بیان نشده تکیه کنند. اما آن‌ها همچنین می‌توانند استدلال‌های دقیق و ساختاریافته‌ای تولید کنند که شایستهٔ بررسی و اصلاح دقیق انسانی هستند. پیشرفت قابل‌اعتماد با هوش مصنوعی به جریان‌های کاری وابسته است که اعتبارسنجی، شفافیت و همکاری را به‌طور محکم در چرخه نگه می‌دارند.

به عنوان یک مطالعه موردی، این نتیجه نشان‌دهنده یک روش نو ظهور در عمل تحقیقاتی است. مدل‌هایی مانند GPT‑5.2 می‌توانند به عنوان ابزارهایی برای پشتیبانی از استدلال ریاضی و تسریع در کاوش‌های اولیه عمل کنند، در حالی که مسئولیت صحت، تفسیر و زمینه با پژوهشگران انسانی باقی می‌مانند. در صورت استفاده محتاطانه، چنین سیستم‌هایی ممکن است به ساده‌سازی جنبه‌های مهم کار نظری کمک کنند بدون اینکه نقش مرکزی قضاوت انسانی در پژوهش علمی را جابجا کنند.

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

Introducing OpenAI Presence

محصول۳۱ تیر ۱۴۰۵

دیوید ولز و رابین وینس به هیئت‌مدیره‌های OpenAI پیوستند

شرکت۳۰ تیر ۱۴۰۵

کارت امتیازی برای عصر هوش مصنوعی

شرکت۲۶ تیر ۱۴۰۵