پیشرفت در علوم و ریاضیات با GPT‑5.2
GPT‑5.2 قویترین مدل ما تا به حال برای کارهای ریاضی و علمی است.
یکی از امیدهای ما برای هوش مصنوعی قوی این است که تحقیقات علمی را به نفع همه تسریع کند، به محققان کمک کند تا ایدههای بیشتری را بررسی کنند، سریعتر آنها را آزمایش کنند و کشفیات را به نتایج ملموس تبدیل کنند.
در طول سال گذشته، ما بهطور نزدیک با دانشمندان در حوزههای ریاضیات، فیزیک، زیستشناسی و علوم کامپیوتر همکاری کردهایم تا بفهمیم هوش مصنوعی کجا میتواند کمک کند—و کجا هنوز ناکارآمد است. ماه گذشته، ما مقالهای منتشر کردیم که مطالعات موردی اولیه در حوزههای ریاضی، فیزیک، زیستشناسی، علوم کامپیوتر، نجوم و علوم مواد را گردآوری میکند و نشان میدهد که چگونه GPT‑5 به محققان کمک کرده و از هماکنون به کار علمی واقعی کمک میکند. با GPT‑5.2، ما شروع به دیدن این پیشرفتها به صورت پایدارتر و قابل اعتمادتر کردهایم.
GPT‑5.2 Pro و GPT‑5.2 مدلهای Thinking قویترین مدلهای ما تاکنون برای کارهای علمی و ریاضی هستند.
استدلال قوی ریاضی پایهای برای اطمینان در کارهای علمی و فنی است. این به مدلها امکان میدهد که منطق چند مرحلهای را دنبال کنند، مقادیر را بهطور مداوم حفظ کنند و از خطاهای ظریفی که میتوانند در تحلیلهای واقعی، از شبیهسازیها و آمار تا پیشبینی و مدلسازی، انباشته شوند، جلوگیری کنند. بهبودها در معیارهایی مانند FrontierMath نشاندهنده یک مهارت محدود نیستند، بلکه بیانگر استدلال و انتزاع عمومی قویتری هستند، قابلیتهایی که به طور مستقیم به جریانهای کاری علمی مانند کدنویسی، تحلیل داده و طراحی تجربی منتقل میشوند.
این قابلیتها همچنین به پیشرفت به سوی هوش عمومی بهطور نزدیکی مرتبط هستند. سیستمی که بتواند به طور قابل اعتمادی از طریق انتزاع استدلال کند، ثبات را در زنجیرههای طولانی تفکر حفظ کند و در حوزههای مختلف تعمیم دهد، ویژگیهایی را نشان میدهد که برای AGI بنیادی هستند—نه ترفندهای خاص وظیفه، بلکه مهارتهای استدلال گسترده و قابل انتقال که در علم، مهندسی و تصمیمگیریهای دنیای واقعی اهمیت دارند.
ما به GPT‑5.2 اعتقاد داریم Pro و GPT‑5.2 Thinking بهترین مدلهای جهان برای کمک و تسریع کار دانشمندان است. در GPQA Diamond، یک معیار پرسش و پاسخ در سطح تحصیلات تکمیلی و مقاوم در برابر جستجوی گوگل، GPT‑5.2 Pro به ۹۳.۲ درصد دست یافت و پس از آن GPT‑5.2 با اختلاف کمی قرار گرفت Thinking در حال حاضر ۹۲.۴٪ است.
در GPQA Diamond(در یک پنجره جدید باز میشود)، مدلها به سوالات چند گزینهای درباره فیزیک، شیمی و زیستشناسی جواب میدهند. هیچ ابزاری فعال نبود و تلاش استدلال به حداکثر ممکن تنظیم شد.
در FrontierMath (سطح ۱–۳)، ارزیابی ریاضیات در سطح کارشناسی، GPT‑5.2 Thinking یک استاندارد جدید ایجاد کرد و ۴۰.۳٪ از مسائل را حل کرد.
در FrontierMath(در یک پنجره جدید باز میشود)، مدلها مسائل ریاضی در سطح کارشناسی ارشد را حل میکنند. یک ابزار پایتون فعال شد و تلاش برای استدلال به حداکثر تنظیم شد.
مطالعه موردی
این نتیجه نشان میدهد که چگونه سیستمهای هوش مصنوعی میتوانند از تحقیقات علمی حمایت کنند، بهویژه در حوزههایی با پایههای نظری اصولی مانند ریاضیات و علوم کامپیوتر نظری. در محیطهایی مانند این، مدلهای پیشرفته میتوانند به کشف اثباتها، آزمایش فرضیهها، و شناسایی ارتباطاتی کمک کنند که در غیر این صورت به تلاش انسانی قابل توجهی نیاز دارد.
در عین حال، این سیستمها محققان مستقل نیستند. قضاوت کارشناسی، تأیید و درک حوزه همچنان ضروری است. حتی مدلهای بسیار توانمند ممکن است اشتباه کنند یا به فرضیات بیان نشده تکیه کنند. اما آنها همچنین میتوانند استدلالهای دقیق و ساختاریافتهای تولید کنند که شایستهٔ بررسی و اصلاح دقیق انسانی هستند. پیشرفت قابلاعتماد با هوش مصنوعی به جریانهای کاری وابسته است که اعتبارسنجی، شفافیت و همکاری را بهطور محکم در چرخه نگه میدارند.
به عنوان یک مطالعه موردی، این نتیجه نشاندهنده یک روش نو ظهور در عمل تحقیقاتی است. مدلهایی مانند GPT‑5.2 میتوانند به عنوان ابزارهایی برای پشتیبانی از استدلال ریاضی و تسریع در کاوشهای اولیه عمل کنند، در حالی که مسئولیت صحت، تفسیر و زمینه با پژوهشگران انسانی باقی میمانند. در صورت استفاده محتاطانه، چنین سیستمهایی ممکن است به سادهسازی جنبههای مهم کار نظری کمک کنند بدون اینکه نقش مرکزی قضاوت انسانی در پژوهش علمی را جابجا کنند.


