تلاشهای ارسالی ما به First Proof
ما تلاشهای خود برای ارائهٔ اثبات در First Proof را به اشتراک میگذاریم؛ یک چالش ریاضی که بررسی میکند آیا AI میتواند برای مسائل تخصصی، اثباتهایی ارائه کند که قابل بررسی و راستیآزمایی باشند یا خیر.
ما یک مدل داخلی را روی هر 10 مسئله First Proof(در یک پنجره جدید باز میشود) اجرا کردیم، یک چالش ریاضی در سطح پژوهش که برای آزمودن این طراحی شده است که آیا سامانههای AI میتوانند تلاشهای اثباتیِ درست و قابلبررسی تولید کنند. برخلاف ریاضیات با پاسخ کوتاه یا ریاضیات رقابتی، این مسائل نیازمند ساختن استدلالهای جامع در حوزههای تخصصی هستند و بدون بررسی کارشناسانه، تعیین صحت آنها دشوار است. نویسندگان مسائل First Proof از برجستهترین متخصصان حوزههای خود هستند و دستکم چند مورد از این مسائل، سالها حلنشده باقی مانده بودند تا اینکه نویسندگانشان سرانجام برای آنها راهحل یافتند. یک دپارتمان دانشگاهی که همپوشانی قابلتوجهی با حوزههای موضوعی دارد، میتواند بسیاری از مشکلات را در یک هفته بهطور قابلتصور حل کند.
ما تلاشهای خود برای ارائهٔ اثبات را در روز شنبه، 14 فوریهٔ 2026، ساعت 14:00 بامداد به وقت (PT)، به اشتراک گذاشتیم(در یک پنجره جدید باز میشود). بر اساس بازخورد کارشناسان، ما معتقدیم دستکم پنج مورد از تلاشهای اثبات مدل (مسائل 4، 5، 6، 9 و 10) احتمال بالایی دارد که درست باشد و چند مورد دیگر همچنان در دست بررسی است. ما در ابتدا باور داشتیم که تلاشمان برای مسئله 2 احتمالاً درست است. بر اساس تفسیر رسمی First Proof و تحلیلهای بیشتر جامعه، اکنون معتقدیم که این نادرست است. ما از این تعامل سپاسگزاریم و مشتاقانه منتظر ادامه بررسی هستیم. مجموعه کامل تلاشهای اثبات ما را میتوانید اینجا(در یک پنجره جدید باز میشود) بیابید. نسخهٔ پیشچاپ شامل هر ده تلاش برای ارائهٔ اثبات است، بهعلاوه پیوستی که بهتازگی افزوده شده و الگوهای اعلان و نمونههایی را در بر میگیرد که هدفشان شبیهسازی تعاملات دستی ما با مدلها در طول این فرایند است.
ما معتقدیم که پژوهشهای نوین پیشرو شاید مهمترین روش برای ارزیابی قابلیتهای مدلهای AI نسل بعدی باشد. معیارهای سنجش مفید هستند، اما ممکن است برخی از دشوارترین بخشهای پژوهش را نادیده بگیرند: حفظ زنجیرههای طولانی استدلال، انتخاب انتزاعهای مناسب، مدیریت ابهام در بیانیههای مسئله، و ارائه استدلالهایی که از بررسی دقیق کارشناسان جان سالم به در ببرند. چالشهای پیشرو مانند First Proof به ما کمک میکنند این توانمندیها را در شرایطی محک بزنیم که در آنها تأیید درستی نتایج ساده نیست و شیوههای بروز خطا میتوانند نکات ارزشمندی در اختیارمان بگذارند.
ما در حال حاضر در حال آموزش یک مدل جدید هستیم که تمرکز اصلی آن افزایش دقت در تفکر است، با هدف اینکه مدل بتواند برای ساعتهای طولانی بهطور مداوم فکر کند و در نتیجهگیریهایش بسیار مطمئن باقی بماند. وقتی مسائل First Proof اعلام شدند، به نظر میرسید بستر آزمایشی ایدهآلی باشد، بنابراین آخر هفته آن را امتحان کردم. اینطور که پیداست، قبلاً توانسته بود دو تا از مسائل را حل کند (شماره 9 و شماره 10). همانطور که آموزش میدید، بهتدریج توانمندتر میشد و در نهایت—به نظر ما—حداقل سه مورد دیگر را حل کرد. بهویژه زمانی خوشحال شدیم که مسئلهٔ شماره 6 را حل کرد و سپس، دو روز بعد، شماره 4 را نیز حل کرد؛ چرا که این مسائل از حوزههایی بودند که برای بسیاری از ما آشنا هستند. تماشای اینکه یک مدل روزبهروز بهطور ملموس باهوشتر میشود واقعاً شگفتانگیز است.
– James R. Lee (پژوهشگر OpenAI، استدلال)
ما مدل را با نظارت محدود انسانی اجرا کردیم. هنگام ارائه نسخههای مدل در طول آموزش، گاهی راهبردهای تلاش مجددی را پیشنهاد میکردیم که در تلاشهای قبلی ثمربخش به نظر میرسیدند. در برخی تلاشها، پس از دریافت بازخورد از متخصصان، از مدل خواستیم بخشهایی از اثبات را بسط دهد یا روشنتر توضیح دهد تا فرایند استدلال آسانتر قابل بررسی باشد. ما همچنین برای تأیید، قالببندی و سبک، تبادل نظر بین این مدل و ChatGPT را تسهیل کردیم. برای برخی مشکلات، ما بهترین تلاش از میان چندین تلاش را که بر اساس داوری انسانی انتخاب شدهاند، ارائه میدهیم. این یک تلاش فشرده بود و فرایند ما به اندازهای که از یک ارزیابی بهدرستی کنترلشده انتظار داریم، منظم و بی نقص نبود. ما مشتاقانه منتظر گفتگو با برگزارکنندگان First Proof درباره یک چارچوب آزمایشی و ارزیابی دقیقتر برای دورههای آینده هستیم.
این کار بر پایهٔ دستاوردهای پیشینِ مدلهای پیشرو در استدلال، در حوزههای ریاضیات و علوم، شکل گرفته است. در ژوئیهٔ 2025، با یک مدل استدلال همهمنظوره، در المپیاد بینالمللی ریاضی به سطح عملکردِ مدال طلا (در یک پنجره جدید باز میشود) دست یافتیم (35/42 امتیاز). در نوامبر 2025، ما «آزمایشهای اولیه در تسریع علم با GPT‑5» را به اشتراک گذاشتیم؛ مجموعهای از مطالعات موردی که در آن GPT‑5 به پژوهشگران کمک کرد تا در زمینههای ریاضیات، فیزیک، زیستشناسی و سایر حوزهها به پیشرفتهای ملموس دست یابند، و در عین حال محدودیتهای مشاهدهشده در این مسیر نیز در آن گزارش شده بود. و اخیراً نیز گزارشی منتشر کردیم دربارهٔ یک همکاری در حوزهٔ فیزیک که در آن GPT‑5.2 یک صورتبندی پیشنهادی برای فرمول دامنهٔ گلوئون ارائه داد؛ صورتبندیای که سپس توسط یک مدل داخلی بهطور رسمی اثبات شد و در نهایت نویسندگان آن را تأیید کردند.
ما مشتاقانه منتظر تعامل عمیقتر با جامعه درباره ارزیابی استدلال در سطح پژوهشی، از جمله دریافت بازخورد متخصصان درباره این تلاشها هستیم و هیجانزدهایم که این قابلیتهای جدید را در مدلهای عمومی آینده ارائه دهیم.


