پرش به محتوای اصلی
OpenAI

۱ اسفند ۱۴۰۴

تحقیقنتیجه‌گیری

تلاش‌های ارسالی ما به First Proof

ما تلاش‌های خود برای ارائهٔ اثبات در First Proof را به اشتراک می‌گذاریم؛ یک چالش ریاضی که بررسی می‌کند آیا AI می‌تواند برای مسائل تخصصی، اثبات‌هایی ارائه کند که قابل بررسی و راستی‌آزمایی باشند یا خیر.

در حال بارگذاری…

ما یک مدل داخلی را روی هر 10 مسئله First Proof(در یک پنجره جدید باز می‌شود) اجرا کردیم، یک چالش ریاضی در سطح پژوهش که برای آزمودن این طراحی شده است که آیا سامانه‌های AI می‌توانند تلاش‌های اثباتیِ درست و قابل‌بررسی تولید کنند. برخلاف ریاضیات با پاسخ کوتاه یا ریاضیات رقابتی، این مسائل نیازمند ساختن استدلال‌های جامع در حوزه‌های تخصصی هستند و بدون بررسی کارشناسانه، تعیین صحت آن‌ها دشوار است. نویسندگان مسائل First Proof از برجسته‌ترین متخصصان حوزه‌های خود هستند و دست‌کم چند مورد از این مسائل، سال‌ها حل‌نشده باقی مانده بودند تا اینکه نویسندگانشان سرانجام برای آن‌ها راه‌حل یافتند. یک دپارتمان دانشگاهی که همپوشانی قابل‌توجهی با حوزه‌های موضوعی دارد، می‌تواند بسیاری از مشکلات را در یک هفته به‌طور قابل‌تصور حل کند.

ما تلاش‌های خود برای ارائهٔ اثبات را در روز شنبه، 14 فوریهٔ 2026، ساعت 14:00 بامداد به وقت (PT)، به اشتراک گذاشتیم(در یک پنجره جدید باز می‌شود). بر اساس بازخورد کارشناسان، ما معتقدیم دست‌کم پنج مورد از تلاش‌های اثبات مدل (مسائل 4، 5، 6، 9 و 10) احتمال بالایی دارد که درست باشد و چند مورد دیگر همچنان در دست بررسی است. ما در ابتدا باور داشتیم که تلاشمان برای مسئله 2 احتمالاً درست است. بر اساس تفسیر رسمی First Proof و تحلیل‌های بیشتر جامعه، اکنون معتقدیم که این نادرست است. ما از این تعامل سپاسگزاریم و مشتاقانه منتظر ادامه بررسی هستیم. مجموعه کامل تلاش‌های اثبات ما را می‌توانید اینجا(در یک پنجره جدید باز می‌شود) بیابید. نسخهٔ پیش‌چاپ شامل هر ده تلاش برای ارائهٔ اثبات است، به‌علاوه پیوستی که به‌تازگی افزوده شده و الگوهای اعلان و نمونه‌هایی را در بر می‌گیرد که هدفشان شبیه‌سازی تعاملات دستی ما با مدل‌ها در طول این فرایند است.

ما معتقدیم که پژوهش‌های نوین پیشرو شاید مهم‌ترین روش برای ارزیابی قابلیت‌های مدل‌های AI نسل بعدی باشد. معیارهای سنجش مفید هستند، اما ممکن است برخی از دشوارترین بخش‌های پژوهش را نادیده بگیرند: حفظ زنجیره‌های طولانی استدلال، انتخاب انتزاع‌های مناسب، مدیریت ابهام در بیانیه‌های مسئله، و ارائه استدلال‌هایی که از بررسی دقیق کارشناسان جان سالم به در ببرند. چالش‌های پیشرو مانند First Proof به ما کمک می‌کنند این توانمندی‌ها را در شرایطی محک بزنیم که در آن‌ها تأیید درستی نتایج ساده نیست و شیوه‌های بروز خطا می‌توانند نکات ارزشمندی در اختیارمان بگذارند.

ما در حال حاضر در حال آموزش یک مدل جدید هستیم که تمرکز اصلی آن افزایش دقت در تفکر است، با هدف اینکه مدل بتواند برای ساعت‌های طولانی به‌طور مداوم فکر کند و در نتیجه‌گیری‌هایش بسیار مطمئن باقی بماند. وقتی مسائل First Proof اعلام شدند، به نظر می‌رسید بستر آزمایشی ایده‌آلی باشد، بنابراین آخر هفته آن را امتحان کردم. این‌طور که پیداست، قبلاً توانسته بود دو تا از مسائل را حل کند (شماره 9 و شماره 10). همان‌طور که آموزش می‌دید، به‌تدریج توانمندتر می‌شد و در نهایت—به نظر ما—حداقل سه مورد دیگر را حل کرد. به‌ویژه زمانی خوشحال شدیم که مسئلهٔ شماره 6 را حل کرد و سپس، دو روز بعد، شماره 4 را نیز حل کرد؛ چرا که این مسائل از حوزه‌هایی بودند که برای بسیاری از ما آشنا هستند. تماشای اینکه یک مدل روزبه‌روز به‌طور ملموس باهوش‌تر می‌شود واقعاً شگفت‌انگیز است.

– James R. Lee (پژوهشگر OpenAI، استدلال)

ما مدل را با نظارت محدود انسانی اجرا کردیم. هنگام ارائه نسخه‌های مدل در طول آموزش، گاهی راهبردهای تلاش مجددی را پیشنهاد می‌کردیم که در تلاش‌های قبلی ثمربخش به نظر می‌رسیدند. در برخی تلاش‌ها، پس از دریافت بازخورد از متخصصان، از مدل خواستیم بخش‌هایی از اثبات را بسط دهد یا روشن‌تر توضیح دهد تا فرایند استدلال آسان‌تر قابل بررسی باشد. ما همچنین برای تأیید، قالب‌بندی و سبک، تبادل نظر بین این مدل و ChatGPT را تسهیل کردیم. برای برخی مشکلات، ما بهترین تلاش از میان چندین تلاش را که بر اساس داوری انسانی انتخاب شده‌اند، ارائه می‌دهیم. این یک تلاش فشرده بود و فرایند ما به اندازه‌ای که از یک ارزیابی به‌درستی کنترل‌شده انتظار داریم، منظم و بی نقص نبود. ما مشتاقانه منتظر گفتگو با برگزارکنندگان First Proof درباره یک چارچوب آزمایشی و ارزیابی دقیق‌تر برای دوره‌های آینده هستیم.

این کار بر پایهٔ دستاوردهای پیشینِ مدل‌های پیشرو در استدلال، در حوزه‌های ریاضیات و علوم، شکل گرفته است. در ژوئیهٔ 2025، با یک مدل استدلال همه‌منظوره، در المپیاد بین‌المللی ریاضی به سطح عملکردِ مدال طلا (در یک پنجره جدید باز می‌شود) دست یافتیم (35/42 امتیاز). در نوامبر 2025، ما «آزمایش‌های اولیه در تسریع علم با GPT‑5» را به اشتراک گذاشتیم؛ مجموعه‌ای از مطالعات موردی که در آن GPT‑5 به پژوهشگران کمک کرد تا در زمینه‌های ریاضیات، فیزیک، زیست‌شناسی و سایر حوزه‌ها به پیشرفت‌های ملموس دست یابند، و در عین حال محدودیت‌های مشاهده‌شده در این مسیر نیز در آن گزارش شده بود. و اخیراً نیز گزارشی منتشر کردیم دربارهٔ یک همکاری در حوزهٔ فیزیک که در آن GPT‑5.2 یک صورت‌بندی پیشنهادی برای فرمول دامنهٔ گلوئون ارائه داد؛ صورت‌بندی‌ای که سپس توسط یک مدل داخلی به‌طور رسمی اثبات شد و در نهایت نویسندگان آن را تأیید کردند.

ما مشتاقانه منتظر تعامل عمیق‌تر با جامعه درباره ارزیابی استدلال در سطح پژوهشی، از جمله دریافت بازخورد متخصصان درباره این تلاش‌ها هستیم و هیجان‌زده‌ایم که این قابلیت‌های جدید را در مدل‌های عمومی آینده ارائه دهیم.

نویسنده

OpenAI