ჩვენი First Proof-ის მტკიცების მცდელობები
ვაზიარებთ ჩვენს მტკიცების მცდელობებს First Proof-ისთვის — მათემატიკური გამოწვევა, რომელიც ამოწმებს, შეუძლია თუ არა AI-ს დომენსპეციფიკურ ამოცანებზე შემოწმებადი მტკიცებების შექმნა.
ჩვენ შიდა მოდელი გავუშვით ყველა 10 First Proof(იხსნება ახალ ფანჯარაში) ამოცანაზე — კვლევის დონის მათემატიკურ გამოწვევაზე, რომელიც შექმნილია იმის შესამოწმებლად, შეუძლიათ თუ არა AI სისტემებს სწორი, შემოწმებადი მტკიცების მცდელობების წარმოება. მოკლე პასუხის ან ოლიმპიადის სტილის მათემატიკისგან განსხვავებით, ეს ამოცანები სპეციალიზებულ დომენებში თავიდან ბოლომდე არგუმენტების აგებას მოითხოვს, და სისწორის დადგენა ექსპერტის მიმოხილვის გარეშე რთულია. First Proof-ის ამოცანების ავტორები თავიანთ სფეროებში წამყვანი ექსპერტები არიან, და სულ მცირე რამდენიმე ამოცანა წლების განმავლობაში ღია იყო, სანამ ავტორებმა ამოხსნები იპოვეს. აკადემიურ დეპარტამენტს, რომელსაც საგნობრივ სფეროებთან მნიშვნელოვანი გადაკვეთა აქვს, თეორიულად შეეძლო მრავალი ამოცანის ერთ კვირაში ამოხსნა.
ჩვენ ჩვენი მტკიცების მცდელობები გავაზიარეთ(იხსნება ახალ ფანჯარაში) შაბათს, 2026 წლის 14 თებერვალს, PT 12:00 AM-ზე. ექსპერტების გამოხმაურებაზე დაყრდნობით, გვჯერა, რომ მოდელის სულ მცირე ხუთ მტკიცების მცდელობას (ამოცანები 4, 5, 6, 9 და 10) სწორად ყოფნის მაღალი შანსი აქვს, ხოლო რამდენიმე სხვა კვლავ განხილვის პროცესშია. თავდაპირველად ვფიქრობდით, რომ ჩვენი მცდელობა მე-2 ამოცანაზე, სავარაუდოდ, სწორი იყო. First Proof-ის ოფიციალურ კომენტარსა და საზოგადოების დამატებით ანალიზზე დაყრდნობით, ახლა გვგონია, რომ ის არასწორია. მადლობელი ვართ ჩართულობისთვის და ველით განხილვის გაგრძელებას. ჩვენი მტკიცების მცდელობების სრული ნაკრები ხელმისაწვდომია აქ(იხსნება ახალ ფანჯარაში). პრეპრინტი მოიცავს ათივე მტკიცების მცდელობას, ასევე ახლად დამატებულ დანართს მოთხოვნის შაბლონებითა და მაგალითებით, რომლებიც მიზნად ისახავს პროცესის განმავლობაში მოდელებთან ჩვენი ხელით ინტერაქციების სიმულაციას.
გვჯერა, რომ ახალი მოწინავე კვლევა, შესაძლოა, ყველაზე მნიშვნელოვანი გზაა მომდევნო თაობის AI მოდელების შესაძლებლობების შესაფასებლად. ბენჩმარკები სასარგებლოა, მაგრამ მათ შეიძლება გამორჩეთ კვლევის ზოგიერთი ყველაზე რთული ნაწილი: მსჯელობის გრძელი ჯაჭვების შენარჩუნება, სწორი აბსტრაქციების არჩევა, ამოცანის ფორმულირებაში ბუნდოვანების მართვა და ისეთი არგუმენტების წარმოება, რომლებიც ექსპერტულ შემოწმებას უძლებს. First Proof-ის მსგავსი მოწინავე გამოწვევები გვეხმარება ამ შესაძლებლობების სტრეს-ტესტირებაში ისეთ გარემოებებში, სადაც სისწორის გადამოწმება არატრივიალურია და წარუმატებლობის რეჟიმები ინფორმაციულია.
„ამჟამად ვწვრთნით ახალ მოდელს, რომლის ერთ-ერთი მთავარი ფოკუსია მის აზროვნებაში სიმკაცრის დონის გაზრდა, იმ მიზნით, რომ მოდელს შეძლოს მრავალი საათის განმავლობაში უწყვეტად ფიქრი და საკუთარ დასკვნებში მაღალი დარწმუნებულობის შენარჩუნება. როდესაც First Proof-ის ამოცანები გამოცხადდა, ეს იდეალურ სატესტო პლატფორმად გამოიყურებოდა, ამიტომ შაბათ-კვირას მოვსინჯე. მაშინვე შეძლო ორი ამოცანის ამოხსნა (#9 და #10). ტრენირების პროცესში ის სულ უფრო შესაძლებლობიანი ხდებოდა და საბოლოოდ — ჩვენი შეფასებით — კიდევ სულ მცირე სამი ამოცანა ამოხსნა. განსაკუთრებით გაგვიხარდა, როდესაც ამოხსნა #6 და შემდეგ, ორი დღის შემდეგ, #4, რადგან ეს ამოცანები იმ სფეროებიდან იყო, რომლებიც ბევრ ჩვენგანს კარგად გვესმის. მართლაც წარმოუდგენელია იმის ყურება, როგორ ხდება მოდელი ყოველდღიურად თვალსაჩინოდ უფრო ჭკვიანი.“
– James R. Lee (OpenAI-ის მკვლევარი, მსჯელობა)
მოდელი შეზღუდული ადამიანური ზედამხედველობით გავუშვით. როდესაც მოდელის ვერსიებს ტრენირების პროცესში მოთხოვნებს ვაძლევდით, ზოგჯერ ვთავაზობდით ხელახლა ეცადათ სტრატეგიები, რომლებიც ადრეულ მცდელობებში პერსპექტიულად ჩანდა. ზოგი მცდელობისთვის, ექსპერტების გამოხმაურების მიღების შემდეგ, მოდელს ვთხოვეთ მტკიცების ნაწილების გაფართოება ან დაზუსტება, რათა მსჯელობის გადამოწმება უფრო მარტივი ყოფილიყო. ასევე, გადამოწმებისთვის, ფორმატირებისა და სტილისთვის ამ მოდელსა და ChatGPT‑ს შორის უკუკავშირის პროცესს ვუწყობდით ხელს. ზოგიერთი ამოცანისთვის წარმოვადგენთ რამდენიმე მცდელობიდან საუკეთესოს, რომელიც ადამიანურმა შეფასებამ შეარჩია. ეს სწრაფი სპრინტი იყო და ჩვენი პროცესი არ იყო ისეთი სუფთა, როგორიც გვინდოდა სათანადოდ კონტროლირებულ შეფასებაში. ველით First Proof-ის ორგანიზატორებთან განხილვებს მომავალ იტერაციებში უფრო მკაცრი ექსპერიმენტისა და შეფასების ჩარჩოს შესახებ.
ეს ნამუშევარი ეფუძნება მათემატიკასა და მეცნიერებაში მოწინავე მსჯელობის მოდელების ადრინდელ შედეგებს. 2025 წლის ივლისში, ზოგადი დანიშნულების მსჯელობის მოდელით საერთაშორისო მათემატიკურ ოლიმპიადაზე ოქროს მედლის დონის შედეგს(იხსნება ახალ ფანჯარაში) მივაღწიეთ (35/42 ქულა). 2025 წლის ნოემბერში გავაზიარეთ „მეცნიერების დაჩქარების ადრეული ექსპერიმენტები GPT‑5‑ით“ — ქეის-სტადიების კრებული, სადაც GPT‑5 მკვლევრებს დაეხმარა მათემატიკაში, ფიზიკაში, ბიოლოგიასა და სხვა სფეროებში კონკრეტული პროგრესის მიღწევაში, იმ შეზღუდვებთან ერთად, რომლებიც დავაკვირდით. ხოლო სულ ახლახან წარმოვადგინეთ თანამშრომლობა ფიზიკაში, სადაც GPT‑5.2‑მა გლუონის ამპლიტუდის ფორმულის კანდიდატი გამოსახულება შემოგვთავაზა, რომელიც შემდეგ შიდა მოდელმა ფორმალურად დაამტკიცა და ავტორებმა გადაამოწმეს.
ველით თემთან უფრო ღრმა ჩართულობას იმის შესახებ, თუ როგორ უნდა შეფასდეს კვლევის დონის მსჯელობა, მათ შორის ექსპერტულ გამოხმაურებას ამ მცდელობებზე, და მოხარულები ვართ, რომ ამ ახალ შესაძლებლობებს მომავალ საჯარო მოდელებში ხელმისაწვდომს გავხდით.


