Манай First Proof-д өгсөн шийдлүүд
Бид AI нь салбарын онцлогтой бодлогуудад шалгаж болохуйц нотолгоо гаргаж чадах эсэхийг шалгадаг First Proof математикийн сорилд хийсэн нотолгооны оролдлогуудaa хуваалцаж байна.
Бид зөв, шалгаж болохуйц нотолгооны оролдлого гаргаж чадах эсэхийг AI системүүд дээр шалгах зорилготой судалгааны түвшний математикийн сорил болох 10 First Proof(шинэ цонхонд нээгдэнэ) бодлогын бүгд дээр дотоод загвар ажиллуулсан. Богино хариулттай эсвэл тэмцээний хэв маягийн математикаас ялгаатай нь эдгээр бодлого нь тусгайлсан салбаруудад эхнээс нь дуустал бүрэн тайлбар байгуулж гаргахыг шаарддаг бөгөөд мэргэжилтний хяналтгүйгээр зөв эсэхийг тогтооход хэцүү. First Proof бодлогуудын зохиогчид нь тус тусын салбарын тэргүүлэх мэргэжилтнүүд бөгөөд дор хаяж хэд хэдэн бодлого нь зохиогчид нь шийдлийг олохоос өмнө олон жил нээлттэй байсан. Эдгээр сэдэвтэй ихээхэн давхцалтай академик тэнхим байвал нэг долоо хоногийн дотор олон бодлогыг шийдэж чадах байсан байж магадгүй.
Бид 2026 оны 2-р сарын 14-ний Бямба гарагийн PT цагаар 12:00 AM-д нотолгооны оролдлогуудaa хуваалцсан(шинэ цонхонд нээгдэнэ). Мэргэжилтнүүдийн саналд үндэслэн загварын дор хаяж таван нотолгооны оролдлого (4, 5, 6, 9, 10-р бодлогууд) зөв байх өндөр магадлалтай гэж бид үзэж байгаа бөгөөд бусад хэд хэд нь хяналтын шатанд байна. Эхэндээ бид 2-р бодлогын оролдлогоо зөв байх магадлалтай гэж үзэж байсан. First Proof-ийн албан ёсны тайлбар болон хамтын нийгэмлэгийн цаашдын шинжилгээнд үндэслэн одоо бид үүнийг буруу гэж үзэж байна. Идэвхтэй оролцсон бүх хүнд талархаж, цаашдын хяналтыг тэсэн ядан хүлээж байна. Нотолгооны оролдлогуудын бүрэн багцыг эндээс(шинэ цонхонд нээгдэнэ) үзнэ үү. Урьдчилсан хэвлэлд бүх арван нотолгооны оролдлого, мөн үйл явцын турш загваруудтай хийсэн гар ажиллагаатай харилцан үйлчлэлийг дуурайх зорилготой өгөгдлийн хэв маяг болон жишээнүүдийг агуулсан шинээр нэмсэн хавсралт орсон.
Дараагийн үеийн AI загваруудын чадамжийг үнэлэх хамгийн чухал арга нь шинэ хил хязгаар судалгаа гэж бид үздэг. Бенчмарк хэрэгтэй ч судалгааны хамгийн хэцүү хэсгүүдийн заримыг алгасаж болно: урт сэтгэн бодох хэлхээг хадгалах, зөв хийсвэрлэл сонгох, бодлогын томьёоллын хоёрдмол утгыг зохицуулах, мэргэжилтний нягталтыг давж гарахуйц тайлбар гаргах. First Proof шиг хил хязгаар сорилууд нь зөв эсэхийг батлах нь амаргүй, мөн алдааны хэлбэрүүд нь мэдээлэл өгдөг орчинд эдгээр чадамжийг хатуу шалгахад тусалдаг.
“Одоогоор бид сэтгэлгээний хатуу чанд байдлын түвшинг нь нэмэгдүүлэхэд голлон анхаарсан шинэ загвар сургаж байгаа бөгөөд зорилго нь загвар олон цагаар тасралтгүй бодож, дүгнэлтдээ өндөр итгэлтэй хэвээр байх явдал юм. First Proof бодлогууд зарлагдахад энэ нь яг тохирсон туршилтын орчин шиг санагдсан тул амралтын өдрөөр би үүнийг туршиж үзсэн. Тэр үедээ л энэ нь хоёр бодлогыг (#9 ба #10) шийдэж чадсан. Сургалт ахих тусам улам чадваржиж, эцэст нь бидний үнэлгээгээр дор хаяж гурвыг нэмж шийдсэн. Ялангуяа #6-г, дараа нь хоёр хоногийн дараа #4-ийг шийдэхэд бид маш их баярласан, учир нь эдгээр бодлого нь бидний олны сайн мэдэх салбаруудаас байсан. Загвар өдөр өдрөөр мэдэгдэхүйц ухаалаг болж байгааг харах үнэхээр гайхалтай.”
– Жеймс Р. Ли (OpenAI судлаач, Сэтгэн бодох)
Бид загварыг хүний хязгаарлагдмал хяналттайгаар ажиллуулсан. Сургалтын явц дахь хувилбаруудад өгөгдөл өгөхдөө өмнөх оролдлогууд дээр үр дүнтэй мэт санагдсан стратегийг дахин туршиж үзэхийг заримдаа санал болгосон. Зарим оролдлогын хувьд мэргэжилтний санал авсны дараа нотолгооны хэсгүүдийг дэлгэрүүлэх эсвэл тодруулахыг загвараас хүссэн бөгөөд ингэснээр сэтгэн бодох явцыг шалгахад илүү хялбар болсон. Мөн баталгаажуулалт, формат, найруулгын хувьд энэ загвар ба ChatGPT‑ийн хоорондын харилцан яриаг бид дэмжсэн. Зарим бодлогын хувьд хүний үнэлгээгээр сонгосон цөөн хэдэн оролдлогоос хамгийн сайныг нь танилцуулж байна. Энэ нь хурдан спринт байсан бөгөөд зохих хяналттай үнэлгээнд байвал хүсэх байсан шигээ цэвэр процесс байгаагүй. Ирээдүйн давталтуудад илүү хатуу туршилт, үнэлгээний хүрээний талаар First Proof-ийн зохион байгуулагчидтай хэлэлцэхийг бид тэсэн ядан хүлээж байна.
Энэ ажил нь математик, шинжлэх ухаанд гарсан өмнөх хил хязгаар сэтгэн бодох загваруудын үр дүнд тулгуурлаж байна. 2025 оны 7-р сард бид ерөнхий зориулалтын сэтгэн бодох загвараар Олон улсын математикийн олимпиадад 35/42 оноотой алтан медалийн түвшний гүйцэтгэл(шинэ цонхонд нээгдэнэ)-д хүрсэн. 2025 оны 11-р сард бид “GPT‑5 ашиглан шинжлэх ухааныг хурдасгах эхний туршилтууд” нэртэй, GPT‑5 математик, физик, биологи болон бусад салбарт судлаачдад бодит ахиц гаргахад хэрхэн тусалсныг, мөн ажигласан хязгаарлалтуудыг харуулсан кейс судалгаануудын багцыг хуваалцсан. Хамгийн сүүлд бид GPT‑5.2 глюоны амплитудын томьёонд нэр дэвшигч илэрхийлэл санал болгож, дараа нь дотоод загвар албан ёсоор нотолж, зохиогчид баталгаажуулсан физикийн хамтын ажиллагаа-г мэдээлсэн.
Судалгааны түвшний сэтгэн бодох чадварыг хэрхэн үнэлэх талаар, үүнд эдгээр оролдлогуудын талаархи мэргэжилтний санал багтана, хамтын нийгэмлэгтэй илүү гүнзгий хамтран ажиллахыг бид тэсэн ядан хүлээж байгаа бөгөөд эдгээр шинэ чадамжийг ирээдүйн олон нийтэд нээлттэй загваруудад хүргэхдээ баяртай байна.


