20 փետրվարի, 2026 թ.

Մեր First Proof-ի ներկայացումները

Մենք ներկայացնում ենք մեր ապացույցի փորձերը First Proof-ի համար՝ մաթեմատիկական մարտահրավեր, որը ստուգում է՝ արդյոք արհեստական բանականությունը կարող է ոլորտային խնդիրների համար ստուգելի ապացույցներ ստեղծել։

Դիտեք մեր ապացույցների փորձերի հավաքածուն։

Բեռնվում է…

Մենք գործարկեցինք ներքին մոդել բոլոր 10 First Proof⁠(բացվում է նոր պատուհանում) խնդիրների վրա, որոնք հետազոտական մակարդակի մաթեմատիկական մարտահրավեր են՝ նախատեսված ստուգելու համար, թե արդյոք ԱԲ համակարգերը կարող են ներկայացնել ճիշտ և ստուգելի ապացույցի փորձեր։ Ի տարբերություն կարճ պատասխանով կամ մրցույթային մաթեմատիկայի, այս խնդիրները պահանջում են մասնագիտացված ոլորտներում ամբողջական փաստարկների կառուցում, և ճիշտությունը դժվար է հաստատել առանց փորձագետի վերանայման։ First Proof-ի խնդիրների հեղինակները իրենց համապատասխան ոլորտների առաջատար փորձագետներ են, և առնվազն մի քանի խնդիրներ տարիներ շարունակ բաց էին, մինչև հեղինակները գտան դրանց լուծումները։ Այն ակադեմիական բաժինը, որը էական համընկնում ունի առարկայական ոլորտների հետ, կարող է տեսականորեն մեկ շաբաթում լուծել բազմաթիվ խնդիրներ։

Մենք կիսվել ենք⁠(բացվում է նոր պատուհանում) մեր ապացույցի փորձերով 2026 թվականի փետրվարի 14-ին՝ շաբաթ օրը, ժամը 00:00-ին PT։ Փորձագետների արձագանքների հիման վրա մենք կարծում ենք, որ մոդելի ապացույցի փորձերից առնվազն հինգը (խնդիրներ 4, 5, 6, 9 և 10) մեծ հավանականությամբ ճիշտ են, իսկ մի քանիսը դեռևս վերանայման փուլում են։ Սկզբում մենք կարծում էինք, որ խնդրի 2-ի համար մեր փորձը հավանաբար ճիշտ էր։ Պաշտոնական First Proof-ի մեկնաբանության և համայնքի հետագա վերլուծության հիման վրա մենք այժմ կարծում ենք, որ դա սխալ է։ Մենք երախտապարտ ենք ներգրավվածության համար և ակնկալում ենք շարունակական վերանայում։ Մեր ապացույցների փորձերի ամբողջական հավաքածուն կարող եք գտնել այստեղ⁠(բացվում է նոր պատուհանում)։ Նախատպագրությունը ներառում է բոլոր տասը ապացույցի փորձերը, ինչպես նաև նոր ավելացված հավելված՝ հարցումների օրինաչափություններով և օրինակներով, որոնք նպատակ ունեն սիմուլյացիայի ենթարկել մոդելների հետ մեր ձեռքով փոխազդեցությունները գործընթացի ընթացքում։

Մենք հավատում ենք, որ նորարարական առաջադեմ հետազոտությունը, թերևս, հաջորդ սերնդի ԱԲ մոդելների կարողությունները գնահատելու ամենակարևոր միջոցն է։ Հենանիշները օգտակար են, սակայն դրանք կարող են բաց թողնել հետազոտության ամենադժվար մասերից մի քանիսը՝ հիմնավորման երկար շղթաներ պահպանելը, ճիշտ աբստրակցիաներ ընտրելը, խնդրի ձևակերպումներում երկիմաստությունը կառավարելը և փաստարկներ ստեղծելը, որոնք դիմանում են փորձագետների քննադատությանը։ Առաջատար մարտահրավերները, ինչպիսին է First Proof-ը, օգնում են մեզ սթրես-թեստավորել այդ հնարավորությունները այնպիսի պայմաններում, որտեղ ճիշտությունը դժվար է ստուգել, իսկ ձախողման ռեժիմները տեղեկատվական են։

«Ներկայումս մենք վարժեցնում ենք նոր մոդել, որի հիմնական նպատակն է բարձրացնել դրա մտածողության խստության մակարդակը, որպեսզի մոդելը կարողանա շարունակաբար մտածել երկար ժամեր և իր եզրակացությունների նկատմամբ մնա բարձր վստահությամբ։ Երբ հայտարարվեցին First Proof-ի խնդիրները, դա թվում էր կատարյալ փորձադաշտ, ուստի հանգստյան օրերին փորձարկեցի այն։ Արդեն այն կարողացել է լուծել երկու խնդիր (#9 և #10)։ Վարժվելուն զուգընթաց այն ավելի ու ավելի կարողացավ լուծել՝ ի վերջո, մեր գնահատմամբ, առնվազն ևս երեքը։ Մենք հատկապես ուրախացանք, երբ այն լուծեց #6 խնդիրը, ապա երկու օր անց՝ #4 խնդիրը, քանի որ այդ խնդիրները ոլորտներից էին, որոնք ծանոթ էին մեզանից շատերին։ Շատ զարմանալի է դիտել, թե ինչպես է մոդելը օրեցօր շոշափելիորեն ավելի խելացի դառնում։

– Ջեյմս Ռ. Լի (OpenAI հետազոտող, հիմնավորում)

Մենք գործարկեցինք մոդելը սահմանափակ մարդկային վերահսկողության ներքո։ Մոդելի տարբերակներին վարժեցման ընթացքում հուշումներ տալիս մենք երբեմն առաջարկում էինք կրկին փորձելու ռազմավարություններ, որոնք ավելի վաղ փորձերում արդյունավետ էին։ Որոշ փորձերի ժամանակ, փորձագետների կարծիքը ստանալուց հետո, մենք խնդրեցինք մոդելին ընդլայնել կամ պարզաբանել ապացույցի որոշ մասեր՝ հիմնավորումը ավելի հեշտ ստուգելու համար։ Մենք նաև կազմակերպեցինք երկկողմանի փոխանակում այս մոդելի և ChatGPT‑ի միջև՝ ստուգման, ձևաչափման և ոճի համար։ Որոշ խնդիրների համար մենք ներկայացնում ենք մի քանի փորձերից լավագույնը, որը ընտրվել է մարդկային դատողությամբ։ Սա արագ սպրինտ էր, և մեր գործընթացը այնքան մաքուր չէր, որքան մենք կցանկանայինք պատշաճ վերահսկվող գնահատման ժամանակ։ Մենք անհամբեր սպասում ենք քննարկումների «First Proof»-ի կազմակերպիչների հետ՝ ապագա կրկնությունների համար ավելի խիստ փորձարկման և գնահատման շրջանակի շուրջ։

Այս աշխատանքը հիմնվում է մաթեմատիկայի և գիտության ոլորտներում առաջադեմ հիմնավորման մոդելների ավելի վաղ արդյունքների վրա։ 2025 թվականի հուլիսին մենք Միջազգային մաթեմատիկական օլիմպիադայում ընդհանուր նշանակության հիմնավորման մոդելով (35/42 միավոր) հասանք ոսկե մեդալի մակարդակի արդյունքի⁠(բացվում է նոր պատուհանում) ։ 2025 թվականի նոյեմբերին մենք կիսվեցինք «Գիտության արագացման վաղ փորձեր GPT‑5‑ի միջոցով» ուսումնասիրությունների շարքով, որտեղ GPT‑5‑ը օգնել է հետազոտողներին իրական առաջընթաց գրանցել մաթեմատիկայի, ֆիզիկայի, կենսաբանության և այլ ոլորտներում՝ մեր դիտարկած սահմանափակումների հետ մեկտեղ։ Եվ վերջերս մենք հաղորդեցինք ֆիզիկայի համագործակցության մասին, որտեղ GPT‑5.2‑ը առաջարկեց գլուոնի ամպլիտուդի բանաձևի համար թեկնածու արտահայտություն, որը հետագայում պաշտոնապես ապացուցվեց ներքին մոդելի կողմից և հաստատվեց հեղինակների կողմից։

Մենք անհամբեր սպասում ենք համայնքի հետ ավելի խորը համագործակցությանը՝ քննարկելու, թե ինչպես գնահատել հետազոտական մակարդակի հիմնավորումը, ներառյալ փորձագետների կարծիքները այս փորձերի վերաբերյալ, և մենք ոգևորված ենք այս նոր հնարավորությունները հասանելի դարձնել ապագա հանրային մոդելներում։

2026

Հեղինակ

OpenAI

Շարունակել կարդալ

Դիտել բոլորը

Ինչպես երկու կարգավորման միացումը եռապատկեց ARC-AGI-3-ի բենչմարկում մեր միավորները

Հետազոտություններ29 հլս, 2026 թ.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Ընկերություն29 հլս, 2026 թ.

Scientific computing agentic AI card image (1x1)

Գիտական հաշվարկները գործուն ԱԲ-ի դարաշրջանում

Հրատարակություն28 հլս, 2026 թ.