Naše prvé odoslané dôkazy konceptu
Zdieľame naše pokusy o dôkazy pre First Proof, matematickú výzvu, ktorá testuje, či umelá inteligencia dokáže vytvárať overiteľné dôkazy na odborovo špecifických zadaniach.
Spustili sme interný model na všetkých 10 zadaniach First Proof(otvorí sa v novom okne), čo je výskumná matematická výzva navrhnutá na otestovanie, či systémy AI dokážu vytvárať správne a overiteľné pokusy o dôkaz. Na rozdiel od krátkych odpovedí alebo súťažnej matematiky, tieto zadania si vyžadujú vytváranie komplexných argumentov v špecializovaných oblastiach a správnosť je ťažké určiť bez odborného posúdenia. Autori zadaní First Proof sú poprední odborníci vo svojich oblastiach a aspoň niekoľko z týchto zadaní bolo roky nevyriešených, kým autori nenašli riešenia. Akademické oddelenie, ktoré sa výrazne prekrýva s predmetnými oblasťami, by mohlo teoreticky vyriešiť mnohé zadania za týždeň.
V sobotu 14. februára 2026 o 0:00 tichomorského času sme zdieľali(otvorí sa v novom okne) naše pokusy o dôkaz. Na základe spätnej väzby od expertov si myslíme, že aspoň päť z pokusov modelu o dôkaz (zadania č. 4, 5, 6, 9 a 10) má vysokú šancu byť správne, a niekoľko ďalších je stále v procese posudzovania. Spočiatku sme si mysleli, že náš pokus o riešenie zadania č. 2 bol pravdepodobne správny. Na základe oficiálneho komentára k First Proof a ďalšej analýzy komunity si teraz myslíme, že je to nesprávne. Sme vďační za zapojenie a tešíme sa na ďalšie hodnotenie. Celú sadu našich pokusov o dôkaz možno nájsť tu(otvorí sa v novom okne). Predtlačok obsahuje všetkých desať pokusov o dôkaz, plus novo pridanú prílohu so vzormi príkazov a príkladmi, ktoré majú simulovať naše manuálne interakcie s modelmi počas procesu.
Veríme, že prelomový výskum je zrejme najdôležitejším spôsobom, ako hodnotiť schopnosti modelov umelej inteligencie novej generácie. Benchmarky sú užitočné, ale môžu prehliadnuť niektoré z najťažších častí výskumu: udržiavanie dlhých reťazcov uvažovania, výber správnych abstrakcií, zvládanie nejednoznačnosti v zadaniach a vytváranie argumentov, ktoré obstoja pri odbornom posúdení. Prelomové výzvy, ako je First Proof, nám pomáhajú testovať tieto schopnosti v prostrediach, kde je ťažké overiť správnosť a režimy zlyhania poskytujú užitočné informácie.
„Momentálne trénujeme nový model, ktorého hlavným cieľom je zvýšiť úroveň dôkladnosti v jeho uvažovaní, aby mohol nepretržite premýšľať mnoho hodín a byť si veľmi istý svojimi závermi. Keď boli oznámené zadania First Proof, zdalo sa to ako ideálne testovacie prostredie, a tak som to cez víkend vyskúšal. Dali sa už vyriešiť dve zadania (č. 9 a č. 10). Popri trénovaní sa model stával sa čoraz schopnejším a nakoniec – podľa nášho odhadu – vyriešil najmenej ďalšie tri zadania. Boli sme obzvlášť potešení, keď vyriešil zadanie č. 6 a potom, o dva dni neskôr, č. 4, pretože tieto zadania pochádzali z oblastí, ktoré sú mnohým z nás známe. Je naozaj neuveriteľné sledovať, ako sa model deň čo deň objektívne stáva múdrejším.“
– James R. Lee (výskumník OpenAI, logické uvažovanie)
Spustili sme model s obmedzeným ľudským dohľadom. Pri zadávaní príkazov rôznym verziám modelu počas tréningu sme niekedy navrhli stratégie opakovania, ktoré sa v predchádzajúcich pokusoch javili ako sľubné. Pri niektorých pokusoch sme po získaní spätnej väzby od odborníkov požiadali model, aby rozšíril alebo objasnil časti dôkazu, aby bolo uvažovanie ľahšie overiteľné. Tiež sme sprostredkovali výmenu medzi týmto modelom a ChatGPT na overenie, formátovanie a štýl. Pri niektorých zadaniach uvádzame najlepšie z niekoľkých pokusov, vybrané na základe ľudského úsudku. Bol to rýchly šprint a náš proces nebol taký čistý, ako by sme si priali pri riadne kontrolovanom hodnotení. Tešíme sa na diskusie s organizátormi First Proof o prísnejšom experimente a hodnotiacom rámci pre budúce iterácie.
Táto práca stavia na skorších výsledkoch z prelomových uvažovacích modelov v matematike a vede. V júli 2025 sme s uvažovacím modelom dosiahli výkon na úrovni zlatej medaily(otvorí sa v novom okne) na Medzinárodnej matematickej olympiáde (35/42 bodov). V novembri 2025 sme zverejnili „Počiatočné experimenty v urýchľovaní vedy pomocou GPT‑5“, súbor prípadových štúdií, kde GPT‑5 pomohol výskumníkom dosiahnuť konkrétny pokrok v matematike, fyzike, biológii a ďalších oblastiach, spolu s obmedzeniami, ktoré sme pozorovali. A najnovšie sme informovali o spolupráci vo fyzike, kde GPT‑5.2 navrhol kandidátsky výraz pre vzorec gluónovej amplitúdy, ktorý potom formálne dokázal interný model a ktorý overili autori.
Tešíme sa na hlbšie zapojenie komunity do hodnotenia uvažovania na úrovni výskumu vrátane spätnej väzby od odborníkov na tieto pokusy, a sme nadšení, že tieto nové schopnosti sprístupníme v budúcich verejných modeloch.


