Přeskoč na hlavní obsah
OpenAI

20. února 2026

VýzkumZávěr

Naše reakce do výzvy First Proof

Sdílíme naše pokusy o důkazy do matematické výzvy First Proof, která testuje, zda AI dokáže vytvářet ověřitelné důkazy u problémů specifických pro danou oblast.

Načítání…

Spustili jsme interní model na všech 10 úlohách First Proof(otevře se v novém okně), což je matematická výzva na úrovni výzkumu navržená k otestování, zda systémy AI dokážou vytvářet správné a ověřitelné pokusy o důkaz. Na rozdíl od krátkých odpovědí nebo soutěžní matematiky tyto úlohy vyžadují vytvoření komplexních argumentů ve specializovaných oblastech a správnost je obtížné stanovit bez odborného posouzení. Autoři problémů First Proof jsou přední odborníci ve svých oborech a alespoň několik z těchto problémů bylo otevřeno po řadu let, než autoři našli řešení. Akademické oddělení, které má významný překryv s danými oblastmi, by mohlo teoreticky vyřešit mnoho problémů během jednoho týdne.

V sobotu 14. února 2026 ve 0:00 PT jsme sdíleli(otevře se v novém okně) naše pokusy o důkaz. Na základě zpětné vazby od odborníků věříme, že alespoň pět pokusů modelu o důkaz (problémy 4, 5, 6, 9 a 10) má vysokou šanci, že jsou správné, a několik dalších se stále zkoumá. Zpočátku jsme věřili, že náš pokus pro problém 2 je pravděpodobně správný. Na základě oficiálního komentáře First Proof a další analýzy komunity jsme nyní přesvědčeni, že je nesprávný. Jsme vděční za zapojení a těšíme se na pokračující kontrolu. Celou sadu našich pokusů o důkaz lze najít zde(otevře se v novém okně). Preprint zahrnuje všech deset pokusů o důkaz a nově přidaný dodatek se vzory promptů a příklady, které mají za cíl simulovat naše manuální interakce s modely během procesu.

Věříme, že nový špičkový výzkum je možná nejdůležitějším způsobem, jak hodnotit schopnosti modelů AI nové generace. Srovnávací testy jsou užitečné, ale mohou přehlédnout některé z nejtěžších částí výzkumu: udržování dlouhých řetězců uvažování, volbu správných abstrakcí, práci s nejednoznačností v zadáních problémů a vytváření argumentů, které obstojí před odbornou kontrolou. Průkopnické výzvy, jako je First Proof, nám pomáhají testovat tyto schopnosti v prostředích, kde není snadné ověřit správnost a kde jsou selhání zdroje poučení.

„V současnosti trénujeme nový model, jehož hlavním cílem je zvýšit úroveň přísnosti v myšlení tak, aby model dokázal uvažovat nepřetržitě po mnoho hodin a zůstal vysoce jistý ve svých závěrech. Po oznámení problémů First Proof se zdálo, že to bude ideální testovací prostředí, a tak jsem to o víkendu vyzkoušel. Už se mu podařilo vyřešit dva z problémů (č. 9 a č. 10). Jak trénoval, byl stále schopnější a nakonec vyřešil, podle našeho odhadu, nejméně tři další. Byli jsme obzvlášť potěšeni, když vyřešil č. 6 a pak, o dva dny později č. 4, protože tyto problémy pocházely z oblastí, které jsou mnohým z nás blízké. Je docela neuvěřitelné sledovat, jak se model den za dnem stává hmatatelně chytřejším.”

– James R. Lee (výzkumný pracovník ve společnosti OpenAI, uvažování)

Spustili jsme model s omezeným lidským dohledem. Při zadávání verzí modelu během tréninku jsme občas navrhovali opakování strategií, které se v dřívějších pokusech ukázaly jako slibné. U některých pokusů jsme model požádali, aby po obdržení zpětné vazby od odborníků rozšířil nebo objasnil části důkazu, aby se uvažování dalo snáze ověřit. Také jsme usnadnili výměnu informací mezi tímto modelem a ChatGPT pro ověření, formátování a styl. U některých problémů představujeme nejlepší z několika pokusů, který jsme vybrali na základě lidského úsudku. Jednalo se o rychlý sprint a náš proces nebyl tak čistý, jak bychom si přáli při řádně kontrolovaném hodnocení. Rádi bychom s organizátory First Proof probrali možnosti přísnějšího experimentálního a hodnoticího rámce pro budoucí iterace.

Tato práce staví na dřívějších výsledcích ze špičkových modelů s uvažováním v matematice a vědách. V červenci 2025 jsme modelem s obecným uvažováním dosáhli výkonu na úrovni zlaté medaile(otevře se v novém okně) na Mezinárodní matematické olympiádě (35/42 bodů). V listopadu 2025 jsme sdíleli „Rané experimenty v urychlování vědy pomocí GPT‑5“, soubor případových studií, ve kterých GPT‑5 pomohl výzkumníkům dosáhnout konkrétního pokroku v matematice, fyzice, biologii a dalších oborech, spolu s omezeními, která jsme pozorovali. A naposledy jsme informovali o spolupráci ve fyzice, kde GPT‑5.2 navrhl kandidátní výraz pro vzorec amplitudy gluonů, který byl následně formálně dokázán interním modelem a ověřen autory.

Těšíme se na hlubší zapojení komunity do hodnocení uvažování na úrovni výzkumu, včetně odborné zpětné vazby na tyto pokusy, a jsme velice rádi, že tyto nové schopnosti budou dostupné v budoucích veřejných modelech.

Autor

OpenAI