Pokrok ve vědě a matematice s GPT‑5.2
GPT‑5.2 je náš dosud nejsilnější model pro matematiku a vědeckou práci.
Jednou z našich nadějí souvisejících se silnou umělou inteligencí je, že urychlí vědecký výzkum ve prospěch všech a pomůže výzkumným pracovníkům prozkoumat více nápadů, rychleji je otestovat a proměnit své objevy ve výsledky.
Během uplynulého roku jsme úzce spolupracovali s vědci z oborů matematiky, fyziky, biologie a informatiky, abychom pochopili, kde může umělá inteligence pomoci – a kde stále zaostává. Minulý měsíc jsme zveřejnili článek, který shromažďuje rané případové studie z matematiky, fyziky, biologie, informatiky, astronomie a materiálových věd, ve kterých GPT‑5 výzkumníkům pomohl a ukázal tak, že už začal přispívat ke skutečné vědecké práci. V případě GPT‑5.2 začínáme pozorovat, že tyto přínosy jsou ještě konzistentnější a spolehlivější.
GPT‑5.2 Pro a GPT‑5.2 Thinking jsou naše dosud nejsilnější modely pro vědeckou a matematickou práci.
Silné matematické uvažování je základem spolehlivosti ve vědecké a technické práci. Umožňuje modelům sledovat vícekrokovou logiku, udržovat konzistentní údaje a vyhýbat se drobným chybám, které se mohou v reálných analýzách – od simulací a statistik až po prognózování a modelování – vyskytnout. Zlepšení ve srovnávacích testech, jako je FrontierMath, neodráží jen pouhou dovednost, ale silnější obecné uvažování a abstrakci, schopnosti, které se přímo promítají do vědeckých pracovních postupů, jako je programování, analýza dat a návrh experimentů.
Tyto schopnosti také úzce souvisejí s pokrokem v oblasti obecné inteligence. Systém, který dokáže spolehlivě uvažovat pomocí abstrakce, být konzistentní v dlouhých myšlenkových řetězcích a zobecňovat věci napříč oblastmi, vykazuje vlastnosti, které jsou pro AGI základní: nejde o specifické triky pro konkrétní úkol, ale rozsáhlou, přenositelnou schopnost uvažování, která je důležitá pro vědu, techniku a reálné rozhodování.
Věříme, že GPT‑5.2 Pro a GPT‑5.2 Thinking jsou nejlepšími modely na světě pro asistenci a urychlení práce vědců. Ve srovnání GPQA Diamond, s otázkami a odpověďmi na postgraduální úrovni, které nelze obejít prostým vyhledáváním na Googlu dosahuje GPT‑5.2 Pro 93,2 %, těsně následován GPT‑5.2 Thinking s 92,4 %.
V rámci GPQA Diamond(otevře se v novém okně) odpovídají modely na otázky s výběrem z více možností, které se týkají fyziky, chemie a biologie. Nebyly povoleny žádné nástroje a hloubka uvažování byla nastavena na maximum.
V rámci FrontierMath (úroveň 1–3), hodnocení matematiky na úrovni experta, stanovilo GPT‑5.2 Thinking nový standard, když vyřešilo 40,3 % problémů.
V rámci srovnání FrontierMath(otevře se v novém okně) řeší modely matematické problémy na úrovni expertů. Byl povolen nástroj Python a hloubka uvažování byla nastaveno na maximum.
Případová studie
Tento výsledek naznačuje užitečný směr, jak mohou systémy AI poskytovat podporu vědeckému výzkumu, zejména v oblastech s axiomatickými teoretickými základy, jako je matematika a teoretická informatika. V takovýchto prostředích mohou průkopnické modely pomoci zkoumat důkazy, testovat hypotézy a určovat souvislosti, jejichž odhalení by jinak vyžadovalo značné lidské úsilí.
Zároveň tyto systémy nejsou nezávislými výzkumníky. Odborný úsudek, ověřování a porozumění dané oblasti jsou i nadále nezbytné. I velmi schopné modely mohou dělat chyby nebo se spoléhat na nevyřčené předpoklady. Mohou však také vytvářet podrobné, strukturované argumenty, které si zaslouží pečlivé lidské studium a zdokonalení. Spolehlivý pokrok v oblasti umělé inteligence proto závisí na pracovních postupech, mezi které patří ověřování, transparentnost a spolupráci.
Pokud se na tento výsledek díváme jako na případovou studii, ilustruje nově vznikající způsob výzkumné praxe. Modely jako GPT‑5.2 mohou sloužit jako nástroje pro podporu matematického uvažování a urychlení počátečního průzkumu, zatímco odpovědnost za správnost, interpretaci a kontext zůstává na lidských výzkumnících. Při opatrném použití mohou tyto systémy pomoci zefektivnit významné aspekty teoretické práce, aniž by vytlačily ústřední roli lidského úsudku ve vědeckém zkoumání.


