Pokrok vo vede a matematike s GPT‑5.2
GPT‑5.2 je náš doteraz najsilnejší model na prácu v oblasti matematiky a vedy.
Jednou z našich nádejí pre silnú umelú inteligenciu je, že urýchli vedecký výskum na prospech všetkých, pomôže výskumníkom skúmať viac nápadov, rýchlejšie ich testovať a premeniť objavy na dopad.
Za posledný rok sme úzko spolupracovali s vedcami z oblasti matematiky, fyziky, biológie a informatiky, aby sme pochopili, kde môže umelá inteligencia pomôcť a kde stále zaostáva. Minulý mesiac sme zverejnili štúdiu, ktorá zhromažďuje počiatočné prípadové štúdie z matematiky, fyziky, biológie, informatiky, astronómie a vied o materiáloch, v ktorých GPT‑5 pomohol výskumníkom ukázať, ako GPT‑5 už začal prispievať k reálnej vedeckej práci. S GPT‑5.2 začíname vidieť, že tieto prínosy sa stávajú konzistentnejšími a spoľahlivejšími.
GPT‑5.2 Pro a GPT‑5.2 Thinking sú naše doteraz najsilnejšie modely pre vedeckú a matematickú prácu.
Silné matematické uvažovanie je základom spoľahlivosti vo vedeckej a technickej práci. Povoľuje modelom sledovať viackrokovú logiku, udržiavať konzistentnosť množstiev a vyhnúť sa jemným chybám, ktoré sa môžu v reálnych analýzach hromadiť – od simulácií a štatistík po prognózovanie a modelovanie. Zlepšenia v referenčných hodnotách, ako je FrontierMath, neodrážajú úzku zručnosť, ale silnejšie všeobecné myslenie a abstrakciu, schopnosti, ktoré sa priamo prenášajú do vedeckých pracovných postupov, ako je kódovanie, analýza údajov a návrh experimentov.
Tieto schopnosti sú tiež úzko spojené s pokrokom smerom k všeobecnej inteligencii. Systém, ktorý dokáže spoľahlivo myslieť prostredníctvom abstrakcie, udržiavať konzistentnosť v dlhých reťazcoch myšlienok a zovšeobecňovať naprieč oblasťami, vykazuje vlastnosti, ktoré sú základom AGI - nie riešenia špecifické pre úlohy, ale široké, prenosné zručnosti v myslení, ktoré sú dôležité v oblasti vedy, inžinierstva a rozhodovania v reálnom svete.
Veríme GPT‑5.2 Pro a GPT‑5.2 Modely Thinking sú najlepšími na svete na pomoc a urýchlenie práce vedcov. Na absolventskom benchmarku GPQA Diamond, odolnom voči vyhľadávaniu na Google, GPT‑5.2 Pro dosahuje 93,2 %, tesne za ním nasleduje GPT‑5.2. Premýšľanie na 92,4 %.
V GPQA Diamond(otvorí sa v novom okne) odpovedajú modely na otázky s výberom z viacerých možností o fyzike, chémii a biológii. Žiadne nástroje neboli povolené a úsilie na myslenie bolo nastavené na maximum.
Na FrontierMath (úroveň 1–3), hodnotenie matematiky na úrovni odborníkov, GPT‑5.2 Thinking dosiahol nový špičkový stav – rieši 40,3 % problémov.
V FrontierMath(otvorí sa v novom okne) modely riešia matematické problémy na úrovni expertov. Bol povolený nástroj v jazyku Python a úsilie na uvažovanie bolo nastavené na maximum.
Prípadová štúdia
Tento výsledok naznačuje užitočný smer, ako môžu systémy umelej inteligencie poskytnúť podporu vedeckému výskumu, najmä v doménach s axiomatickými teoretickými základmi, ako sú matematika a teoretická informatika. V takýchto prostrediach môžu hraničné modely pomôcť skúmať dôkazy, testovať hypotézy a identifikovať súvislosti, ktoré by inak vyžadovali značné úsilie ľudí na odhalenie.
Zároveň tieto systémy nepredstavujú nezávislých výskumníkov. Odborný úsudok, overenie a porozumenie oblasti sú naďalej nevyhnutné. Aj vysoko schopné modely môžu robiť chyby alebo sa spoliehať na nevyslovené predpoklady. Môžu však tiež vytvárať podrobné, štruktúrované argumenty, ktoré si zaslúžia dôkladné štúdium a zdokonalenie ľuďmi. Spoľahlivý pokrok v oblasti umelej inteligencie preto závisí od pracovných postupov, v ktorých je zahrnutá validácia, transparentnosť a spolupráca.
Tento výsledok v zmysle vnímania prípadovej štúdie ilustruje nový spôsob výskumnej praxe. Modely ako GPT‑5.2 môžu slúžiť ako nástroje na podporu matematického uvažovania a urýchlenie počiatočného skúmania, pričom zodpovednosť za správnosť, interpretáciu a kontext zostáva na ľudských výskumníkoch. Pri opatrnom používaní môžu takéto systémy pomôcť zefektívniť významné aspekty teoretickej práce bez toho, aby nahradili ústrednú rolu ľudského úsudku vo vedeckom skúmaní.


