Napredovanje znanosti i matematike uz GPT‑5.2
GPT‑5.2 je naš dosad najjači model za rad u matematici i znanosti.
Jedna od naših nada za snažnu umjetnu inteligenciju jest da će ubrzati znanstvena istraživanja na korist svima, pomažući istraživačima da istraže više ideja, brže ih testiraju i pretvore otkrića u konkretan utjecaj.
Tijekom protekle godine, blisko smo surađivali sa znanstvenicima iz područja matematike, fizike, biologije i računalnih znanosti kako bismo razumjeli gdje umjetna inteligencija može pomoći – i gdje još uvijek zaostaje. Prošlog mjeseca smo objavili rad koji prikuplja rane studije slučaja iz matematike, fizike, biologije, računalnih znanosti, astronomije i znanosti o materijalima u kojima je GPT‑5 pomogao istraživačima, pokazujući kako je GPT‑5 već počeo doprinositi stvarnom znanstvenom radu. Uz model GPT‑5.2, počinjemo primjećivati da ti dobici postaju dosljedniji i pouzdaniji.
GPT‑5.2 Pro i GPT‑5.2 Thinking su naši dosad najjači modeli za znanstveni i matematički rad.
Snažno matematičko zaključivanje temelj je pouzdanosti u znanstvenom i tehničkom radu. Omogućuje modelima da slijede višekoračnu logiku, održavaju dosljednost količina i izbjegavaju suptilne pogreške koje se mogu nagomilati u stvarnim analizama – od simulacija i statistike do predviđanja i modeliranja. Poboljšanja na mjerilima poput FrontierMath ne odražavaju usku vještinu, već snažnije opće prosuđivanje i apstrakciju, sposobnosti koje se izravno prenose u znanstvene tijekove rada kao što su kodiranje, analiza podataka i eksperimentalni dizajn.
Te su sposobnosti također usko povezane s napretkom prema općoj inteligenciji. Sustav koji može pouzdano prosuđivati kroz apstrakciju, održavati dosljednost kroz duge lance razmišljanja i generalizirati kroz domene pokazuje osobine koje su temeljne za AGI – ne trikove specifične za zadatke, već široke, prenosive vještine rasuđivanja koje su važne u znanosti, inženjerstvu i donošenju odluka u stvarnom svijetu.
Vjerujemo da su GPT‑5.2 Pro i GPT‑5.2 Thinking najbolji modeli na svijetu za pomoć i ubrzavanje rada znanstvenika. Na GPQA Diamond referentnom testu za pitanja i odgovore na razini diplomskog studija, otpornom na Google pretrage, GPT‑5.2 Pro postiže 93,2 %, a slijedi ga GPT‑5.2 Thinking s 92,4 %.
U GPQA Diamond(otvara se u novom prozoru), modeli odgovaraju na pitanja s višestrukim izborom iz fizike, kemije i biologije. Nijedan alat nije bio omogućen, a napor u prosuđivanju bio je postavljen na maksimum.
Na FrontierMath (Tier 1–3) evaluaciji stručne razine matematike, GPT‑5.2 Thinking je postavio novi standard, riješivši 40,3 % problema.
U FrontierMath(otvara se u novom prozoru), modeli rješavaju matematičke probleme na stručnoj razini. Python alat je bio omogućen, a napor u prosuđivanju postavljen je na maksimum.
Studija slučaja
Ovaj rezultat sugerira korisnu smjernicu o tome kako AI sustavi mogu pružiti podršku znanstvenim istraživanjima, posebno u domenama s aksiomatskim teorijskim temeljima kao što su matematika i teorijska računalna znanost. U ovakvim okruženjima, napredni modeli mogu pomoći u istraživanju dokaza, testiranju hipoteza i identificiranju veza koje bi inače zahtijevale značajan ljudski napor za otkrivanje.
Istovremeno, ti sustavi nisu neovisni istraživači. Stručna prosudba, provjera valjanosti i razumijevanje domene ostaju ključni. Čak i vrlo sposobni modeli mogu činiti pogreške ili se oslanjati na neizrečene pretpostavke. Ali oni također mogu proizvesti detaljne, strukturirane argumente koji zaslužuju pažljivo ljudsko proučavanje i usavršavanje. Postizanje pouzdanog napretka s umjetnom inteligencijom stoga ovisi o radnim procesima koji osiguravaju da validacija, transparentnost i suradnja ostanu čvrsto uključeni.
Promatrano kao studija slučaja, ovaj rezultat ilustrira novi način istraživačke prakse. Modeli poput GPT‑5.2 mogu služiti kao alati za podršku matematičkom zaključivanju i ubrzavanje istraživanja u ranoj fazi, dok odgovornost za točnost, interpretaciju i kontekst ostaje na ljudskim istraživačima. Ako se pažljivo koriste, takvi sustavi mogu pomoći u optimizaciji značajnih aspekata teorijskog rada, a da pritom ne zamijene središnju ulogu ljudske prosudbe u znanstvenom istraživanju.


