Fremskridt inden for videnskab og matematik med GPT‑5.2
GPT‑5.2 er vores hidtil stærkeste model til matematik og naturvidenskab.
Et af vores håb for stærk AI er, at det vil sætte skub i den videnskabelige forskning til gavn for alle og hjælpe forskere med at udforske flere ideer, teste dem hurtigere og omsætte opdagelser til resultater.
I løbet af det seneste år har vi arbejdet tæt sammen med forskere inden for matematik, fysik, biologi og computervidenskab for at undersøge, hvor AI kan hjælpe – og hvor den stadig ikke er tilstrækkelig. I sidste måned udgav vi en artikel, der samler tidlige casestudier inden for matematik, fysik, biologi, datalogi, astronomi og materialevidenskab, hvor GPT‑5 hjalp forskere med at vise, hvordan GPT‑5 allerede er begyndt at bidrage til reelt videnskabeligt arbejde. Med GPT‑5.2 begynder vi at se, at disse fremskridt bliver mere konsistente og mere pålidelige.
GPT‑5.2 Pro og GPT‑5.2 Thinking er vores hidtil stærkeste modeller til videnskabeligt og matematisk arbejde.
Stærk matematisk avanceret tænkning er grundlaget for pålidelighed i videnskabeligt og teknisk arbejde. Det gør det muligt for modeller at følge logik i flere trin, sørge for konsistens i størrelser og undgå diskrete fejl, der kan forværre virkelige analyser – fra simuleringer og statistik til prognoser og modellering. Forbedringer på benchmarks som FrontierMath er ikke udtryk for en snæver færdighed, men for stærkere generel avanceret tænkning og abstraktionsniveau, evner, der overføres direkte til videnskabelige workflows som kodning, dataanalyse og eksperimentelt design.
Disse evner er også tæt forbundet med fremskridt mod generel intelligens. Et system, der pålideligt kan bruge avanceret tænkning, bevare konsistens i lange tankekæder og generalisere på tværs af domæner, udviser træk, der er grundlæggende for AGI – ikke opgavespecifikke tricks, men brede, overførbare evner i avanceret tænkning, der har betydning for videnskab, teknik og beslutningstagning i den virkelige verden.
Vi mener, at GPT‑5.2 Pro og GPT‑5.2 Thinking er verdens bedste model til at hjælpe og accelerere forskere. På GPQA-diamant, en Google-sikker Q&A-benchmark på kandidatniveau, GPT‑5.2 Pro 93,2 %, tæt fulgt af GPT‑5.2 Thinking på 92,4 %.
I GPQA Diamant(åbner i et nyt vindue) besvarer modeller multiple choice-spørgsmål om fysik, kemi og biologi. Der blev ikke aktiveret nogen værktøjer, og avanceret tænkning blev sat til maksimalt niveau.
På FrontierMath (Tier 1–3), en evaluering af matematik på ekspertniveau, GPT‑5.2 Thinking satte en ny standard for kunst, ved at løse 40,3 % af problemerne.
I FrontierMath(åbner i et nyt vindue) løser modeller matematiske problemer på ekspertniveau. Et Python-værktøj blev aktiveret, og avanceret tænkning blev indstillet til maksimalt.
Casestudie
Dette resultat antyder en brugbar retning for, hvordan AI-systemer kan understøtte videnskabelig forskning, især inden for domæner med aksiomatiske teoretiske fundamenter som matematik og teoretisk datalogi. I sådanne sammenhænge kan frontier-modeller hjælpe med at udforske beviser, teste hypoteser og identificere forbindelser, som det ellers ville kræve en betydelig menneskelig indsats at identificere.
Samtidig er disse systemer ikke selvstændige forskere. Ekspertvurdering, verifikation og domæneforståelse forbliver essentielle. Selv meget kompetente modeller kan begå fejl eller basere sig på uoplyste antagelser. Men de kan også producere detaljerede, strukturerede argumenter, som fortjener omhyggelig menneskelig undersøgelse og finpudsning. At gøre pålidelige fremskridt med AI afhænger derfor af workflows, der sikrer validering, gennemsigtighed og samarbejde.
Dette resultat kan ses som et casestudie, der illustrerer en ny form for forskningspraksis. Modeller som GPT‑5.2 kan fungere som værktøjer til at understøtte avanceret tænkning inden for matematik og sætte skub i udforskningen på et tidligt stadie, mens ansvaret for nøjagtighed, fortolkning og kontekst fortsat ligger hos de menneskelige forskere. Hvis de bruges med omhu, kan sådanne systemer hjælpe med at effektivisere vigtige aspekter af det teoretiske arbejde uden at erstatte den centrale rolle, som den menneskelige dømmekraft spiller i videnskabelige undersøgelser.


