Vai al contenuto principale
OpenAI

Progredire nella scienza e nella matematica con GPT‑5.2

GPT‑5.2 è ad oggi il nostro modello più avanzato per le attività scientifiche e matematiche.

Caricamento in corso...

Una delle nostre speranze per l’intelligenza artificiale avanzata è che possa accelerare la ricerca scientifica a beneficio di tutti, aiutando i ricercatori a esplorare più idee, testarle più rapidamente e trasformare le scoperte in risultati concreti. 

Nel corso dell'ultimo anno, abbiamo collaborato strettamente con scienziati di matematica, fisica, biologia e informatica per comprendere dove l'IA può essere utile e dove ancora presenta delle lacune. Il mese scorso, abbiamo pubblicato un articolo che raccoglie i primi casi di studio di matematica, fisica, biologia, informatica, astronomia e scienza dei materiali in cui GPT‑5 ha aiutato i ricercatori, dimostrando come GPT‑5 abbia già iniziato a contribuire al lavoro scientifico concreto. Con GPT‑5.2, stiamo iniziando a vedere che questi miglioramenti diventano più costanti e affidabili.

Prestazioni più solide dove la precisione è tutto

GPT‑5.2 Pro e GPT‑5.2 Thinking sono ad oggi i nostri modelli più potenti per le attività scientifiche e matematiche.

Un solido ragionamento matematico è fondamentale per l'affidabilità nelle attività scientifiche e tecniche. Consente ai modelli di seguire una logica a più passaggi, mantenere le quantità coerenti ed evitare errori sottili che possono accumularsi nelle analisi reali, dalle simulazioni e le statistiche alla previsione e la modellazione. I miglioramenti nei benchmark come FrontierMath non riflettono una competenza circoscritta, ma un rafforzamento del ragionamento generale e dell'astrazione, capacità che si trasferiscono direttamente nei flussi di lavoro scientifici come la programmazione, l'analisi dei dati e la progettazione sperimentale.

Queste capacità sono strettamente legate anche ai progressi verso un’intelligenza più generale. Un sistema in grado di ragionare in modo affidabile attraverso l’astrazione, mantenere la coerenza lungo catene di pensiero estese e generalizzare attraverso domini, sta mostrando caratteristiche fondamentali per l'AGI, non trucchi specifici per attività, ma competenze di ragionamento ampie e trasferibili che sono importanti in ambito scientifico, ingegneristico e nei processi decisionali applicati alla realtà.

Crediamo che GPT‑5.2 Pro e GPT‑5.2 Thinking siano oggi i modelli migliori al mondo per assistere e potenziare il lavoro degli scienziati. Su GPQA Diamond, un benchmark di domande a livello universitario e a prova di Google, GPT‑5.2 Pro raggiunge il 93,2%, seguito da GPT‑5.2 Thinking al 92,4%.

In GPQA Diamond(si apre in una nuova finestra), i modelli rispondono a domande a scelta multipla su fisica, chimica e biologia. Non è stato abilitato alcuno strumento e lo sforzo di ragionamento è stato impostato al massimo.

Su FrontierMath (Livello 1–3), una valutazione della matematica di livello esperto, GPT‑5.2 Thinking ha stabilito un nuovo riferimento di eccellenza, risolvendo il 40,3% dei problemi.

In FrontierMath(si apre in una nuova finestra), i modelli risolvono problemi di matematica a livello esperto. È stato abilitato uno strumento Python e lo sforzo di ragionamento è stato impostato al massimo.

Caso di studio

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(si apre in una nuova finestra).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Prospettive future

Questo risultato suggerisce una direzione utile su come i sistemi di IA possano fornire assistenza alla ricerca scientifica, in particolare nei domini con fondamenti teorici assiomatici come la matematica e l'informatica teorica. In contesti come questi, i modelli più avanzati possono aiutare a esplorare dimostrazioni, testare ipotesi e identificare connessioni che altrimenti richiederebbero un notevole sforzo umano per essere individuate.

Allo stesso tempo, questi sistemi non sono dei ricercatori indipendenti. Il giudizio esperto, la verifica e la comprensione del dominio restano essenziali. Anche i modelli altamente capaci possono commettere errori o basarsi su assunzioni non esplicitate. Possono però anche produrre argomentazioni dettagliate e strutturate che meritano un attento esame e un successivo perfezionamento umano. Pertanto, fare progressi affidabili con l'IA dipende da flussi di lavoro che mantengono la validazione, la trasparenza e la collaborazione saldamente nel ciclo.

Considerato come caso di studio, questo risultato illustra una modalità emergente di pratica della ricerca. Modelli come GPT‑5.2 possono diventare strumenti a supporto del ragionamento matematico e dell’esplorazione nelle fasi iniziali, mentre la responsabilità per la correttezza, l'interpretazione e il contesto rimane ai ricercatori umani. Se utilizzati con attenzione, tali sistemi possono contribuire a rendere più efficienti aspetti significativi del lavoro teorico, senza sostituire il ruolo centrale del giudizio umano nell'indagine scientifica.