Progredire nella scienza e nella matematica con GPT‑5.2
GPT‑5.2 è ad oggi il nostro modello più avanzato per le attività scientifiche e matematiche.
Una delle nostre speranze per l’intelligenza artificiale avanzata è che possa accelerare la ricerca scientifica a beneficio di tutti, aiutando i ricercatori a esplorare più idee, testarle più rapidamente e trasformare le scoperte in risultati concreti.
Nel corso dell'ultimo anno, abbiamo collaborato strettamente con scienziati di matematica, fisica, biologia e informatica per comprendere dove l'IA può essere utile e dove ancora presenta delle lacune. Il mese scorso, abbiamo pubblicato un articolo che raccoglie i primi casi di studio di matematica, fisica, biologia, informatica, astronomia e scienza dei materiali in cui GPT‑5 ha aiutato i ricercatori, dimostrando come GPT‑5 abbia già iniziato a contribuire al lavoro scientifico concreto. Con GPT‑5.2, stiamo iniziando a vedere che questi miglioramenti diventano più costanti e affidabili.
GPT‑5.2 Pro e GPT‑5.2 Thinking sono ad oggi i nostri modelli più potenti per le attività scientifiche e matematiche.
Un solido ragionamento matematico è fondamentale per l'affidabilità nelle attività scientifiche e tecniche. Consente ai modelli di seguire una logica a più passaggi, mantenere le quantità coerenti ed evitare errori sottili che possono accumularsi nelle analisi reali, dalle simulazioni e le statistiche alla previsione e la modellazione. I miglioramenti nei benchmark come FrontierMath non riflettono una competenza circoscritta, ma un rafforzamento del ragionamento generale e dell'astrazione, capacità che si trasferiscono direttamente nei flussi di lavoro scientifici come la programmazione, l'analisi dei dati e la progettazione sperimentale.
Queste capacità sono strettamente legate anche ai progressi verso un’intelligenza più generale. Un sistema in grado di ragionare in modo affidabile attraverso l’astrazione, mantenere la coerenza lungo catene di pensiero estese e generalizzare attraverso domini, sta mostrando caratteristiche fondamentali per l'AGI, non trucchi specifici per attività, ma competenze di ragionamento ampie e trasferibili che sono importanti in ambito scientifico, ingegneristico e nei processi decisionali applicati alla realtà.
Crediamo che GPT‑5.2 Pro e GPT‑5.2 Thinking siano oggi i modelli migliori al mondo per assistere e potenziare il lavoro degli scienziati. Su GPQA Diamond, un benchmark di domande a livello universitario e a prova di Google, GPT‑5.2 Pro raggiunge il 93,2%, seguito da GPT‑5.2 Thinking al 92,4%.
In GPQA Diamond(si apre in una nuova finestra), i modelli rispondono a domande a scelta multipla su fisica, chimica e biologia. Non è stato abilitato alcuno strumento e lo sforzo di ragionamento è stato impostato al massimo.
Su FrontierMath (Livello 1–3), una valutazione della matematica di livello esperto, GPT‑5.2 Thinking ha stabilito un nuovo riferimento di eccellenza, risolvendo il 40,3% dei problemi.
In FrontierMath(si apre in una nuova finestra), i modelli risolvono problemi di matematica a livello esperto. È stato abilitato uno strumento Python e lo sforzo di ragionamento è stato impostato al massimo.
Caso di studio
Questo risultato suggerisce una direzione utile su come i sistemi di IA possano fornire assistenza alla ricerca scientifica, in particolare nei domini con fondamenti teorici assiomatici come la matematica e l'informatica teorica. In contesti come questi, i modelli più avanzati possono aiutare a esplorare dimostrazioni, testare ipotesi e identificare connessioni che altrimenti richiederebbero un notevole sforzo umano per essere individuate.
Allo stesso tempo, questi sistemi non sono dei ricercatori indipendenti. Il giudizio esperto, la verifica e la comprensione del dominio restano essenziali. Anche i modelli altamente capaci possono commettere errori o basarsi su assunzioni non esplicitate. Possono però anche produrre argomentazioni dettagliate e strutturate che meritano un attento esame e un successivo perfezionamento umano. Pertanto, fare progressi affidabili con l'IA dipende da flussi di lavoro che mantengono la validazione, la trasparenza e la collaborazione saldamente nel ciclo.
Considerato come caso di studio, questo risultato illustra una modalità emergente di pratica della ricerca. Modelli come GPT‑5.2 possono diventare strumenti a supporto del ragionamento matematico e dell’esplorazione nelle fasi iniziali, mentre la responsabilità per la correttezza, l'interpretazione e il contesto rimane ai ricercatori umani. Se utilizzati con attenzione, tali sistemi possono contribuire a rendere più efficienti aspetti significativi del lavoro teorico, senza sostituire il ruolo centrale del giudizio umano nell'indagine scientifica.


