Stiamo introducendo GPT‑5.2, la nostra serie di modelli più avanzata per le attività professionali che richiedono competenze specialistiche.
Già ora, l’utente medio di ChatGPT Enterprise afferma di risparmiare 40–60 minuti al giorno, mentre gli utenti più assidui dichiarano un risparmio superiore a 10 ore alla settimana. Abbiamo progettato GPT‑5.2 per generare ancora più valore economico per le persone; è più efficace nel creare fogli di calcolo, sviluppare presentazioni, scrivere codice, interpretare immagini, comprendere contesti estesi, utilizzare strumenti e gestire progetti complessi a più fasi.
GPT‑5.2 stabilisce un nuovo riferimento di eccellenza in numerosi benchmark, incluso GDPval, in cui supera i professionisti del settore in attività di lavoro che richiedono competenze specialistiche, coprendo 44 professioni.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (vittorie o pareggi) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (public) | 55,6% | 50,8% |
SWE-bench Verificato | 80,0% | 76,3% |
GPQA Diamond (senza strumenti) | 92,4% | 88,1% |
CharXiv Reasoning (con Python) | 88,7% | 80,3% |
HMMT (Feb 2025) | 99,4% | 96,3% |
FrontierMath (Livello 1–3) | 40,3% | 31,0% |
ARC-AGI-1 (Verificato) | 86,2% | 72,8% |
ARC-AGI-2 (Verificato) | 52,9% | 17,6% |
Notion(si apre in una nuova finestra), Box(si apre in una nuova finestra), Shopify(si apre in una nuova finestra), Harvey(si apre in una nuova finestra) e Zoom(si apre in una nuova finestra) hanno osservato che GPT‑5.2 dimostra prestazioni all'avanguardia nel ragionamento a lungo termine e nella capacità di utilizzo degli strumenti. Databricks(si apre in una nuova finestra), Hex(si apre in una nuova finestra) e Triple Whale(si apre in una nuova finestra) hanno rilevato che GPT‑5.2 è eccezionale nelle attività di data science agentica e analisi dei documenti. Cognition(si apre in una nuova finestra), Warp(si apre in una nuova finestra), Charlie Labs(si apre in una nuova finestra), JetBrains(si apre in una nuova finestra) e Augment Code(si apre in una nuova finestra) affermano che GPT‑5.2 offre prestazioni di codifica agentica all'avanguardia, con miglioramenti misurabili in aree come la codifica interattiva, le revisioni del codice e l'individuazione di bug.
Su ChatGPT, GPT‑5.2 Instant, Thinking e Pro inizieranno a essere distribuiti oggi, a partire dai piani a pagamento. Nell'API, sono ora disponibili per tutti gli sviluppatori.
GPT‑5.2 introduce miglioramenti significativi nell’intelligenza generale, nella comprensione di contesti lunghi, nell’uso degli strumenti da parte degli agenti e nelle capacità di visione, rendendolo più efficace di qualsiasi modello precedente nell’esecuzione end-to-end di attività complesse e reali.
GPT‑5.2 Thinking è oggi il nostro modello migliore per l’uso professionale. Su GDPval, una valutazione che misura attività di lavoro che richiedono competenze specialistiche in 44 professioni, GPT‑5.2 Thinking stabilisce un nuovo livello di eccellenza ed è il nostro primo modello a operare a un livello pari o superiore a quello di un esperto umano. In particolare, GPT‑5.2 Thinking supera o eguaglia i migliori professionisti del settore nel 70,9% delle comparazioni sulle attività di lavoro informativo GDPval, secondo giudici umani esperti. Queste attività includono la creazione di presentazioni, fogli di calcolo e altri materiali di lavoro. GPT‑5.2 Thinking ha prodotto risultati per le attività di GDPval a una velocità superiore di oltre 11 volte e a un costo inferiore all'1% rispetto ai professionisti esperti, suggerendo che, se abbinato alla supervisione umana, GPT‑5.2 può supportare il lavoro professionale. Le stime di velocità e costi si basano su metriche storiche; la velocità in ChatGPT può variare.
In GDPval i modelli svolgono attività specialistiche ben definite che coprono 44 professioni appartenenti ai primi 9 settori che contribuiscono al PIL degli Stati Uniti. Le attività richiedono prodotti di lavoro reali, come presentazioni commerciali, fogli di calcolo contabili, orari di assistenza urgente, diagrammi di produzione o brevi video. Su ChatGPT, GPT‑5.2 Thinking dispone di nuovi strumenti che GPT‑5 Thinking non possiede.
Nel valutare un output particolarmente riuscito, un giudice di GDPval ha commentato: «È un salto emozionante e notevole nella qualità dell'output... [sembra] essere stato realizzato da un'azienda professionale con personale, e ha un layout sorprendentemente ben progettato e consigli per entrambi i deliverable, anche se con uno ci sono ancora alcuni piccoli errori da correggere.»
Nel nostro benchmark interno sulle attività di modellazione finanziaria svolte da analisti junior nel settore dell’investment banking, come la creazione di un modello a tre prospetti per una società Fortune 500 con formattazione e citazioni corrette o lo sviluppo di un modello di leveraged buyout per una privatizzazione, GPT‑5.2 Thinking ottiene un punteggio medio superiore del 9,3% rispetto a GPT‑5.1. aumentando dal 59,1% al 68,4%.
I confronti affiancati mostrano una maggiore sofisticazione e una formattazione più accurata nei fogli di calcolo e nelle presentazioni generate da GPT‑5.2 Thinking:

Prompt: Crea un modello di pianificazione della forza lavoro: organico, piano di assunzioni, turnover e impatto sul budget. Includi i reparti di ingegneria, marketing, legale e vendite.
Per utilizzare le nuove funzionalità di foglio di calcolo e presentazione su ChatGPT, è necessario avere un piano a pagamento e selezionare GPT‑5.2 Thinking o Pro. Le elaborazioni più complesse possono richiedere alcuni minuti per essere completate.
GPT‑5.2 Thinking stabilisce un nuovo riferimento di eccellenza con il 55,6% su SWE-bench Pro, una rigorosa valutazione dell’ingegneria del software in scenari reali. A differenza di SWE-bench Verified, che valuta esclusivamente Python, SWE-bench Pro testa quattro linguaggi e mira a essere più resistente alla contaminazione, più rigoroso, più diversificato e maggiormente rilevante per l’industria.
In SWE-bench Pro(si apre in una nuova finestra), al modello viene fornito un repository di codice e deve generare una patch per risolvere un’attività realistica di ingegneria del software.
Su SWE-bench Verificato (non tracciato), GPT‑5.2 Thinking raggiunge un nuovo massimo dell’80%.
Per l’uso professionale quotidiano, questo significa avere un modello in grado di eseguire il debug del codice di produzione in modo più affidabile, implementare nuove funzionalità, rifattorizzare codebase estese e completare correzioni end-to-end con meno interventi manuali.
GPT‑5.2 Thinking mostra inoltre prestazioni migliori nello sviluppo front-end rispetto a GPT‑5.1 Thinking. I primi tester hanno rilevato miglioramenti significativi nello sviluppo front-end e nel lavoro su interfacce complesse o non convenzionali, in particolare quando coinvolgono elementi 3D, rendendolo un supporto quotidiano potente per gli ingegneri in diversi ambiti. Ecco alcuni esempi delle soluzioni che può generare a partire da un singolo prompt:
Prompt: Crea un'app a pagina singola in un unico file HTML con i seguenti requisiti:
- Nome: Simulazione Onde Oceaniche
- Obiettivo: Visualizzare onde animate realistiche.
- Caratteristiche: Modificare la velocità del vento, l'altezza delle onde, l'illuminazione.
- L'interfaccia utente dovrebbe essere calmante e realistica.
I primi tester hanno condiviso il loro feedback sulle capacità di programmazione di GPT‑5.2:
"GPT-5.2 rappresenta il più grande salto per i modelli GPT nella programmazione agentica dai tempi di GPT-5 ed è un modello all’avanguardia nella sua fascia di prezzo. L'incremento di versione non rende giustizia al salto di intelligenza. Siamo entusiasti di renderlo il predefinito su Windsurf e diversi carichi di lavoro principali di Devin.
GPT‑5.2 Thinking presenta meno allucinazioni rispetto a GPT‑5.1 Thinking. Su un insieme di query de-identificate da ChatGPT, le risposte contenenti errori sono risultate inferiori del 38% rispetto al modello precedente. Per i professionisti, questo significa un numero minore di errori nelle attività di ricerca, scrittura, analisi e supporto decisionale, rendendo il modello più affidabile nel lavoro quotidiano basato sulle informazioni.
Lo sforzo di ragionamento è stato impostato al massimo disponibile e la funzione di ricerca è stata abilitata. Gli errori sono rilevati da altri modelli, che potrebbero commettere errori a loro volta. I tassi di errore a livello di dichiarazione sono molto più bassi rispetto ai tassi di errore a livello di risposta, poiché la maggior parte delle risposte contiene molte dichiarazioni.
Come tutti i modelli, anche GPT‑5.2 Thinking non è perfetto. Per attività critiche è sempre consigliabile verificare le risposte.
GPT‑5.2 Thinking stabilisce un nuovo standard nel ragionamento su contesti lunghi, raggiungendo prestazioni di punta su OpenAI MRCRv2, una valutazione che misura la capacità di integrare informazioni distribuite in documenti molto estesi. In attività reali come l’analisi approfondita di documenti che richiedono di collegare informazioni presenti in centinaia di migliaia di token, GPT‑5.2 Thinking risulta nettamente più accurato rispetto a GPT‑5.1 Thinking. È inoltre il primo modello che mostra un’accuratezza prossima al 100% nella variante a quattro needle di MRCR, fino a 256.000 token.
In termini pratici, questo consente ai professionisti di utilizzare GPT‑5.2 per lavorare con documenti lunghi, come report, contratti, articoli di ricerca, trascrizioni e progetti composti da più file, mantenendo coerenza e accuratezza anche su volumi molto elevati di testo. Ciò rende GPT‑5.2 particolarmente adatto ad analisi approfondite, sintesi complesse e flussi di lavoro che richiedono l’integrazione di informazioni provenienti da diverse fonti.
In OpenAI-MRCR(si apre in una nuova finestra) v2 (risoluzione di co-referenze multi-round), più richieste utente identiche, dette “needle” (ago), vengono inserite in lunghi “haystacks” (pagliai) di richieste e risposte simili. Al modello viene chiesto di riprodurre la risposta alla n-esima richiesta “needle”. La versione 2 della valutazione corregge circa il 5% delle attività che avevano valori di verità di base errati. Il rapporto medio di corrispondenza misura la media della corrispondenza testuale tra la risposta del modello e la risposta corretta. I punteggi con un input massimo di 256k token rappresentano la media su un intervallo compreso tra 128k e 256k token di input. Qui 256k rappresenta 256 × 1.024 = 262.114 token. Lo sforzo di ragionamento è impostato al massimo.
Per le attività che richiedono un ragionamento oltre il limite della finestra di contesto massima, GPT‑5.2 Thinking è compatibile con il nostro nuovo endpoint Responses /compact, che estende la finestra di contesto effettiva del modello. Questo consente a GPT‑5.2 Thinking di affrontare flussi di lavoro più lunghi e che utilizzano più strumenti, che altrimenti sarebbero limitati dalla lunghezza del contesto. Leggi di più nella nostra documentazione API(si apre in una nuova finestra).
GPT‑5.2 Thinking è anche il nostro modello più avanzato nell'elaborazione visiva. Riduce di circa la metà il tasso di errore nelle attività che richiedono analisi di grafici e comprensione di interfacce software.
Per l’uso professionale quotidiano, ciò significa una capacità più accurata di interpretare dashboard, screenshot di prodotti, diagrammi tecnici e report visivi, supportando flussi di lavoro in finanza, operations, ingegneria, design e assistenza clienti, dove le informazioni visive hanno un ruolo centrale.
In CharXiv Reasoning(si apre in una nuova finestra),i modelli rispondono a domande basate su grafici visivi tratti da articoli scientifici. Lo strumento Python è attivo e lo sforzo di ragionamento è impostato al massimo.
In ScreenSpot-Pro(si apre in una nuova finestra), i modelli devono analizzare screenshot ad alta risoluzione di interfacce grafiche provenienti da diversi contesti professionali. Lo strumento Python è attivo e lo sforzo di ragionamento è impostato al massimo. Senza lo strumento Python i punteggi sono molto più bassi. Consigliamo di attivarlo per attività di visione di questo tipo.
Rispetto ai modelli precedenti, GPT‑5.2 Thinking ha una comprensione più accurata della disposizione degli elementi all’interno di un’immagine, un aspetto che risulta fondamentale nelle attività in cui il layout relativo è determinante per risolvere il problema. Nell’esempio seguente, chiediamo al modello di identificare i componenti presenti in un’immagine di input (in questo caso una scheda madre) e di generare etichette con riquadri di delimitazione approssimativi. Anche con immagini di bassa qualità, GPT‑5.2 identifica le regioni principali e posiziona riquadri che corrispondono in modo approssimativo alle reali posizioni dei componenti, mentre GPT‑5.1 etichetta solo alcune parti e mostra una comprensione molto più limitata della loro disposizione spaziale.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking raggiunge un nuovo standard del 98,7% su Tau2-bench Telecom, dimostrando una capacità elevata di utilizzare gli strumenti in modo affidabile anche in attività lunghe e articolate.
Per i casi d'uso sensibili alla latenza, GPT‑5.2 Thinking offre prestazioni significativamente migliori con il livello di ragionamento impostato su none, superando notevolmente GPT‑5.1 e GPT‑4.1.
In τ2-bench(si apre in una nuova finestra), i modelli usano strumenti per gestire attività di assistenza clienti in un’interazione a più turni con un utente simulato. Per il dominio delle telecomunicazioni abbiamo aggiunto un’istruzione breve e utile nel prompt di sistema per migliorare le prestazioni. Il sottoinsieme Airline è escluso a causa della qualità inferiore della valutazione dei dati di riferimento.
Per i professionisti, questo si traduce in flussi di lavoro end-to-end più solidi, come la risoluzione di casi di assistenza clienti, l’estrazione di dati da più sistemi, l’esecuzione di analisi e la generazione di output finali con meno interruzioni tra una fase e l’altra.
Quando viene posta una domanda complessa di assistenza clienti che richiede una risoluzione articolata in più passaggi, il modello è in grado di coordinare in modo più efficace l’intero flusso di lavoro tra diversi agenti. Nel caso seguente, un viaggiatore segnala un volo in ritardo, una coincidenza mancata, un pernottamento a New York e l'assegnazione del posto legata a motivi medici. GPT‑5.2 gestisce l’intera catena delle attività: dalla riprogrammazione dei voli all’assegnazione dei posti per l’assistenza speciale, fino alla gestione dei rimborsi, ottenendo un risultato più completo rispetto a GPT‑5.1.
GPT‑5.1

GPT‑5.2

Una delle nostre principali ambizioni per l’IA è contribuire ad accelerare la ricerca scientifica, a beneficio di tutti. A tal fine, abbiamo collaborato e ascoltato gli scienziati per capire come l'IA possa accelerare il loro lavoro, e il mese scorso abbiamo condiviso alcuni esperimenti collaborativi iniziali qui.
Crediamo che GPT‑5.2 Pro e GPT‑5.2 Thinking siano oggi i modelli migliori al mondo per assistere e potenziare il lavoro degli scienziati. Su GPQA Diamond, un benchmark di domande a livello avanzato in fisica, chimica e biologia, GPT‑5.2 Pro raggiunge il 93,2%, seguito da GPT‑5.2 Thinking al 92,4%.
In GPQA Diamond(si apre in una nuova finestra), i modelli rispondono a domande a scelta multipla su fisica, chimica e biologia. Nessuno strumento è attivo e lo sforzo di ragionamento è impostato al massimo.
Su FrontierMath (livelli da 1 a 3), una valutazione dedicata alla matematica di livello esperto, GPT‑5.2 Thinking ha stabilito un nuovo riferimento di eccellenza, risolvendo il 40,3% dei problemi.
In FrontierMath(si apre in una nuova finestra), i modelli risolvono problemi di matematica avanzata. Lo strumento Python è attivo e lo sforzo di ragionamento è impostato al massimo.
Stiamo iniziando a osservare progressi concreti nella matematica e nella scienza ottenuti grazie ai modelli di IA. Ad esempio, in un lavoro recente con GPT‑5.2 Pro, alcuni ricercatori hanno esplorato una questione aperta nell’ambito dell’apprendimento statistico. In un contesto ristretto e ben definito, il modello ha proposto una dimostrazione che è stata poi verificata dagli autori e revisionata con esperti esterni, mostrando come i modelli di frontiera possano supportare la ricerca matematica sotto stretta supervisione umana.
Su ARC-AGI-1 (Verified), un benchmark progettato per misurare la capacità di ragionamento generale, GPT‑5.2 è il primo modello a superare la soglia del 90%, migliorando l’87% ottenuto da o3‑preview lo scorso anno e riducendo il costo necessario per raggiungere tale prestazione di circa 390 volte.
Su ARC-AGI-2 (Verified), che presenta una difficoltà maggiore e isola meglio il ragionamento fluido, GPT‑5.2 Thinking raggiunge un nuovo riferimento di eccellenza nei modelli di chain-of-thought (catena di pensiero), con un punteggio del 52,9%. GPT‑5.2 Pro ottiene prestazioni ancora più elevate, raggiungendo il 54,2% ed estendendo ulteriormente la capacità del modello di ragionare su problemi nuovi e astratti.
Questi miglioramenti nelle valutazioni riflettono i progressi del ragionamento multi-step più solido di GPT‑5.2, una maggiore accuratezza quantitativa e una risoluzione dei problemi più affidabile nelle attività tecniche complesse.
Ecco cosa dicono i nostri primi tester su GPT‑5.2:
"GPT-5.2 ha reso possibile un cambio completo della nostra architettura. Abbiamo consolidato un fragile sistema multi-agente in un unico mega-agente con oltre 20 strumenti. La cosa migliore è che funziona, semplicemente. Il mega-agente è più veloce, più intelligente e cento volte più semplice da mantenere. Stiamo registrando una latenza drasticamente inferiore, un'attivazione degli strumenti molto più efficace e non abbiamo più bisogno di prompt di sistema estesi, perché GPT-5.2 esegue tutto in modo pulito a partire da un semplice prompt di una riga. Sembra magia pura.
Su ChatGPT, gli utenti dovrebbero notare che GPT‑5.2 è più semplice da usare nella pratica quotidiana: è più strutturato, più affidabile, e la conversazione rimane gradevole.
GPT‑5.2 Instant è uno strumento rapido e versatile per il lavoro e l’apprendimento quotidiani, con chiari miglioramenti nelle ricerche di informazioni, nelle guide pratiche, nella scrittura tecnica e nella traduzione, mantenendo il tono più caldo e conversazionale introdotto con GPT‑5.1 Instant. I primi tester hanno rilevato in particolare spiegazioni più chiare, che mettono in evidenza fin da subito le informazioni chiave.
GPT‑5.2 Thinking è progettato per attività più approfondite, aiutando gli utenti a gestire compiti complessi con maggiore precisione, soprattutto nella programmazione, nel riassunto di documenti lunghi, nel rispondere a domande su file caricati, nell’analisi passo dopo passo di problemi matematici e logici e nel supportare la pianificazione e le decisioni con una struttura più chiara e informazioni più utili.
GPT‑5.2 Pro è la nostra opzione più avanzata e affidabile per le domande complesse, dove una risposta di qualità superiore giustifica l'attesa. I test preliminari mostrano meno errori significativi e prestazioni migliori in domini complessi come la programmazione.
GPT‑5.2 si basa sulla ricerca del completamento sicuro che abbiamo introdotto con GPT‑5, che insegna al modello a fornire la risposta più utile pur rimanendo entro i limiti di sicurezza.
Con questo aggiornamento, abbiamo proseguito il nostro lavoro per rafforzare le risposte dei nostri modelli nelle conversazioni sensibili, con miglioramenti significativi nel modo in cui vengono gestite le richieste che indicano segnali di suicidio o autolesionismo, disagio mentale o una dipendenza emotiva dal modello. Questi interventi mirati hanno permesso di ridurre il numero di risposte indesiderate sia in GPT‑5.2 Instant e GPT‑5.2 Thinking, rispetto a GPT‑5.1 e alle versioni Instant e Thinking precedenti. Ulteriori dettagli sono disponibili nella scheda di sistema.
Siamo nelle prime fasi del lancio del nostro modello di previsione dell'età per poter applicare automaticamente protezioni sui contenuti agli utenti di età inferiore ai 18 anni, al fine di limitare l'accesso a contenuti sensibili. Questa iniziativa si basa sulle misure già esistenti per gli utenti sotto i 18 anni e sui controlli parentali disponibili.
GPT‑5.2 è solo un passo in una serie continua di miglioramenti, e siamo ancora lontani dall'aver finito. Anche se questa versione offre miglioramenti significativi in termini di intelligenza e produttività, sappiamo che ci sono ambiti in cui le persone chiedono di più. In ChatGPT stiamo lavorando su problemi noti, come l'eccesso di rifiuti, pur continuando ad alzare gli standard di sicurezza e di affidabilità complessivi. Questi cambiamenti sono complessi e ci stiamo concentrando per implementarli correttamente.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Salute mentale | 0,995 | 0,883 | 0,915 | 0,684 |
Dipendenza emotiva | 0,938 | 0,945 | 0,955 | 0,785 |
Autolesionismo | 0,938 | 0,925 | 0,963 | 0,937 |
Su ChatGPT, inizieremo a distribuire GPT‑5.2 (Instant, Thinking e Pro) a partire da oggi, cominciando dai piani a pagamento (Plus, Pro, Go, Business, Enterprise). La distribuzione avviene in modo graduale per mantenere ChatGPT stabile e affidabile. Se inizialmente non vedi il modello, puoi riprovare ad accedere in un momento successivo. GPT‑5.1 resterà disponibile per gli utenti paganti per tre mesi come modello legacy. Al termine di questo periodo verrà dismesso.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Nella nostra piattaforma API, GPT‑5.2 Thinking è disponibile oggi nell'API Risposte e nell'API per il completamento delle chat come GPT‑5.2, e GPT‑5.2 Instant come gpt-5.2-chat-latest. GPT‑5.2 Pro è disponibile nell'API delle Risposte come gpt-5.2-pro. Gli sviluppatori possono ora impostare il parametro di ragionamento su GPT‑5.2 Pro, e entrambi GPT‑5.2 Pro e GPT‑5.2 Thinking ora supportano il nuovo quinto livello di sforzo di ragionamento xhigh, per le attività in cui la qualità è prioritaria.
GPT‑5.2 ha un prezzo di 1,75 $/1 M token di input e 14 $/1 M token di output, con uno sconto del 90% sui token memorizzati nella cache. In diverse valutazioni agentiche, abbiamo scoperto che, nonostante le capacità di GPT‑5.2, il costo per token è più elevato, ma il costo necessario per raggiungere un determinato livello di qualità risulta inferiore grazie alla maggiore efficienza dei token di GPT‑5.2.
Sebbene le tariffe degli abbonamenti a ChatGPT siano rimaste invariate, in API GPT‑5.2 ha un costo per token più alto rispetto a GPT‑5.1, in linea con le capacità superiori del modello. Rimane comunque più conveniente rispetto ad altri modelli più avanzati, permettendo alle persone di utilizzarlo in modo intensivo nel lavoro quotidiano e nelle applicazioni principali.
Modello | Input | Input memorizzato nella cache | Output |
gpt-5.2 / gpt-5.2-chat-latest | 1,75 $ | 0,175 $ | 14 $ |
gpt-5.2-pro | 21 $ | - | 168 $ |
gpt-5.1 / gpt-5.1-chat-latest | 1,25 $ | 0,125 $ | 10 $ |
gpt-5-pro | 15 $ | - | 120 $ |
Attualmente non abbiamo piani per ritirare GPT‑5.1, GPT‑5 o GPT‑4.1 nell’API. Eventuali modifiche future verranno comunicate con un preavviso adeguato. GPT‑5.2 funziona subito in Codex, ma prevediamo di rilasciare una versione ottimizzata specificamente per Codex nelle prossime settimane.
GPT‑5.2 è stato sviluppato in collaborazione con i nostri partner di lunga data, NVIDIA e Microsoft. I data center Azure e le GPU NVIDIA, inclusi H100, H200 e GB200-NVL72, supportano l'infrastruttura di addestramento su larga scala di OpenAI, determinando significativi miglioramenti nell'intelligenza del modello. Questa collaborazione ci consente di ampliare la capacità di elaborazione in modo affidabile e di portare nuovi modelli sul mercato più rapidamente.
Di seguito, riportiamo i punteggi di benchmark completi per GPT‑5.2 Thinking, insieme a un sottoinsieme per GPT‑5.2 Pro.
Professionale
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Programmazione
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Fattualità
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Contesto lungo
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Vision
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Uso dello strumento
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Accademico
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Ragionamento astratto
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
I modelli sono stati eseguiti con il massimo livello di sforzo di ragionamento disponibile nella nostra API (xhigh per GPT‑5.2 Thinking & Pro, e alto per GPT‑5.1 Thinking), tranne per le valutazioni professionali, dove GPT‑5.2 Thinking è stato eseguito con il massimo sforzo di ragionamento disponibile in ChatGPT Pro. I benchmark sono stati condotti in un ambiente di ricerca, che in alcuni casi può generare risultati leggermente diversi rispetto a ChatGPT in produzione.
* Per SWE-Lancer, omettiamo 40 dei 237 problemi che non sono stati eseguiti sulla nostra infrastruttura.


