Presentiamo OpenAI o3‑mini, il nuovo modello più efficiente della nostra serie dedicata al ragionamento, già disponibile su ChatGPT e tramite API. Presentato in anteprima a dicembre 2024, questo modello potente e veloce supera i limiti dei modelli compatti. Offre capacità eccezionali in ambito STEM, in particolare per scienza, matematica e codifica, senza rinunciare però ai costi contenuti e alla bassa latenza di OpenAI o1‑mini.
OpenAI o3‑mini è il nostro primo modello di ragionamento compatto che supporta funzionalità molto richieste dagli sviluppatori, tra cui richiamo di funzioni(si apre in una nuova finestra), risultati strutturati(si apre in una nuova finestra) e messaggi per sviluppatori(si apre in una nuova finestra), che lo rendono pronto all'uso fin dal lancio. Come OpenAI o1‑mini e OpenAI o1‑preview, anche o3‑mini supporta lo streaming(si apre in una nuova finestra). Inoltre, gli sviluppatori possono scegliere tra tre livelli di sforzo di ragionamento(si apre in una nuova finestra) (basso, medio e alto) per ottimizzare il modello in base ai loro casi d’uso. Questa flessibilità consente a o3‑mini di “ragionare più intensamente” quando affronta sfide complesse o di privilegiare la velocità quando la latenza lo richiede. o3‑mini non supporta funzionalità visive, pertanto gli sviluppatori dovrebbero continuare a utilizzare OpenAI o1 per le attività di ragionamento visivo. A partire da oggi, o3‑mini è disponibile nelle API Chat Completions, Assistants e Batch per un gruppo selezionato di sviluppatori nei livelli di utilizzo API da 3 a 5(si apre in una nuova finestra).
Gli utenti Plus, Team e Pro di ChatGPT possono accedere a OpenAI o3‑mini a partire da oggi, mentre l’accesso per gli utenti Enterprise sarà disponibile da febbraio. o3‑mini sostituirà OpenAI o1‑mini nel selettore di modelli e offrirà limiti di utilizzo maggiori e latenza ridotta, che lo rendono la scelta ideale per attività di codifica, STEM e ragionamento logico. Nell’ambito di questo aggiornamento, triplicheremo il limite di messaggi giornalieri per gli utenti Plus e Team, passando da 50 messaggi al giorno con o1‑mini a 150 messaggi al giorno con o3‑mini. Inoltre, o3‑mini ora integra la ricerca per fornire risposte aggiornate con link a fonti web rilevanti. Si tratta di un prototipo iniziale nel processo di integrazione della funzione di ricerca nei nostri modelli di ragionamento.
Da oggi, anche gli utenti del piano Free possono provare OpenAI o3‑mini selezionando “Avvia il ragionamento” nel compositore di messaggi o rigenerando una risposta. È la prima volta che un modello di ragionamento viene reso disponibile agli utenti non abbonati di ChatGPT.
Mentre OpenAI o1 resta il nostro modello di ragionamento generale con conoscenze più ampie, OpenAI o3‑mini offre un’alternativa specializzata per ambiti tecnici che richiedono precisione e rapidità. In ChatGPT, o3‑mini utilizza uno sforzo di ragionamento di livello medio per bilanciare al meglio velocità e precisione. Tutti gli utenti abbonati avranno anche l’opzione di selezionare o3‑mini‑high nel selettore di modelli, per una versione più intelligente che richiede del tempo in più per rispondere. Gli utenti Pro avranno accesso illimitato sia a o3‑mini che a o3‑mini‑high.
Analogamente al suo predecessore OpenAI o1, OpenAI o3‑mini è stato ottimizzato per il ragionamento in ambito STEM. Con uno sforzo di ragionamento medio , o3‑mini raggiunge le stesse prestazioni di o1 in matematica, codifica e scienza e garantisce risposte più veloci. Le valutazioni di tester esperti hanno dimostrato che o3‑mini offre risposte più precise e chiare, con capacità di ragionamento superiori rispetto a OpenAI o1‑mini. I tester hanno preferito le risposte di o3‑mini rispetto a quelle di o1‑mini nel 56% dei casi e hanno inoltre rilevato una riduzione del 39% di errori gravi nelle domande complesse reali. Con uno sforzo di ragionamento medio, o3‑mini raggiunge le prestazioni di o1 in alcune delle valutazioni più impegnative di ragionamento e intelligenza, come AIME e GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
Con un’intelligenza paragonabile a OpenAI o1, OpenAI o3‑mini offre prestazioni più rapide e maggiore efficienza. Oltre alle valutazioni STEM già citate, o3‑mini ottiene risultati superiori anche in test aggiuntivi di matematica e fattualità con uno sforzo di ragionamento medio. Nei test A/B, o3‑mini ha generato risposte il 24% più velocemente rispetto a o1‑mini, con un tempo medio di 7,7 secondi contro 10,16 secondi.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
Una delle tecniche chiave utilizzate per insegnare a OpenAI o3‑mini a rispondere in modo sicuro è l’allineamento deliberativo: il modello è stato addestrato a ragionare su specifiche di sicurezza scritte da esseri umani prima di rispondere ai prompt degli utenti. Come per OpenAI o1, o3‑mini supera nettamente GPT‑4o in valutazioni più complesse in ambito di sicurezza e jailbreak. Prima del rilascio, abbiamo valutato attentamente i rischi di sicurezza di o3‑mini adottando lo stesso approccio di o1 in termini di preparazione, red teaming esterno e test di sicurezza. Ringraziamo i tester della sicurezza che hanno richiesto di testare o3‑mini in accesso anticipato. I dettagli delle valutazioni riportate di seguito e una spiegazione completa dei rischi potenziali e dell'efficacia delle mitigazioni adottate sono disponibili nella scheda di sistema di o3‑mini.


Il lancio di OpenAI o3‑mini rappresenta un ulteriore passo avanti nella missione di OpenAI di superare i confini dell’intelligenza efficiente. Ottimizzando il ragionamento nei domini STEM e mantenendo bassi i costi, stiamo rendendo l’IA di alta qualità sempre più accessibile. Questo modello è in linea con il nostro impegno di ridurre i costi dell’intelligenza, con un taglio del 95% nelle tariffe per token dal lancio di GPT‑4, senza compromettere le capacità di ragionamento. Con la crescente adozione dell’IA, ci impegniamo a ricoprire un ruolo di primo piano nello sviluppo di modelli in grado di coniugare intelligenza, efficienza e sicurezza su ampia scala.
Autori
Addestramento
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Valutazione
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Valutazioni e preparazione di frontiera
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Ingegneria
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Ricerca
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Prodotto
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Sicurezza
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Red teaming esterno
Lama Ahmad, Michael Lampe, Troy Peterson
Responsabili dei programmi di ricerca
Carpus Chang, Kristen Ying
Direttivo
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba