31 gennaio 2025

OpenAI o3‑mini

Oltre i limiti del ragionamento efficiente.

Caricamento in corso...

Presentiamo OpenAI o3‑mini, il nuovo modello più efficiente della nostra serie dedicata al ragionamento, già disponibile su ChatGPT e tramite API. Presentato in anteprima a dicembre 2024⁠, questo modello potente e veloce supera i limiti dei modelli compatti. Offre capacità eccezionali in ambito STEM, in particolare per scienza, matematica e codifica, senza rinunciare però ai costi contenuti e alla bassa latenza di OpenAI o1‑mini.

OpenAI o3‑mini è il nostro primo modello di ragionamento compatto che supporta funzionalità molto richieste dagli sviluppatori, tra cui richiamo di funzioni⁠(si apre in una nuova finestra), risultati strutturati⁠(si apre in una nuova finestra) e messaggi per sviluppatori⁠(si apre in una nuova finestra), che lo rendono pronto all'uso fin dal lancio. Come OpenAI o1‑mini e OpenAI o1‑preview, anche o3‑mini supporta lo streaming⁠(si apre in una nuova finestra). Inoltre, gli sviluppatori possono scegliere tra tre livelli di sforzo di ragionamento⁠(si apre in una nuova finestra) (basso, medio e alto) per ottimizzare il modello in base ai loro casi d’uso. Questa flessibilità consente a o3‑mini di “ragionare più intensamente” quando affronta sfide complesse o di privilegiare la velocità quando la latenza lo richiede. o3‑mini non supporta funzionalità visive, pertanto gli sviluppatori dovrebbero continuare a utilizzare OpenAI o1 per le attività di ragionamento visivo. A partire da oggi, o3‑mini è disponibile nelle API Chat Completions, Assistants e Batch per un gruppo selezionato di sviluppatori nei livelli di utilizzo API da 3 a 5⁠(si apre in una nuova finestra).

Gli utenti Plus, Team e Pro di ChatGPT possono accedere a OpenAI o3‑mini a partire da oggi, mentre l’accesso per gli utenti Enterprise sarà disponibile da febbraio. o3‑mini sostituirà OpenAI o1‑mini nel selettore di modelli e offrirà limiti di utilizzo maggiori e latenza ridotta, che lo rendono la scelta ideale per attività di codifica, STEM e ragionamento logico. Nell’ambito di questo aggiornamento, triplicheremo il limite di messaggi giornalieri per gli utenti Plus e Team, passando da 50 messaggi al giorno con o1‑mini a 150 messaggi al giorno con o3‑mini. Inoltre, o3‑mini ora integra la ricerca per fornire risposte aggiornate con link a fonti web rilevanti. Si tratta di un prototipo iniziale nel processo di integrazione della funzione di ricerca nei nostri modelli di ragionamento.

Da oggi, anche gli utenti del piano Free possono provare OpenAI o3‑mini selezionando “Avvia il ragionamento” nel compositore di messaggi o rigenerando una risposta. È la prima volta che un modello di ragionamento viene reso disponibile agli utenti non abbonati di ChatGPT.

Mentre OpenAI o1 resta il nostro modello di ragionamento generale con conoscenze più ampie, OpenAI o3‑mini offre un’alternativa specializzata per ambiti tecnici che richiedono precisione e rapidità. In ChatGPT, o3‑mini utilizza uno sforzo di ragionamento di livello medio per bilanciare al meglio velocità e precisione. Tutti gli utenti abbonati avranno anche l’opzione di selezionare o3‑mini‑high nel selettore di modelli, per una versione più intelligente che richiede del tempo in più per rispondere. Gli utenti Pro avranno accesso illimitato sia a o3‑mini che a o3‑mini‑high.

Veloce, potente e ottimizzato per il ragionamento in ambito STEM

Analogamente al suo predecessore OpenAI o1, OpenAI o3‑mini è stato ottimizzato per il ragionamento in ambito STEM. Con uno sforzo di ragionamento medio , o3‑mini raggiunge le stesse prestazioni di o1 in matematica, codifica e scienza e garantisce risposte più veloci. Le valutazioni di tester esperti hanno dimostrato che o3‑mini offre risposte più precise e chiare, con capacità di ragionamento superiori rispetto a OpenAI o1‑mini. I tester hanno preferito le risposte di o3‑mini rispetto a quelle di o1‑mini nel 56% dei casi e hanno inoltre rilevato una riduzione del 39% di errori gravi nelle domande complesse reali. Con uno sforzo di ragionamento medio, o3‑mini raggiunge le prestazioni di o1 in alcune delle valutazioni più impegnative di ragionamento e intelligenza, come AIME e GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Cultura generale

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Valutazione basata su preferenze umane

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Velocità e prestazioni del modello

Con un’intelligenza paragonabile a OpenAI o1, OpenAI o3‑mini offre prestazioni più rapide e maggiore efficienza. Oltre alle valutazioni STEM già citate, o3‑mini ottiene risultati superiori anche in test aggiuntivi di matematica e fattualità con uno sforzo di ragionamento medio. Nei test A/B, o3‑mini ha generato risposte il 24% più velocemente rispetto a o1‑mini, con un tempo medio di 7,7 secondi contro 10,16 secondi.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Sicurezza

Una delle tecniche chiave utilizzate per insegnare a OpenAI o3‑mini a rispondere in modo sicuro è l’allineamento deliberativo: il modello è stato addestrato a ragionare su specifiche di sicurezza scritte da esseri umani prima di rispondere ai prompt degli utenti. Come per OpenAI o1, o3‑mini supera nettamente GPT‑4o in valutazioni più complesse in ambito di sicurezza e jailbreak. Prima del rilascio, abbiamo valutato attentamente i rischi di sicurezza di o3‑mini adottando lo stesso approccio di o1 in termini di preparazione, red teaming esterno e test di sicurezza. Ringraziamo i tester della sicurezza che hanno richiesto di testare o3‑mini in accesso anticipato. I dettagli delle valutazioni riportate di seguito e una spiegazione completa dei rischi potenziali e dell'efficacia delle mitigazioni adottate sono disponibili nella scheda di sistema di o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Novità

Il lancio di OpenAI o3‑mini rappresenta un ulteriore passo avanti nella missione di OpenAI di superare i confini dell’intelligenza efficiente. Ottimizzando il ragionamento nei domini STEM e mantenendo bassi i costi, stiamo rendendo l’IA di alta qualità sempre più accessibile. Questo modello è in linea con il nostro impegno di ridurre i costi dell’intelligenza, con un taglio del 95% nelle tariffe per token dal lancio di GPT‑4, senza compromettere le capacità di ragionamento. Con la crescente adozione dell’IA, ci impegniamo a ricoprire un ruolo di primo piano nello sviluppo di modelli in grado di coniugare intelligenza, efficienza e sicurezza su ampia scala.

Autori

OpenAI

Addestramento

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Valutazione

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Valutazioni e preparazione di frontiera

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Ingegneria

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Ricerca

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Prodotto

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Sicurezza

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Red teaming esterno

Lama Ahmad, Michael Lampe, Troy Peterson

Responsabili dei programmi di ricerca

Carpus Chang, Kristen Ying

Direttivo

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ tutti i collaboratori di o1⁠.