Actualització del 10 de juny de 2025: OpenAI o3‑pro ja està disponible per als usuaris Pro a ChatGPT, així com a la nostra API. Igual que OpenAI o1‑pro, o3‑pro és una versió del nostre model més intel·ligent, OpenAI o3, dissenyada per pensar més estona i oferir les respostes més fiables. Podeu trobar tots els detalls a les nostres notes de versió(s'obre en una finestra nova).
Avui llancem OpenAI o3 i o4-mini, els últims models de la nostra sèrie o, entrenats per pensar més estona abans de respondre. Són els models més intel·ligents que hem llançat fins ara i representen un canvi de nivell en les capacitats de ChatGPT per a tothom, des d’usuaris curiosos fins a investigadors avançats. Per primera vegada, els nostres models de raonament poden utilitzar i combinar de manera agentic totes les eines de ChatGPT: això inclou cercar al web, analitzar fitxers pujats i altres dades amb Python, raonar en profunditat sobre entrades visuals i fins i tot generar imatges. És important destacar que aquests models estan entrenats per raonar sobre quan i com utilitzar eines per produir respostes detallades i meditades en els formats de sortida adequats, normalment en menys d’un minut, per resoldre problemes més complexos. Això els permet abordar preguntes amb múltiples vessants de manera més eficaç, un pas cap a un ChatGPT més agentic que pugui executar tasques de manera independent en nom vostre. La potència combinada del raonament d’última generació amb accés complet a eines es tradueix en un rendiment significativament superior en benchmarks acadèmics i tasques del món real, establint un nou estàndard tant en intel·ligència com en utilitat.
OpenAI o3 és el nostre model de raonament més potent, que amplia l’avantguarda en programació, matemàtiques, ciència, percepció visual i més. Estableix un nou SOTA en benchmarks com Codeforces, SWE-bench (sense crear una bastida personalitzada específica del model) i MMMU. És ideal per a consultes complexes que requereixen una anàlisi amb múltiples vessants i amb respostes que potser no siguin evidents d’immediat. Destaca especialment en tasques visuals com analitzar imatges, gràfics i elements visuals. En avaluacions d’experts externs, o3 comet un 20 per cent menys d’errors greus que OpenAI o1 en tasques difícils del món real, i sobresurt especialment en àrees com la programació, els negocis/la consultoria i la ideació creativa. Els primers testers van destacar el seu rigor analític com a company de reflexió i van remarcar la seva capacitat de generar i avaluar críticament hipòtesis noves, especialment en contextos de biologia, matemàtiques i enginyeria.
OpenAI o4-mini és un model més petit optimitzat per a un raonament ràpid i eficient en costos: aconsegueix un rendiment notable per la seva mida i cost, especialment en matemàtiques, programació i tasques visuals. És el model amb millor rendiment als benchmarks d’AIME 2024 i 2025. Tot i que l’accés a un ordinador redueix significativament la dificultat de l’examen AIME, també ens va semblar destacable que o4-mini assoleixi un 99,5% de pass@1 (100% de consensus@8) a AIME 2025 quan se li dona accés a un intèrpret de Python. Tot i que aquests resultats no s’han de comparar amb el rendiment de models sense accés a eines, són un exemple de com o4-mini aprofita de manera eficaç les eines disponibles; o3 mostra millores similars a AIME 2025 gràcies a l’ús d’eines (98,4% de pass@1, 100% de consensus@8).
En avaluacions d’experts, o4-mini també supera el seu predecessor, o3‑mini, en tasques no STEM i en dominis com la ciència de dades. Gràcies a la seva eficiència, o4-mini admet límits d’ús significativament més alts que o3, cosa que el converteix en una opció sòlida de gran volum i alt rendiment per a preguntes que es beneficien del raonament. Els avaluadors experts externs van valorar tots dos models com a millors en seguiment d’instruccions i en respostes més útils i verificables que els seus predecessors, gràcies a una intel·ligència millorada i a la inclusió de fonts web. En comparació amb iteracions anteriors dels nostres models de raonament, aquests dos models també haurien de resultar més naturals i conversacionals, especialment quan fan referència a la memòria i a converses passades per fer les respostes més personalitzades i rellevants.
Multimodal
Programació
Totes les execucions d’avaluació de SWE-bench fan servir un subconjunt fix de n=477 tasques verificades que s’han validat a la nostra infraestructura interna.
Seguiment d’instruccions i ús agentic d’eines
Tots els models s’avaluen amb configuracions altes d’«esforç de raonament», similars a variants com «o4-mini-high» a ChatGPT.
Al llarg del desenvolupament d’OpenAI o3, hem observat que l’aprenentatge per reforç a gran escala mostra la mateixa tendència de «més càlcul = millor rendiment» observada en el preentrenament de la sèrie GPT. En tornar a recórrer el camí de l’escalat —aquest cop en RL—, hem empès un ordre de magnitud addicional tant en càlcul d’entrenament com en raonament en temps d’inferència, i tot i així continuem veient millores clares de rendiment, cosa que valida que el rendiment dels models continua millorant com més temps se’ls permet pensar. Amb la mateixa latència i cost que OpenAI o1, o3 ofereix un rendiment superior a ChatGPT, i hem validat que, si el deixem pensar més estona, el seu rendiment continua augmentant.
També hem entrenat tots dos models per utilitzar eines mitjançant aprenentatge per reforç, ensenyant-los no només a usar eines, sinó també a raonar sobre quan utilitzar-les. La seva capacitat de desplegar eines segons els resultats desitjats els fa més capaços en situacions obertes, especialment les que impliquen raonament visual i fluxos de treball de diversos passos. Aquesta millora es reflecteix tant en benchmarks acadèmics com en tasques del món real, segons informen els primers testers.

Per primera vegada, aquests models poden integrar imatges directament a la seva cadena de pensament. No només veuen una imatge: pensen amb ella. Això obre una nova classe de resolució de problemes que combina raonament visual i textual, reflectida en el seu rendiment d’última generació en benchmarks multimodals.
La gent pot pujar una foto d’una pissarra, un diagrama d’un llibre de text o un esbós dibuixat a mà, i el model el pot interpretar, encara que la imatge sigui borrosa, invertida o de baixa qualitat. Amb l’ús d’eines, els models poden manipular imatges al moment —girar-les, fer zoom o transformar-les— com a part del seu procés de raonament.
Aquests models ofereixen una precisió líder en la seva categoria en tasques de percepció visual, cosa que els permet resoldre preguntes que abans quedaven fora d’abast. Consulteu el blog de recerca sobre raonament visual per obtenir-ne més informació.
OpenAI o3 i o4-mini tenen accés complet a les eines dins de ChatGPT, així com a les vostres eines personalitzades mitjançant la crida a funcions a l’API. Aquests models estan entrenats per raonar sobre com resoldre problemes i triar quan i com fer servir eines per produir respostes detallades i meditades en els formats de sortida adequats ràpidament, normalment en menys d’un minut.
Per exemple, un usuari podria preguntar: «Com es compararà el consum energètic d’aquest estiu a Califòrnia amb el de l’any passat?» El model pot cercar al web dades de serveis públics, escriure codi Python per construir una previsió, generar un gràfic o una imatge i explicar els factors clau darrere de la predicció, encadenant múltiples crides a eines. El raonament permet als models reaccionar i canviar de rumb segons calgui davant la informació que troben. Per exemple, poden cercar al web diverses vegades amb l’ajuda de proveïdors de cerca, mirar els resultats i provar cerques noves si necessiten més informació.
Aquest enfocament flexible i estratègic permet als models abordar tasques que requereixen accés a informació actualitzada més enllà del coneixement integrat del model, raonament prolongat, síntesi i generació de resultats entre modalitats.
Tots els exemples es van completar amb OpenAI o3.
OpenAI o3
OpenAI o1
OpenAI o3 dona la resposta correctament sense fer servir la cerca, mentre que o1 no aconsegueix oferir una resposta correcta.
Impulsant un raonament eficient en costos
Cost vs rendiment: o3‑mini i o4-mini


Cost vs rendiment: o1 i o3


OpenAI o3 i o4-mini són els models més intel·ligents que hem llançat mai, i sovint també són més eficients que els seus predecessors, OpenAI o1 i o3‑mini. Per exemple, a la competició matemàtica AIME 2025, la frontera cost-rendiment d’o3 millora clarament respecte d’o1 i, de manera similar, la frontera d’o4-mini millora clarament respecte d’o3‑mini. De manera més general, esperem que, en la majoria d’usos reals, o3 i o4-mini també siguin alhora més intel·ligents i més barats que o1 i o3‑mini, respectivament.
Cada millora en les capacitats dels models requereix millores proporcionals en seguretat. Per a OpenAI o3 i o4-mini, hem reconstruït completament les nostres dades d’entrenament de seguretat, afegint noves indicacions de rebuig en àrees com les amenaces biològiques (biorisc), la generació de malware i els jailbreaks. Aquestes dades renovades han fet que o3 i o4-mini assoleixin un rendiment sòlid en els nostres benchmarks interns de rebuig (p. ex., jerarquia d’instruccions, jailbreaks). A més d’un bon rendiment en els rebutjos del model, també hem desenvolupat mitigacions a nivell de sistema per marcar indicacions perilloses en àrees de risc fronterer. De manera similar al nostre treball anterior en generació d'imatges, hem entrenat un monitor de LLM de raonament que funciona a partir d’especificacions de seguretat escrites per humans i interpretables. Quan s’aplica al biorisc, aquest monitor va marcar correctament aproximadament el 99% de les converses de la nostra campanya interna de red teaming.
Hem sotmès tots dos models a proves d’estrès amb el nostre programa de seguretat més rigorós fins ara. D’acord amb el nostre Entorn de treball de preparació actualitzat, hem avaluat o3 i o4-mini en les tres àrees de capacitat monitorades que cobreix l’entorn: biològica i química, ciberseguretat i auto-millora de la IA. A partir dels resultats d’aquestes avaluacions, hem determinat que tant o3 com o4‑mini es mantenen per sota del llindar «High» de l’entorn en les tres categories. Hem publicat els resultats detallats d’aquestes avaluacions a la fitxa del model corresponent.
També compartim un nou experiment: Codex CLI, un agent de programació lleuger que podeu executar des del terminal. Funciona directament al vostre ordinador i està dissenyat per maximitzar les capacitats de raonament de models com o3 i o4-mini, amb compatibilitat properament per a models addicionals de l’API com GPT‑4.1.
Podeu obtenir els avantatges del raonament multimodal des de la línia d’ordres passant captures de pantalla o esbossos de baixa fidelitat al model, combinat amb accés local al vostre codi. Ho entenem com una interfície mínima per connectar els nostres models amb els usuaris i els seus ordinadors. Codex CLI és avui totalment de codi obert a github.com/openai/codex(s'obre en una finestra nova).
Paral·lelament, llancem una iniciativa d’1 milió de dòlars per donar suport a projectes que facin servir Codex CLI i models d’OpenAI. Avaluarem i acceptarem sol·licituds de subvenció en increments de 25.000 USD en forma de crèdits d’API. Les propostes es poden presentar aquí.
Els usuaris de ChatGPT Plus, Pro i Team veuran o3, o4-mini i o4-mini-high al selector de models a partir d’avui, en substitució d’o1, o3‑mini i o3‑mini‑high. Els usuaris de ChatGPT Enterprise i Edu hi tindran accés d’aquí a una setmana. Els usuaris gratuïts poden provar o4-mini seleccionant «Think» al compositor abans d’enviar la consulta. Els límits de taxa de tots els plans es mantenen sense canvis respecte del conjunt anterior de models.
Esperem llançar OpenAI o3‑pro d’aquí a unes setmanes amb compatibilitat completa amb eines. De moment, els usuaris Pro encara poden accedir a o1‑pro.
Tant o3 com o4-mini també estan disponibles avui per als desenvolupadors mitjançant l’API de complecions de xat i la Responses API (alguns desenvolupadors hauran de verificar les seves organitzacions(s'obre en una finestra nova) per accedir a aquests models). La Responses API admet resums de raonament, la capacitat de conservar segments de raonament al voltant de les crides a funcions per obtenir millor rendiment, i aviat admetrà eines integrades com la cerca web, la cerca de fitxers i l’intèrpret de codi dins del raonament del model. Per començar, exploreu la nostra documentació(s'obre en una finestra nova) i estigueu atents a més actualitzacions.
Les actualitzacions d’avui reflecteixen la direcció que segueixen els nostres models: estem convergint les capacitats especialitzades de raonament de la sèrie o amb més habilitats conversacionals naturals i ús d’eines de la sèrie GPT. Unificant aquests punts forts, els nostres futurs models admetran converses fluides i naturals juntament amb un ús proactiu d’eines i una resolució avançada de problemes.
Actualització del 28 de juliol de 2025: El conjunt de dades SWE-Lancer i els resultats s’han actualitzat a data de 17 de juliol de 2025, disponibles a: https://github.com/openai/preparedness(s'obre en una finestra nova) i a les nostres fitxes del model. Aquesta actualització resol diversos problemes que afectaven els resultats de dòlars guanyats i elimina el requisit de connectivitat a internet durant l’execució, eliminant una font principal de variabilitat en el rendiment del model.
Actualització del 16 d’abril de 2025: els resultats d’o3 a Charxiv-r i Mathvista es van actualitzar per reflectir un canvi en la indicació del sistema que no era present en l’avaluació original.
Autor
Notes al peu
* Les xifres d’avaluació de tau-bench són la mitjana de 5 execucions per reduir la variància, i s’executen sense eines personalitzades ni indicacions personalitzades. Hem observat que els desplegaments retail de tau-bench són més propensos a errors del model d’usuari. Les xifres de la barra ombrejada s’executen amb GPT-4.1 com a model d’usuari perquè segueix instruccions molt millor que GPT-4o.
* SWE-bench fa servir una longitud màxima de context de 256k, que millora la taxa de resolució d’o4-mini aproximadament un 3% i afecta la taxa de resolució d’o3 en <1%. També excloem 23 mostres que no es poden executar a la nostra infraestructura interna.
** En activar la navegació, el model de vegades pot trobar respostes exactes en línia, per exemple, llegint entrades de blog amb problemes d’exemple d’un conjunt de dades. Mitiguem la preocupació que el model faci trampes mentre navega amb dues estratègies:
Hem bloquejat dominis des dels quals hem observat que el model feia trampes en el passat.
Hem utilitzat un model de raonament com a monitor per examinar tots els segments de cada intent, amb l’objectiu d’identificar comportaments sospitosos. El comportament sospitós es defineix com «una pàgina, fitxer o fragment la finalitat principal del qual és proporcionar la resposta exacta a aquesta pregunta concreta, p. ex., una clau oficial de correcció, un gist de “solucions” filtrades o una discussió que cita la resposta acabada textualment». El comportament benigne es defineix com «qualsevol recurs autoritzat que una persona diligent podria consultar (documentació, manuals, articles acadèmics, articles de confiança), encara que contingui incidentalment la resposta correcta». Qualsevol intent en què el monitor consideri sospitós el rollout es compta com a incorrecte. La majoria de mostres que no van superar aquesta comprovació eren problemes la solució exacta dels quals estava disponible en múltiples fonts d’internet no relacionades amb HLE.
Finalment, és possible que les nostres avaluacions amb navegació no siguin perfectament reproduïbles a l’API d’OpenAI a causa d’una diferència en els backends del motor de cerca entre ChatGPT i l’API d’OpenAI. Aquests resultats volen ser representatius de l’experiència d’usuari de ChatGPT, però, segons la demanda, la configuració de cerca pot canviar amb el temps.
Contribuïdors
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang