Atualização a 10 de junho de 2025: o OpenAI o3‑pro já está disponível para utilizadores Pro no ChatGPT, bem como na nossa API. Tal como o OpenAI o1‑pro, o o3‑pro é uma versão do nosso modelo mais inteligente, o OpenAI o3, concebido para pensar durante mais tempo e dar as respostas mais fiáveis. Podes encontrar os detalhes completos nas nossas notas de lançamento(abre numa nova janela).
Hoje, estamos a lançar o OpenAI o3 e o4-mini, os mais recentes da nossa série o de modelos treinados para pensar mais antes de responder. Estes são os modelos mais inteligentes que lançámos até à data, representando uma mudança radical nas capacidades do ChatGPT para todos, desde utilizadores curiosos a investigadores avançados. Pela primeira vez, os nossos modelos de raciocínio podem usar e combinar de forma autônoma todas as ferramentas do ChatGPT — isso inclui pesquisar na web, analisar arquivos carregados e outros dados com Python, raciocinar profundamente sobre entradas visuais e até mesmo gerar imagens. Fundamentalmente, estes modelos são treinados para raciocinar sobre quando e como usar ferramentas para produzir respostas detalhadas e ponderadas nos formatos de saída corretos, normalmente em menos de um minuto, para resolver problemas mais complexos. Isso permite que eles abordem questões multifacetadas de forma mais eficaz, um passo em direção a um ChatGPT mais proativo, capaz de executar tarefas de forma independente em seu nome. O poder combinado do raciocínio de última geração com acesso total às ferramentas traduz-se num desempenho significativamente mais forte em benchmarks académicos e tarefas do mundo real, estabelecendo um novo padrão tanto em inteligência como em utilidade.
O OpenAI o3 é o nosso modelo de raciocínio mais poderoso, que expande as fronteiras em programação, matemática, ciência, perceção visual e muito mais. Define um novo SOTA em benchmarks, incluindo Codeforces, SWE-bench (sem construir uma estrutura personalizada específica para o modelo) e MMMU. É ideal para consultas complexas que exigem análises multifacetadas e cujas respostas podem não ser imediatamente evidentes. Tem um desempenho especialmente forte em tarefas visuais como analisar imagens, gráficos e ilustrações. Em avaliações feitas por especialistas externos, o o3 comete menos 20% de erros graves do que o OpenAI o1 em tarefas difíceis do mundo real — destacando-se especialmente em áreas como programação, negócios/consulting e ideação criativa. Os primeiros utilizadores destacaram o seu rigor analítico como parceiro de reflexão e enfatizaram a sua capacidade de gerar e avaliar criticamente novas hipóteses — particularmente em contextos de biologia, matemática e engenharia.
O OpenAI o4-mini é um modelo mais pequeno, otimizado para raciocínio rápido e económico — consegue um desempenho notável para o seu tamanho e custo, particularmente em tarefas matemática, de programação e visuais. É o modelo com melhor desempenho nos benchmarks AIME 2024 e 2025. Embora o acesso a um computador reduza significativamente a dificuldade do exame AIME, também achámos notável que o o4-mini atingisse 99,5% pass@1 (100% consensus@8) no AIME 2025 quando teve acesso a um interpretador Python. Embora estes resultados não devam ser comparados com o desempenho dos modelos sem acesso a ferramentas, são um exemplo de como o o4-mini aproveita eficazmente as ferramentas disponíveis. O o3 apresenta melhorias semelhantes no AIME 2025 devido ao uso de ferramentas (98,4% pass@1, 100% consensus@8).
Nas avaliações de especialistas, o o4-mini também supera o seu antecessor, o o3‑mini, em tarefas não relacionadas com STEM (Ciência, Tecnologia, Engenharia e Matemática), assim como em domínios como a ciência de dados. Graças à sua eficiência, o o4-mini suporta limites de utilização significativamente mais elevados do que o o3, tornando-se uma opção forte de alto volume e alta produtividade para perguntas que beneficiam do raciocínio. Os avaliadores externos especializados classificaram ambos os modelos como sendo melhores a seguir instruções e com respostas mais úteis e verificáveis do que os seus antecessores, graças à inteligência melhorada e à inclusão de fontes da web. Em comparação com as versões anteriores dos nossos modelos de raciocínio, estes dois modelos também devem parecer mais naturais e conversacionais, especialmente porque fazem referência à memória e a conversas passadas para tornar as respostas mais personalizadas e relevantes.
Multimodal
Programação
Todas as execuções de avaliação SWE-bench utilizam um subconjunto fixo de n=477 tarefas verificadas que foram validadas na nossa infraestrutura interna.
Seguir instruções e utilizar ferramentas de ação
Todos os modelos são avaliados em configurações de "esforço de raciocínio" elevado — semelhantes a variantes como "o4-mini-high" no ChatGPT.
Ao longo do desenvolvimento do OpenAI o3, observámos que a aprendizagem por reforço em larga escala mostra a mesma tendência de "mais poder computacional = melhor desempenho" observada no pré-treino da série GPT. Ao refazer o caminho de escalonamento — desta vez em RL —, aumentámos numa outra ordem de grandeza tanto o poder computacional do treino como a reflexão em tempo de inferência, e ainda assim observamos ganhos de desempenho claros, validando que o desempenho dos modelos continua a melhorar quanto mais lhes é permitido pensar. Com latência e custo equivalentes ao OpenAI o1, o o3 oferece um desempenho superior no ChatGPT — e comprovámos que, se lhe permitirmos processar a informação durante mais tempo, o seu desempenho continua a aumentar.
Também treinámos ambos os modelos para utilizarem ferramentas através da aprendizagem por reforço—ensinando-os não só a utilizar as ferramentas, mas também a refletir sobre quando as usar. A sua capacidade de implementar ferramentas com base nos resultados desejados torna-os mais aptos em situações de final aberto — particularmente aquelas que envolvem reflexão visual e fluxos de trabalho de várias etapas. Esta melhoria reflete-se tanto em benchmarks académicos como em tarefas do mundo real, conforme relatado pelos primeiros utilizadores que testaram o produto.

Pela primeira vez, estes modelos conseguem integrar imagens diretamente na sua cadeia de pensamento. Não se limitam a ver uma imagem — pensam com ela. Isto abre caminho para uma nova classe de resolução de problemas que combina reflexão visual e textual, refletida no seu desempenho de topo em benchmarks multimodais.
As pessoas podem carregar uma fotografia de um quadro branco, um diagrama de um manual ou um esboço feito à mão, e o modelo consegue interpretá-la — mesmo que a imagem esteja desfocada, invertida ou com baixa qualidade. Com o uso de ferramentas, os modelos podem manipular imagens em tempo real — rodando, ampliando ou transformando-as como parte do seu processo de reflexão.
Estes modelos oferecem uma precisão de topo em tarefas de perceção visual, permitindo resolver questões que antes eram inatingíveis. Consulta o blogue de investigação sobre reflexão visual para saber mais.
O OpenAI o3 e o o4-mini têm acesso total às ferramentas dentro do ChatGPT, assim como às tuas próprias ferramentas personalizadas através de chamadas de funções na API. Estes modelos são treinados para raciocinar sobre como resolver problemas, escolhendo quando e como usar ferramentas para produzir respostas detalhadas e ponderadas nos formatos de saída corretos rapidamente — normalmente em menos de um minuto.
Por exemplo, um utilizador pode perguntar: "Como será o consumo de energia no verão na Califórnia em comparação com o ano passado?" O modelo pode pesquisar na web dados de serviços públicos, escrever código Python para construir uma previsão, gerar um gráfico ou imagem e explicar os principais fatores por detrás da previsão, encadeando várias chamadas de ferramentas. O raciocínio permite que os modelos reajam e se adaptem conforme necessário à informação que encontram. Por exemplo, podem pesquisar na web várias vezes com a ajuda de motores de busca, analisar resultados e tentar novas pesquisas se precisarem de mais informações.
Esta abordagem flexível e estratégica permite que os modelos realizem tarefas que exigem acesso a informação atualizada além do conhecimento inerente ao modelo, raciocínio alargado, síntese e geração de resultados em várias modalidades.
Todos os exemplos foram concluídos com o OpenAI o3.
OpenAI o3
OpenAI o1
O OpenAI o3 obtém a resposta corretamente sem utilizar a pesquisa, enquanto o o1 não consegue fornecer uma resposta correta.
Promover o raciocínio na eficiência de custos
Custo vs desempenho: o3‑mini e o4-mini


Custo vs desempenho: o1 e o3


Os modelos OpenAI o3 e o4-mini são os mais inteligentes que já lançámos e são, frequentemente, mais eficientes do que os seus antecessores, os modelos OpenAI o1 e o3‑mini. Por exemplo, na competição matemática AIME de 2025, a fronteira custo-desempenho do o3 melhora estritamente em relação ao o1 e, da mesma forma, a fronteira do o4-mini melhora estritamente em relação ao o3‑mini. De um modo geral, esperamos que, para a maioria das utilizações no mundo real, o o3 e o o4-mini sejam mais inteligentes e mais baratos do que o o1 e o o3‑mini, respetivamente.
Cada melhoria nas capacidades do modelo garante melhorias proporcionais na segurança. Para o OpenAI o3 e o4-mini, reconstruímos completamente os nossos dados de treino em matéria de segurança, adicionando novos avisos de recusa de prompts em áreas como ameaças biológicas (biorrisco), geração de malware e jailbreaks. Estes dados atualizados permitiram que o o3 e o o4-mini alcançassem um desempenho sólido nos nossos benchmarks internos de recusa (por exemplo, hierarquia de instruções, jailbreaks). Além do excelente desempenho na deteção de rejeições dos modelos, também desenvolvemos medidas de mitigação ao nível do sistema para sinalizar prompts perigosos em áreas de risco. À semelhança do nosso trabalho anterior em geração de imagens, treinámos um monitor LLM de reflexão que funciona a partir de especificações de segurança escritas por humanos e interpretáveis. Quando aplicado ao biorrisco, este monitor sinalizou com sucesso cerca de 99% das conversas na nossa campanha de red-teaming humano.
Testámos ambos os modelos em condições extremas com o nosso programa de segurança mais rigoroso até à data. De acordo com a nossa Estrutura de Preparação atualizada, avaliámos o o3 e o o4-mini nas três áreas de capacidade monitorizadas abrangidas pela Estrutura: biológica e química, cibersegurança e autoaperfeiçoamento da IA. Com base nos resultados destas avaliações, determinámos que tanto o o3 como o o4-mini permanecem abaixo do limiar "Alto" da Estrutura nas três categorias. Publicámos os resultados pormenorizados destas avaliações no cartão de sistema.
Também partilhamos uma nova experiência: Codex CLI, um agente de codificação leve que podes executar a partir do teu terminal. Funciona diretamente no teu computador e foi concebido para maximizar as capacidades de raciocínio de modelos como o o3 e o o4-mini, com suporte futuro para modelos API adicionais como GPT‑4.1.
Podes tirar partido dos benefícios da reflexão multimodal a partir da linha de comandos, passando capturas de ecrã ou esboços de baixa fidelidade para o modelo, em conjunto com o acesso ao teu código localmente. Consideramo-la uma interface mínima para ligar os nossos modelos aos utilizadores e aos seus computadores. A CLI do Codex é totalmente de código aberto e pode ser acedida em github.com/openai/codex(abre numa nova janela) hoje.
Paralelamente, estamos a lançar uma iniciativa de 1 milhão de dólares para apoiar projetos que utilizam a CLI do Codex e modelos da OpenAI. Analisaremos e aceitaremos candidaturas a subsídios em incrementos de 25 mil dólares, sob a forma de créditos API. As propostas podem ser submetidas aqui.
Os utilizadores do ChatGPT Plus, Pro e Team poderão ver os o3, o4-mini e o4-mini-high no seletor de modelos a partir de hoje, substituindo os o1, o3‑mini e o3‑mini‑high. Os utilizadores do ChatGPT Enterprise e Edu terão acesso dentro de uma semana. Os utilizadores da versão gratuita podem experimentar o o4-mini selecionando "Pensar" no editor antes de submeterem uma questão. Os limites de taxa em todos os planos permanecem inalterados em relação ao conjunto anterior de modelos.
Prevemos lançar o OpenAI o3‑pro dentro de algumas semanas com suporte total para ferramentas. Por enquanto, os utilizadores Pro ainda podem aceder ao o1‑pro.
Tanto o o3 como o o4-mini já estão disponíveis para programadores através da API Chat Completions e da API Responses (alguns programadores terão de verificar as suas organizações(abre numa nova janela) para aceder a estes modelos). A API Responses suporta resumos de raciocínio, a capacidade de preservar tokens de raciocínio em torno de chamadas de função para um melhor desempenho e, em breve, suportará ferramentas integradas, como a pesquisa na web, a pesquisa de ficheiros e o interpretador de código, dentro do raciocínio do modelo. Para começares, explora a nossa documentação(abre numa nova janela) e fica atento a mais atualizações.
As atualizações de hoje refletem a direção que os nossos modelos estão a tomar: estamos a convergir as capacidades de reflexão especializadas da série O com as competências conversacionais mais naturais e a utilização de ferramentas da série GPT. Ao unir estas forças, os nossos modelos futuros irão suportar conversas fluidas e naturais, juntamente com o uso proativo de ferramentas e a resolução avançada de problemas.
Atualização de 28 de julho de 2025: o conjunto de dados e os resultados do SWE-Lancer foram atualizados a 17 de julho de 2025 e estão disponíveis em: https://github.com/openai/preparedness(abre numa nova janela) e nos nossos cartões de sistema. Esta atualização resolve vários problemas que estavam a afetar os resultados da receita gerada e remove a necessidade de ligação à internet durante a execução, eliminando uma das principais fontes de variabilidade no desempenho do modelo.
Atualização a 16 de abril de 2025: os resultados para o3 no Charxiv-r e no Mathvista foram atualizados para refletir uma alteração no prompt do sistema que não estava presente na avaliação original.
Autor
Notas de rodapé
* Os números de avaliação do tau-bench são calculados com base na média de 5 execuções para reduzir a variância e são obtidos sem ferramentas personalizadas ou prompts. Verificámos que as versões comerciais do tau-bench são mais propensas a erros de modelo do utilizador. Os números da barra sombreada foram obtidos com o GPT-4.1 como modelo do utilizador, uma vez que é significativamente melhor que o GPT-4o a seguir instruções.
* O SWE-bench utiliza um comprimento máximo de contexto de 256k, o que melhora a taxa de resolução do o4-mini em cerca de 3% e impacta a taxa de resolução do o3 em menos de 1%. Também excluímos 23 amostras que não são executáveis na nossa infraestrutura interna.
** Ao ativar a navegação, o modelo pode, por vezes, encontrar respostas exatas online, por exemplo, ao ler artigos de blogues com exemplos de problemas de um conjunto de dados. Reduzimos as preocupações relacionadas com a possibilidade de o modelo fazer batota durante a navegação com duas estratégias:
Bloqueio de domínios dos quais já observámos o modelo a fazer batota no passado.
Utilização de um modelo de raciocínio como monitor para examinar todos os tokens em cada tentativa,com o objetivo de identificar comportamento suspeito. Comportamento suspeito é definido como "uma página, ficheiro ou excerto cujo objetivo principal é fornecer a resposta exata a esta pergunta específica — por exemplo, um guia de correção oficial, a divulgação de um resumo de 'soluções' ou uma discussão que cita a resposta final de forma literal." Comportamento benigno é definido como "qualquer recurso credível que um ser humano diligente possa consultar (documentação, manuais, artigos académicos, artigos de fontes fidedignas), mesmo que contenha a resposta correta por acaso." Quaisquer tentativas consideradas suspeitas pelo monitor são contabilizadas como incorretas. A maioria das amostras que falharam esta verificação eram problemas cuja solução exata estava disponível em várias fontes na internet, sem relação com o Humanity’s Last Exam (HLE).
Por fim, as nossas avaliações com a navegação podem não ser perfeitamente reproduzíveis na API da OpenAI devido a uma diferença nos backends dos motores de busca entre o ChatGPT e a API da OpenAI. Estes resultados pretendem ser representativos da experiência do utilizador do ChatGPT, mas, dependendo da procura, a configuração de pesquisa pode mudar ao longo do tempo.
Contribuidores
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit, Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang