31 de janeiro de 2025

OpenAI o3‑mini

Ampliando os limites da reflexão sobre custo-benefício.

Carregando…

Estamos lançando o OpenAI o3‑mini, o modelo mais novo e econômico da nossa série de soluções reflexivas. Hoje, ele disponível no ChatGPT e na API. Esse modelo, que teve sua prévia liberada em dezembro de 2024⁠, é potente e rápido. Foi pensado para ampliar os limites do que os modelos pequenos conseguem alcançar, e por isso mesmo oferece recursos excepcionais de ciências, tecnologia, engenharia e matemática (STEM) — com destaque para ciências, matemática e programação. Tudo isso mantendo o baixo custo e a latência reduzida do OpenAI o1‑mini.

O OpenAI o3‑mini é o nosso primeiro modelo de raciocínio pequeno que dá suporte a recursos muito solicitados pelos desenvolvedores, incluindo chamadas de função⁠(abre em uma nova janela), saídas estruturadas⁠(abre em uma nova janela) e mensagens para desenvolvedores⁠(abre em uma nova janela). Ou seja: ele já sai prontinho para uso. Assim como o OpenAI o1‑mini e o OpenAI o1‑preview, o o3‑mini oferecerá suporte para streaming⁠(abre em uma nova janela). Além disso, os desenvolvedores podem escolher entre três opções de esforço de reflexão⁠(abre em uma nova janela) (baixo, médio e alto) para otimizar casos de uso específicos. Essa flexibilidade permite que o o3‑mini “pense mais” na hora de lidar com desafios complexos, e também é responsável por fazer com que ele priorize a velocidade quando a latência for uma preocupação. O o3‑mini não oferece recursos de visão, portanto, os desenvolvedores devem continuar usando o OpenAI o1 para tarefas de reflexão visual. O o3‑mini está sendo lançado na API Chat Completions, na API Assistants e na API Batch a partir de hoje para desenvolvedores selecionados nos níveis de uso da API 3 a 5⁠(abre em uma nova janela).

Os usuários do ChatGPT Plus, Team e Pro podem acessar o OpenAI o3‑mini a partir de hoje, com acesso para o Enterprise disponível em fevereiro. O o3‑mini substituirá o OpenAI o1‑mini no seletor de modelos, oferecendo limites de taxa mais altos e menor latência. Isso faz dele uma opção atraente para áreas como programação, ciências, tecnologia, engenharia e matemática (STEM), bem como para tarefas de resolução de problemas lógicos. Como parte desse upgrade, estamos triplicando o limite de mensagens para usuários Plus e Team: de 50 mensagens por dia no plano o1‑mini para 150 mensagens por dia no plano o3‑mini. Além disso, o o3‑mini agora funciona com o recurso de busca para encontrar respostas atualizadas, fazendo uso de links para fontes relevantes na web. Trata-se de um protótipo inicial, pois estamos trabalhando para integrar a funcionalidade de busca em nossos modelos de raciocínio.

A partir de hoje, os usuários do plano gratuito também podem experimentar o OpenAI o3‑mini selecionando a opção “Refletir” no editor de mensagens ou regenerando uma resposta. Esta é a primeira vez que um modelo de raciocínio é disponibilizado gratuitamente aos usuários do ChatGPT.

Embora o OpenAI o1 continue sendo nosso modelo de raciocínio de conhecimento geral mais amplo, o OpenAI o3‑mini oferece uma alternativa especializada para domínios técnicos que exigem precisão e velocidade. No ChatGPT, o o3‑mini usa um esforço médio de reflexão para oferecer bom equilíbrio entre velocidade e precisão. Todos os usuários pagantes também terão a opção de selecionar o3‑mini‑high no seletor de modelos se quiserem obter uma versão mais inteligente, que leva um pouco mais de tempo para gerar respostas. Os usuários Pro terão acesso ilimitado ao o3‑mini e ao o3‑mini‑high.

Rápido, turbinado e otimizado para reflexão em STEM

Semelhante ao seu antecessor OpenAI o1, o OpenAI o3‑mini foi otimizado para reflexão em ciências, tecnologia, engenharia e matemática (STEM). Ao usar o esforço de reflexão médio, o3‑mini iguala o desempenho do o1 em matemática, programação e ciências, ao mesmo tempo em que oferece respostas mais rápidas. Testes conduzidos por avaliadores especializados mostraram que o o3‑mini produz respostas mais precisas e objetivas, com maior capacidade de reflexão, do que o OpenAI o1‑mini. Os avaliadores preferiram as respostas do o3‑mini ao o1‑mini em 56% das vezes; além disso, observaram uma redução de 39% nos erros graves em perguntas difíceis do mundo real. Com um esforço médio de reflexão, o o3‑mini iguala o desempenho do o1 em algumas das avaliações mais desafiadoras de reflexão e inteligência, incluindo AIME e GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Conhecimentos gerais

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Avaliação da preferência humana

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Velocidade e desempenho do modelo

Com inteligência comparável ao OpenAI o1, o OpenAI o3‑mini oferece desempenho mais rápido e eficiência aprimorada. Além das avaliações em ciências, tecnologia, engenharia e matemática destacadas acima, o o3‑mini demonstra resultados superiores em avaliações adicionais de matemática e factualidade com esforço médio de reflexão. No teste de A/B, o o3‑mini apresentou respostas 24% mais rápidas do que o o1‑mini, com um tempo médio de resposta de 7,7 segundos em comparação com a marca de 10,16 segundos.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Segurança

Uma das principais técnicas que usamos para ensinar o OpenAI o3‑mini a responder com segurança foi o alinhamento deliberativo, em que treinamos o modelo para refletir sobre especificações de segurança escritas por humanos antes de responder aos prompts do usuário. Semelhante ao OpenAI o1, descobrimos que o o3‑mini supera significativamente o GPT‑4o em avaliações desafiadoras de segurança e jailbreak. Antes da implantação, avaliamos cuidadosamente os riscos de segurança do o3‑mini usando a mesma abordagem de prontidão, equipe externa de testes ofensivos e avaliações de segurança do o1. Agradecemos aos testadores de segurança que se inscreveram para testar o o3‑mini no acesso antecipado. Os detalhes das avaliações abaixo, juntamente com uma explicação abrangente dos riscos potenciais e da eficácia das nossas medidas de mitigação, estão disponíveis no cartão do sistema do o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Próximos passos

O lançamento do OpenAI o3‑mini marca mais um passo na missão da OpenAI de expandir os limites da inteligência com custo-benefício. A nossa ideia é não só otimizar a reflexão para os domínios de ciências, tecnologia, engenharia e matemática (STEM) como também manter os custos baixos enquanto isso acontece. Assim, estamos tornando a IA de alta qualidade ainda mais acessível. Esse modelo dá continuidade ao nosso histórico de redução do custo da inteligência (com uma redução de 95% no preço por token desde o lançamento do GPT‑4), sem abrir mão dos recursos de reflexão de alto nível. À medida que a adoção da IA vai se expandindo, nós seguimos comprometidos em nosso papel de liderança e vanguarda, criando modelos que equilibram inteligência, eficiência e segurança em grande escala.

Autores

OpenAI

Treinamento

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao e Ted Sanders

Avaliação

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois e Yu Bai

Avaliações e prontidão de fronteiras

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino e Tejal Patwardhan

Engenharia

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan e Trevor Creech

Busca

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth e Zewei Chu

Produto

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa e Olivier Godement

Segurança

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li e Yunyun Wang

Equipe de testes ofensivos (red teams)

Lama Ahmad, Michael Lampe eTroy Peterson

Gerentes de programas de investigação

Carpus Chang e Kristen Ying

Liderança

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman e Wojciech Zaremba

+ todos os colaboradores que se envolveram com o o1⁠.