Apresentamos o gpt-oss
O gpt-oss-120b e o gpt-oss-20b alargam as fronteiras dos modelos de raciocínio open-weight
Estamos a lançar o gpt-oss-120b e o gpt-oss-20b — dois modelos de linguagem open-weight de última geração que oferecem um elevado desempenho no mundo real a baixo custo. Disponíveis sob a licença flexível Apache 2.0, estes modelos superam os modelos abertos de tamanho semelhante em tarefas de raciocínio, demonstram fortes capacidades de utilização de ferramentas e estão otimizados para uma implementação eficiente em hardware do consumidor. Foram treinados utilizando uma combinação de aprendizagem por reforço e técnicas baseadas nos modelos internos mais avançados da OpenAI, incluindo o o3 e outros sistemas de ponta.
O modelo gpt-oss-120b consegue um desempenho quase equivalente ao do OpenAI o4-mini nos principais testes de raciocínio, funcionando de forma eficiente numa única GPU de 80 GB. O modelo gpt-oss-20b oferece resultados semelhantes ao OpenAI o3‑mini em testes de desempenho comuns e pode ser executado em dispositivos edge com apenas 16 GB de memória, tornando-o ideal para casos de utilização em dispositivos, inferência local ou iteração rápida sem infraestrutura dispendiosa. Ambos os modelos apresentam também um desempenho sólido na utilização de ferramentas, invocação de funções com poucos exemplos (few-shot), raciocínio encadeado (CoT) — como demonstrado pelos resultados da avaliação de agente Tau-Bench — e no HealthBench, chegando mesmo a superar modelos proprietários como o OpenAI o1 e o GPT‑4o.
Estes modelos são compatíveis com a nossa API de Respostas(abre numa nova janela) e são projetados para serem utilizados em fluxos de trabalho de agentes com uma capacidade excecional de seguir instruções, usar ferramentas como pesquisa na web ou execução de código Python, e capacidades de raciocínio — incluindo a capacidade de ajustar o esforço de raciocínio para tarefas que não exigem raciocínio complexo e/ou visam resultados finais de latência muito baixa. São totalmente personalizáveis, fornecem uma linha de raciocínio completa e suportam Saídas Estruturadas(abre numa nova janela).
A segurança é fundamental na nossa abordagem ao lançamento de todos os nossos modelos e é de particular importância para os modelos abertos. Além de submetermos os modelos a treino e avaliações de segurança abrangentes, também introduzimos uma camada adicional de avaliação, testando uma versão otimizada de gpt-oss-120b de forma adversária, sob a nossa Estrutura de Preparação(abre numa nova janela). Os modelos gpt-oss apresentam um desempenho comparável aos nossos modelos topo de gama em parâmetros de segurança internos, oferecendo aos programadores os mesmos padrões de segurança dos nossos modelos proprietários mais recentes. Estamos a partilhar os resultados desse trabalho e mais detalhes num artigo de investigação(abre numa nova janela) e no cartão do modelo(abre numa nova janela). A nossa metodologia foi revista por especialistas externos e representa um avanço no estabelecimento de novos padrões de segurança para os modelos open-weight.
Também temos trabalhado com parceiros pioneiros como a AI Sweden(abre numa nova janela), a Orange(abre numa nova janela) e a Snowflake(abre numa nova janela) para aprender sobre aplicações práticas dos nossos modelos abertos, desde o alojamento destes modelos em infraestruturas locais para garantir a segurança dos dados até ao seu ajuste fino em conjuntos de dados especializados. Estamos entusiasmados por fornecer estes modelos abertos de primeira linha para capacitar toda a gente — desde programadores individuais a grandes empresas e governos — a executar e personalizar a IA na sua própria infraestrutura. Juntamente com os modelos disponíveis na nossa API, os programadores podem escolher o desempenho, o custo e a latência necessários para alimentar os fluxos de trabalho de IA.
Os modelos gpt-oss foram treinados utilizando as nossas técnicas mais avançadas de pré-treino e pós-treino, com foco particular no raciocínio, eficiência e usabilidade prática em diversos ambientes de implementação. Embora tenhamos disponibilizado outros modelos, como o Whisper e o CLIP de forma aberta, os modelos gpt-oss são os nossos primeiros modelos de linguagem open-weight desde o GPT‑2[1].
Cada modelo é um transformador que aproveita a mistura de especialistas (MoE[2]) para reduzir o número de parâmetros ativos necessários para processar entradas. O gpt-oss-120b ativa 5,1 mil milhões de parâmetros por token, enquanto o gpt-oss-20b ativa 3,6 mil milhões. Os modelos apresentam um total de 117b e 21b parâmetros, respetivamente. Os modelos utilizam padrões de atenção alternados, densos e esparsos com bandas locais, semelhantes aos do GPT‑3[3]. Para inferência e eficiência de memória, os modelos também utilizam atenção multiconsulta agrupada, com um tamanho de grupo de 8. Utilizámos Rotary Positional Embedding (RoPE[4]) para codificação posicional e suportamos nativamente comprimentos de contexto até 128k.
Modelo | Layers | Parâmetros totais | Parâmetros ativos por Token | Total de especialistas | Especialistas ativos por Token | Comprimento do contexto |
gpt-oss-120b | 36 | 117 mil milhões | 5,1 mil milhões | 128 | 4 | 128000 |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128000 |
Treinámos os modelos num conjunto de dados predominantemente em inglês, composto apenas por texto, com foco em STEM (Ciência, Tecnologia, Engenharia e Matemática), programação e conhecimento geral. Tornámos os dados em tokens usando um superconjunto do nosso tokenizador utilizado para o OpenAI o4-mini e GPT‑4o: o200k_harmony, que também estamos a disponibilizar como código aberto hoje.
Para saber mais sobre a arquitetura e o treino dos nossos modelos, consulte a ficha técnica do modelo(abre numa nova janela).
Os modelos foram pós-treinados utilizando um processo semelhante ao utilizado para o o4-mini, incluindo uma etapa de ajuste fino supervisionada e uma etapa de aprendizagem por reforço de alta capacidade computacional. O nosso objetivo foi alinhar os modelos com a especificação de modelos da OpenAI(abre numa nova janela) e ensiná-los a aplicar o raciocínio CoT e a utilização de ferramentas antes de produzirem uma resposta. Ao utilizar as mesmas técnicas dos nossos modelos de raciocínio proprietários de última geração, os modelos demonstram capacidades excecionais após o pós-treino.
Semelhantes aos modelos de raciocínio da série o da OpenAI na API, os dois modelos open-weight suportam três níveis de esforço de raciocínio — baixo, médio e alto — que equilibram a latência e o desempenho. Os programadores podem facilmente definir o nível de esforço de raciocínio com uma única frase na mensagem do sistema.
Avaliámos o gpt-oss-120b e o gpt-oss-20b em testes de desempenho académicos padrão para medir as suas capacidades em programação, matemática competitiva, saúde e utilização de ferramentas de análise de agentes, comparando-os com outros modelos de raciocínio da OpenAI, incluindo o o3, o3‑mini e o4-mini.
O gpt-oss-120b supera o OpenAI o3‑mini e iguala ou supera o OpenAI o4-mini em termos de programação competitiva (Codeforces), resolução geral de problemas (MMLU e HLE) e chamada de ferramentas (TauBench). Além disso, apresenta um desempenho ainda melhor que o o4-mini em consultas relacionadas com a saúde (HealthBench) e em matemática competitiva (AIME 2024 e 2025). O gpt-oss-20b iguala ou supera o OpenAI o3‑mini nestas mesmas avaliações, apesar do seu tamanho reduzido, apresentando um desempenho ainda melhor em matemática competitiva e saúde.
Os modelos gpt-oss não substituem um profissional médico e não se destinam ao diagnóstico ou tratamento de doenças
Exemplos de implementações
O gpt-oss-120b consegue agregar rapidamente informações atualizadas utilizando uma ferramenta de navegação, incluindo a capacidade de encadear dezenas de chamadas subsequentes.
A nossa investigação recente mostrou que a monitorização da cadeia de pensamento do modelo de raciocínio pode ser útil para detetar comportamentos inadequados, desde que o modelo não tenha sido treinado com supervisão direta para alinhar a CoT. Esta perspetiva é também partilhada(abre numa nova janela) por outros profissionais do setor. Em consonância com os nossos princípios desde o lançamento do OpenAI o1‑preview, não aplicámos qualquer supervisão direta à CoT para nenhum dos modelos gpt-oss. Acreditamos que isto é fundamental para monitorizar o comportamento incorreto, o engano e o uso indevido dos modelos. A nossa esperança é que a disponibilização de um modelo aberto com uma cadeia de raciocínio não supervisionada dê aos programadores e investigadores a oportunidade de pesquisar e implementar os seus próprios sistemas de monitorização de CoT.
Os programadores não devem mostrar diretamente as CoTs aos utilizadores nas suas aplicações. Podem conter conteúdo com alucinações ou prejudicial, incluindo linguagem que não reflete as políticas de segurança padrão da OpenAI, e podem incluir informações que o modelo foi explicitamente instruído para não incluir no resultado final.
O gpt-oss-120b segue de forma robusta as instruções do sistema nos seus resultados, mas muitas vezes desobedece explicitamente às instruções na sua CoT.
Os modelos gpt-oss aproveitam as nossas abordagens de última geração para treino em segurança. Durante o pré-treino, filtrámos determinados dados prejudiciais relacionados com produtos Químicos, Biológicos, Radiológicos e Nucleares (CBRN). Durante o período pós-treino, utilizámos o alinhamento deliberativo e a hierarquia de instruções(abre numa nova janela) para ensinar o modelo a recusar prompts inseguros e a defender-se contra injeções de prompts.
Assim que um modelo open-weight é lançado, agentes mal-intencionados podem conseguir ajustá-lo para fins maliciosos. Avaliámos diretamente estes riscos ao ajustar o modelo com dados especializados de biologia e cibersegurança, criando uma versão específica para cada área, sem recusas, da mesma forma que um interveniente malicioso poderia fazer. De seguida, avaliámos o nível de capacidade destes modelos através de testes internos e externos. Estes testes, conforme detalhado no nosso relatório de segurança complementar, indicaram que, mesmo com um ajuste rigoroso baseado na avançada infraestrutura de treino da OpenAI, estes modelos ajustados maliciosamente não conseguiram atingir níveis elevados de capacidade, de acordo com o nosso Modelo de Preparação. Esta metodologia maliciosa de otimização foi revista por três grupos independentes de especialistas, que fizeram recomendações para melhorar o processo de formação e as avaliações, muitas das quais adotámos. Detalhamos estas recomendações na ficha técnica do modelo. Estes processos representam um avanço significativo para a segurança dos modelos abertos. Estas conclusões fundamentaram a nossa decisão de lançar os modelos gpt-oss. Esperamos que estes modelos contribuam para acelerar a formação em segurança e a investigação em alinhamento em toda a indústria.
Para contribuir para um ecossistema open source mais seguro, estamos a organizar um Desafio de Red Teaming(abre numa nova janela) para incentivar investigadores, programadores e entusiastas de todo o mundo a ajudar a identificar novos problemas de segurança. O desafio tem um prémio de quinhentos mil dólares (USD), que será atribuído com base na avaliação de um painel de juízes especialistas da OpenAI e de outros laboratórios de renome. No final do desafio, iremos publicar um relatório e disponibilizar em open source um conjunto de dados de avaliação baseados em resultados validados, para que toda a comunidade possa tirar proveito de imediato. Saiba mais e participe aqui(abre numa nova janela).
Os pesos para o gpt-oss-120b e gpt-oss-20b estão disponíveis para download gratuito no Hugging Face e já vêm quantizados nativamente no MXFP4. Isto permite que o modelo gpt-oss-120B funcione com 80 GB de memória, enquanto o gpt-oss-20b requer apenas 16 GB.
Os modelos foram pós-treinados no nosso formato de prompt de harmonia(abre numa nova janela), e estamos a disponibilizar um renderizador de harmonia(abre numa nova janela) em Python e Rust para facilitar a adoção. Estamos também a lançar implementações de referência para executar inferência com o PyTorch e na plataforma Metal da Apple, juntamente com uma coleção de ferramentas de exemplo para o modelo.
Concebemos estes modelos para serem flexíveis e fáceis de executar em qualquer lugar — localmente, no dispositivo ou através de fornecedores externos de inferência. Neste sentido, estabelecemos parcerias antes do lançamento com plataformas líderes de implementação, como Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare e OpenRouter, para tornar os modelos amplamente acessíveis aos programadores. Ao nível do hardware, colaborámos com líderes da indústria, incluindo NVIDIA, AMD, Cerebras e Groq, para garantir um desempenho otimizado em diversos sistemas.
Como parte do lançamento de hoje, a Microsoft está também a trazer versões otimizadas para GPU do modelo gpt-oss-20b para dispositivos Windows. Com tecnologia ONNX Runtime, estes modelos suportam a inferência local e estão disponíveis através do Foundry Local e do AI Toolkit for VS Code, facilitando o desenvolvimento com modelos abertos para programadores Windows.
Para os programadores que desejam modelos totalmente personalizáveis, que possam ajustar e implementar nos seus próprios ambientes, o gpt-oss é uma ótima opção. Para quem procura suporte multimodal, ferramentas integradas e uma integração perfeita com a nossa plataforma, os modelos disponíveis através da nossa plataforma API continuam a ser a melhor opção. Continuamos atentos ao feedback dos programadores e poderemos considerar o suporte da API para o gpt-oss no futuro.
Se quiseres experimentar os modelos, acede ao nosso playground de modelos abertos(abre numa nova janela). Para saberes mais sobre como utilizar os modelos com diferentes fornecedores de ecossistemas ou como ajustar os modelos, consulta os nossos guias(abre numa nova janela).
O lançamento do gpt-oss-120b e do gpt-oss-20b representa um avanço significativo para os modelos open-weight. Considerando a sua dimensão, estes modelos oferecem melhorias substanciais tanto nas capacidades de raciocínio como na segurança. Os open models complementam os nossos modelos alojados, oferecendo aos programadores uma gama mais ampla de ferramentas para acelerar a investigação de ponta, fomentar a inovação e possibilitar um desenvolvimento de IA mais seguro e transparente em diversos casos de uso.
Estes open models também reduzem as barreiras para mercados emergentes, setores com recursos limitados e organizações de menor dimensão que possam não ter orçamento ou flexibilidade para adotar modelos proprietários. Com o acesso a ferramentas poderosas e acessíveis, pessoas de todo o mundo podem construir, inovar e criar novas oportunidades para si e para os outros. O acesso alargado a estes modelos open-weights eficientes, desenvolvidos nos EUA, contribui para ampliar as bases democráticas da IA.
Um ecossistema saudável de modelos abertos é uma das dimensões que contribuem para tornar a IA amplamente acessível e benéfica para todos. Convidamos os programadores e investigadores a utilizar estes modelos para experimentar, colaborar e expandir os limites do que é possível. Estamos ansiosos para ver o que vais construir.
Autor
Citações
Contribuidores
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


