A próxima evolução do Agents SDK
O Agents SDK atualizado ajuda desenvolvedores a criar agentes que podem inspecionar arquivos, executar comandos, editar código e trabalhar em tarefas de longo prazo dentro de ambientes de sandbox controlados.
Estamos lançando novas capacidades no Agents SDK que oferecem aos desenvolvedores uma infraestrutura padronizada, fácil de começar a usar e construída corretamente para modelos da OpenAI: um harness nativo do modelo que permite que agentes trabalhem com arquivos e ferramentas em um computador, além de execução nativa em sandbox para realizar esse trabalho com segurança.
Por exemplo, desenvolvedores podem dar a um agente um ambiente de trabalho controlado, instruções explícitas e as ferramentas de que ele precisa para inspecionar evidências:
Desenvolvedores precisam de mais do que os melhores modelos para criar agentes úteis — precisam de sistemas que ofereçam suporte à forma como agentes inspecionam arquivos, executam comandos, escrevem código e continuam trabalhando ao longo de muitas etapas.
Os sistemas que existem hoje trazem trade-offs à medida que as equipes saem de protótipos para produção. Frameworks agnósticos a modelos são flexíveis, mas não aproveitam totalmente as capacidades dos modelos de fronteira; SDKs do provedor do modelo podem ficar mais próximos do modelo, mas muitas vezes não oferecem visibilidade suficiente do harness; e APIs gerenciadas de agentes podem simplificar a implantação, mas limitam onde os agentes rodam e como acessam dados sensíveis.
Veja o que alguns dos clientes que testaram o novo SDK conosco tinham a dizer:
"O GPT-5.4 define um novo padrão para trabalho jurídico com muitos documentos. Na nossa avaliação BigLaw Bench, ele obteve 91%. Em comparação com outros modelos, o GPT-5.4 atualmente é melhor em estruturar análises transacionais complexas, manter a precisão ao longo de contratos extensos e entregar o nível de detalhe que profissionais do direito exigem."
Com o lançamento de hoje, o harness do Agents SDK fica mais capaz para agentes que trabalham com documentos, arquivos e sistemas. Agora, ele adiciona memória configurável, orquestração ciente de sandbox, ferramentas de sistema de arquivos ao estilo Codex e integrações padronizadas com primitivas que estão se tornando comuns em sistemas de agentes de fronteira.
Essas primitivas incluem uso de ferramentas via MCP(abre em uma nova janela), revelação progressiva via skills(abre em uma nova janela), instruções personalizadas via AGENTS.md(abre em uma nova janela), execução de código usando a ferramenta shell(abre em uma nova janela), edições de arquivo usando a ferramenta apply patch(abre em uma nova janela) e muito mais. O harness continuará incorporando, ao longo do tempo, novos padrões e primitivas de agentes, para que desenvolvedores passem menos tempo com atualizações da infraestrutura central e mais tempo com a lógica específica do domínio que torna seus agentes úteis.
O harness também ajuda desenvolvedores a extrair mais da capacidade de um modelo de fronteira ao alinhar a execução à forma como esses modelos apresentam melhor desempenho. Isso mantém os agentes mais próximos do padrão natural de operação do modelo, melhorando a confiabilidade e o desempenho em tarefas complexas — principalmente quando o trabalho é de longa duração ou coordenado entre um conjunto diverso de ferramentas e sistemas.
Além disso, sabemos que cada produto é único e raramente se encaixa perfeitamente em um molde. Projetamos o Agents SDK para dar suporte a essa diversidade. Desenvolvedores ganham um harness pronto para uso, mas flexível — o que facilita adaptá-lo ao próprio stack — incluindo uso de ferramentas, memória e ambiente de sandbox.
O Agents SDK atualizado oferece suporte nativo à execução em sandbox, para que agentes possam rodar em ambientes de computação controlados com os arquivos, ferramentas e dependências necessários para uma tarefa.
Muitos agentes úteis precisam de um workspace onde possam ler e gravar arquivos, instalar dependências, executar código e usar ferramentas com segurança. O suporte nativo a sandbox oferece aos desenvolvedores essa camada de execução pronta para uso, em vez de obrigá-los a montar tudo por conta própria.
Desenvolvedores podem usar o próprio sandbox ou contar com suporte nativo para Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop e Vercel.
Para tornar esses ambientes portáteis entre provedores, o SDK também apresenta uma abstração de Manifest para descrever o workspace do agente. Desenvolvedores podem montar arquivos locais, definir diretórios de saída e trazer dados de provedores de armazenamento, incluindo AWS S3, Google Cloud Storage, Azure Blob Storage e Cloudflare R2.
Isso dá aos desenvolvedores uma forma consistente de moldar o ambiente do agente, do protótipo local à implantação em produção. Também dá ao modelo um workspace previsível: onde encontrar entradas, onde gravar saídas e como manter o trabalho organizado ao longo de uma tarefa de longa duração.

Sistemas de agentes devem ser projetados partindo do pressuposto de tentativas de prompt injection e exfiltração. Separar harness e computação ajuda a manter credenciais fora de ambientes onde código gerado pelo modelo é executado.
Isso também permite uma execução durável. Quando o estado do agente é externalizado, perder um contêiner de sandbox não significa perder a execução. Com captura de snapshots e reidratação integradas, o Agents SDK pode restaurar o estado do agente em um contêiner novo e retomar a partir do último checkpoint se o ambiente original falhar ou expirar.
Por fim, isso torna os agentes mais escaláveis. Execuções de agentes podem usar um sandbox ou vários, acionar sandboxes só quando necessário, encaminhar subagentes para ambientes isolados e paralelizar o trabalho entre contêineres para uma execução mais rápida.
Essas novas capacidades do Agents SDK estão disponíveis de forma geral para todos os clientes via API e usam a precificação padrão da API, com base em tokens e uso de ferramentas.
À medida que continuamos a desenvolver o Agents SDK, seguiremos expandindo o que desenvolvedores podem criar com ele, facilitando levar agentes mais capazes para produção com menos infraestrutura customizada, sem abrir mão da flexibilidade e do controle de que desenvolvedores precisam para encaixar agentes em seus próprios ambientes.
As novas capacidades de harness e sandbox estão sendo lançadas primeiro em Python, com suporte a TypeScript planejado para uma versão futura. Também estamos trabalhando para levar capacidades adicionais de agentes — incluindo code mode e subagentes — para Python e TypeScript.
Além disso, queremos ajudar a reunir, ao longo do tempo, o ecossistema mais amplo de agentes, com suporte a mais provedores de sandbox, mais integrações e mais formas de desenvolvedores conectarem o SDK às ferramentas e aos sistemas que já usam.


