11 de março de 2025

Novas ferramentas para a criação de agentes

A nossa plataforma está evoluindo para ajudar desenvolvedores e empresas a criar agentes úteis e confiáveis.

Uma interface elegante e minimalista que exibe uma lista de tarefas para um agente de IA, incluindo "triage_agent", "guardrail" e "update_salesforce_record" sobre um fundo azul fluido e abstrato.

Hoje, lançamos o primeiro conjunto de elementos básicos que ajudarão desenvolvedores e empresas a criar agentes úteis e confiáveis. Para nós, os agentes são como sistemas que realizam tarefas de forma independente em nome dos usuários. No último ano, apresentamos novas capacidades de modelos, como reflexão avançada, interações multimodais e novas técnicas de segurança, que estabeleceram as bases para que nossos modelos lidem com as tarefas complexas em múltiplas etapas que são necessárias para a criação de agentes. No entanto, os clientes comentaram que transformar essas capacidades em agentes prontos para produção pode ser desafiador, exigindo iterações amplas e frequentes de prompts e lógica de orquestração personalizada, sem visibilidade suficiente ou suporte integrado.

Para enfrentar esses desafios, lançamos um novo conjunto de APIs e ferramentas criadas especificamente para simplificar o desenvolvimento de aplicações agênticas:

A nova API Responses⁠(abre em uma nova janela), que combina a simplicidade da API Chat Completions com os recursos de uso de ferramentas da API Assistants para criar agentes
Ferramentas integradas, como busca na web⁠(abre em uma nova janela), busca de arquivos⁠(abre em uma nova janela) e uso de computador⁠(abre em uma nova janela)
O novo SDK Agents⁠(abre em uma nova janela) para orquestrar fluxos de trabalho de um ou mais agentes
Ferramentas integradas de observabilidade⁠(abre em uma nova janela) para rastrear e inspecionar a execução de fluxos de trabalho de agentes

Essas novas ferramentas simplificam a lógica, a orquestração e as interações essenciais dos agentes, facilitando consideravelmente sua criação pelos desenvolvedores. Nas próximas semanas e meses, planejamos lançar mais ferramentas e funcionalidades para simplificar e acelerar ainda mais a criação de aplicações agênticas em nossa plataforma.

Apresentação da API Responses

A API Responses é a nossa nova primitiva de API para utilizar as ferramentas integradas da OpenAI na criação de agentes. Ela combina a simplicidade da API Chat Completions com os recursos de uso de ferramentas da API Assistants. Com a evolução contínua das capacidades dos modelos, acreditamos que a API Responses oferecerá uma base mais flexível para desenvolvedores que criam aplicações agênticas. Com uma única chamada à API Responses, os desenvolvedores poderão resolver tarefas progressivamente mais complexas usando várias ferramentas e iterações de modelos.

Para começar, a API Responses oferecerá novas ferramentas integradas, como busca na web, busca de arquivos e uso de computador. Essas ferramentas foram projetadas para trabalhar em conjunto, conectando modelos ao mundo real e tornando-os mais úteis na execução de tarefas. Além disso, oferecem melhorias de usabilidade, incluindo um design unificado baseado em itens, polimorfismo mais simples, eventos de streaming intuitivos e auxiliares de SDK, como response.output_text, que permite acessar facilmente o resultado de texto do modelo.

A API Responses foi criada para desenvolvedores que desejam combinar facilmente modelos e ferramentas incorporadas da OpenAI com aplicativos, sem a complexidade de integrar várias APIs ou fornecedores externos. A API também facilita o armazenamento de dados na OpenAI, permitindo que os desenvolvedores avaliem o desempenho do agente usando recursos como rastreamento e avaliações. Vale lembrar que, por padrão, não treinamos nossos modelos com dados empresariais, mesmo quando esses dados são armazenados na OpenAI. A API está disponível para todos os desenvolvedores a partir de hoje e não tem custo adicional. Os tokens e as ferramentas são cobrados conforme as taxas padrão especificadas em nossa página de preços⁠(abre em uma nova janela). Confira o guia de início rápido⁠(abre em uma nova janela) da API Responses para saber mais.

O que isso significa para as APIs existentes

API Chat Completions⁠(abre em uma nova janela): continua sendo a nossa API mais adotada. Estamos totalmente comprometidos com seu aprimoramento, adicionando novos modelos e funcionalidades. Os desenvolvedores que não precisam de ferramentas integradas podem continuar usando a Chat Completions. Continuaremos a lançar novos modelos para a Chat Completions com capacidades que não dependem de ferramentas integradas nem de várias chamadas ao modelo. No entanto, a API Responses incorpora e expande⁠(abre em uma nova janela) a Chat Completions com o mesmo excelente desempenho. Por isso, para novas integrações, recomendamos começar com a API Responses.
API Assistants⁠(abre em uma nova janela): Com base no feedback de desenvolvedores sobre a versão beta da API Assistants, incorporamos melhorias importantes na API Responses visando aumentar sua flexibilidade, velocidade e facilidade de uso. Estamos trabalhando para alcançar paridade completa de recursos entre a API Assistants e a API Responses, incluindo suporte para objetos do tipo Assistant e Thread, bem como para a ferramenta Intérprete de código. Após a conclusão desse trabalho, planejamos anunciar formalmente a descontinuação da API Assistants, com uma data de encerramento prevista para meados de 2026. Após a descontinuação, disponibilizaremos um guia de migração claro da API Assistants para a API Responses, mostrando aos desenvolvedores como preservar todos os dados e migrar as aplicações. Até o anúncio formal da descontinuação, continuaremos a fornecer novos modelos para a API Assistants. A API Responses representa a direção futura para a criação de agentes com a OpenAI.

Apresentação de ferramentas integradas na API Responses

Busca na web

Agora, os desenvolvedores podem obter respostas rápidas e atualizadas, com citações claras e relevantes obtidas na web. Na API Responses, a busca na web está disponível como ferramenta para os modelos gpt-4o e gpt-4o-mini, podendo ser combinada com outras ferramentas ou chamadas de função.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Nos testes iniciais, os desenvolvedores usaram a busca na web em diversos casos de uso, incluindo assistentes de compras, agentes de investigação e agentes de reserva de viagens, ou seja, qualquer aplicativo que precise de informações atualizadas da web.

Por exemplo, a Hebbia⁠(abre em uma nova janela) utiliza a ferramenta de busca na web para auxiliar gerentes de ativos, empresas de private equity e crédito, e escritórios de advocacia a extrair rapidamente insights acionáveis de amplos conjuntos de dados públicos e privados. Com a integração de funcionalidades de busca em tempo real aos fluxos de trabalho de investigação, a Hebbia oferece inteligência de mercado mais sofisticada e específica por contexto, aprimorando continuamente a precisão e a relevância das análises e superando os benchmarks atuais.

A busca na web da API usa o mesmo modelo da busca do ChatGPT. No SimpleQA, um benchmark que avalia a precisão das respostas de LLMs a perguntas curtas e factuais, as pré-visualizações de busca do GPT‑4o e GPT‑4o mini obtiveram pontuação de 90% e 88%, respectivamente.

Precisão SimpleQA (quanto maior, melhor)

As respostas geradas pela busca na web da API incluem links para fontes, como artigos de notícias e publicações em blogs, o que significa que há mais formas de descobrir mais informações. Com essas citações claras e em linha, os usuários podem interagir com as informações de uma nova maneira — ao mesmo tempo que os proprietários do conteúdo ganham novas oportunidades de alcançar um público mais amplo.

Qualquer site ou canal de notícias pode optar por aparecer⁠(abre em uma nova janela) na busca na web da API.

A ferramenta de busca na web está disponível para todos os desenvolvedores como pré-visualização na API Responses. Além disso, os desenvolvedores podem acessar diretamente nossos modelos de busca ajustados na API Chat Completions usando gpt-4o-search-preview e gpt-4o-mini-search-preview. Os preços⁠(abre em uma nova janela) começam em US$ 30 e US$ 25 por mil consultas para as buscas do GPT‑4o e do 4o-mini, respectivamente. Confira a busca na web no Playground⁠(abre em uma nova janela) e saiba mais na documentação⁠(abre em uma nova janela).

Busca de arquivos

Os desenvolvedores já podem recuperar facilmente informações relevantes de grandes volumes de documentos usando a ferramenta aprimorada de busca de arquivos. Com suporte para vários tipos de arquivo, otimização de consultas, filtragem de metadados e reclassificação personalizada, ela pode oferecer resultados de busca rápidos e precisos. E bastam algumas linhas de código para integrar a API Responses.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

A ferramenta de busca de arquivos pode ser usada em diversos casos de uso reais, como capacitar um agente de suporte ao cliente a acessar perguntas frequentes com facilidade, ajudar um assistente jurídico a referenciar rapidamente casos anteriores para um profissional qualificado e auxiliar um agente de codificação a consultar documentação técnica. Por exemplo, o atendente de viagens baseado em IA da Navan⁠(abre em uma nova janela) usa a busca de arquivos para consultar artigos da base de conhecimento (como a política de viagens da empresa) a fim de responder aos usuários com rapidez e precisão. Com recursos integrados de otimização e reclassificação de consultas, a empresa consegue configurar um pipeline avançado de RAG (geração aumentada por recuperação) sem ajustes ou configurações adicionais. Com repositórios dedicados de vetores para cada grupo de usuários, a Navan consegue personalizar as respostas de acordo com as configurações de conta e funções individuais de cada usuário, economizando tempo para clientes e suas equipes, e ajudando a oferecer suporte preciso e personalizado.

Essa ferramenta está disponível para todos os desenvolvedores na API Responses. O preço⁠(abre em uma nova janela) do uso é de US$ 2,50 por mil consultas, e o do armazenamento de arquivos é de US$ 0,10/GB/dia, com o primeiro GB gratuito. A ferramenta continua disponível na API Assistants. Por fim, também adicionamos um novo ponto de acesso de busca aos objetos da API Vector Store para consultas diretas de dados a partir de outros aplicativos e APIs. Saiba mais na documentação⁠(abre em uma nova janela) e comece a testar no Playground⁠(abre em uma nova janela).

Uso do computador

Para criar agentes capazes de executar tarefas em um computador, os desenvolvedores já podem usar a ferramenta de uso de computador na API Responses, baseada no mesmo modelo de agente para uso de computador (CUA) utilizado pelo Operator. Esse modelo de pré-visualização de investigação estabeleceu um novo recorde de última geração, alcançando 38,1% de sucesso no OSWorld⁠(abre em uma nova janela) para tarefas de uso completo de computador, 58,1% no WebArena⁠(abre em uma nova janela) e 87% no WebVoyager⁠(abre em uma nova janela) para interações baseadas na web.

Como a ferramenta integrada de uso de computador captura as ações de mouse e teclado geradas pelo modelo, os desenvolvedores podem automatizar tarefas de uso de computador, traduzindo diretamente essas ações em comandos executáveis dentro de seus ambientes.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Os desenvolvedores podem usar a ferramenta de uso de computador para automatizar fluxos de trabalho baseados em navegador, como atividades de garantia de qualidade em aplicativos web ou execução de tarefas de entrada de dados em sistemas herdados. Por exemplo, o Unify⁠(abre em uma nova janela) é um sistema de ações para aumentar a receita que usa agentes para identificar intenções, investigar contas e interagir com compradores. Com a ferramenta de uso de computador da OpenAI, os agentes do Unify podem acessar informações antes inacessíveis por APIs. Por exemplo, uma empresa de gerenciamento de propriedades pode usar mapas online para verificar se um negócio expandiu sua presença imobiliária. Essa investigação atua como um sinal personalizado para acionar alcances personalizados, capacitando equipes de entrada no mercado a envolver compradores com precisão em grande escala.

Em outro exemplo, a Luminai⁠(abre em uma nova janela) integrou a ferramenta de uso de computador para automatizar fluxos de trabalho operacionais complexos para grandes empresas com sistemas herdados que não contam com a disponibilidade de APIs e dados padronizados. Em um projeto piloto recente com uma grande organização de serviços comunitários, a Luminai automatizou o processamento de inscrições e o processo de cadastro de usuários em apenas alguns dias, algo que a automação robótica de processos (RPA) tradicional teve dificuldades para alcançar após meses de trabalho.

Antes de lançar o CUA no Operator no ano passado, realizamos amplos testes ofensivos e de segurança em três áreas principais de risco: uso indevido, erros de modelo e riscos de fronteira. Para enfrentar os riscos associados à expansão dos recursos do Operator para sistemas operacionais locais usando o CUA pela API, realizamos avaliações de segurança e testes ofensivos adicionais. Também adicionamos mitigações para desenvolvedores, incluindo verificações de segurança para proteção contra injeções de prompt, prompts de confirmação para tarefas confidenciais, ferramentas para ajudar os desenvolvedores a isolar seus ambientes e detecção aprimorada de possíveis violações de políticas. Essas mitigações ajudam a reduzir o risco, mas o modelo continua suscetível a erros involuntários, principalmente em ambientes fora do navegador. Por exemplo, o desempenho do CUA no OSWorld, um benchmark desenvolvido para medir o desempenho de agentes de IA em tarefas reais, está atualmente em 38,1%. Isso indica que o modelo ainda não é altamente confiável para automatizar tarefas em sistemas operacionais. Nesses cenários, recomenda-se supervisão humana. Encontre mais detalhes sobre nosso trabalho de segurança específico para APIs no cartão de sistema atualizado.

Tipo de benchmark	Benchmark	Uso do computador (interface universal)		Agentes de navegação na web	Humano
		OpenAI CUA	SOTA anterior	SOTA anterior
Uso do computador	OSWorld	38,1%	22,0%	-	72,4%
Uso do navegador	WebArena	58,1%	36,2%	57,1%	78,2%
Uso do navegador	WebVoyager	87,0%	56,0%	87,0%	-

Os detalhes da avaliação estão descritos aqui

A partir de hoje, a ferramenta de uso de computador está disponível como pré-visualização de investigação na API Responses para desenvolvedores selecionados nos níveis de uso 3 a 5⁠(abre em uma nova janela). O preço⁠(abre em uma nova janela) do uso é de US$ 3/milhão de tokens de entrada e US$ 12/milhão de tokens de saída. Saiba mais na documentação⁠(abre em uma nova janela) e confira o exemplo de aplicativo⁠(abre em uma nova janela) que demonstra como criar usando essa ferramenta.

SDK Agents

Além de criar a lógica principal dos agentes e permitir que acessem ferramentas úteis, os desenvolvedores também precisam orquestrar fluxos de trabalho agênticos. Nosso novo SDK Agents de código aberto simplifica a orquestração de fluxos de trabalho multiagente e oferece aprimoramentos consideráveis em relação ao Swarm⁠(abre em uma nova janela), um SDK experimental que lançamos no ano passado, amplamente adotado pela comunidade de desenvolvedores e implementado com sucesso por vários clientes.

Veja alguns aprimoramentos:

Agentes: LLMs facilmente configuráveis com instruções claras e ferramentas integradas.
Handoffs: transferência inteligente de controle entre agentes.
Proteções: verificações de segurança configuráveis para validação de entradas e saídas.
Rastreamento e observabilidade: veja rastreamentos de execução de agentes para depurar e otimizar o desempenho.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

O SDK Agents é adequado para várias aplicações reais, incluindo automação de atendimento ao cliente, investigação em múltiplas etapas, geração de conteúdo, revisão de código e prospecção de vendas. Por exemplo, a Coinbase⁠(abre em uma nova janela) usou o SDK Agents para agilizar a criação de protótipos e a implantação do AgentKit, um kit de ferramentas que permite que agentes de IA interajam de maneira integrada com carteiras de criptomoedas e várias atividades na blockchain. Em apenas algumas horas, a Coinbase integrou ações personalizadas de seu SDK Developer Platform em um agente totalmente funcional. A arquitetura otimizada do AgentKit simplificou o processo de adição de novas ações de agente, liberando os desenvolvedores para manter o foco em integrações significativas, em vez de navegar pelas complexas configurações de agente.

Em alguns dias, a Box⁠(abre em uma nova janela) conseguiu criar agentes que utilizam a busca na web e o SDK Agents para habilitar empresas a buscar, consultar e extrair insights de dados não estruturados armazenados no Box e em fontes públicas da internet. Com essa abordagem, além de acessar as informações mais recentes, os clientes também podem buscar seus dados internos e proprietários de forma segura, protegida e compatível com permissões internas e políticas de segurança. Por exemplo, uma empresa de serviços financeiros pode criar um agente personalizado que aciona o agente de IA da Box para integrar sua análise de mercado interna armazenada na Box com notícias e dados econômicos da web em tempo real, proporcionando aos analistas uma visão abrangente para a tomada de decisões de investimento.

O SDK Agents funciona com a API Responses e a API Chat Completions. O SDK também funciona com modelos de outros provedores, desde que forneçam um ponto de acesso de API compatível com a Chat Completions. Os desenvolvedores podem integrá-lo imediatamente em bases de código Python. O suporte para Node.js será disponibilizado em breve. Saiba mais na documentação⁠(abre em uma nova janela).

No projeto do SDK Agents, nossa equipe foi inspirada pelo excelente trabalho de outros membros da comunidade, como Pydantic⁠(abre em uma nova janela), Griffe⁠(abre em uma nova janela) e MkDocs⁠(abre em uma nova janela). Nosso compromisso é continuar desenvolvendo o SDK Agents como um framework de código aberto para que outros membros da comunidade possam expandir nossa abordagem.

Próximos passos: criação da plataforma para agentes

Acreditamos que os agentes logo se tornarão parte integral da força de trabalho, aumentando consideravelmente a produtividade em todos os setores. Na medida em que as empresas buscam utilizar cada vez mais a IA em tarefas complexas, nosso compromisso é fornecer os elementos fundamentais que habilitam desenvolvedores e empresas a criar sistemas autônomos que causam um impacto real.

Com os lançamentos de hoje, apresentamos os primeiros elementos fundamentais para capacitar desenvolvedores e empresas a criar, implantar e ampliar com mais facilidade a escala de agentes de IA confiáveis e de alto desempenho. À medida que os recursos dos modelos se tornam cada vez mais agênticos, continuaremos investindo em integrações mais profundas em nossas APIs e novas ferramentas para ajudar na implantação, avaliação e otimização de agentes em produção. Nossa meta é oferecer aos desenvolvedores uma experiência de plataforma integrada para criar agentes que possam ajudar em uma variedade de tarefas em qualquer setor. Estamos ansiosos para ver o que os desenvolvedores criarão. Para começar, explore a documentação⁠(abre em uma nova janela) e fique atento a novas atualizações.

Autores

OpenAI