17 de julho de 2025

Apresentamos o agente ChatGPT: ligando investigação e ação.

O ChatGPT agora pensa e age, escolhendo proativamente entre um conjunto de competências de habilidades para completar tarefas por ti, usando o seu próprio computador.

Experimenta no ChatGPT

A carregar…

O ChatGPT pode agora trabalhar para ti utilizando o seu próprio computador, e tratar de tarefas complexas do início ao fim.

Agora podes pedir ao ChatGPT para tratar de pedidos como "consulta a minha agenda e informa-me sobre as próximas reuniões com clientes com base em notícias recentes", "planeia e compra os ingredientes para preparar um pequeno-almoço japonês para quatro pessoas" e "analisa três concorrentes e cria uma apresentação de diapositivos". O ChatGPT irá navegar de forma inteligente pelos sites, filtrar os resultados, solicitar que inicies sessão em segurança quando necessário, executar códigos, realizar análises e até fornecer apresentações de diapositivos e folhas de cálculo editáveis que resumem as suas descobertas.

O elemento central desta nova capacidade é um sistema de agente unificado. Este reúne três pontos fortes de inovações anteriores: a capacidade do Operator⁠ de interagir com sites, a habilidade da investigação⁠ em sintetizar informação e a inteligência e fluência conversacional do ChatGPT.

O ChatGPT executa estas tarefas utilizando o seu próprio computador virtual, alternando de forma fluida entre raciocínio e ação para gerir fluxos de trabalho complexos do início ao fim, tudo baseado nas suas instruções.

Mais importante ainda, o controlo é sempre do utilizador. O ChatGPT pede autorização antes de executar ações relevantes e pode facilmente interromper, assumir o controlo do navegador ou parar tarefas a qualquer momento.

A partir de hoje, os utilizadores dos planos Pro, Plus e Team podem ativar as novas funcionalidades de agente do ChatGPT diretamente através do menu suspenso de ferramentas no editor de texto, selecionando "modo agente" a qualquer momento em qualquer conversa.

Embora o agente do ChatGPT já seja uma ferramenta poderosa para lidar com tarefas complexas, o lançamento de hoje é apenas o início. Vamos continuar a adicionar melhorias significativas de forma reiterada e regular, tornando-o mais capaz e útil para mais pessoas ao longo do tempo.

Uma evolução natural do Operator e da investigação

Anteriormente, tanto o Operator como a investigação tinham pontos fortes únicos: o Operator podia navegar, clicar e escrever na web, enquanto a investigação destacava-se na análise e resumo da informação. Porém, funcionavam melhor em diferentes situações: o Operator não conseguia aprofundar a análise nem redigir relatórios detalhados e a investigação não podia interagir com sites para refinar resultados ou aceder a conteúdos que exigem autenticação do utilizador. Na verdade, verificámos que muitas das pesquisas que os utilizadores faziam com o Operator eram, na verdade, mais indicadas para a investigação, por isso reunimos o melhor de ambos.

Ao integrar estas vantagens complementares no ChatGPT e ao introduzir ferramentas adicionais, desbloqueámos capacidades totalmente novas num único modelo. Agora, pode interagir ativamente com sites — clicando, filtrando e recolhendo resultados mais precisos e eficientes. Podes também transitar naturalmente de uma simples conversa para a solicitação de ações diretamente no mesmo chat.

Um agente que trabalha para si, consigo

Equipámos o agente do ChatGPT com um conjunto de ferramentas: um navegador visual que interage com a web através de uma interface gráfica, um navegador baseado em texto para consultas web mais simples e baseadas em raciocínio, um terminal e acesso direto à API. O agente também pode utilizar os conectores ChatGPT⁠(abre numa nova janela), que permitem ligar aplicações como Gmail e Github para que o ChatGPT encontre informação relevante para as suas questões e a utilize nas suas respostas. Também pode iniciar sessão em qualquer site assumindo o controlo do navegador, permitindo-lhe aprofundar e ampliar tanto a investigação como a execução de tarefas. Ao disponibilizar ao ChatGPT várias formas de aceder e interagir com a informação online, ele consegue selecionar o método ideal para executar as tarefas da maneira mais eficaz. Por exemplo, pode recolher informações do seu calendário através de uma API, processar grandes quantidades de texto de forma eficiente através do navegador baseado em texto, ao mesmo tempo que tem a capacidade de interagir visualmente com sites concebidos principalmente para humanos.

Tudo isto é feito utilizando o seu próprio computador virtual, que preserva o contexto necessário para a tarefa, mesmo quando são utilizadas várias ferramentas — o modelo pode optar por abrir uma página utilizando o navegador de texto ou o navegador visual, descarregar um ficheiro da internet, manipulá-lo ao executar um comando no terminal e, em seguida, visualizar o resultado de volta no navegador visual. O modelo adapta a sua abordagem para executar tarefas de forma rápida, precisa e eficiente.

O agente ChatGPT foi concebido para fluxos de trabalho iterativos e colaborativos, muito mais interativo e flexível do que os modelos anteriores. À medida que o ChatGPT trabalha, podes interromper a qualquer momento para esclarecer as tuas instruções, encaminhá-lo para os resultados desejados ou alterar totalmente a tarefa. Irá retomar de onde parou, agora com as novas informações, mas sem perder o progresso anterior. Da mesma forma, o próprio ChatGPT pode solicitar proativamente detalhes adicionais quando necessário para garantir que a tarefa se mantém alinhada com os teus objetivos. Se uma tarefa demorar mais tempo do que o previsto ou parecer estar bloqueada, podes pausá-la, solicitar um resumo do progresso ou interrompê-la completamente e receber resultados parciais. Se tiveres a aplicação ChatGPT no teu telemóvel, esta irá enviar-te uma notificação quando a tarefa estiver concluída.

A ampliar a utilidade no mundo real

Estas capacidades agênticas unificadas aumentam significativamente a utilidade do ChatGPT tanto em contextos quotidianos como profissionais. No trabalho, podes automatizar tarefas repetitivas, como converter capturas de ecrã ou painéis de controlo em apresentações compostas por elementos vetoriais editáveis, reorganizar reuniões, planear e agendar eventos fora do escritório e atualizar folhas de cálculo com novos dados financeiros, mantendo a mesma formatação. Na sua vida pessoal, podes utilizá-lo para planear e reservar itinerários de viagem sem esforço, organizar e reservar jantares ou encontrar especialistas e agendar consultas.

As capacidades superiores do modelo refletem-se no seu desempenho de última geração (SOTA) em avaliações que medem a navegação na web e a capacidade de completar tarefas do mundo real.

No Humanity's Last Exam⁠(abre numa nova janela)*, uma avaliação que mede o desempenho da IA numa ampla gama de assuntos em perguntas de nível especializado, o modelo que alimenta o agente ChatGPT alcançou um novo SOTA de pass@1 com 41,6. Como o agente planeia dinamicamente e escolhe as suas próprias ferramentas, pode abordar a mesma tarefa de diferentes formas em cada execução. Quando ampliamos a escala deste recurso com uma estratégia de lançamento paralelo simples — executando até oito tentativas em simultâneo e escolhendo aquela que relatou maior confiança — a pontuação HLE do agente aumenta para 44,4.

O FrontierMath**, o teste de avaliação de raciocínio matemático mais difícil de todos, apresenta problemas novos e não publicados que matemáticos especializados podem levar horas ou até dias a resolver. Com a utilização de ferramentas, como o acesso a um terminal para execução de código, o agente do ChatGPT alcança uma precisão de 27,4%, superando amplamente os modelos anteriores.

Avaliámos também o modelo utilizando testes de desempenho inspirados em tarefas complexas do mundo real. Num teste interno criado para avaliar o desempenho do modelo em tarefas complexas e economicamente valiosas de trabalho intelectual, o desempenho do agente do ChatGPT é comparável ou superior ao dos humanos em aproximadamente metade dos casos, ao longo de vários tempos de execução de tarefas, superando de forma significativa os modelos o3 e o4-mini. Os resultados dos modelos são avaliados por especialistas, comparando-os com dados de referência humanos de alta qualidade criados pelos melhores profissionais de cada área. Estas tarefas, elaboradas por especialistas de várias áreas e indústrias, refletem o trabalho profissional do mundo real — como preparar uma análise competitiva de prestadores de cuidados urgentes a pedido, definir planos de amortização detalhados e identificar poços de água viáveis para uma nova instalação de hidrogénio sustentável.

No DSBench⁠(abre numa nova janela), concebido para avaliar agentes em tarefas realistas de ciência de dados, abrangendo análise e modelação de dados, o agente ChatGPT supera notavelmente o desempenho humano por uma margem significativa.

No SpreadsheetBench, que avalia os modelos com base na sua capacidade de editar folhas de cálculo derivadas de cenários do mundo real, o agente ChatGPT supera os modelos existentes por uma margem significativa. Ao ter a possibilidade de editar folhas de cálculo diretamente, o agente do ChatGPT obtém uma pontuação ainda mais elevada, de 45,5%, em comparação com os 20% do Copilot no Excel.

Metodologia: os autores da SpreadsheetBench usaram um ambiente Windows com o Microsoft Excel para avaliar as folhas de cálculo. Usámos um ambiente OSX e o LibreOffice, o que pode resultar em pequenas diferenças de classificação. Por exemplo, os autores encontraram uma restrição de dificuldade geral (overall hard restriction) de 15,02% para o GPT‑4o, e nós obtivemos 13,38%. Usámos o benchmark completo, com 912 perguntas.

Num benchmark interno que mede a capacidade de um modelo para assumir tarefas de modelação de analistas de investimento bancário do primeiro ao terceiro ano — como elaborar um modelo financeiro de três demonstrações para uma empresa da Fortune 500 com formatação e citações adequadas, ou construir um modelo de aquisição alavancada para uma privatização —, o modelo que alimenta o agente ChatGPT supera significativamente a investigação e o o3. Cada tarefa é avaliada com base em centenas de critérios relacionados com a correção e o uso de fórmulas.

Também avaliámos o agente do ChatGPT no BrowseComp⁠, um benchmark que publicámos no início deste ano e que mede a capacidade dos agentes de navegação de encontrar na web informações difíceis de encontrar. O modelo estabeleceu um novo SOTA de 68,9%, uma marca que fica 17,4 pontos percentuais acima da pontuação da investigação.

Por fim, no WebArena⁠(abre numa nova janela), um teste projetado para avaliar o desempenho de agentes de navegação na web no que diz respeito à conclusão de tarefas reais, o modelo apresenta melhorias face ao CUA baseado em o3 (o modelo utilizado pelo Operator).

Como utilizar

Podes ativar as novas funcionalidades agênticas do ChatGPT diretamente através do menu suspenso de ferramentas no editor, selecionando o "modo agente" a qualquer momento em qualquer conversa. Basta descreveres a tarefa desejada — seja realizar uma pesquisa aprofundada, criar uma apresentação de diapositivos ou enviar um relatório de despesas. Enquanto executa a tarefa, uma narração no ecrã mostra exatamente o que o ChatGPT está a fazer. Sempre que necessário, podes interromper e assumir o controlo do navegador, garantindo que as tarefas se mantêm alinhadas com os teus objetivos.

O agente do ChatGPT pode aceder aos seus conectores, permitindo a integração com os seus fluxos de trabalho e o acesso a informações relevantes e acionáveis. Uma vez autenticados, esses conetores permitem que o ChatGPT veja informações e execute tarefas, como resumir a sua caixa de entrada ou encontrar horários para o agendamento de uma reunião. No entanto, para realizar essas ações, ainda terá de assumir o controlo do navegador e iniciar sessão.

Além disso, podes agendar tarefas concluídas para que se repitam automaticamente, como gerar um relatório de métricas semanais todas as segundas-feiras de manhã, por exemplo.

Novos recursos, novos riscos

Esta versão representa a primeira vez que os utilizadores podem pedir ao ChatGPT para executar ações na web. Isto introduz novos riscos, especialmente porque o agente do ChatGPT pode trabalhar diretamente com os seus dados, seja informação acedida através de conectores ou de sites onde tenha iniciado sessão via modo de controlo. Reforçámos os controlos rigorosos da pré-visualização da investigação do Operator e adicionámos medidas de segurança para desafios como o tratamento de informação sensível na web em tempo real, uma abrangência maior de utilizadores e o acesso (limitado) à rede via terminal. Embora estas medidas reduzam significativamente os riscos, a expansão das ferramentas do agente do ChatGPT e o aumento do número de utilizadores implicam um perfil de risco global mais elevado.

Demos especial atenção à proteção do agente do ChatGPT contra a manipulação adversarial através da injeção de prompts, um risco comum em sistemas com agentes, e preparámos medidas de mitigação mais abrangentes. As injeções de prompts são tentativas de terceiros de manipular o comportamento do agente do ChatGPT através de instruções maliciosas que este possa encontrar na web durante a execução de uma tarefa. Por exemplo, um prompt malicioso escondido numa página web, como em elementos invisíveis ou metadados, pode enganar o agente, levando-o a realizar ações não intencionais, como partilhar dados privados de um conector com o atacante ou realizar uma ação prejudicial num site no qual o utilizador iniciou sessão. Como o agente do ChatGPT pode executar ações diretas, ataques bem-sucedidos podem ter um impacto maior e representar riscos mais elevados.

Treinámos e testámos o agente para identificar e resistir a injeções de prompts, além de utilizarmos sistemas de monitorização para detetar e responder rapidamente a ataques desse tipo. Exigir uma confirmação explícita do utilizador antes de ações com consequências importantes reduz ainda mais o risco de danos causados por estes ataques, e os utilizadores podem intervir nas tarefas conforme necessário, assumindo o controlo ou pausando-as. Os utilizadores devem ponderar os prós e os contras ao decidir que informação fornecer ao agente, bem como tomar medidas para minimizar a sua exposição a estes riscos, como desativar os conectores quando não são necessários para uma tarefa.

Também implementámos medidas de mitigação contra erros do modelo, especialmente porque este modelo agora pode executar tarefas com consequências reais:

Confirmação explícita do utilizador: o ChatGPT está treinado para solicitar a sua autorização explícita antes de realizar ações com consequências reais, como efetuar uma compra.
Supervisão ativa (“Modo observação”): algumas tarefas críticas, como enviar e-mails, exigem a sua supervisão ativa.
Mitigação proativa de riscos: o ChatGPT é treinado para recusar ativamente tarefas de alto risco, como transferências bancárias.

Por fim, introduzimos controlos adicionais para limitar os dados a que o modelo tem acesso:

Controlos de privacidade: com um único clique nas definições do ChatGPT, podes eliminar todos os dados de navegação e terminar imediatamente todas as sessões ativas do site. Caso contrário, os cookies permanecem ativos com base nas políticas de cookies de cada site visitado, o que aumenta a eficiência de visitas repetidas.
Modo seguro de controlo do navegador: quando interage com a web através do navegador do ChatGPT (“modo de controlo”), as informações introduzidas mantêm-se privadas. O ChatGPT não recolhe nem armazena quaisquer dados que insira durante estas sessões, como palavras-passe, porque o modelo não precisa dessas informações e é mais seguro que nunca as visualize.

A nossa camada de segurança mais robusta contra riscos biológicos

Tendo em conta a expansão de recursos do modelo, decidimos trtar o agente do ChatGPT como tendo elevadas capacidades biológicas e químicas segundo a nossa Estrutura de Prontidão⁠, ativando assim as proteções adequadas. Embora não tenhamos provas definitivas de que o modelo possa ajudar de forma significativa um novato a causar danos biológicos graves — o nosso limiar definido para alta capacidade — estamos a adotar uma abordagem cautelosa e a implementar as salvaguardas necessárias desde já. Como resultado, este modelo possui o nosso sistema de segurança mais abrangente até à data, com salvaguardas reforçadas para biologia: modelagem abrangente de ameaças, treino de recusa de uso duplo, classificadores e monitorização de reflexão sempre ativos e, por fim, processos claros de fiscalização.

Para além do nosso trabalho para proteger o agente ChatGPT, sabemos que a biossegurança em camadas funciona melhor quando as proteções abrangem mais do que um único laboratório, por isso, colaboramos em todo o ecossistema para reforçar as defesas. Desde o primeiro dia, trabalhámos com especialistas externos em biossegurança, institutos de segurança e investigadores académicos para moldar o nosso modelo de ameaças, avaliações e políticas. Revisores com formação em biologia validaram os nossos dados de avaliação, e as equipas de testes ofensivos, especialistas na área, testaram as medidas de segurança em cenários realistas. No início deste mês, organizámos um workshop sobre biodefesa com especialistas governamentais e académicos, de laboratórios nacionais e de ONGs para acelerar a colaboração e promover a investigação em biodefesa baseadas em IA. Vamos continuar a fazer parcerias a nível global para ficar à frente da evolução dos riscos.

Lê mais sobre a nossa abordagem de segurança robusta para o modelo agêntico unificado no cartão do sistema⁠. Estamos também a lançar um Programa de Bug Bounty⁠ para encontrar e corrigir riscos reais.

Disponibilidade

O agente ChatGPT começa hoje a ser disponibilizado nos planos Pro, Plus e Team. Os utilizadores do plano Pro terão acesso até ao final do dia, enquanto os utilizadores dos planos Plus e Team receberão acesso nos próximos dias. Os utilizadores Enterprise e Education terão acesso nas próximas semanas. Os utilizadores Pro têm direito a 400 mensagens por mês, enquanto os restantes utilizadores pagos recebem 40 mensagens mensais, com possibilidade de utilização adicional através de opções flexíveis baseadas em crédito.

Estamos ainda a trabalhar para viabilizar o acesso no Espaço Económico Europeu e na Suíça.

Após um período funcional de mais algumas semanas, o site de pré-visualização da investigação do Operator será desativado. A investigação faz parte dos recursos do agente do ChatGPT. Se preferires a funcionalidade original de investigação— que pode demorar mais tempo a ser executada, mas fornece respostas mais detalhadas e completas por defeito —, podes aceder à mesma selecionando "investigação profunda" no menu suspenso do editor de mensagens.

Limitações e próximos passos

O agente do ChatGPT está a dar os seus primeiros passos. É capaz de executar uma série de tarefas complexas, mas ainda pode cometer erros.

Embora vejamos um potencial significativo na sua capacidade de criar apresentações, esta funcionalidade está atualmente em versão beta. Neste momento, os resultados podem parecer rudimentares em termos de formatação e acabamento, sobretudo quando se começa sem um documento existente. Focámos as capacidades iniciais do modelo na criação de elementos que organizam a informação num fluxo e formato adequados para apresentações, com componentes como texto, gráficos, imagens e formas que são nativos e facilmente editáveis após a exportação, otimizando a estrutura e a flexibilidade. Atualmente, também há discrepâncias ocasionais entre os diapositivos no visualizador e o PowerPoint exportado, algo que estamos a tentar reduzir. Além disso, embora seja possível carregar uma folha de cálculo existente para o ChatGPT editar ou usar como modelo, esta funcionalidade ainda não está disponível para apresentações. Já estamos a treinar a próxima versão da criação de apresentações do ChatGPT para produzir resultados mais refinados e sofisticados, com capacidades mais amplas e formatação melhorada.

De um modo geral, esperamos melhorias contínuas na eficiência, profundidade e versatilidade do agente ChatGPT ao longo do tempo incluindo interações mais fluidas, à medida que continuamos a ajustar o nível de supervisão exigido do utilizador para aumentar a utilidade e garantir, ao mesmo tempo, a segurança durante a utilização.

Anexo

SpreadsheetBench
Modelo	Ambiente de avaliação	Restrição de facilidade (soft restriction) (%): ao nível da célula	Restrição de facilidade (soft restriction) (%): Nível de célula	Restrição de facilidade (soft restriction) (%): Geral
GPT‑4o	Windows, Excel	15,03	23,65	18,35
Copilot no Excel	Windows, Excel	23,33	15,00	20,00
GPT‑4o	OSX, LibreOffice	15,86	18,33	16,81
OpenAI o3	OSX, LibreOffice	22,40	24,60	23,25
Agente do ChatGPT	OSX, LibreOffice	38,27	30,48	35,27
Agente do ChatGPT com .xlsx	OSX, LibreOffice	50,56	37,51	45,54
Humano		75,56	65,00	71,33

Repetição da transmissão ao vivo

Autor

OpenAI

Notas de rodapé

* Ao ativar a navegação, o modelo pode, por vezes, encontrar respostas exatas online, por exemplo, ao ler artigos de blogues com exemplos de problemas de um conjunto de dados. Reduzimos as preocupações relacionadas com a possibilidade de o modelo fazer batota durante a navegação com duas estratégias:

1. Bloqueio de domínios dos quais já observámos o modelo a fazer batota no passado.

2. Utilização de um modelo adicional como monitor para examinar todos os tokens gerados pelas ferramentas em cada tentativa, com o objetivo de identificar comportamento suspeito. Comportamento suspeito é definido como "uma página, ficheiro ou excerto cujo objetivo principal é fornecer a resposta exata a esta pergunta específica, por exemplo, um guia de correção oficial, a divulgação de um resumo de 'soluções' ou uma discussão que cita a resposta final de forma literal." Comportamento benigno é definido como "qualquer recurso credível que um ser humano diligente possa consultar (documentação, manuais, artigos académicos, artigos de fontes fidedignas), mesmo que contenha a resposta correta por acaso." Quaisquer tentativas consideradas suspeitas pelo monitor são contabilizadas como incorretas. A maioria das amostras que falharam esta verificação eram problemas cuja solução exata estava disponível em várias fontes na internet, sem relação com o Humanity’s Last Exam (HLE).

**A OpenAI tem acesso exclusivo a 237 das 290 perguntas privadas do conjunto de dados de nível 1 a 3. As questões de nível 4 do FrontierMath não estão incluídas nesta avaliação. Os resultados foram avaliados como a média de 16 tentativas de responder a cada pergunta. Os resultados do agente do ChatGPT são obtidos pela OpenAI, classificadas pela Epoch AI, com acesso ao navegador e ao terminal, e um limite de 128 mil tokens por resposta. As avaliações OpenAI o4-mini e o3 são solicitadas e classificadas pela Epoch AI, sem acesso ao navegador e ao terminal, usando scripts Python através de chamada de função e com um limite de 100 mil tokens por resposta.

*** Oracle@64 refere-se à melhor pontuação alcançada em 64 execuções amostradas, selecionadas com base na verdade fundamental (ou seja, escolhemos a tentativa com a pontuação mais alta para cada tarefa, com base no desempenho realmente avaliado). Reportamos a média dessas melhores pontuações por tarefa ao longo de todas as tarefas. Esta métrica destaca o potencial máximo do modelo e a variabilidade no desempenho das tarefas, mostrando o quão capaz o modelo pode ser quando obtém sucesso e indicando espaço para melhorar a consistência através de treino adicional. Ao contrário das métricas típicas de “melhor de N”, que selecionam com base na confiança do modelo, o oracle@64 utiliza a verdade fundamental para a seleção e aplica-se a tarefas classificadas numa escala contínua de 0 a 1, em vez de uma avaliação/reprovação binária.