16 de dezembro de 2025

Avaliar a capacidade da IA de realizar tarefas de investigação científica

Apresentamos o FrontierScience, um novo benchmark que avalia capacidades de IA para raciocínio científico ao nível de especialista em física, química e biologia.

Ler o artigo

Gráfico parcial com um fundo em gradiente suave verde e amarelo, uma palavra grande recortada que começa por «Fro…», e blocos de texto sobrepostos à direita com critérios de revisão como «Factual», «Gradable», «Objective» e «Difficult».

A carregar…

O raciocínio está no cerne do trabalho científico. Para lá de recordar factos, os cientistas geram hipóteses, testam-nas e refinam-nas, e sintetizam ideias entre áreas. À medida que os nossos modelos se tornam mais capazes, a questão central é como podem raciocinar em profundidade para contribuir para a investigação científica.

Ao longo do último ano, os nossos modelos atingiram marcos importantes, incluindo desempenho ao nível de medalha de ouro na International Math Olympiad e na International Olympiad in Informatics. Em paralelo, começamos a ver os nossos modelos mais capazes, como o GPT‑5, a acelerar de forma significativa fluxos de trabalho científicos reais. Os investigadores estão a usar estes sistemas para tarefas como pesquisa bibliográfica entre disciplinas e línguas, bem como para trabalhar provas matemáticas complexas. Em muitos casos, o modelo reduz trabalho que poderia demorar dias ou semanas para apenas algumas horas. Este progresso está documentado no nosso artigo Early science acceleration experiments with GPT‑5⁠, publicado em novembro de 2025, que apresenta evidência inicial de que o GPT‑5 pode acelerar, de forma mensurável, fluxos de trabalho científicos.

Apresentamos o FrontierScience

Como acelerar o progresso científico é uma das oportunidades mais promissoras para a IA beneficiar a humanidade, estamos a melhorar os nossos modelos em tarefas difíceis de matemática e ciências e a trabalhar nas ferramentas que ajudarão os cientistas a tirar o máximo partido destes modelos.

Quando o GPQA⁠(abre numa nova janela), um benchmark científico «Google-Proof» de perguntas escritas por especialistas com doutoramento, foi lançado em novembro de 2023, o GPT‑4 obteve 39 %, abaixo do valor de referência de especialistas de 70 %. Dois anos depois, o GPT‑5.2 obteve 92 %. À medida que as capacidades de raciocínio e conhecimento dos modelos continuam a escalar, benchmarks mais difíceis serão importantes para medir e prever a capacidade dos modelos de acelerar a investigação científica. Os benchmarks científicos anteriores concentram-se sobretudo em perguntas de escolha múltipla, estão saturados ou não têm um foco central na ciência.

Para colmatar esta lacuna, apresentamos o FrontierScience: um novo benchmark concebido para medir capacidades científicas ao nível de especialista. O FrontierScience é escrito e verificado por especialistas em física, química e biologia e consiste em centenas de perguntas concebidas para serem difíceis, originais e significativas. O FrontierScience inclui duas pistas de perguntas: Olympiad, que mede capacidades de raciocínio científico ao estilo de olimpíadas, e Research, que mede capacidades de investigação científica no mundo real. Dar mais visibilidade às capacidades científicas dos modelos ajuda-nos a acompanhar o progresso e a avançar a ciência acelerada por IA.

Nas nossas avaliações iniciais, o GPT‑5.2 é o modelo com melhor desempenho no FrontierScience-Olympiad (77 %) e no Research (25 %), à frente de outros modelos de fronteira. Observámos progressos substanciais na resolução de perguntas ao nível de especialista, deixando ainda margem para mais avanços, sobretudo em tarefas abertas ao estilo de investigação. Para os cientistas, isto sugere que os modelos atuais já conseguem apoiar partes da investigação que envolvem raciocínio estruturado, mas destaca que ainda há um trabalho significativo a fazer para melhorar a sua capacidade de pensamento aberto. Estes resultados alinham-se com a forma como os cientistas já estão a usar os modelos atuais: para acelerar fluxos de trabalho de investigação, enquanto dependem do juízo humano para enquadrar problemas e validar resultados e, cada vez mais, para explorar ideias e ligações que, de outra forma, demorariam muito mais tempo a revelar — incluindo, em alguns casos, novos insights que especialistas avaliam e testam depois.

No fim, o benchmark mais importante para as capacidades científicas da IA são as novas descobertas que ajuda a gerar; é isso que, em última análise, importa para a ciência e para a sociedade. O FrontierScience fica a montante disso. Dá-nos uma estrela-guia para o raciocínio científico ao nível de especialista, permitindo-nos testar modelos num conjunto padronizado de perguntas, ver onde têm êxito ou falham e identificar onde é preciso melhorá-los. O FrontierScience é limitado e tem restrições em aspetos importantes (por exemplo, por se centrar em problemas delimitados e escritos por especialistas) e não capta tudo o que os cientistas fazem no dia a dia. Mas a área precisa de benchmarks de ciência mais difíceis, originais e significativos, e o FrontierScience é um passo em frente nessa direção.

O que o FrontierScience mede e como o desenvolvemos

A avaliação completa do FrontierScience abrange mais de 700 perguntas textuais (com 160 no conjunto gold), cobrindo subáreas de física, química e biologia. O benchmark divide-se em Olympiad e Research. O FrontierScience-Olympiad contém 100 perguntas concebidas por medalhistas de olimpíadas internacionais para avaliar o raciocínio científico num formato delimitado, de resposta curta. O conjunto Olympiad foi concebido para incluir perguntas teóricas pelo menos tão difíceis quanto os problemas das competições de olimpíadas internacionais. O FrontierScience-Research consiste em 60 subtarefas de investigação originais, concebidas por cientistas com doutoramento (doutorandos, professores ou investigadores pós-doutorados), que são avaliadas com uma rubrica de 10 pontos. O conjunto Research foi criado para incluir subtarefas autocontidas, em várias etapas, com um nível de dificuldade que um cientista com doutoramento pode encontrar na sua investigação.

Perguntas de exemplo

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Cada tarefa no FrontierScience é escrita e verificada por um especialista de domínio em física, química ou biologia. No conjunto Olympiad, todos os especialistas receberam uma medalha em pelo menos uma (e, muitas vezes, em várias) olimpíadas internacionais. No conjunto Research, todos os especialistas têm um doutoramento relevante.

As perguntas Olympiad foram criadas em colaboração com 42 antigos medalhistas internacionais ou treinadores de equipas nacionais nas áreas relevantes, num total de 109 medalhas de olimpíadas. As perguntas de investigação foram criadas em colaboração com 45 cientistas qualificados e especialistas de domínio. Todos os cientistas eram doutorandos, investigadores pós-doutorados ou professores. As suas áreas de especialização abrangeram um conjunto de disciplinas científicas especializadas e importantes, desde a eletrodinâmica quântica até à química orgânica sintética e à biologia evolutiva.

O processo de criação de tarefas para ambos os conjuntos incluiu alguma seleção contra modelos internos da OpenAI (por exemplo, descartando tarefas que os modelos acertavam, pelo que esperamos que a avaliação esteja algo enviesada contra estes modelos, em comparação com outros). Disponibilizamos em open-source o conjunto gold do Olympiad com 100 perguntas e o conjunto gold do Research com 60 perguntas, mantendo as restantes perguntas em reserva para acompanhar contaminação.

Fluxograma que mostra quatro etapas de um pipeline de desenvolvimento de tarefas—Criação, Revisão, Resolução e Ajustes—com breves descrições de cada etapa e marcas de verificação para os critérios factuais, avaliáveis, objetivos e difíceis.

As tarefas passam por quatro etapas: Criação, Revisão, Resolução e Ajustes. Especialistas independentes revêm as tarefas uns dos outros para verificar se cumprem os critérios.

Como avaliamos o desempenho do modelo

O conjunto Olympiad é avaliável com uma resposta curta: um número, uma expressão ou uma correspondência aproximada de strings, o que ajuda a verificar a correção. No entanto, esta verificação implica muitas vezes um compromisso com a expressividade e o caráter aberto do problema. Para o conjunto Research, introduzimos uma arquitetura baseada em rubricas para avaliar tarefas mais abertas. Cada pergunta inclui uma rubrica de pontuação com vários itens independentes e objetivamente avaliáveis, totalizando 10 pontos. A rubrica de avaliação avalia não só a exatidão da resposta final, mas também a correção das etapas intermédias de raciocínio, permitindo uma análise mais detalhada do desempenho e das falhas do modelo. Uma solução é considerada «correta» se lhe forem atribuídos pelo menos 7/10 pontos na rubrica.

As respostas são avaliadas por um avaliador baseado num modelo (GPT‑5), de acordo com a resposta curta ou os critérios da rubrica. Idealmente, utilizaríamos um perito humano para avaliar cada resposta, mas esta abordagem não é escalável, pelo que concebemos a rubrica para poder ser verificada por um avaliador baseado num modelo. Desenvolvemos um pipeline de verificação para ajudar a garantir que as rubricas e as perguntas estavam bem calibradas quanto à dificuldade e à correção.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Cada tarefa no conjunto Research é avaliada através de uma rubrica com um total de 10 pontos, que pode ser usada por um especialista ou por um avaliador baseado num modelo. Para escalar a nossa capacidade de avaliar modelos, usamos outro modelo para classificar as respostas.

Desempenho do modelo

Avaliámos vários modelos de fronteira: GPT‑5.2, Claude Opus 4.5 e Gemini 3 Pro, GPT‑4o, OpenAI o4-mini e OpenAI o3 no FrontierScience-Olympiad e no FrontierScience-Research. Todos os modelos de raciocínio foram avaliados com esforço de raciocínio em «high», com exceção do GPT‑5.2 em «xhigh». Nas nossas avaliações iniciais, o GPT‑5.2 é o nosso modelo com melhor desempenho no FrontierScience-Olympiad (77%) e no Research (25%), à frente de outros modelos de fronteira. O Gemini 3 Pro é comparável ao GPT‑5.2 no conjunto Olympiad (76%).

Observámos progressos substanciais na resolução de perguntas ao nível de especialista, sobretudo em tarefas abertas ao estilo de investigação. Ainda há margem para melhorar: ao analisarmos as transcrições das falhas, vimos que os modelos de fronteira, por vezes, cometiam erros de raciocínio, lógica e cálculo, não compreendiam conceitos científicos de nicho e apresentavam imprecisões factuais.

Comparamos as precisões entre vários modelos de fronteira. O GPT‑5.2 é o nosso modelo com melhor desempenho no FrontierScience-Research e no conjunto Olympiad.

Comparamos a precisão entre níveis de esforço de raciocínio para o GPT‑5.2 e o o3. Mais tempo de pensamento tende a melhorar a precisão.

Limitações e planos futuros

Embora o FrontierScience represente um passo em frente na dificuldade dos benchmarks científicos, há ainda muitas limitações. O FrontierScience é composto por perguntas com uma formulação de problema delimitada, que se centra em avaliar a resposta final (Olympiad) ou o raciocínio para concluir uma tarefa de investigação (Research). Além disso, usar rubricas com vários componentes em tarefas mais longas é menos objetivo do que verificar a resposta final.

O FrontierScience oferece uma visão com maior resolução do raciocínio dos modelos em perguntas difíceis, escritas por especialistas, mas não um retrato completo de como a ciência é feita na prática. Em particular, não avalia uma parte significativa da investigação científica: como os modelos geram hipóteses verdadeiramente novas ou interagem com múltiplas modalidades, incluindo dados de vídeo e sistemas experimentais reais no mundo físico.

Olhando em frente, esperamos que o progresso no raciocínio científico venha tanto de sistemas de raciocínio de propósito geral melhores como de um esforço focado em melhorar capacidades científicas. O FrontierScience é uma ferramenta entre muitas e, à medida que os modelos melhoram, planeamos iterar este benchmark, expandi-lo para novos domínios e associá-lo a mais avaliações no mundo real que analisam o que estes sistemas realmente permitem aos cientistas fazer. Benchmarks como o FrontierScience ajudam-nos a compreender as fragilidades dos sistemas de IA atuais, para orientar o nosso trabalho no sentido de tornar os modelos parceiros fiáveis na descoberta científica.

Autor

OpenAI

Continuar a ler

Ver tudo

GPT-Red: desbloquear a auto-melhoria da robustez

Segurança15/07/2026

Separar o sinal do ruído nas avaliações de código

Investigação8/07/2026

Apresentamos o GeneBench-Pro

Investigação30/06/2026