16 de dezembro de 2025

Avaliando a capacidade da IA de realizar tarefas de pesquisa científica

Apresentamos o FrontierScience, um novo benchmark que avalia as capacidades da IA de raciocínio científico em nível de especialista em física, química e biologia.

Leia o artigo

Gráfico parcial com fundo em degradê suave de verde e amarelo, uma palavra grande recortada começando com “Fro…”, e blocos de texto em camadas à direita listando critérios de revisão como “Factual”, “Gradable”, “Objective” e “Difficult”.

Carregando…

O raciocínio está no centro do trabalho científico. Além de lembrar fatos, cientistas formulam hipóteses, testam e refinam essas hipóteses e sintetizam ideias entre áreas. À medida que nossos modelos ficam mais capazes, a questão central é como eles podem raciocinar em profundidade para contribuir com a pesquisa científica.

No último ano, nossos modelos alcançaram marcos importantes, incluindo desempenho de medalha de ouro na Olimpíada Internacional de Matemática e na Olimpíada Internacional de Informática. Em paralelo, começamos a ver nossos modelos mais capazes, como o GPT‑5, acelerarem de forma significativa fluxos de trabalho científicos do mundo real. Pesquisadores estão usando esses sistemas para tarefas como buscar literatura científica em diferentes áreas e idiomas e trabalhar em demonstrações matemáticas complexas. Em muitos casos, o modelo reduz para horas um trabalho que poderia levar dias ou semanas. Esse progresso está documentado no nosso artigo Early science acceleration experiments with GPT‑5⁠, publicado em novembro de 2025, que apresenta evidências iniciais de que o GPT‑5 pode acelerar, de forma mensurável, fluxos de trabalho científicos.

Apresentamos o FrontierScience

Como acelerar o progresso científico é uma das oportunidades mais promissoras para a IA beneficiar a humanidade, estamos melhorando nossos modelos em tarefas difíceis de matemática e ciências e desenvolvendo ferramentas que ajudam cientistas a aproveitar ao máximo esses recursos.

Quando o GPQA⁠(abre em uma nova janela), um benchmark de ciência “à prova de Google” com perguntas escritas por especialistas com doutorado, foi lançado em novembro de 2023, o GPT‑4 marcou 39%, abaixo do baseline de especialistas de 70%. Dois anos depois, o GPT‑5.2 marcou 92%. À medida que as capacidades de raciocínio e conhecimento dos modelos continuam a escalar, benchmarks mais difíceis serão importantes para medir e prever a capacidade dos modelos de acelerar a pesquisa científica. Benchmarks científicos anteriores, em geral, focam em perguntas de múltipla escolha, já estão saturados ou não têm a ciência como foco central.

Para preencher essa lacuna, estamos apresentando o FrontierScience: um novo benchmark criado para medir capacidades científicas em nível de especialista. O FrontierScience é escrito e verificado por especialistas em física, química e biologia e reúne centenas de perguntas projetadas para ser difíceis, originais e significativas. O FrontierScience inclui duas trilhas de perguntas: Olympiad, que mede capacidades de raciocínio científico no estilo de olimpíadas, e Research, que mede capacidades de pesquisa científica do mundo real. Oferecer mais visibilidade sobre as capacidades científicas dos modelos nos ajuda a acompanhar o progresso e avançar na ciência acelerada por IA.

Nas nossas avaliações iniciais, o GPT‑5.2 é nosso modelo com melhor desempenho no FrontierScience-Olympiad (77%) e no Research (25%), à frente de outros modelos de fronteira. Vimos um progresso substancial na resolução de questões em nível de especialista, mas ainda há espaço para avançar — especialmente em tarefas abertas, no estilo de pesquisa. Para cientistas, isso sugere que os modelos atuais já conseguem apoiar partes da pesquisa que envolvem raciocínio estruturado, ao mesmo tempo em que evidencia que ainda há muito a fazer para melhorar sua capacidade de conduzir pensamento aberto. Esses resultados estão alinhados com o uso que cientistas já fazem dos modelos atuais: acelerar fluxos de trabalho de pesquisa enquanto confiam no julgamento humano para enquadrar o problema e validar resultados e, cada vez mais, explorar ideias e conexões que, de outra forma, levariam muito mais tempo para aparecer — incluindo, em alguns casos, contribuir com novos insights que especialistas então avaliam e testam.

No fim, o benchmark mais importante para as capacidades científicas da IA são as descobertas inéditas que ela ajuda a gerar — é isso que, em última instância, importa para a ciência e para a sociedade. O FrontierScience vem um passo antes disso. Ele nos dá um norte para o raciocínio científico em nível de especialista, permitindo testar modelos em um conjunto padronizado de questões, ver onde eles acertam ou falham e identificar onde precisamos melhorá-los. O FrontierScience é um benchmark limitado e tem restrições importantes (por exemplo, foca em problemas delimitados, escritos por especialistas) e não captura tudo o que cientistas fazem no dia a dia. Mas a área precisa de benchmarks científicos mais difíceis, originais e significativos, e o FrontierScience representa um passo adiante nessa direção.

O que o FrontierScience mede e como o construímos

A avaliação completa do FrontierScience tem mais de 700 questões textuais (160 no conjunto ouro), cobrindo subáreas de física, química e biologia. O benchmark é composto por duas divisões: Olympiad e Research. O FrontierScience-Olympiad contém 100 questões elaboradas por medalhistas de olimpíadas internacionais para avaliar o raciocínio científico em um formato restrito, de resposta curta. O conjunto Olympiad foi projetado para incluir questões teóricas pelo menos tão difíceis quanto as de olimpíadas internacionais. O FrontierScience-Research consiste em 60 subtarefas de pesquisa originais elaboradas por cientistas com PhD (doutorandos, professores ou pesquisadores de pós-doutorado) e avaliadas com uma rubrica de 10 pontos. O conjunto Research foi criado para conter subtarefas autocontidas, de múltiplas etapas, com um nível de dificuldade que um cientista com PhD poderia encontrar durante sua pesquisa.

Questões de exemplo

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Cada tarefa no FrontierScience é escrita e verificada por um especialista da área em física, química ou biologia. No conjunto Olympiad, todos os especialistas receberam medalha em pelo menos uma (e muitas vezes em várias) competições internacionais de olimpíadas. No conjunto Research, todos os especialistas têm um PhD relevante.

As questões do Olympiad foram criadas em colaboração com 42 ex-medalhistas internacionais ou treinadores de seleções nacionais nas áreas relevantes, somando 109 medalhas de olimpíadas. As questões de Research foram criadas em colaboração com 45 cientistas qualificados e especialistas das áreas. Todos os cientistas eram doutorandos, pesquisadores de pós-doutorado ou professores. Suas áreas de especialização abrangiam uma série de disciplinas científicas especializadas e importantes, da eletrodinâmica quântica à química orgânica sintética e à biologia evolutiva.

O processo de criação de tarefas para ambos os conjuntos incluiu alguma seleção contra modelos internos da OpenAI (por exemplo, descartando tarefas que os modelos acertaram, então esperamos que a avaliação seja um pouco enviesada contra esses modelos em relação a outros). Disponibilizamos em open source o conjunto ouro do Olympiad, com 100 questões, e o conjunto ouro do Research, com 60 questões, mantendo as demais questões reservadas para acompanhar contaminação.

Fluxograma mostrando quatro etapas de um pipeline de desenvolvimento de tarefas—Criação, Revisão, Resolução e Ajustes—com descrições breves de cada etapa e marcas de verificação para critérios factuais, avaliáveis, objetivos e difíceis.

As tarefas passam por quatro etapas: Criação, Revisão, Resolução e Ajustes. Especialistas independentes revisam as tarefas uns dos outros para verificar se elas atendem aos critérios.

Como avaliamos o desempenho dos modelos

O conjunto Olympiad pode ser corrigido com uma resposta curta — um número, uma expressão ou uma correspondência aproximada de texto — o que ajuda a verificar a correção. No entanto, essa verificação muitas vezes limita a expressividade e o caráter aberto do problema. Para o conjunto Research, apresentamos uma abordagem baseada em rubricas para avaliar tarefas mais abertas. Cada questão inclui uma rubrica de pontuação com vários itens independentes e objetivamente avaliáveis, somando 10 pontos. A rubrica de avaliação mede não só a precisão da resposta final, mas também a correção das etapas intermediárias de raciocínio, permitindo uma análise mais detalhada do desempenho do modelo e de suas falhas. Uma solução é considerada “correta” se receber pelo menos 7/10 pontos na rubrica.

As respostas são avaliadas por um avaliador baseado em modelo (GPT‑5) em relação à resposta curta ou aos critérios da rubrica. Embora o ideal fosse usar um especialista humano para corrigir cada resposta, isso não escala; por isso, desenhamos a rubrica para poder ser verificada por um avaliador baseado em modelo. Desenvolvemos um pipeline de verificação para ajudar a garantir que rubricas e perguntas estivessem bem calibradas em dificuldade e correção.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Cada tarefa do conjunto Research é avaliada com uma rubrica de 10 pontos, que pode ser usada por um especialista ou por um avaliador baseado em modelo. Para escalar nossa capacidade de avaliar modelos, usamos outro modelo para atribuir notas às respostas.

Desempenho do modelo

Avaliamos vários modelos de fronteira: GPT‑5.2, Claude Opus 4.5 e Gemini 3 Pro, GPT‑4o, OpenAI o4-mini e OpenAI o3 no FrontierScience-Olympiad e no FrontierScience-Research. Todos os modelos de raciocínio foram avaliados com esforço de raciocínio “high”, com exceção do GPT‑5.2 em “xhigh”. Nas nossas avaliações iniciais, o GPT‑5.2 é o nosso modelo com melhor desempenho no FrontierScience-Olympiad (77%) e no Research (25%), à frente de outros modelos de fronteira. O Gemini 3 Pro tem desempenho comparável ao do GPT‑5.2 no conjunto Olympiad (76%).

Vimos um avanço substancial na resolução de questões em nível de especialista, especialmente em tarefas abertas no estilo de pesquisa. Ainda há espaço para avançar: ao analisar as transcrições de falhas, modelos de fronteira às vezes cometeram erros de raciocínio, lógica e cálculo, não entenderam conceitos científicos de nicho e apresentaram imprecisões factuais.

Comparamos a acurácia entre vários modelos de fronteira. O GPT‑5.2 é o nosso modelo com melhor desempenho no FrontierScience-Research e no conjunto Olympiad.

Comparamos as acurácias em diferentes esforços de raciocínio para o GPT‑5.2 e o o3. Mais tempo de pensamento leva a uma acurácia maior.

Limitações e próximos passos

Embora o FrontierScience represente um avanço na dificuldade dos benchmarks científicos, ainda há muitas limitações. O FrontierScience é composto por questões com enunciado restrito, que foca em avaliar a resposta final (Olympiad) ou o raciocínio para concluir uma tarefa de pesquisa (Research). Além disso, usar rubricas com vários componentes em tarefas mais longas é menos objetivo do que verificar a resposta final.

O FrontierScience oferece um retrato mais detalhado do raciocínio dos modelos em questões difíceis, escritas por especialistas, mas não um panorama completo de como a ciência acontece na prática. Em particular, ele não avalia uma parte importante da pesquisa científica: como os modelos geram hipóteses genuinamente inéditas ou interagem com múltiplas modalidades, incluindo dados de vídeo e sistemas experimentais reais no mundo físico.

Olhando para frente, esperamos que o progresso em raciocínio científico venha tanto de sistemas melhores de raciocínio de propósito geral quanto de esforço focado em aprimorar capacidades científicas. O FrontierScience é uma ferramenta entre muitas e, à medida que os modelos melhorarem, planejamos iterar sobre esse benchmark, expandi-lo para novos domínios e combiná-lo com avaliações mais do mundo real, que mostrem o que esses sistemas realmente permitem que cientistas façam. Benchmarks como o FrontierScience nos ajudam a entender as fraquezas dos sistemas de IA de hoje, para focar nosso trabalho em fazer dos modelos parceiros confiáveis na descoberta científica.

Autoria

OpenAI

Continuar lendo

Ver tudo

GPT-Red: Desbloqueando autoaperfeiçoamento para robustez

Segurança15 de jul. de 2026

Separando sinal de ruído em avaliações de programação

Pesquisa8 de jul. de 2026

Apresentamos o GeneBench-Pro

Pesquisa30 de jun. de 2026