16 de diciembre de 2025

Evaluación de la capacidad de la IA para llevar a cabo tareas de investigación científica

Presentamos FrontierScience, un nuevo referente de evaluación que mide las capacidades de la IA para el razonamiento científico a nivel experto en física, química y biología.

Leer el artículo

Gráfico parcial con un fondo degradado suave en verde y amarillo, con una palabra grande recortada que comienza con «Fro…» y bloques de texto superpuestos a la derecha que enumeran criterios de evaluación como «Factual», «Gradable», «Objective» y «Difficult».

Cargando…

El razonamiento es fundamental en el trabajo científico. Más allá de recordar hechos, los científicos generan hipótesis, las prueban, las refinan y sintetizan ideas de diferentes campos. A medida que nuestros modelos se vuelven más capaces, la pregunta central es cómo pueden razonar a fondo para contribuir a la investigación científica.

Durante el último año, nuestros modelos lograron hitos importantes, como obtener medalla de oro en olimpiadas internacionales de matemáticas e informática. Paralelamente, hemos observado cómo los modelos más avanzados, como GPT‑5, aceleran de manera significativa los procesos reales de investigación científica. Los investigadores utilizan estos sistemas para tareas como la búsqueda de literatura en distintas disciplinas e idiomas, así como para resolver problemas matemáticos complejos. En muchos casos, el modelo reduce a unas pocas horas un trabajo que normalmente llevaría días o semanas. Este progreso se documenta en nuestro artículo Experimentos iniciales de aceleración científica con GPT‑5⁠, publicado en noviembre de 2025, que presenta evidencia temprana de que GPT‑5 puede acelerar de forma tangible los procesos de investigación científica.

Presentamos FrontierScience

Una de las oportunidades más prometedoras de la IA para beneficiar a la humanidad es acelerar el progreso científico. Por eso, estamos mejorando nuestros modelos en tareas complejas de matemáticas y ciencias, y desarrollando herramientas que permitan a los científicos aprovecharlos al máximo.

Cuando se lanzó en noviembre de 2023 GPWA⁠(se abre en una ventana nueva), un referente científico «a prueba de Google» con preguntas redactadas por expertos con doctorado, GPT‑4 obtuvo un 39 %, por debajo del nivel de referencia de los expertos, que era del 70 %. Dos años después, GPT‑5.2 alcanzó un 92 %. A medida que los modelos mejoran en razonamiento y conocimiento, resulta fundamental contar con referentes más desafiantes que permitan medir y prever su capacidad para acelerar la investigación científica. Anteriormente, estos referentes se centraban principalmente en preguntas de opción múltiple, estaban saturados o no se enfocaban directamente en la ciencia.

Para cerrar esta brecha, presentamos FrontierScience, un nuevo referente de evaluación diseñado para medir capacidades científicas a nivel experto, redactado y verificado por expertos en física, química y biología. Consta de cientos de preguntas difíciles, originales y significativas, organizadas en dos tipos: Olympiad, que evalúa el razonamiento científico al estilo de las olimpiadas, y Research, que mide habilidades de investigación científica en contextos reales. Esta estructura nos permite conocer mejor las capacidades científicas de los modelos, seguir su progreso y potenciar la ciencia acelerada por IA.

En nuestras evaluaciones iniciales, GPT‑5.2 es el modelo con mejor desempeño en FrontierScience-Olympiad (77 %) y Research (25 %), por delante de otros modelos avanzados. Ha mostrado un progreso notable en la resolución de preguntas a nivel experto, aunque todavía ha quedado margen de mejora, especialmente en tareas de investigación abiertas. Para los científicos, esto indica que los modelos actuales ya pueden apoyar actividades que requieren razonamiento estructurado, aunque todavía han de mejorar en pensamiento abierto. Estos resultados reflejan cómo los científicos han utilizado hoy los modelos: para acelerar los flujos de trabajo de investigación —basándose en el juicio humano para definir los problemas y validar los resultados— y, cada vez más, para explorar ideas y conexiones que de otro modo habrían tomado mucho más tiempo descubrir. En algunos casos, los modelos también han contribuido con nuevos hallazgos que los expertos evalúan y prueban posteriormente.

Al final, el referente más importante para evaluar las capacidades científicas de la IA son los nuevos descubrimientos que ha ayudado a generar; son los que realmente importan para la ciencia y la sociedad. FrontierScience se sitúa un paso antes: ofrece una guía para el razonamiento científico a nivel experto, permite probar los modelos con un conjunto estandarizado de preguntas, identificar dónde han tenido éxito o han fallado y detectar en qué aspectos deben mejorar. FrontierScience presenta restricciones y limitaciones en aspectos centrales (por ejemplo, se enfoca en problemas acotados y redactados por expertos) y no refleja todo lo que los científicos hacen en su trabajo diario. Sin embargo, el campo necesita referentes científicos más complejos, originales y significativos, y FrontierScience representa un avance en esa dirección.

Qué mide FrontierScience y cómo está construido

La evaluación completa de FrontierScience abarca más de 700 preguntas textuales (de las cuales 160 forman parte del conjunto validado) que cubren subcampos de física, química y biología. El referente de evaluación se organiza en dos subdivisiones: Olympiad y Research. FrontierScience-Olympiad contiene 100 preguntas elaboradas por medallistas de olimpiadas internacionales para evaluar el razonamiento científico en un formato de respuesta breve y acotada. El conjunto Olympiad incluye preguntas teóricas con un nivel de dificultad igual o superior al de los problemas de las olimpiadas internacionales. Por su parte, FrontierScience-Research consta de 60 subtareas de investigación originales diseñadas por científicos con doctorado (candidatos a doctorado, profesores o investigadores posdoctorales) que se evalúan mediante una rúbrica de 10 puntos. El conjunto incluye subtareas autónomas y de varios pasos, con un nivel de dificultad similar al que afronta un científico con doctorado en su investigación.

Preguntas de ejemplo

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Cada tarea de FrontierScience está redactada y verificada por un experto en física, química o biología. Todos los expertos que participan en el conjunto Olympiad han obtenido al menos una medalla en competiciones internacionales de olimpiadas (a menudo, varias). En cuanto al conjunto Research, todos los expertos poseen un doctorado en un área relevante.

Las preguntas de Olympiad se elaboraron en colaboración con 42 exmedallistas internacionales o entrenadores de equipos nacionales en las áreas correspondientes, con un total de 109 medallas de olimpiadas. Las preguntas de Research se crearon junto con 45 científicos y expertos en la materia. Todos los científicos eran candidatos a doctorado, investigadores posdoctorales o profesores. Sus áreas de especialización abarcan diversas disciplinas científicas especializadas y relevantes, desde la electrodinámica cuántica hasta la química orgánica sintética y la biología evolutiva.

El proceso de creación de tareas para ambos conjuntos incluyó una selección basada en los resultados de modelos internos de OpenAI (por ejemplo, se descartaron tareas que los modelos resolvían correctamente, de modo que la evaluación podría estar sesgada en contra de estos modelos frente a otros). Hacemos públicos los conjuntos validados de Olympiad, con 100 preguntas, y de Research, con 60 preguntas, reservando las demás para detectar posibles contaminaciones.

Diagrama de flujo que muestra cuatro etapas de un proceso de desarrollo de tareas —Creación, Revisión, Resolución y Modificación— con descripciones breves de cada paso y marcas de verificación para los criterios: factual, evaluable, objetivo y difícil.

Las tareas pasan por cuatro etapas: Creación, Revisión, Resolución, Modificación. Cada tarea es revisada por expertos independientes para verificar que cumpla con los criterios.

Cómo evaluamos el desempeño del modelo

El conjunto Olympiad se puede calificar con una respuesta breve: ya sea un número, una expresión o una coincidencia textual aproximada, lo que facilita verificar la corrección. Sin embargo, esta verificación a menudo compromete la expresividad y apertura del problema. Para el conjunto Research, empleamos una estructura de calificación basada en rúbricas para evaluar tareas más abiertas. Cada pregunta incluye una rúbrica de puntuación con varios ítems independientes y objetivamente evaluables, que suman un total de 10 puntos. La rúbrica no solo valora la exactitud de la respuesta final, sino también la precisión de los pasos intermedios de razonamiento, lo que permite un análisis detallado del desempeño y de los errores del modelo. Se considera que una solución es correcta si obtiene al menos 7 de 10 puntos en la rúbrica.

Las respuestas se evalúan mediante un calificador basado en modelos (GPT‑5), de acuerdo con la respuesta corta o los criterios de la rúbrica. Aunque lo ideal sería que un experto calificara cada respuesta, este enfoque no es escalable, por lo que diseñamos la rúbrica para que pudiera verificarse con un calificador automático. También desarrollamos un proceso de verificación que ayuda a garantizar que las rúbricas y las preguntas estén bien calibradas en cuanto a dificultad y corrección.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Cada tarea del conjunto Research se califica con una rúbrica de 10 puntos, que puede aplicar un experto o un calificador basado en modelos. Para aumentar nuestra capacidad de evaluación, empleamos otro modelo que califica las respuestas.

Rendimiento del modelo

Evaluamos varios modelos de vanguardia: GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini y OpenAI o3, en FrontierScience-Olympiad y FrontierScience-Research. Todos los modelos de razonamiento se evaluaron con un nivel de esfuerzo de razonamiento «alto», excepto GPT‑5.2, que se evaluó en «muy alto». En nuestras evaluaciones iniciales, GPT‑5.2 es el modelo con mejor desempeño en FrontierScience-Olympiad (77 %) y en Research (25 %), superando a los demás modelos de vanguardia. Gemini 3 Pro es comparable a GPT‑5.2 en el conjunto Olympiad (76 %).

Observamos un progreso considerable en la resolución de preguntas de nivel experto, especialmente en tareas de investigación abiertas. Todavía queda margen de mejora: al analizar las transcripciones de los errores, los modelos de vanguardia a veces cometen fallas de razonamiento, lógica y cálculo, no comprenden conceptos científicos especializados y presentan inexactitudes factuales.

Comparamos la precisión de varios modelos de vanguardia. GPT‑5.2 es nuestro modelo con mejor desempeño tanto en el conjunto FrontierScience-Research como en el conjunto Olympiad.

Comparamos la precisión según el nivel de esfuerzo de razonamiento de GPT‑5.2 y o3. Un tiempo de reflexión más prolongado aumenta la precisión.

Limitaciones y próximos pasos

Aunque FrontierScience representa un avance en la dificultad de los referentes científicos, todavía presenta varias limitaciones. FrontierScience se compone de preguntas con enunciados acotados, que se enfocan en evaluar la respuesta final (Olympiad) o en evaluar el razonamiento para completar una tarea de investigación (Research). A esto se suma que usar rúbricas con múltiples componentes en tareas más extensas es menos objetivo que verificar únicamente la respuesta final.

FrontierScience ofrece una visión más detallada del razonamiento de los modelos en preguntas difíciles redactadas por expertos, pero no brinda un panorama completo de cómo se realiza la ciencia en la práctica. En particular, no evalúa una parte significativa de la investigación científica: cómo los modelos generan hipótesis realmente novedosas o interactúan con diversas modalidades de información, incluidos datos de video y sistemas experimentales reales en el mundo físico.

De cara al futuro, esperamos que el progreso en el razonamiento científico provenga tanto de sistemas de razonamiento de propósito general mejorados como de esfuerzos enfocados en fortalecer las capacidades científicas. FrontierScience es una herramienta más entre muchas, y a medida que los modelos mejoren, planeamos mejorar continuamente este referente, ampliarlo a nuevos dominios y complementarlo con evaluaciones más cercanas al mundo real que analicen lo que estos sistemas permiten hacer a los científicos. Referentes como FrontierScience nos ayudan a comprender las debilidades de los sistemas de IA actuales y a enfocar nuestro trabajo en hacer que los modelos sean herramientas confiables para el descubrimiento científico.

Autor

OpenAI

Sigue leyendo

Ver todo

GPT-Red: abrir la puerta a la automejora para la robustez

Seguridad15 jul 2026

Separar la señal del ruido en evaluaciones de código

Investigación8 jul 2026

Presentamos GeneBench-Pro

Investigación30 jun 2026