Disyembre 16, 2025

Pagsusuri sa kakayahan ng AI na magsagawa ng mga gawain sa siyentipikong pananaliksik

Ipinapakilala namin ang FrontierScience, isang bagong pamantayan na sumusuri sa kakayahan ng AI para sa ekspertong antas ng siyentipikong pangangatuwiran sa physics, chemistry, at biology.

Basahin mo ang dokumento

Bahagyang graphic na may banayad na green-at-yellow na gradient na background, malaking putol na salita na nagsisimula sa “Fro…,” at mga patong-patong na block ng text sa kanan na naglilista ng mga pamantayan sa pagsusuri tulad ng “Factual,” “Gradable,” “Objective,” at “Difficult.”

Naglo-load…

Ang pangangatwiran ay nasa kaibuturan ng gawaing siyentipiko. Higit pa sa pag-alala ng mga katotohanan, ang mga siyentipiko ay bumubuo ng mga hypothesis, sinusubok at pinapabuti ang mga ito, at nagsasama-sama ng mga ideya sa iba't ibang larangan. Habang nagiging mas may kakayahan ang ating mga modelo, ang pangunahing tanong ay kung paano sila makakapag-isip nang malalim para makapag-ambag sa siyentipikong pananaliksik.

Sa nakalipas na taon, naabot ng ating mga modelo ang mahahalagang milestone, kabilang ang pagkamit ng gintong medalya sa International Math Olympiad at sa International Olympiad in Informatics. Kasabay nito, nagsisimula na rin nating makita ang aming pinakamakapangyarihang mga modelo, tulad ng GPT‑5, na makabuluhang nagpapabilis sa tunay na mga workflow sa agham. Ginagamit ng mga mananaliksik ang mga system na ito para sa mga gawaing tulad ng paghahanap ng literatura sa iba't ibang disiplina at wika at pagtatrabaho sa mga kumplikadong patunay sa matematika. Sa maraming pagkakataon, pinapaikli ng modelo ang trabaho na maaaring umabot ng mga araw o linggo sa loob lang ng ilang oras. Ang progreso na ito ay dokumentado sa aming papel na Mga paunang eksperimento sa pagpabilis ng agham gamit ang GPT‑5⁠, na inilabas noong Nobyembre 2025, na nagpapakita ng mga maagang ebidensya na masusukat na mapabilis ang mga daloy ng trabahong siyentipiko.

Ipinakikilala ang FrontierScience

Dahil ang pagpapabilis ng siyentipikong pag-unlad ay isa sa mga pinaka-promising na pagkakataon para makinabang ang sangkatauhan sa AI, pinapabuti namin ang aming mga modelo sa mahihirap na gawain sa matematika at agham at gumagawa ng mga tool na makakatulong sa mga siyentipiko na masulit ang mga ito.

Noong inilabas ang GPQA⁠(magbubukas sa bagong window), ang “Google-Proof” na benchmark sa agham ng mga tanong na isinulat ng mga eksperto na may PhD, noong Nobyembre 2023, nakakuha ang GPT‑4 ng 39%, mas mababa sa baseline ng eksperto na 70%. Pagkalipas ng dalawang taon, nakakuha ng 92% ang GPT‑5.2. Habang patuloy na lumalawak ang kakayahan ng mga modelo sa pangangatwiran at kaalaman, magiging mahalaga ang mas mahihirap na benchmark para sukatin at hulaan ang kakayahan ng mga modelo na magpabilis ng siyentipikong pananaliksik. Ang mga naunang benchmark sa siyensiya ay kadalasang nakatuon sa mga tanong na may maraming pagpipilian, labis na nagamit, o hindi sentral na nakatuon sa agham.

Para mapunan ang puwang na ito, ipinakikilala namin ang FrontierScience: isang bagong benchmark na ginawa para sukatin ang mga kakayahan sa agham na eksperto. Isinulat at na-verify ang FrontierScience ng mga eksperto sa physics, chemistry, at biology, at binubuo ng daan-daang tanong na idinisenyo para maging mahirap, orihinal, at makahulugan. May dalawang track ng mga tanong ang FrontierScience: Olympiad, na sumusukat sa kakayahan sa pangangatwirang pang-agham na estilo ng Olympiad, at Research, na sumusukat sa kakayahan sa tunay na pananaliksik na pang-agham. Ang pagbibigay ng mas maraming kaalaman sa mga kakayahan sa agham ng mga modelo ay nakakatulong sa atin na subaybayan ang pag-unlad at isulong ang agham na pinabilis ng AI.

Sa aming mga unang pagsusuri, ang GPT‑5.2 ang aming nangungunang modelo sa FrontierScience-Olympiad (na may iskor na 77%) at Research (na may iskor na 25%), nangunguna sa iba pang mga modelo ng frontier. Nakakita tayo ng malaking pag-unlad sa paglutas ng mga tanong sa antas ng eksperto habang nagbibigay ng puwang para sa higit pang pag-unlad, lalo na sa mga gawaing istilong pananaliksik na walang gaanong katapusan. Para sa mga siyentipiko, nagpapahiwatig ito na ang kasalukuyang mga modelo ay maaari nang sumuporta sa mga bahagi ng pananaliksik na kinasasangkutan ng naka-structure pangangatwiran, habang binibigyang-diin na may mahalagang gawain pang natitira para mapabuti ang kanilang kakayahan sa pagsasagawa ng bukas na pag-iisip. Naaayon ang mga resulta na ito sa kung paano ginagamit ng mga siyentipiko ang mga modelo ngayon: para pabilisin ang mga daloy ng trabaho sa pananaliksik habang umaasa sa paghatol ng tao para sa pag-frame at pagpapatunay ng problema, at sa pagtaas ng antas para galugarin ang mga ideya at koneksyon na kung hindi ay mas matagal na matutuklasan—kabilang na, sa ilang mga kaso, ang pagbibigay ng mga bagong pananaw na sinusuri at sinusubok ng mga eksperto.

Sa huli, ang pinakamahalagang benchmark para sa kakayahan ng AI sa agham ay ang mga bagong tuklas na natutulungan nitong malikha; ito ang tunay na mahalaga sa agham at lipunan. Ang FrontierScience ay nasa itaas niyan. Nagbibigay ito sa atin ng isang hilagang bituin para sa ekspertong antas ng pangangatwirang siyentipiko, na nagpapahintulot sa atin na subukan ang mga modelo sa isang pamantayang hanay ng mga tanong, makita kung saan sila nagtatagumpay o nabibigo, at tukuyin kung saan natin kailangang pagbutihin ang mga ito. Ang FrontierScience ay makitid at may mga limitasyon sa ilang mahahalagang aspeto (halimbawa, nakatuon sa mga problemang isinulat ng eksperto) at hindi nito nasasaklaw ang lahat ng ginagawa ng mga siyentipiko sa kanilang pang-araw-araw na gawain. Ngunit ang larangan ay nangangailangan ng mas mahihirap, orihinal, at makabuluhang pamantayan sa agham, at ang FrontierScience ay isang hakbang pasulong sa direksyong ito.

Ano ang sinusukat ng FrontierScience at paano namin ito ginawa

Ang buong FrontierScience evaluation ay sumasaklaw sa higit 700 na textual na tanong (kung saan 160 ay nasa gold set) na sumasaklaw sa iba't ibang subfield ng physics, chemistry, at biology. Binubuo ang benchmark ng Olympiad at Research split. Ang FrontierScience-Olympiad ay naglalaman ng 100 tanong na idinisenyo ng mga medalistang pandaigdigang olympiad para suriin ang scientific reasoning sa limitado at maikling sagot na format. Idinisenyo ang set ng Olympiad para maglaman ng mga teoretikal na tanong na hindi bababa sa kasing hirap ng mga problema sa mga pandaigdigang kompetisyon ng olympiad. Binubuo ang FrontierScience-Research ng 60 orihinal na mga subtask sa pananaliksik na idinisenyo ng mga siyentipikong may PhD (mga kandidato sa doktorado, propesor, o postdoctoral na mananaliksik) na sinusuri gamit ang 10-puntong rubric. Ginawa ang Research set para maglaman ng mga self-contained, multi-step na subtasks na may antas ng kahirapan na maaaring kaharapin ng PhD scientist sa kanilang pananaliksik.

Mga Halimbawang Tanong

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Ang bawat gawain sa FrontierScience ay isinulat at na-verify ng eksperto sa larangan ng physics, chemistry, o biology. Para sa set ng Olympiad, lahat ng eksperto ay ginawaran ng medalya sa hindi bababa sa isa (at madalas na marami) na pandaigdigang kompetisyon ng olympiad. Para sa set ng Pananaliksik, lahat ng eksperto ay may hawak na kaugnay na PhD degree.

Ginawa ang mga tanong sa Olympiad sa pakikipagtulungan ng 42 dating international medalist o national team coach sa mga kaugnay na larangan, na may kabuuang 109 olympiad na medalya. Ang mga tanong sa pananaliksik ay ginawa sa pakikipagtulungan ng 45 na kwalipikadong siyentipiko at mga eksperto sa domain. Lahat ng siyentipiko ay alinman sa mga kandidato sa doktorado, mga mananaliksik na post-doktoral, o mga propesor. Ang kanilang mga larangan ng kadalubhasaan ay sumasaklaw sa iba't ibang naka-specialize at mahalagang siyentipikong disiplina, mula sa quantum electrodynamics hanggang sa synthetic organic chemistry hanggang sa evolutionary biology.

Ang proseso ng paglikha ng gawain para sa parehong set ay kinabibilangan ng ilang pagpili laban sa mga panloob na modelo ng OpenAI (hal., pagtatapon ng mga gawaing matagumpay na nagawa ng mga modelo, kaya inaasahan namin na medyo may kinikilingan ang pagsusuri laban sa mga modelong ito kumpara sa iba). Inilalabas namin bilang open-source ang Olympiad gold set na may 100 tanong at ang Research gold set na may 60 tanong, habang itinatabi ang iba pang mga tanong para subaybayan ang kontaminasyon.

Flowchart na nagpapakita ng apat na yugto ng pipeline ng pagbuo ng gawain—Paglikha, Pagsusuri, Resolusyon, at Rebisyon—na may maikling paglalarawan ng bawat hakbang at mga tsek para sa pamantayan batay sa katotohanan, mapapahusay, objective, at mahirap.

Ang mga gawain ay dumadaan sa apat na yugto: Paglikha, Pagsusuri, Resolusyon, at Rebisyon. Sinusuri ng mga independiyenteng eksperto ang mga gawain ng isa't isa para beripikahin na naaayon ito sa mga pamantayan.

Paano namin tinatasa ang pagganap ng modelo

Maaaring i-grade ang set ng Olympiad gamit ang maikling sagot: alinman sa numero, ekspresyon, o malabong pagtutugma ng string, na tumutulong sa pag-beripika ng katumpakan. Gayunpaman, madalas na nakikipagpalitan sa pagiging ekspresibo at bukas na katangian ng problema ang beripikasyon na ito. Para sa Research set, ipinapakilala namin ang arkitekturang nakabatay sa rubric para sa pagmamarka ng mas bukas na mga gawain. May kasamang rubric sa pagmamarka ang bawat tanong na may maraming independiyente at may objective na nasusuri na mga item, na may kabuuang 10 puntos. Sinusuri ang rubric sa pagmamarka hindi lang ang katumpakan ng huling sagot, kundi pati na rin ang tamang mga hakbang ng pangangatwirang intermediate, na nagpapahintulot sa mas detalyadong pagganap ng modelo at pagsusuri ng pagkabigo. Itinuturing ang solusyon na "tama" kung makakakuha ito ng hindi bababa sa 7/10 na puntos sa rubric.

Ang mga tugon ay sinusuri ng isang grader na nakabatay sa modelo (GPT‑5) batay sa maikling sagot o sa mga pamantayan ng rubric. Kahit na mas mabuti sana na gumamit ng eksperto para i-grade ang bawat sagot, hindi ito praktikal sa malawakang saklaw, kaya dinisenyo namin ang rubric para masuri gamit ang modelong tagamarka. Nabuo namin ang pipeline ng beripikasyon para makatulong na matiyak na ang mga rubric at tanong ay maayos na naiaangkop sa antas ng kahirapan at katumpakan.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Ang bawat gawain sa hanay ng pananaliksik ay minamarkahan gamit ang rubric na may kabuuang 10 puntos na maaaring gamitin ng eksperto o model grader. Para mapalawak ang aming kakayahan sa pagsusuri ng mga modelo, gumagamit kami ng isa pang modelo para i-grade ang mga sagot.

Performance ng modelo

Sinuri namin ang ilang mga modelo: GPT‑5.2, Claude Opus 4.5, at Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, at OpenAI o3 sa FrontierScience-Olympiad at FrontierScience-Research. Tinasa ang lahat ng mga modelo ng pangangatwiran sa “high” na antas ng pagsisikap sa pangangatwiran maliban sa GPT‑5.2 na nasa “xhigh”. Sa aming mga unang pagsusuri, ang GPT‑5.2 ang aming nangungunang modelo sa FrontierScience-Olympiad (na may iskor na 77%) at Research (na may iskor na 25%), nangunguna sa iba pang mga modelo ng frontier. Maihahambing ang Gemini 3 Pro sa GPT‑5.2 sa Olympiad set (na may iskor na 76%).

Nakakita kami ng malaking pag-unlad sa paglutas ng mga tanong sa antas ng eksperto, lalo na sa mga gawaing istilong open-ended na pananaliksik. Mayroon pang puwang para sa paglago: mula sa pagsusuri ng mga transcript para sa mga pagkabigo, minsang nagkakamali sa pangangatuwiran, lohika, at kalkulasyon, hindi nauunawaan ang mga espesipikong siyentipikong konsepto, at nagkakaroon ng mga pagkakamali sa katotohanan ang mga frontier na modelo.

Ikinukumpara namin ang mga katumpakan sa iba't ibang frontier na modelo. Ang GPT‑5.2 ang aming pinakamataas na gumaganap na modelo sa FrontierScience-Research at sa Olympiad set.

Ikinukumpara namin ang mga katumpakan sa iba't ibang pagsisikap sa pangangatwiran para sa GPT‑5.2 at o3. Ang mas mahabang oras ng pag-iisip ay nagdudulot ng mas mataas na katumpakan.

Mga Limitasyon at ano ang susunod

Habang kumakatawan ang FrontierScience sa hakbang pasulong sa kahirapan ng mga siyentipikong benchmark, marami pa ring mga limitasyon. Binubuo ang FrontierScience ng mga tanong na may limitadong pahayag ng problema, na nakatuon sa pagsusuri ng panghuling sagot (Olympiad) o pagsusuri ng pangangatwiran para makumpleto ang gawain sa pananaliksik (Research). Bukod pa rito, ang paggamit ng mga rubric na may maraming bahagi sa mas mahahabang gawain ay hindi kasing objective ng pag-check sa huling sagot.

Nag-aalok ang FrontierScience ng mas mataas na resolusyon na snapshot ng pangangatwiran ng mga modelo sa mahihirap na tanong na isinulat ng mga eksperto, pero hindi ito nagbibigay ng buong larawan kung paano isinasagawa ang agham sa praktika. Sa partikular, hindi nito sinusuri ang mahalagang bahagi ng siyentipikong pananaliksik: kung paano bumubuo ang mga modelo ng tunay na bagong hypothesis, o nakikipag-ugnayan sa maraming modality, kabilang ang video data at mga tunay na sistemang pang-eksperimento sa pisikal na mundo.

Sa hinaharap, inaasahan namin na magmumula sa mas mahusay na mga sistema ng pangkalahatang layunin na pangangatwiran at nakatuon na pagsisikap sa pagpapaunlad ng mga kakayahang siyentipiko ang pag-unlad sa siyentipikong pangangatwiran. Ang FrontierScience ay isa lang sa maraming tool, at habang umuunlad ang mga modelo, plano naming ulitin ang benchmark na ito, palawakin ito sa mga bagong domain, at ipares ito sa mas maraming pagsusuri sa totoong mundo na tumitingin sa kung ano ang aktwal na in-enable ng mga sistemang ito sa mga siyentipiko. Tumutulong sa atin ang mga benchmark tulad ng FrontierScience na maunawaan ang mga kahinaan ng mga kasalukuyang sistema ng AI para maituon ang ating gawain sa paggawa ng mga modelo na maging maaasahang katuwang sa pagtuklas ng agham.

May-akda

OpenAI

Magpatuloy sa pagbabasa

Tingnan lahat

Scientific computing agentic AI card image (1x1)

Scientific computing in the age of agentic AI

PaglalathalaHul 28, 2026

GPT-Red: Pagbubukas ng Self-Improvement para sa Katatagan

KaligtasanHul 15, 2026

Paghihiwalay ng signal sa ingay sa coding evaluations

PananaliksikHul 8, 2026