16 decembrie 2025

Evaluarea capacității inteligenței artificiale de a îndeplini sarcini de cercetare științifică

Îți prezentăm FrontierScience, un nou test de performanță care evaluează capacitățile inteligenței artificiale de raționament științific la nivel de expert în fizică, chimie și biologie.

Citește lucrarea

Grafic parțial cu un fundal cu gradient de verde și galben pal, un cuvânt mare decupat care începe cu „Fro...” și blocuri de text suprapuse în partea dreaptă, care enumeră criterii de evaluare precum „Factual”, „Evaluabil”, „Obiectiv” și „Dificil”.

Se încarcă…

Raționamentul este esența activității științifice. Pe lângă reamintirea faptelor, cercetătorii generează ipoteze, le testează și le perfecționează, sintetizând idei din diverse domenii. Pe măsură ce modelele noastre devin mai performante, întrebarea esențială este cum pot dezvolta un raționament profund pentru a contribui la cercetarea științifică.

În ultimul an, modelele noastre au atins etape importante, inclusiv obținerea medaliei de aur la Olimpiada Internațională de Matematică și la Olimpiada Internațională de Informatică. În paralel, începem să vedem cum cele mai capabile modele ale noastre, cum ar fi GPT‑5, accelerează semnificativ fluxurile de lucru științifice reale. Cercetătorii folosesc aceste sisteme pentru sarcini precum căutarea literaturii de specialitate în diferite discipline și limbi și lucrul cu demonstrații matematice complexe. În multe cazuri, modelul reduce la câteva ore activități care ar fi putut dura zile sau săptămâni întregi. Aceste progrese sunt documentate în lucrarea noastră intitulată Primele experimente de accelerare a științei cu GPT‑5⁠, publicată în noiembrie 2025, care prezintă dovezi preliminare că GPT‑5 poate accelera în mod semnificativ fluxurile de lucru științifice.

Îți prezentăm FrontierScience

Întrucât accelerarea progresului științific este printre cele mai promițătoare oportunități prin care inteligența artificială poate aduce beneficii umanității, ne îmbunătățim modelele pentru sarcini dificile de matematică și știință și elaborăm instrumente care să ajute cercetătorii să le valorifice la maximum.

Când GPQA⁠(se deschide într-o fereastră nouă), un test de performanță științific imun la căutările pe Google cu întrebări redactate de experți cu doctorat, a fost lansat în noiembrie 2023, GPT‑4 a obținut un scor de 39%, sub pragul de referință al experților de 70%. Peste doi ani, GPT‑5.2 a obținut un scor de 92%. Pe măsură ce capacitățile de raționament și cunoaștere ale modelelor continuă să se extindă, vor fi necesare teste de performanță mai dificile pentru a măsura și prognoza capacitatea modelelor de a accelera cercetarea științifică. Testele de performanță științifice anterioare se concentrează în mare parte pe întrebări cu răspunsuri multiple, sunt saturate sau nu se concentrează în mod central pe știință.

Pentru a remedia această situație, introducem FrontierScience: un nou test de performanță creat pentru a măsura capacitățile științifice la nivel de expert. FrontierScience este scris și verificat de experți în fizică, chimie și biologie și constă în sute de întrebări concepute pentru a fi dificile, originale și semnificative. FrontierScience include două seturi de întrebări: Olympiad, care măsoară capacitățile de raționament științific în stil olimpic, și Research, care măsoară abilitățile de cercetare științifică reală. O mai bună înțelegere a capacităților științifice ale modelelor ne ajută să urmărim progresul și să promovăm știința accelerată de inteligența artificială.

În evaluările noastre inițiale, GPT‑5.2 este modelul nostru cu cele mai bune performanțe la FrontierScience-Olympiad (cu un scor de 77%) și Research (cu un scor de 25%), depășind alte modele de frontieră. Am observat progrese substanțiale în rezolvarea întrebărilor de nivel avansat, dar mai este încă loc de îmbunătățiri, în special în privința sarcinilor de cercetare cu final deschis. Pentru cercetători, aceasta sugerează că modelele actuale pot sprijini deja anumite aspecte ale cercetării care implică un raționament structurat, subliniind totodată că mai sunt multe de făcut pentru a le îmbunătăți capacitatea de a desfășura o gândire cu final deschis. Aceste rezultate corespund modului în care cercetătorii utilizează deja modelele actuale: pentru a accelera fluxurile de lucru din cercetare, bazându-se totodată pe judecata umană pentru formularea și validarea problemelor și, tot mai mult, pentru a explora idei și conexiuni care altfel ar necesita mult mai mult timp pentru a fi descoperite — inclusiv, în unele cazuri, contribuind cu noi perspective pe care experții le evaluează și testează ulterior.

În cele din urmă, cel mai important test de performanță pentru capacitățile științifice ale inteligenței artificiale sunt descoperirile inovatoare pe care le generează; acestea sunt aspectele esențiale pentru știință și societate. FrontierScience se situează în avangarda acestui demers. Ne oferă un punct de referință pentru raționamentul științific la nivel de expert, permițându-ne să testăm modele pe un set standardizat de întrebări, să le observăm punctele forte și slabe și să identificăm aspectele care trebuie îmbunătățite. FrontierScience este un domeniu restrâns și are limitări în aspecte cheie (de exemplu, concentrarea pe probleme constrânse, scrise de experți) și nu surprinde tot ceea ce fac cercetătorii în activitatea lor zilnică. Însă acest domeniu are nevoie de teste de performanță științifice mai dificile, originale și semnificative, iar FrontierScience reprezintă un progres în această direcție.

Ce măsoară FrontierScience și cum l-am elaborat

Evaluarea completă FrontierScience cuprinde peste 700 de întrebări textuale (dintre care 160 în setul gold) care vizează subdomenii din fizică, chimie și biologie. Testul de performanță este compus dintr-o secțiune Olympiad și o secțiune Research. FrontierScience-Olympiad conține 100 de întrebări concepute de medaliați internaționali la olimpiade pentru a evalua raționamentul științific într-un format restrâns, cu răspunsuri scurte. Setul Olympiad a fost conceput pentru a cuprinde întrebări teoretice cel puțin la fel de dificile ca problemele de la concursurile olimpice internaționale. FrontierScience-Research constă în 60 de sarcini secundare de cercetare originale concepute de cercetători doctorali (doctoranzi, profesori universitari sau cercetători postdoctorali) care sunt evaluate folosind o rubrică de 10 puncte. Setul Research a fost creat pentru a cuprinde sarcini secundare independente, cu mai multe etape, la un nivel de dificultate pe care l-ar putea întâlni un cercetător cu doctorat în timpul activității de cercetare.

Exemple de întrebări

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Fiecare sarcină din FrontierScience este redactată și verificată de un expert în fizică, chimie sau biologie. Pentru setul Olympiad, toți experții dețin cel puțin o medalie (și adesea mai multe) la competiții internaționale de olimpiadă. Pentru setul Research, toți experții dețin un doctorat relevant.

Întrebările din setul Olympiad au fost create în colaborare cu 42 de foști medaliați internaționali sau antrenori ai echipelor naționale din domeniile relevante, cu un total de 109 medalii olimpice. Întrebările din setul Research au fost create în colaborare cu 45 de cercetători calificați și experți în domeniu. Toți cercetătorii au fost doctoranzi, cercetători postdoctorali sau profesori universitari. Domeniile lor de competență au cuprins o serie de discipline științifice specializate și importante, de la electrodinamica cuantică la chimia organică sintetică și biologia evoluționistă.

Procesul de creare a sarcinilor pentru ambele seturi a inclus o selecție în raport cu modelele interne OpenAI (de exemplu, eliminarea sarcinilor pe care modelele le-au rezolvat cu succes, deci ne așteptam ca evaluarea să fie oarecum părtinitoare față de aceste modele în comparație cu altele). Am pus la dispoziție în regim open-source setul de 100 de întrebări din cadrul Olympiad și setul de 60 de întrebări din cadrul Research, păstrând celelalte întrebări pentru a monitoriza contaminarea.

Diagramă de flux care prezintă cele patru etape ale unui proces de dezvoltare a sarcinilor — Crearea, Revizuirea, Rezolvarea și Revizia — cu descrieri succinte ale fiecărei etape și bife pentru criteriile factuale, evaluabile, obiective și dificile.

Sarcinile trec prin patru etape: Creare, Revizuire, Rezolvare, Revizie. Experții independenți își revizuiesc reciproc sarcinile pentru a verifica dacă acestea se aliniază criteriilor.

Cum evaluăm performanța modelelor

Setul Olympiad poate fi evaluat cu un răspuns scurt: fie cu un număr, o expresie sau o potrivire de șir fuzzy, ceea ce ajută la verificarea corectitudinii. Totuși, această verificare compromite adesea expresivitatea și caracterul deschis al problemei. Pentru setul Research, am inclus o structură bazată pe rubrici pentru a evalua mai multe sarcini cu final deschis. Fiecare întrebare include o rubrică de evaluare cu mai multe elemente independente și evaluabile obiectiv, însumând 10 puncte. Rubrica de evaluare nu examinează doar acuratețea răspunsului final, ci și corectitudinea etapelor intermediare de raționament, permițând o analiză nuanțată a performanței modelului și a eșecurilor. O soluție este considerată „corectă” dacă primește cel puțin 7/10 puncte în rubrică.

Răspunsurile sunt evaluate de un sistem de notare bazat pe un model (GPT‑5) în funcție de criteriile pentru răspunsuri scurte sau de criteriile din rubrică. Deși ar fi fost ideal să apelăm la un expert uman pentru a evalua fiecare răspuns, această abordare nu este scalabilă, așa că am conceput rubrica astfel încât să poată fi verificată folosind un evaluator bazat pe un model. Am dezvoltat un canal de verificare pentru a ne asigura că rubricile și întrebările sunt bine calibrate în funcție de dificultate și corectitudine.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Fiecare sarcină din setul Research este evaluată conform unei rubrici cu un total de 10 puncte, care poate fi utilizată de un expert sau de un evaluator bazat pe un model. Pentru a ne extinde capacitatea de evaluare a modelelor, folosim un alt model pentru a nota răspunsurile.

Performanța modelului

Am evaluat mai multe modele de frontieră: GPT‑5.2, Claude Opus 4.5 și Gemini 3 Pro, GPT‑4o, OpenAI o4-mini și OpenAI o3 în cadrul FrontierScience-Olympiad și FrontierScience-Research. Toate modelele de raționament au fost evaluate la un efort de raționament „high”, exceptând GPT‑5.2, evaluat la „xhigh”. În evaluările noastre inițiale, GPT‑5.2 este modelul nostru cu cele mai bune performanțe la FrontierScience-Olympiad (cu un scor de 77%) și Research (cu un scor de 25%), depășind alte modele de frontieră. Gemini 3 Pro este comparabil cu GPT‑5.2 în cazul setului Olympiad (cu un scor de 76%).

Am observat progrese substanțiale în rezolvarea întrebărilor la nivel de expert, în special în cazul sarcinilor de cercetare cu final deschis. Există încă loc de îmbunătățiri: în urma analizei transcrierilor eșecurilor, modelele de frontieră au comis uneori erori de raționament, logică și calcul, nu au înțeles concepte științifice de nișă și au comis inexactități factuale.

Comparăm precizia mai multor modele de frontieră. GPT‑5.2 este modelul nostru cu cea mai bună performanță din setul FrontierScience-Research și Olympiad.

Am comparat acuratețea eforturilor de raționament pentru GPT‑5.2 și o3. Un timp de gândire mai îndelungat duce la o acuratețe îmbunătățită.

Limitări și ce urmează

Deși FrontierScience reprezintă un progres din punctul de vedere al dificultății testelor de performanță științifice, există încă multe limitări. FrontierScience este compus din întrebări cu un enunț de problemă limitat, care se concentrează pe evaluarea răspunsului final (Olympiad) sau pe evaluarea raționamentului necesar pentru a finaliza o sarcină de cercetare (Research). În plus, folosirea rubricilor cu mai multe componente pentru sarcini mai lungi este mai puțin obiectivă decât verificarea răspunsului final.

FrontierScience oferă un instantaneu cu rezoluție mai mare asupra raționamentului modelelor în cazul unor întrebări dificile, formulate de experți, dar nu și o perspectivă completă asupra modului în care se desfășoară activitatea științifică propriu-zisă. Concret, nu evaluează o parte importantă a cercetării științifice: modul în care modelele generează ipoteze cu adevărat noi sau interacționează cu multiple modalități, inclusiv date video și sisteme experimentale reale din lumea fizică.

În viitor, ne așteptăm ca progresul raționamentului științific să provină atât din sisteme de raționament cu scop general mai performante, cât și din eforturi concentrate pe îmbunătățirea capacităților științifice. FrontierScience este doar un instrument dintre multe altele, iar pe măsură ce modelele se îmbunătățesc, intenționăm să repetăm acest test de performanță, să-l extindem în noi domenii și să-l asociem cu mai multe evaluări reale, care analizează posibilitățile concrete pe care aceste sisteme le oferă cercetătorilor. Testele de performanță precum FrontierScience ne ajută să înțelegem punctele slabe ale sistemelor actuale de inteligență artificială, pentru a ne concentra eforturile pe crearea de modele care să devină parteneri de încredere în activitatea de cercetare științifică.

Autor

OpenAI

Continuă să citești

Vezi toate

GPT-Red: deblocarea autoîmbunătățirii robusteții

Siguranță15 iul. 2026

Separarea semnalului de zgomot în evaluările de programare

Cercetare8 iul. 2026

Îți prezentăm GeneBench-Pro

Cercetare30 iun. 2026