Vai al contenuto principale
OpenAI

16 dicembre 2025

RicercaPubblicazione

Valutazione della capacità dell’IA di svolgere attività di ricerca scientifica

Presentiamo FrontierScience, un nuovo benchmark progettato per valutare le capacità dell’IA nel ragionamento scientifico di livello avanzato in fisica, chimica e biologia.

Grafica parziale con uno sfondo a gradiente morbido verde e giallo, una grande parola ritagliata che inizia con "Fro…" e blocchi di testo sovrapposti a destra che elencano i criteri di revisione come "Fattuale", "Valutabile", "Obiettivo" e "Difficile".
Caricamento in corso...

Il ragionamento è il cuore del lavoro scientifico. Oltre a ricordare i fatti, gli scienziati generano ipotesi, le testano e le perfezionano, e sintetizzano idee tra discipline diverse. Man mano che i nostri modelli diventano più capaci, la domanda centrale è come possano ragionare in profondità per dare un contributo valido alla ricerca scientifica.

Nell'ultimo anno, i nostri modelli hanno raggiunto traguardi importanti, tra cui prestazioni da medaglia d'oro alle Olimpiadi Internazionali di Matematica e alle Olimpiadi Internazionali di Informatica. Parallelamente, stiamo iniziando a vedere i nostri modelli più avanzati, come GPT‑5, velocizzare in modo significativo i flussi di lavoro scientifici reali. I ricercatori utilizzano questi sistemi per attività come la ricerca bibliografica tra discipline e lingue diverse, nonché per affrontare dimostrazioni matematiche complesse. In molti casi, il modello riduce a poche ore attività che avrebbero potuto richiedere giorni o settimane. Questo progresso è documentato nel nostro articolo Esperimenti iniziali di accelerazione scientifica con GPT‑5, pubblicato a novembre 2025, che presenta le prime prove che GPT‑5 può accelerare in modo misurabile i flussi di lavoro scientifici.

Ti presentiamo FrontierScience

Poiché l’accelerazione del progresso scientifico rappresenta una delle opportunità più promettenti per l’IA a beneficio dell’umanità, stiamo potenziando i nostri modelli per affrontare attività matematiche e scientifiche complesse, e sviluppando strumenti che consentano agli scienziati di sfruttarli al meglio.

Quando GPQA(si apre in una nuova finestra), un benchmark scientifico “a prova di Google“ composto da domande scritte da esperti con dottorato di ricerca, è stato distribuito a novembre 2023, GPT‑4 ha ottenuto un punteggio del 39%, inferiore alla soglia di riferimento degli esperti, pari al 70%. Due anni dopo, GPT‑5.2 ha ottenuto il 92%. Man mano che le capacità di ragionamento e di conoscenza dei modelli continuano a crescere, saranno necessari benchmark più impegnativi per misurarne e prevederne la capacità di accelerare la ricerca scientifica. I benchmark scientifici precedenti si concentrano prevalentemente su domande a scelta multipla, risultano saturi oppure non sono centrati in modo specifico sulla scienza.

Per colmare questa lacuna, stiamo introducendo FrontierScience, un nuovo benchmark progettato per misurare le capacità scientifiche di livello avanzato. FrontierScience è scritto e verificato da esperti di fisica, chimica e biologia e comprende centinaia di domande progettate per essere difficili, originali e significative. FrontierScience include due percorsi di domande: Olympiad, che valuta le capacità di ragionamento scientifico in stile olimpico, e Research, che valuta le capacità di ricerca scientifica nel mondo reale. Fornire una visione più approfondita delle capacità scientifiche dei modelli ci consente di monitorare i progressi e di contribuire all’avanzamento della ricerca scientifica grazie all'IA.

Nelle nostre valutazioni iniziali, GPT‑5.2 è il nostro modello con le migliori prestazioni su FrontierScience-Olympiad (punteggio del 77%) e Research (punteggio del 25%), superando altri modelli di frontiera. Abbiamo osservato progressi significativi nella risoluzione di domande di livello avanzato, pur lasciando ampio margine per ulteriori miglioramenti, in particolare nelle attività di ricerca a carattere aperto. Per gli scienziati, ciò indica che i modelli attuali possono già supportare alcune fasi della ricerca che richiedono ragionamento strutturato, pur evidenziando che resta ancora molto lavoro da fare per migliorarne la capacità di affrontare forme di pensiero aperto. Questi risultati sono in linea con il modo in cui gli scienziati stanno già utilizzando i modelli attuali: per accelerare i flussi di lavoro di ricerca, affidandosi al giudizio umano per l'inquadramento e la validazione dei problemi, e sempre più per esplorare idee e connessioni che altrimenti richiederebbero molto più tempo per essere scoperte, contribuendo in alcuni casi a nuove intuizioni che gli esperti poi valutano e testano.

Alla fine, il parametro di riferimento più importante per le capacità scientifiche dell'IA sono le nuove scoperte che essa aiuta a generare: sono queste che contano davvero per la scienza e la società. FrontierScience si inserisce a monte di questo percorso. Ci offre una stella polare per il ragionamento scientifico di livello avanzato, consentendoci di testare i modelli su un insieme standardizzato di domande, osservare dove riescono o falliscono e individuare dove c'è bisogno di miglioramenti. FrontierScience è limitata e presenta restrizioni in aspetti chiave (ad esempio, si concentra su problemi ristretti e redatti da esperti) e non coglie tutto ciò che gli scienziati fanno nel loro lavoro quotidiano. Ma il settore ha bisogno di benchmark scientifici più complessi, originali e significativi, e FrontierScience rappresenta un passo avanti in questa direzione.

Cosa misura FrontierScience e come l'abbiamo realizzato

La valutazione completa di FrontierScience comprende oltre 700 domande testuali, di cui 160 incluse nel set gold, che coprono sottocampi della fisica, della chimica e della biologia. Il benchmark è composto da due percorsi: Olympiad e Research. FrontierScience-Olympiad include 100 domande pensate da medagliati delle Olympiad internazionali, progettate per valutare il ragionamento scientifico attraverso un formato a risposta breve e vincolato. Il set di Olympiad è stato progettato per includere domande teoriche di difficoltà almeno pari a quella dei problemi delle competizioni olimpiche internazionali. Il set di Research comprende 60 sottocompiti di ricerca originali, progettati da scienziati con dottorato, tra cui dottorandi, professori e ricercatori post-dottorato, e valutati tramite una griglia di valutazione a 10 punti. Il set di Research è stato creato per includere sottoattività autonome e articolate in più fasi, al livello di difficoltà che uno scienziato con dottorato potrebbe incontrare durante la propria attività di ricerca.

Domande di esempio

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

  • B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
  • B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
  • B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
  • B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Ogni attività in FrontierScience è redatta e verificata da un esperto del settore in fisica, chimica o biologia. Per il set di Olympiad, tutti gli esperti hanno ricevuto una medaglia in almeno una, e spesso più di una, competizione olimpica internazionale. Per il set di Research, tutti gli esperti possiedono un dottorato di ricerca pertinente.

Le domande di Olympiad sono state create in collaborazione con 42 ex medagliati internazionali o allenatori di squadre nazionali nei rispettivi ambiti, per un totale di 109 medaglie olimpiche. Le domande di Research sono state create in collaborazione con 45 scienziati qualificati ed esperti del settore. Tutti gli scienziati erano o dottorandi, ricercatori post-dottorato o professori. Le loro aree di competenza spaziavano in una gamma di discipline scientifiche specializzate e importanti, dall'elettrodinamica quantistica alla chimica organica sintetica fino alla biologia evolutiva.

Il processo di creazione delle attività per entrambi i set ha incluso una selezione rispetto ai modelli interni di OpenAI (ad esempio, scartando le attività che i modelli risolvevano correttamente), pertanto ci aspettiamo che la valutazione sia in parte sfavorevole a questi modelli rispetto ad altri. Rendiamo open-source il set gold di Olympiad di 100 domande e il set gold di Research di 60 domande, trattenendo le altre domande per monitorare la contaminazione.

Diagramma di flusso che mostra quattro fasi della pipeline di sviluppo delle attività: Creazione, Revisione, Risoluzione e Modifica, con brevi descrizioni di ciascun passaggio e indicatori per i criteri fattuali, valutabili, oggettivi e difficili.

Le attività attraversano quattro fasi: Creazione, Revisione, Risoluzione, Modifica. Esperti indipendenti esaminano reciprocamente le attività per verificare che soddisfino i criteri.

Come valutiamo le prestazioni dei modelli

Il set di Olympiad è valutabile tramite una risposta breve, che può consistere in un numero, un’espressione o una corrispondenza testuale approssimativa, facilitando la verifica della correttezza. Tuttavia, questa verifica spesso compromette l'espressività e l'apertura del problema. Per il set di Research introduciamo un’architettura basata su griglie di valutazione, pensata per gestire attività a carattere più aperto. Ogni domanda include una griglia di valutazione con diversi elementi indipendenti e oggettivamente valutabili, per un totale di 10 punti. La griglia di valutazione misura non solo l'accuratezza della risposta finale, ma anche la correttezza dei passaggi di ragionamento intermedi, consentendo un'analisi dettagliata delle prestazioni e dei fallimenti del modello. Una soluzione è considerata “corretta” se riceve almeno 7 su 10 punti nella griglia di valutazione.

Le risposte vengono valutate da un valutatore basato su modello (GPT‑5), in base ai criteri delle risposte brevi o della griglia di valutazione. Sebbene idealmente useremmo un esperto umano per valutare ogni risposta, questo approccio non è scalabile, quindi abbiamo progettato la griglia di valutazione in modo che possa essere verificata utilizzando un valutatore basato su modello. Abbiamo sviluppato un processo di verifica per garantire che le griglie di valutazione e le domande fossero ben calibrate rispetto alla difficoltà e alla correttezza.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

  1. π-Electron Count and Ring Currents

    Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.

  2. Charge Distribution and Frontier Orbitals

    Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

  1. UV-Vis Absorption (Q and B Bands)

    The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

    Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:

    • Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
    • Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
  2. NMR Spectroscopy and Aromatic Ring Currents

    Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

    More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

  • Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
Superato 1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

Non superato 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.
Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

Superato 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

Superato 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

Superato 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

Non superato 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Ogni attività del set di Research è valutata utilizzando una griglia che totalizza 10 punti e può essere utilizzata sia da un esperto sia da un modello di valutazione. Per aumentare la nostra capacità di valutare i modelli, utilizziamo un altro modello per giudicare le risposte.

Prestazioni del modello

Abbiamo valutato diversi modelli di frontiera: GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini e OpenAI o3 su FrontierScience-Olympiad e FrontierScience-Research. Tutti i modelli di ragionamento sono stati valutati con uno sforzo di ragionamento “alto”, ad eccezione di GPT‑5.2 a “xhigh”. Nelle nostre valutazioni iniziali, GPT‑5.2 è il nostro modello con le migliori prestazioni su FrontierScience-Olympiad (punteggio del 77%) e Research (punteggio del 25%), superando altri modelli di frontiera. Gemini 3 Pro è paragonabile a GPT‑5.2 nel set di Olympiad, con un punteggio del 76%.

Abbiamo osservato un notevole progresso nella risoluzione di domande di livello avanzato, in particolare nelle attività di ricerca a risposta aperta. C’è ancora spazio per crescere: dall’analisi delle trascrizioni dei fallimenti emerge che i modelli di frontiera talvolta commettevano errori di ragionamento, logica e calcolo, non comprendevano concetti scientifici di nicchia, e presentavano inesattezze fattuali.

Confrontiamo le accuratezze tra diversi modelli di frontiera. GPT‑5.2 è il nostro modello con le migliori prestazioni su FrontierScience-Research e sul set di Olympiad.

Confrontiamo le accuratezze in base ai diversi livelli di sforzo di ragionamento per GPT‑5.2 e o3. Un tempo di riflessione più lungo porta a una maggiore accuratezza.

Limitazioni e sviluppi futuri

Mentre FrontierScience rappresenta un passo avanti nella complessità dei benchmark scientifici, ci sono ancora molte limitazioni. FrontierScience è composto da domande con un enunciato vincolato, focalizzate sulla valutazione della risposta finale in Olympiad o del ragionamento necessario per completare un’attività di ricerca nel percorso Research. Inoltre, l'uso di griglie di valutazione con più componenti per attività più lunghe è meno oggettivo rispetto al controllo della risposta finale. 

FrontierScience offre un’istantanea ad alta risoluzione del ragionamento dei modelli su domande difficili scritte da esperti, ma non fornisce un quadro completo di come la scienza venga svolta nella pratica. In particolare, non valuta una parte significativa della ricerca scientifica: come i modelli generano ipotesi veramente nuove o interagiscono con più modalità, inclusi i dati video e i sistemi sperimentali reali nel mondo fisico.

Guardando al futuro, ci aspettiamo che i progressi nel ragionamento scientifico derivino sia dal miglioramento dei sistemi di ragionamento generalisti sia da sforzi mirati per potenziare le capacità scientifiche. FrontierScience è uno strumento tra molti e, man mano che i modelli migliorano, prevediamo di iterare su questo benchmark, espanderlo a nuovi domini e affiancarlo a valutazioni più aderenti al mondo reale, che analizzano ciò che questi sistemi consentono effettivamente agli scienziati di fare. I benchmark come FrontierScience ci aiutano a comprendere le debolezze dei sistemi di IA odierni per concentrare il nostro lavoro nel rendere i modelli partner affidabili nella scoperta scientifica.