Ocena zdolności AI do wykonywania zadań związanych z badaniami naukowymi
Przedstawiamy FrontierScience – nowy test oceniający zdolności AI do rozumowania naukowego na poziomie eksperckim w dziedzinach fizyki, chemii i biologii.

Rozumowanie stanowi istotę pracy naukowej. Poza przywoływaniem faktów naukowcy tworzą hipotezy, testują je, udoskonalają i syntetyzują pomysły z różnych dziedzin. W miarę jak nasze modele stają się bardziej zaawansowane, kluczowym pytaniem staje się: w jaki sposób mogą one prowadzić głębokie rozumowanie, aby móc wspomagać badania naukowe.
W ciągu ostatniego roku nasze modele osiągnęły znaczące postępy i między innymi zdobyły złoty medal na Międzynarodowej Olimpiadzie Matematycznej i Międzynarodowej Olimpiadzie Informatycznej. Równocześnie zaczynamy dostrzegać, że nasze najbardziej zaawansowane modele, takie jak GPT‑5, znacząco przyspieszają rzeczywistą pracę naukową. Naukowcy używają tych systemów do przeszukiwania literatury w różnych dyscyplinach i językach oraz opracowywania skomplikowanych dowodów matematycznych. W wielu przypadkach modele potrafią skrócić wielotygodniową pracę do raptem kilku godzin. Postęp ten jest udokumentowany w naszej pracy Wczesne eksperymenty w przyspieszeniu rozwoju naukowego z GPT‑5, opublikowanej w listopadzie 2025 roku, która opisuje pierwsze dowody na to, że GPT‑5 może mierzalnie przyspieszać procesy naukowe.
Przyspieszenie rozwoju naukowego jest jedną z najbardziej obiecujących możliwości, jakie AI może zapewnić ludzkości, dlatego rozwijamy nasze modele w zakresie rozwiązywania trudnych zadań matematycznych i naukowych oraz tworzymy narzędzia, które pomogą naukowcom w pełni je wykorzystać.
Kiedy w listopadzie 2023 roku opublikowano GPQA(otwiera nowe okno), test naukowy „odporny na korzystanie z Google” zawierający pytania stworzone przez ekspertów z tytułem doktora, GPT‑4 uzyskał w nim wynik 39%, co jest wartością poniżej poziomu eksperckiego wynoszącego 70%. Dwa lata później GPT‑5.2 uzyskał wynik 92%. W miarę jak zdolności rozumowania i sposoby zarządzania wiedzą przez modele będą rosnąć, niezwykle ważne stanie się tworzenie trudniejszych testów porównawczych, które pozwolą mierzyć i prognozować zdolność modeli do przyspieszania badań naukowych. Dotychczasowe testy naukowe w dużej mierze skupiające się na pytaniach wielokrotnego wyboru już się nie sprawdzają lub nie koncentrują się na nauce.
Aby rozwiązać ten problem, stworzyliśmy FrontierScience: nowy test stworzony do mierzenia zdolności naukowych na poziomie eksperckim. FrontierScience tworzą i weryfikują eksperci z dziedziny fizyki, chemii i biologii. Zawiera on setki pytań zaprojektowanych tak, aby były trudne, oryginalne i rzeczywiście sprawdzały wiedzę. FrontierScience obejmuje dwa rodzaje pytań: Olympiad, które weryfikują zdolności rozumowania naukowego w stylu olimpiady, oraz Research, które sprawdzają umiejętności prowadzenia rzeczywistych badań naukowych. Dostarczanie większego zakresu informacji o zdolnościach naukowych modeli pomaga nam śledzić postępy i rozwijać naukę wspieraną przez sztuczną inteligencję.
W początkowych ocenach GPT‑5.2 okazał się modelem osiągającym najlepsze wyniki w przypadku testów FrontierScience-Olympiad (osiągając wynik 77%) i Research (25%), co pozwoliło mu wyprzedzić inne modele pionierskie. Zaobserwowaliśmy znaczne postępy w przypadku rozwiązywania zadań na poziomie eksperckim, jednak nadal istnieją aspekty wymagające poprawy, zwłaszcza w przypadku otwartych zadań w stylu badawczym. Dla naukowców oznacza to, że obecne modele mogą już zapewniać wsparcie w części badań obejmujących rozumowanie strukturalne, jednocześnie nadal wiele obszarów wymaga poprawy w celu ulepszenia zdolności modeli do prowadzenia otwartego myślenia. Wyniki te są zgodne z aktualnymi sposobami wykorzystywania modeli przez naukowców: przyspieszają one prace badawcze, a jednocześnie ludzie są podstawowym motorem napędowym podczas formułowania problemów i ich weryfikacji, jednak coraz częściej modele są również stosowane do odkrywania pomysłów i zależności, których zbadanie w inny sposób zajęłyby znacznie więcej czasu. To niekiedy przyczynia się do powstawania nowych spostrzeżeń, które eksperci następnie oceniają i testują.
Ostatecznie najważniejszym wyznacznikiem zdolności naukowych sztucznej inteligencji są nowe odkrycia – to one mają kluczowe znaczenie dla nauki i społeczeństwa. FrontierScience to nowa jakość. Rozwiązanie to daje nam to punkt odniesienia dla rozumowania naukowego na poziomie eksperckim i umożliwia testowanie modeli na ustandaryzowanym zestawie pytań, obserwowanie ich sukcesów oraz porażek, jak również identyfikowanie obszarów wymagających poprawy. Test FrontierScience ma ograniczone możliwości w kluczowych aspektach (na przykład skupia się na precyzyjnych problemach spisanych przez ekspertów z danej dziedziny) i nie obejmuje całego spektrum codziennej pracy naukowców. Jednak potrzebne są trudniejsze, oryginalne i realistyczne standardy naukowe, a FrontierScience stawia istotny krok w tym kierunku.
Pełny test FrontierScience obejmuje ponad 700 pytań tekstowych (w tym 160 w zestawie złotym) dotyczących poddziedzin fizyki, chemii i biologii. Składa się on z sekcji Olympiad i Research. FrontierScience-Olympiad to 100 pytań opracowanych przez medalistów międzynarodowych olimpiad, których celem jest ocena rozumowania naukowego w postaci krótkich, precyzyjnych odpowiedzi. Zestaw Olympiad zawiera pytania teoretyczne o poziomie trudności równym co najmniej zadaniom prezentowanym na międzynarodowych olimpiadach. FrontierScience-Research składa się z 60 oryginalnych zadań badawczych opracowanych przez naukowców z tytułem doktora (doktorantów, profesorów lub badaczy po doktoracie), które są oceniane według 10-punktowej skali. Sekcja Research zawiera samodzielne, wieloetapowe podzadania na poziomie trudności, z jakim może się spotkać naukowiec z tytułem doktora podczas swoich badań.
Każde zadanie w teście FrontierScience zostało napisane i zweryfikowane przez eksperta z dziedziny fizyki, chemii lub biologii. W zestawie Olympiad wszyscy eksperci zdobyli medal w co najmniej jednej międzynarodowej olimpiadzie (a często w wielu). W zestawie Research wszyscy eksperci posiadają stopień doktora.
Pytania w sekcji Olympiad zostały stworzone we współpracy z 42 byłymi międzynarodowymi medalistami lub trenerami zespołów narodowych z odpowiednich dziedzin, którzy zdobyli łącznie 109 medali olimpijskich. Pytania w sekcji Research powstały dzięki współpracy z 45 wykwalifikowanymi naukowcami i ekspertami w danej dziedzinie. Wszyscy naukowcy byli doktorantami, badaczami po doktoracie albo profesorami. Ich obszary specjalizacji obejmowały szereg wyspecjalizowanych i istotnych dyscyplin naukowych, takich jak elektrodynamika kwantowa, chemia syntetyczna organiczna czy biologia ewolucyjna.
Proces tworzenia zadań przeznaczonych do obu zestawów obejmował pewną selekcję względem wewnętrznych modeli OpenAI (np. odrzucano zadania, które modele poprawnie rozwiązały), więc spodziewamy się, że ocena będzie nieco stronnicza w przypadku tych modeli w porównaniu z innymi. Na zasadach open-source udostępniamy złoty zestaw 100 pytań z sekcji Olympiad oraz złoty zestaw 60 pytań z sekcji Research, a pozostałe pytania posłużą do monitorowania zanieczyszczeń.

Opracowanie zadania składa się z czterech etapów: tworzenia, weryfikacji, rozwiązania, kontroli. Niezależni eksperci weryfikują zadania innych, aby określić, czy są one zgodne z kryteriami.
W zestawie Olympiad wymagana jest krótka odpowiedź: liczba, wyrażenie lub dopasowanie rozmyte ciągu znaków, co pomaga zweryfikować poprawność. Jednak ta weryfikacja często odbywa się kosztem ekspresywności i otwartości problemu. Dla zestawu Research wprowadzamy architekturę opartą na arkuszach oceniania bardziej otwartych zadań. Każde pytanie zawiera arkusz oceny z wieloma niezależnymi i obiektywnie ocenianymi elementami, gdzie łącznie do zdobycia jest 10 punktów. Arkusz pozwala ocenić nie tylko dokładność ostatecznej odpowiedzi, ale także poprawność pośrednich kroków rozumowania, co umożliwia szczegółową analizę wydajności modelu oraz analizę błędów. Rozwiązanie uznaje się za „poprawne”, jeśli pozwoli ono uzyskać co najmniej 7/10 punktów.
Odpowiedzi są weryfikowane przez oceniający model (GPT‑5) na podstawie kryteriów krótkiej odpowiedzi lub kryteriów w arkuszu. W idealnym świecie każdą odpowiedź oceniałby eksperta z danej dziedziny, jednak takie podejście nie jest skalowalne, dlatego zaprojektowaliśmy arkusz, który można sprawdzać za pomocą modelu oceniającego. Opracowaliśmy odpowiedni proces weryfikacji, aby zapewnić, że kryteria i pytania są odpowiednio skalibrowane pod względem trudności i poprawności.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Nie udało się 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Udało się 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Udało się 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Udało się 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Nie udało się 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Każde zadanie w zestawie badawczym jest oceniane zgodnie z arkuszem pozwalającym zdobyć łącznie 10 punktów, który może stosować ekspert lub model oceniający. Aby zwiększyć nasze możliwości oceniania modeli, używamy innego modelu do oceny odpowiedzi.
Kilka modeli pionierskich (GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini i OpenAI o3) sprawdziliśmy z użyciem testów FrontierScience-Olympiad i FrontierScience-Research. W przypadku wszystkich modeli wybrano „wysoki” poziom rozumowania, z wyjątkiem GPT‑5.2, gdzie wybrano „xhigh”. W początkowych ocenach GPT‑5.2 okazał się modelem osiągającym najlepsze wyniki w przypadku testów FrontierScience-Olympiad (osiągając wynik 77%) i Research (25%), co pozwoliło mu wyprzedzić inne modele pionierskie. Gemini 3 Pro jest porównywalny z GPT‑5.2 w zestawie Olympiad (wynik 76%).
Zauważyliśmy znaczny postęp w rozwiązywaniu pytań na poziomie eksperckim, zwłaszcza w zadaniach badawczych o otwartym charakterze. Wciąż możemy udoskonalić wiele aspektów: analiza transkrypcji pod kątem błędów wykazuje, że czołowe modele czasami popełniały błędy w rozumowaniu, logice i obliczeniach, nie rozumiały niszowych koncepcji naukowych i borykały się z nieścisłościami faktograficznymi.
Porównujemy dokładności w kilku modelach pionierskich. GPT‑5.2 to nasz najwyżej oceniany model w zestawie FrontierScience-Research i Olympiad.
Porównujemy dokładność w różnych podejściach do rozumowania w przypadku GPT‑5.2 i o3. Dłuższy czas zastanawiania się oznacza większą dokładność.
FrontierScience stanowi krok naprzód w obszarze zwiększania poziomu trudności naukowych testów porównawczych, jednak nadal ma on wiele ograniczeń. Składa się z pytań z ograniczonym opisem problemu i koncentruje się na ocenie ostatecznej odpowiedzi (Olympiad) lub ocenie rozumowania w celu ukończenia zadania badawczego (Research). Ponadto stosowanie arkuszy z wieloma elementami w dłuższych zadaniach jest mniej obiektywne niż sprawdzanie ostatecznej odpowiedzi.
FrontierScience oferuje bardziej precyzyjny wycinek sposobu rozumowania modeli w przypadku trudnych, eksperckich pytań, ale nie daje pełnego obrazu tego, jak nauka jest realizowana w praktyce. W szczególności nie ocenia on istotnej części badań naukowych: jak modele generują naprawdę nowatorskie hipotezy lub jak współdziałają z różnymi typami danych, na przykład danymi wideo i rzeczywistymi systemami eksperymentalnymi w realnym świecie.
Patrząc w przyszłość, spodziewamy się, że postęp w rozumowaniu naukowym będzie wynikał zarówno z powstawania lepszych systemów rozumowania ogólnego przeznaczenia, jak i z ukierunkowanych działań skupiających się na rozwijaniu zdolności naukowych. FrontierScience jest jednym z wielu narzędzi, a w miarę jak modele będą stawać się coraz lepsze, planujemy rozwijać ten test, rozszerzać go na kolejne dziedziny nauki i łączyć z bardziej rzeczywistymi ocenami, które określą, w jakim zakresie systemy te rzeczywiście wspierają pracę naukowców. Testy takie jak FrontierScience pomagają nam zrozumieć słabości dzisiejszych systemów AI, co pozwala nam się skupić na opracowywaniu coraz bardziej niezawodnych narzędzi pomagających w rozwijaniu nauki.


