Ana içeriğe atla
OpenAI

16 Aralık 2025

AraştırmaYayın

Yapay zekanın bilimsel araştırma görevlerini yerine getirme yeteneğinin değerlendirilmesi

Fizik, kimya ve biyoloji alanlarında uzman düzeyinde bilimsel akıl yürütme yeteneklerini değerlendiren yeni bir kıyaslama olan FrontierScience ile tanışın.

Pastel yeşil ve sarı tonlardan oluşan gradyan bir zeminde kısmi bir grafik yer almaktadır. Görselin solunda "Fro…" ile başlayan büyük ve kırpılmış bir kelime bulunurken, sağ tarafta "Factual", "Gradable", "Objective" ve "Difficult" gibi değerlendirme ölçütlerini listeleyen, üst üste katmanlanmış metin blokları yer almaktadır.
Yükleniyor...

Akıl yürütme, bilimsel çalışmanın merkezinde yer alır. Bilim insanları, yalnızca olguları hatırlamanın ötesine geçerek hipotezler üretir, bunları test edip geliştirir ve farklı alanlar arasında fikirleri sentezler. Modellerimiz yetkinlik kazandıkça, bu modellerin bilimsel araştırmalara anlamlı katkı sağlayacak düzeyde nasıl akıl yürütebildiği temel bir soru haline geliyor.

Geçtiğimiz yıl boyunca modellerimiz, Uluslararası Matematik Olimpiyatı ve Uluslararası Bilişim Olimpiyatı'nda altın madalya düzeyinde performans sergilemek de dahil, önemli dönüm noktalarına ulaştı. Buna paralel olarak, GPT‑5 gibi en yetkin modellerimizin gerçek bilimsel iş akışlarını anlamlı biçimde hızlandırmaya başladığını gözlemliyoruz. Araştırmacılar bu sistemleri; disiplinler ve diller arası literatür taraması yapmak, karmaşık matematiksel ispatlar üzerinde çalışmak gibi görevlerde kullanıyor. Pek çok durumda model, günler veya haftalar sürebilecek çalışmaları saatler içinde tamamlanabilir hale getiriyor. Bu ilerleme, Kasım 2025'te yayımlanan GPT‑5 ile bilimi hızlandırmaya yönelik ilk deneyler başlıklı makalemizde belgelenmiştir. Bu çalışma, GPT‑5'in bilimsel iş akışlarını ölçülebilir biçimde hızlandırabildiğine dair erken kanıtlar sunmaktadır.

FrontierScience ile tanışın

Bilimsel ilerlemeyi hızlandırmak, yapay zekanın insanlığa sunabileceği en umut verici fırsatlardan biri olduğu için, modellerimizi zor matematik ve fen bilimleri görevlerinde geliştirmeye devam ediyor; bilim insanlarının bu modellerden en yüksek verimi almasını sağlayacak araçlar üzerinde çalışıyoruz.

Kasım 2023'te yayınlanan ve doktora düzeyinde uzmanlar tarafından yazılmış sorulardan oluşan, "Google aramasıyla yanıtlanamayan bilim kıyaslaması olan GPQA(yeni bir pencerede açılır)'da GPT‑4, %39 başarı elde etmişti. Bu oran, %70 olarak belirlenen uzmanlık temel düzeyinin altındaydı. İki yıl sonra GPT‑5.2, %92 oranına ulaştı. Modellerin akıl yürütme ve bilgi yetenekleri genişlemeye devam ettikçe, bilimsel araştırmaları hızlandırma kapasitelerini ölçmek ve öngörmek için daha zorlayıcı kıyaslamalar giderek daha önemli hale gelecektir. Önceki bilimsel kıyaslamalar ise büyük ölçüde çoktan seçmeli sorulara odaklanmakta, zamanla doygunluğa ulaşmakta ya da bilimi merkeze alan bir yapı sunmamaktadır.

Bu boşluğu doldurmak amacıyla, uzman düzeyinde bilimsel yetkinlikleri ölçmek üzere tasarlanmış yeni bir kıyaslama olan FrontierScience'ı tanıtıyoruz. FrontierScience; fizik, kimya ve biyoloji alanlarında uzmanlar tarafından yazılmış ve doğrulanmış, zorlayıcı, özgün ve anlamlı olacak şekilde tasarlanmış yüzlerce sorudan oluşur. Bu kıyaslama iki ayrı soru bölümünü kapsar: Olympiad, olimpiyat tarzı bilimsel akıl yürütme yeteneklerini ölçerken; Research ise gerçek dünyadaki bilimsel araştırma becerilerini değerlendirir. Modellerin bilimsel yetkinliklerine ilişkin daha derin analizler sunan FrontierScience, ilerlemeyi izlememize ve yapay zeka ile hızlandırılmış bilimi ileri taşımamıza yardımcı olur.

İlk değerlendirmelerimizde GPT‑5.2, FrontierScience-Olympiad setinde %77, Research setinde ise %25 puanla diğer üst seviye modelleri geride bırakarak en yüksek performansı gösteren modelimiz oldu. Uzman düzeyindeki soruların çözümünde kayda değer bir ilerleme görülse de, özellikle açık uçlu araştırma tarzı görevlerde daha fazla gelişim için önemli bir alanın varlığını koruduğu da açıkça ortaya çıkıyor. Bilim insanları açısından bu sonuçlar, mevcut modellerin yapılandırılmış akıl yürütme gerektiren araştırma aşamalarını şimdiden destekleyebildiğini; buna karşılık açık uçlu düşünmeyi uçtan uca yürütebilme yeteneklerinin geliştirilmesi için halen kapsamlı çalışmalara ihtiyaç duyulduğunu gösteriyor. Bulgular; araştırma iş akışlarını hızlandırmak, problem çerçeveleme ve doğrulamada insan yargısına dayanmak ve giderek artan biçimde, aksi halde ortaya çıkarılması çok daha uzun sürecek fikir ve bağlantıları keşfederek, bazı durumlarda uzmanlar tarafından değerlendirilen ve test edilen yeni analizlere katkıda bulunmak için bilim insanlarının bugünkü modelleri kullanma biçimiyle de örtüşüyor.

Sonuç olarak, yapay zekanın bilimsel yetkinlikleri için en önemli kıyaslama, onun katkıda bulunduğu yeni keşiflerdir; bilim ve toplum açısından asıl anlam taşıyan da budur. FrontierScience, bu hedefe giden yolda bir önceki adımı temsil eder. Uzman düzeyinde bilimsel akıl yürütme için bir yol gösterici işlevi gören FrontierScience, modelleri standartlaştırılmış bir soru seti üzerinden test etmemizi; hangi alanlarda başarılı veya yetersiz olduklarını görmemizi ve nerelerde geliştirilmeleri gerektiğini belirlememizi sağlar. Bununla birlikte FrontierScience, dar bir kapsama sahiptir ve bazı temel sınırlamaları bulunur; örneğin, uzmanlar tarafından yazılmış ve belirli koşullarla sınırlandırılmış problemlere odaklanır. Bu nedenle bilim insanlarının günlük çalışmalarında gerçekleştirdikleri tüm faaliyetleri kapsamaz. Ancak alanın daha zorlayıcı, özgün ve anlamlı bilimsel kıyaslamaya duyduğu ihtiyaç açıktır ve FrontierScience bu doğrultuda atılmış önemli bir adımı temsil eder.

FrontierScience neyi ölçer ve nasıl geliştirildi?

FrontierScience; fizik, kimya ve biyolojinin farklı alt alanlarını kapsayan 700'ün üzerinde metin tabanlı sorudan oluşan bir değerlendirmedir; bu soruların 160'ı altın veri seti olarak kullanılır. Kıyaslama iki bölümden oluşur: Olympiad ve Research. FrontierScience-Olympiad bölümü, kısa ve net yanıtlar gerektiren 100 soruyla bilimsel akıl yürütmeyi ölçer. Uluslararası bilim olimpiyatlarında madalya kazanmış uzmanlar tarafından hazırlanan bu sorular, olimpiyat yarışmalarındaki problemler kadar zorlayıcı olacak şekilde tasarlanmıştır. FrontierScience-Research bölümü ise doktora öğrencileri, profesörler ve doktora sonrası araştırmacılar gibi doktora düzeyindeki bilim insanları tarafından hazırlanmış 60 özgün araştırma görevinden oluşur. Bu görevler, gerçek araştırma süreçlerini yansıtan, çok adımlı ve tutarlı problemler içerir ve ayrıntılı bir puanlama rubriğiyle değerlendirilir. Amaç, bir bilim insanının araştırma yaparken karşılaşabileceği zorlukları mümkün olduğunca gerçekçi biçimde ölçmektir.

Örnek sorular

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

  • B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
  • B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
  • B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
  • B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

FrontierScience'taki her görev, fizik, kimya veya biyoloji alanında bir uzman tarafından yazılmış ve doğrulanmıştır. Olympiad setine katkı sunan uzmanların tamamı en az bir kez (çoğu durumda birden fazla kez) uluslararası olimpiyat yarışmalarında madalya kazanmıştır. Research seti için görev hazırlayan uzmanların ise tamamı ilgili alanda doktora derecesine sahiptir.

Olimpiyat soruları, ilgili alanlarda daha önce uluslararası bilim olimpiyatlarında madalya kazanmış veya milli takım koçluğu yapmış 42 uzmanın katkısıyla hazırlandı. Bu uzmanların toplamda 109 olimpiyat madalyası bulunuyor. Araştırma soruları ise 45 deneyimli bilim insanı ve alan uzmanıyla birlikte geliştirildi. Bu grubun tamamı doktora öğrencileri, doktora sonrası araştırmacılar ve profesörlerden oluşuyor; uzmanlık alanları kuantum elektrodinamikten sentetik organik kimyaya, evrimsel biyolojiden diğer pek çok temel bilim dalına kadar uzanıyordu.

Her iki soru seti hazırlanırken, OpenAI'ın dahili modelleriyle de bir ön eleme yapıldı. Örneğin, modellerin kolayca yanıtlayabildiği görevler değerlendirmeye dahil edilmedi. Bu nedenle FrontierScience'ın, mevcut modellere göre özellikle zorlayıcı bir değerlendirme sunmasını bekliyoruz. Olympiad bölümü için 100 sorudan, Research için ise 60 sorudan oluşan altın veri setini açık kaynak olarak paylaşıyoruz. Diğer sorular ise olası veri sızıntılarını izleyebilmek amacıyla saklı tutuluyor.

Görev geliştirme sürecinin dört aşamasını (Oluşturma, İnceleme, Çözümleme ve Revizyon) gösteren, her aşamanın kısa açıklamalarını ve bu aşamaların olgusal, puanlanabilir, nesnel ve zorlayıcı ölçütleri karşıladığını gösteren onay işaretlerini içeren akış şeması.

Görevler; Oluşturma, İnceleme, Çözümleme ve Revizyon olmak üzere dört aşamalı bir süreçten geçer. Bağımsız uzmanlar, görevlerin belirlenen ölçütlerle uyumlu olduğunu doğrulamak amacıyla birbirlerinin çalışmalarını karşılıklı olarak inceler.

Model performansını nasıl değerlendiriyoruz

Olympiad setindeki sorular kısa ve net yanıtlarla değerlendirilir. Bu yanıtlar bir sayı, bir ifade ya da esnek bir metin eşleşmesi olabilir. Bu sayede yanıtların doğru olup olmadığını kontrol etmek kolaylaşır. Ancak bu yaklaşım, soruların ne kadar açık uçlu olabileceği konusunda doğal bazı sınırlamalar da getirir. Research setinde ise daha açık uçlu görevleri değerlendirmek için rubrik tabanlı bir puanlama yöntemi kullanıyoruz. Her soru, birbirinden bağımsız ve nesnel biçimde değerlendirilebilen birden fazla ölçüt içerir ve toplamda 10 puan üzerinden puanlanır. Bu rubrikler yalnızca sonucun doğru olup olmadığını değil, aynı zamanda ara akıl yürütme adımlarının doğruluğunu da dikkate alır. Böylece modelin nerelerde başarılı olduğunu ve nerelerde zorlandığını daha ayrıntılı biçimde inceleyebiliyoruz. Bir yanıt, rubrikten en az 7/10 puan aldığında "doğru" kabul edilir.

Yanıtlar, kısa yanıt formatına veya rubrik ölçütlerine göre model tabanlı bir değerlendirici (GPT‑5) tarafından incelenir. İdeal olarak her yanıtın insan uzmanlar tarafından puanlanmasını isterdik; ancak bu yaklaşım büyük ölçekli değerlendirmeler için pratik değildir. Bu nedenle rubrikleri, bir model değerlendiricinin güvenilir biçimde kullanabileceği şekilde tasarladık. Ayrıca soruların ve rubriklerin hem zorluk düzeyi hem de doğruluk açısından dengeli olmasını sağlamak için ek doğrulama adımları uyguladık.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

  1. π-Electron Count and Ring Currents

    Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.

  2. Charge Distribution and Frontier Orbitals

    Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

  1. UV-Vis Absorption (Q and B Bands)

    The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

    Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:

    • Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
    • Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
  2. NMR Spectroscopy and Aromatic Ring Currents

    Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

    More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

  • Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
Başarılı 1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

Başarısız 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.
Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

Başarılı 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

Başarılı 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

Başarılı 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

Başarısız 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Research setindeki her görev, toplam 10 puan üzerinden değerlendirilen bir rubrikle puanlanır; bu rubrik hem insan uzmanlar hem de model tabanlı değerlendiriciler tarafından kullanılabilir. Modelleri değerlendirme sürecini ölçekleyebilmek için, yanıtların puanlanmasında ayrı bir modelden yararlanıyoruz.

Model performansı

FrontierScience-Olympiad ve FrontierScience-Research kapsamında GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini ve OpenAI o3 gibi birçok üst seviye modeli değerlendirdik. GPT‑5.2 dışındaki tüm akıl yürütme modelleri "high" düzeyinde çalıştırılırken GPT‑5.2 ise "xhigh" akıl yürütme düzeyinde değerlendirildi. İlk değerlendirmelerimizde GPT‑5.2, FrontierScience-Olympiad setinde %77, Research setinde ise %25 puanla diğer üst seviye modelleri geride bırakarak en yüksek performansı gösteren modelimiz oldu. Gemini 3 Pro ise Olympiad setinde %76 puanla GPT‑5.2'ye oldukça yakın bir sonuç elde etti.

Uzman düzeyindeki soruların çözümünde, özellikle açık uçlu ve araştırma odaklı görevlerde anlamlı ilerlemeler görüyoruz. Bununla birlikte, gelişim için halen önemli bir alan bulunuyor. Hata analizleri; üst seviye modellerin zaman zaman akıl yürütme, mantık ve hesaplama hataları yaptığını, bazı özel bilimsel kavramları tam olarak kavrayamadığını ve yer yer olgusal hatalar üretebildiğini gösteriyor.

Birçok ileri seviye modelin doğruluk oranlarını karşılaştırdığımızda GPT‑5.2, FrontierScience-Research ve Olympiad setlerinde en yüksek performansı gösteren modelimiz oldu.

GPT‑5.2 ve o3'ün farklı akıl yürütme düzeylerinde elde ettiği doğruluk oranlarını karşılaştırıyoruz. Sonuçlar, daha uzun düşünme süresinin daha yüksek doğrulukla sonuçlandığını gösteriyor.

Sınırlamalar ve bundan sonra bizi bekleyenler

FrontierScience, bilimsel kıyaslamaları daha zorlayıcı bir noktaya taşısa da halen önemli sınırlamalara sahip. Bu kıyaslama, problem tanımı net olan sorulardan oluşur: Olympiad bölümünde nihai yanıtın doğruluğu, Research bölümünde ise bir araştırma görevini tamamlamak için gereken akıl yürütme değerlendirilir. Ancak özellikle uzun ve çok adımlı görevlerde kullanılan rubrikler, yalnızca tek bir doğru yanıtı kontrol etmeye kıyasla daha az nesnel olabilir. 

FrontierScience, zor ve uzmanlar tarafından yazılmış sorular üzerinden modellerin akıl yürütme yeteneklerine dair daha ayrıntılı bir manzara sunar; ancak bilimin pratikte nasıl yapıldığını bütünüyle yansıtmaz. Özellikle bilimsel araştırmanın önemli bazı yönleri bu kapsamın dışındadır. Örneğin, modellerin gerçekten yeni hipotezler üretme yeteneği veya video verileri ve fiziksel dünyadaki deneysel sistemler gibi birden fazla veri türüyle etkileşimi bu değerlendirmede yer almaz.

İleriye baktığımızda, bilimsel akıl yürütmedeki ilerlemenin hem daha güçlü genel amaçlı akıl yürütme sistemlerinden hem de bilimsel yetkinliklere özel olarak odaklanan çalışmalardan gelmesini bekliyoruz. FrontierScience bu yolculuktaki araçlardan yalnızca biridir. Modeller geliştikçe, bu kıyaslamayı yinelemeyi, yeni alanlara genişletmeyi ve gerçek dünyada bilim insanlarının neleri mümkün kıldığını ölçen ek değerlendirmelerle birlikte kullanmayı planlıyoruz. FrontierScience gibi kıyaslamalar, mevcut yapay zeka sistemlerinin güçlü ve zayıf yönlerini daha iyi anlamamıza yardımcı oluyor ve çalışmalarımızı, bu sistemleri bilimsel keşifte daha güvenilir ortaklar haline getirmeye odaklamamızı sağlıyor.