Ana içeriğe atla
OpenAI

11 Aralık 2025

YayınÜrünŞirket

GPT‑5.2 ile bilim ve matematikte ilerleme

GPT‑5.2, matematik ve bilim alanındaki çalışmalar için şimdiye kadar ürettiğimiz en güçlü modeldir.

Yükleniyor...

Güçlü yapay zeka konusundaki en büyük umutlarımızdan biri, bilim insanlarının daha fazla fikir keşfetmesine, bunları daha hızlı test etmesine ve buluşları etki yaratan sonuçlara dönüştürmesine yardımcı olarak bilimsel araştırmaları herkesin yararına hızlandırmasıdır. 

Geçtiğimiz yıl boyunca matematik, fizik, biyoloji ve bilgisayar bilimi alanlarında çalışan bilim insanlarıyla yakın şekilde çalışarak yapay zekanın hangi noktalarda yardımcı olabileceğini ve hangi noktalarda halen yetersiz kaldığını anlamaya çalıştık. Geçen ay, GPT‑5'in matematik, fizik, biyoloji, bilgisayar bilimi, astronomi ve malzeme bilimi alanlarında araştırmacılara nasıl yardımcı olduğunu gösteren erken vaka çalışmalarını derleyen bir makale yayınladık. Bu çalışmalar, GPT‑5'in gerçek bilimsel araştırmalara katkı sağlamaya başladığını ortaya koyuyor. GPT‑5.2 ile birlikte bu kazanımların daha tutarlı ve daha güvenilir hale geldiğini görmeye başlıyoruz.

Hassasiyet gerektiren görevlerde daha yüksek performans

GPT‑5.2 Pro ve GPT‑5.2 Thinking, bilimsel ve matematiksel çalışmalar için şimdiye kadar ürettiğimiz en güçlü modeldir.

Güçlü matematiksel akıl yürütme, bilimsel ve teknik çalışmalarda güvenilirliğin temelini oluşturur. Bu, modellerin çok adımlı akıl yürütmeyi tutarlı biçimde sürdürebilmesini, nicelikleri tutarlı biçimde koruyabilmesini ve simülasyonlardan istatistiğe, tahminlemeden modellemeye kadar gerçek analizlerde büyüyerek sorun yaratabilecek ince hatalardan kaçınmasını sağlar. FrontierMath gibi kıyaslamalardaki iyileştirmeler, dar bir beceriyi değil; kodlama, veri analizi ve deney tasarımı gibi bilimsel iş akışlarına doğrudan aktarılan daha güçlü genel akıl yürütme ve soyutlama yeteneklerini yansıtır.

Bu yetenekler, genel zekaya giden yolda kritik bir rol oynar. Soyutlamalar üzerinden güvenilir biçimde akıl yürütebilen, uzun düşünce zincirleri boyunca tutarlılığını koruyabilen ve farklı alanlara genelleme yapabilen bir sistem, AGI'nin temelini oluşturan özellikleri sergiler. Bunlar, belirli görevlere özgü taktikler değil; bilimden mühendisliğe ve gerçek dünya karar verme süreçlerine kadar geniş bir yelpazede kritik önem taşıyan kapsamlı ve aktarılabilir akıl yürütme becerileridir.

GPT‑5.2 Pro ve GPT‑5.2 Thinking'in, bilim insanlarına yardımcı olmak ve araştırma süreçlerini hızlandırmak için dünyanın en iyi modelleri olduğuna inanıyoruz. Lisansüstü düzeyde ve Google aramasıyla yanıtlanamayacak şekilde tasarlanmış GPQA Diamond kıyaslamasında GPT‑5.2 Pro %93,2'ye ulaşırken, GPT‑5.2 Thinking de %92,4 ile onu yakından takip ediyor.

GPQA Diamond(yeni bir pencerede açılır) değerlendirmesinde modeller, fizik, kimya ve biyolojiyle ilgili çoktan seçmeli soruları yanıtlar. Bu testte herhangi bir araç etkinleştirilmemiş ve akıl yürütme düzeyi en yüksek seviyeye ayarlanmıştır.

Uzman düzeyindeki matematiği değerlendiren FrontierMath (Tier 1–3) testinde GPT‑5.2 Thinking, yeni bir sektör standardı belirleyerek problem çözümünde sırasıyla %40,3 başarı oranına ulaşıyor.

FrontierMath(yeni bir pencerede açılır) değerlendirmesinde modeller, uzman düzeyindeki matematik problemlerini çözer. Bu testte bir Python aracı etkinleştirilmiş ve akıl yürütme düzeyi en yüksek seviyeye ayarlanmıştır.

Vaka çalışması

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(yeni bir pencerede açılır).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Geleceğe bakış

Bu sonuç, özellikle matematik ve teorik bilgisayar bilimi gibi aksiyomatik temellere sahip alanlarda yapay zeka sistemlerinin bilimsel araştırmaları nasıl destekleyebileceğine dair önemli bir yön gösteriyor. Bu tür ortamlarda üst düzey modeller, kanıtların araştırılmasına, hipotezlerin test edilmesine ve önemli ölçüde insan çabası gerektirebilecek bağlantıların ortaya çıkarılmasına yardımcı olabilir.

Aynı zamanda bu sistemler, bağımsız araştırmacılar değildir. Uzman değerlendirmesi, doğrulama ve alan bilgisi halen kritik önemdedir. Son derece yetenekli modeller bile hata yapabilir veya açıkça belirtilmemiş varsayımlara dayanabilir. Bununla birlikte, dikkatli insan incelemesi gerektiren ayrıntılı ve yapılandırılmış argümanlar da üretebilirler. Bu nedenle yapay zeka ile güvenilir ilerleme kaydedebilmek, doğrulama, şeffaflık ve iş birliğini sürecin merkezine yerleştiren iş akışlarına bağlıdır.

Bir vaka çalışması olarak ele alındığında bu sonuç, ortaya çıkmakta olan yeni bir araştırma yaklaşımını gösteriyor. GPT‑5.2 gibi modeller, matematiksel akıl yürütmeyi destekleyen ve erken aşama keşif süreçlerini hızlandıran araç görevi görebilir; ancak doğruluk, yorumlama ve bağlam konusundaki sorumluluk, insan araştırmacılarda kalmaya devam eder. Dikkatli kullanıldığında bu sistemler, bilimsel sorgulamada insan yargısının merkezi rolünü ortadan kaldırmadan teorik çalışmanın önemli yönlerini daha verimli hale getirmeye yardımcı olabilir.