Ana içeriğe atla
OpenAI

20 Şubat 2026

AraştırmaSonuç

First Proof sunumlarımız

Yapay zekanın alana özgü problemler üzerinde doğruluğu kontrol edilebilir ispatlar üretip üretemeyeceğini test eden bir matematik yarışması olan First Proof için ispat denemelerimizi paylaşıyoruz.

Yükleniyor...

Yapay zeka sistemlerinin doğru ve kontrol edilebilir ispat denemeleri üretip üretemediğini test etmek için tasarlanmış, araştırma seviyesinde bir matematik yarışması olan 10 First Proof(yeni bir pencerede açılır) probleminin tamamında dahili bir model çalıştırdık. Kısa yanıtlı veya yarışma tarzı matematikten farklı olarak bu problemler uzmanlık gerektiren alanlarda uçtan uca argümanlar oluşturmayı gerektirir ve uzman incelemesi olmadan doğruluğu belirlemek zordur. First Proof problemlerinin yazarları kendi alanlarında önde gelen uzmanlar ve bazı problemler, yazarlar çözümlerini bulana kadar yıllarca çözümsüz kaldı. Konu alanlarıyla önemli ölçüde örtüşen bir akademik departman, problemlerin çoğunu muhtemelen bir hafta içinde çözebilirdi.

İspat denemelerimizi 14 Şubat 2026 Cumartesi günü saat 00:00’da (PT) paylaştık(yeni bir pencerede açılır). Uzmanlardan gelen geri bildirimlere dayanarak, modelin ispat denemelerinden en az beşinin (4., 5., 6., 9. ve 10. problemler) doğru olma olasılığının yüksek olduğuna inanıyoruz ve diğer birkaç tanesi de inceleme aşamasında. Başlangıçta, 2. problem için yaptığımız denemenin büyük olasılıkla doğru olduğuna inanıyorduk. Resmi First Proof yorumları ve topluluğun yaptığı ek analizlere dayanarak, artık bunun hatalı olduğuna inanıyoruz. Katılım için minnettarız ve incelemenin devamını dört gözle bekliyoruz. İspat denemelerimizin tamamını burada(yeni bir pencerede açılır) bulabilirsiniz. Ön baskı, on ispat girişiminin tamamını ve süreç boyunca modellerle gerçekleştirdiğimiz manuel etkileşimleri simüle etmeyi amaçlayan komut örüntüleri ve örnekleri içeren yeni eklenmiş bir ek barındırıyor.

Yeni en üst seviye araştırmaların, yeni nesil yapay zeka modellerinin yeteneklerini değerlendirmenin belki de en önemli yolu olduğuna inanıyoruz. Kıyaslamalar faydalıdır ancak araştırmanın en zor kısımlarından bazılarını gözden kaçırabilirler: uzun akıl yürütme zincirlerini devam ettirmek, doğru soyutlamaları seçmek, problem ifadelerindeki belirsizlikle başa çıkmak ve detaylı uzman incelemesinden başarıyla geçebilecek argümanlar üretmek. First Proof gibi en üst seviye yarışmalar, doğruluğun teyit edilmesinin zor ve karmaşık olduğu ve hata türlerinin aydınlatıcı olduğu ortamlarda bu yetenekleri stres testine tabi tutmamıza yardımcı olur.

“Şu anda, esas olarak düşünme sürecindeki titizlik düzeyini artırmaya odaklanan yeni bir model eğitiyoruz. Amacımız, modelin saatlerce kesintisiz düşünebilmesi ve vardığı sonuçların doğruluğundan son derece emin olması. First Proof problemleri duyurulduğunda mükemmel bir test ortamı gibi görünüyordu, bu yüzden hafta sonu onu denemeye karar verdim. İki problemi (9. ve 10. problemler) zaten çözebilmişti. Eğitildikçe giderek daha yetenekli hale geldi ve sonunda –bizim değerlendirmemize göre– en az üç tane daha çözdü. Özellikle 6. problemi ve iki gün sonra da 4. problemi çözdüğünde çok memnun olduk çünkü bu problemler birçoğumuzun aşina olduğu alanlardandı. Bir modelin her gün gözle görülür bir şekilde daha akıllı hale geldiğini izlemek oldukça inanılmaz.”

– James R. Lee (OpenAI Araştırmacısı, Akıl Yürütme Araştırmaları)

Modeli sınırlı insan gözetimi altında çalıştırdık. Eğitim sırasında modelin sürümlerine komut gönderirken zaman zaman önceki denemelerde başarılı görünen stratejileri yeniden denemesini önerdik. Bazı denemelerde uzman geri bildirimi aldıktan sonra, akıl yürütmenin doğrulanmasını kolaylaştırmak için modelden bir ispatın bazı kısımlarını genişletmesini veya netleştirmesini istedik. Doğrulama, biçimlendirme ve stil amaçları doğrultusunda bu model ile ChatGPT arasında karşılıklı iletişimi de sağladık. Bazı problemlere ilişkin olarak, insan değerlendirmesiyle seçilen birkaç en iyi denemeyi sunuyoruz. Bu hızlı bir koşuydu ve sürecimiz düzgün bir şekilde kontrol edilen bir değerlendirmede olmasını isteyeceğimiz kadar temiz değildi. Gelecekteki tekrarlar için daha titiz bir test ve değerlendirme çerçevesi konusunda First Proof organizatörleriyle görüşmeyi umuyoruz.

Bu çalışma, matematik ve bilimdeki en üst seviye akıl yürütme modellerinden elde edilen önceki sonuçlara dayanıyor. Temmuz 2025’te, genel amaçlı bir akıl yürütme modeliyle Uluslararası Matematik Olimpiyatı’nda altın madalya seviyesinde performans(yeni bir pencerede açılır) elde ettik (35/42 puan). Kasım 2025’te, GPT‑5’in araştırmacıların matematik, fizik, biyoloji ve diğer alanlarda somut ilerleme kaydetmesine yardımcı olduğu bir dizi vaka çalışmasını ve gözlemlediğimiz sınırlamaları içeren “GPT‑5 ile bilimi hızlandırmaya yönelik ilk deneyler” başlıklı makaleyi paylaştık. Ve son olarak, GPT‑5.2’nin bir gluon genliği formülü için aday bir ifade önerdiği, bunun daha sonra dahili bir model tarafından resmi olarak ispatlandığı ve yazarlar tarafından doğrulandığı bir fizik iş birliği raporu sunduk.

Araştırma düzeyinde akıl yürütmeyi nasıl değerlendireceğimiz konusunda, bu denemelerle ilgili uzman geri bildirimleri de dahil olmak üzere, toplulukla daha derin bir etkileşim kurmayı dört gözle bekliyoruz ve bu yeni yetenekleri gelecekteki herkese açık modellerde sunmak için sabırsızlanıyoruz.

Yazar

OpenAI