Ana içeriğe atla
OpenAI

11 Aralık 2025

ÜrünSürüm

GPT‑5.2 ile tanışın

Profesyonel işler ve uzun süre çalışan otonom ajanlar için en gelişmiş üst düzey modelimiz.

Yükleniyor...

GPT‑5.2'yi, profesyonel bilgiye dayalı işlere yönelik şimdiye kadarki en yetenekli model serimiz olarak tanıtıyoruz.

Ortalama ChatGPT Enterprise kullanıcılarının çoğu, yapay zekanın kendilerine günde 40-60 dakika kazandırdığını belirtiyor; yoğun kullanıcılar ise haftada 10 saatten fazla zaman tasarrufu sağladığını söylüyor. GPT‑5.2'yi, insanlar için çok daha fazla ekonomik değer yaratmak üzere tasarladık. Bu model; elektronik tablolar oluşturma, sunum hazırlama, kod yazma, görselleri algılama, uzun bağlamları anlama, araç kullanma ve karmaşık, çok adımlı projeleri yönetme gibi alanlarda belirgin şekilde daha yetenekli.

GPT‑5.2, 44 farklı meslek alanını kapsayan, iyi tanımlanmış bilgiye dayalı görevlerde sektör profesyonellerini geride bırakarak GDPval dahil birçok kıyaslamada bugüne kadar alanının en iyisi sonuçlar veriyor.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (kazanma veya eşitlik)
Bilgiye dayalı görevler

%70,9

%38,8 (GPT‑5)

SWE-Bench Pro (genel)
Yazılım mühendisliği

%55,6

%50,8

SWE-bench Verified
Yazılım mühendisliği

%80,0

%76,3

GPQA Diamond (araçsız)
Bilim soruları

%92,4

%88,1

CharXiv Reasoning (Python ile)
Bilimsel şekil soruları

%88,7

%80,3

HMMT (Şubat 2025)
Matematik turnuvası

%99,4

%96,3

FrontierMath (1-3. Seviye)
İleri düzey matematik

%40,3

%31,0

ARC-AGI-1 (Verified)
Soyut akıl yürütme

%86,2

%72,8

ARC-AGI-2 (Verified)
Soyut akıl yürütme

%52,9

%17,6

Notion(yeni bir pencerede açılır), Box(yeni bir pencerede açılır), Shopify(yeni bir pencerede açılır), Harvey(yeni bir pencerede açılır) ve Zoom(yeni bir pencerede açılır), GPT‑5.2'nin uzun vadeli, alanının en iyisi akıl yürütme ve araç çağrısı performansı sergilediğini gözlemledi. Databricks(yeni bir pencerede açılır), Hex(yeni bir pencerede açılır) ve Triple Whale(yeni bir pencerede açılır), GPT‑5.2'nin otonom veri bilimi ve belge analizi görevlerinde olağanüstü bir performans sergilediğini tespit etti. Cognition(yeni bir pencerede açılır), Warp(yeni bir pencerede açılır), Charlie Labs(yeni bir pencerede açılır), JetBrains(yeni bir pencerede açılır) ve Augment Code(yeni bir pencerede açılır), GPT‑5.2'nin etkileşimli kodlama, kod incelemeleri ve hata ayıklama gibi alanlarda ölçülebilir iyileştirmeler sunarak alanının en iyisi otonom kodlama performansı sağladığını belirtiyor.

ChatGPT'de GPT‑5.2 Instant, Thinking ve Pro modelleri bugünden itibaren ücretli planlardan başlayarak kullanıma sunuluyor. API'de ise artık tüm geliştiriciler için kullanılabilir.

Genel olarak GPT‑5.2, genel zeka, uzun bağlam anlama, otonom ajanlarla araç çağırma ve görsel işleme alanlarında önemli iyileştirmeler sunarak karmaşık, gerçek dünya görevlerinin uçtan uca yerine getirilmesinde önceki tüm modellerden daha yüksek performans sağlıyor.

Model performansı

Ekonomik açıdan değerli görevler

GPT‑5.2 Thinking, gerçek dünya ve profesyonel kullanım için şimdiye kadarki en iyi modeldir. 44 meslek alanındaki gerçek ve net biçimde tanımlanmış bilgiye dayalı görevleri ölçen GDPval değerlendirmesinde GPT‑5.2 Thinking, alanının en iyisi puan alarak insan uzman seviyesinde veya üzerinde performans gösteren ilk modelimiz oldu. Özellikle GPT‑5.2 Thinking, uzman insan değerlendiricilere göre GDPval kapsamındaki bilgiye dayalı görevlerde yapılan karşılaştırmaların yüzde 70,9'unda sektörün en iyi profesyonellerini geçiyor veya onların seviyesine ulaşıyor. Bu görevler arasında sunum hazırlama, elektronik tablo oluşturma ve benzeri çıktılar da yer alıyor. GPT‑5.2 Thinking, GDPval görevlerinde uzman profesyonellere kıyasla yüzde 1'den daha düşük bir maliyetle 11 katın üzerinde hız üretti; bu da insan denetimiyle birlikte kullanıldığında GPT‑5.2'nin profesyonel çalışmalara anlamlı katkı sağlayabileceğini gösteriyor. Hız ve maliyet tahminleri, geçmiş ölçümlere dayanmaktadır; ChatGPT'de hız değişiklik gösterebilir.

GDPval değerlendirmesinde modeller, ABD GSMH'sine en fazla katkı yapan 9 ana sektörden 4 meslek alanındaki gerçek ve net biçimde tanımlanmış bilgiye dayalı işleri yerine getirmeye çalışır. Bu görevler; satış sunumları, muhasebe tabloları, acil bakım planlamaları, üretim diyagramları veya kısa videolar gibi gerçek iş çıktıları üretilmesini gerektirir. ChatGPT'de GPT‑5.2 Thinking, GPT‑5 Thinking'de bulunmayan yeni araçlara da sahiptir.

GDPval değerlendiricilerinden biri, özellikle başarılı bir çıktıyı incelerken şu yorumu yaptı: "Bu, çıktı kalitesinde heyecan verici ve belirgin bir sıçrama… profesyonel ekibe sahip bir şirket tarafından hazırlanmış gibi görünüyor. Her iki teslim de şaşırtıcı derecede iyi tasarlanmış bir sayfa düzeni ve yönlendirme sunuyor; yalnızca birinde düzeltmemiz gereken birkaç küçük hata var."

Ayrıca, bir Fortune 500 şirketi için doğru biçimlendirme ve kaynakça kurallarına uygun şekilde üç aşamalı bir finansal model hazırlamak veya bir şirketin borsadan çekilmesine yönelik kaldıraçlı satın alma modelini oluşturmak gibi junior yatırım bankacılığı analistlerinin elektronik tablo modelleme görevlerini içeren kurum içi kıyaslama çalışmamızda GPT‑5.2 Thinking, GPT‑5.1'in %59,1'lik performansına kıyasla %68,4 başarı oranıyla şimdiye kadarki en güçlü modelimiz oldu.

Yan yana kıyaslamalar, GPT‑5.2 Thinking'in oluşturduğu elektronik tablolar ve slaytlarda format ve genel sofistike yapı açısından belirgin iyileşmeler olduğunu gösteriyor:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Komut: Headcount, işe alım planı, çalışan kayıp oranı ve bütçe etkisini içeren bir iş gücü planlama modeli oluştur. Mühendislik, pazarlama, hukuk ve satış departmanlarını ekle.

ChatGPT'deki yeni elektronik tablo ve sunum yeteneklerinden yararlanmak için bir ücretli planda olmanız ve GPT‑5.2 Thinking veya Pro modellerinden birini seçmeniz gerekir. Bu tür karmaşık üretimler birkaç dakika sürebilecek işlemlerdir.

Kodlama

GPT‑5.2 Thinking, gerçek dünya yazılım mühendisliğini değerlendiren zorlu bir test olan SWE-bench Pro'da %55,6 ile sektörde yeni bir rekora imza atıyor. Yalnızca Python'ı test eden SWE-bench Verified'ın aksine SWE-bBench Pro, dört dilde değerlendirme yapıyor ve kirlenmeye karşı daha dayanıklı, daha zorlu, daha çeşitli ve endüstriyel açıdan daha gerçekçi bir ölçüm sunmayı amaçlıyor.

SWE-bench Pro(yeni bir pencerede açılır)'da değerlendirmesinde modele bir kod deposu verilir ve modelin gerçekçi bir yazılım mühendisliği görevini çözmek için bir yama üretmesi gerekir.

SWE-Bench Verified'da (grafikte gösterilmese de) GPT‑5.2 Thinking, %80 ile şimdiye kadarki en yüksek puanımıza ulaşıyor.

Bu performans, profesyonel kullanımda üretim kodunun daha güvenilir şekilde hata ayıklamasını yapabilen, özellik taleplerini uygulayabilen, büyük kod tabanlarını yeniden düzenleyebilen ve düzeltmeleri uçtan uca daha az manuel müdahaleyle gönderebilen bir model anlamına geliyor.

GPT‑5.2 Thinking ayrıca ön uç yazılım mühendisliğinde de GPT‑5.1 Thinking'i geride bırakıyor. İlk testlerde, modelin özellikle ön uç geliştirme ve karmaşık veya alışılmadık kullanıcı arayüzü çalışmalarında (özellikle 3D öğeler içeren görevlerde) belirgin şekilde daha güçlü olduğu görüldü. Bu da onu mühendisler için her katmanda güçlü bir günlük çalışma ortağı haline getiriyor. Tek bir komuttan neler üretilebileceğine dair birkaç örnek görebilirsiniz:

Komut: Şu kriterlere uyarak tek bir HTML dosyasında tek sayfalık bir uygulama oluştur:
- Adı: Okyanus Dalgası Simülasyonu
- Amaç: Gerçekçi animasyonlu dalgalar görüntülemek.
- Özellikler: Rüzgar hızını, dalga yüksekliğini ve ışıklandırmayı değiştirme.
- Kullanıcı arayüzü huzur verici ve gerçekçi olmalı.

İlk test kullanıcıları, GPT‑5.2'nin kodlama yetenekleriyle ilgili geri bildirimlerini paylaştı:

"GPT-5.2, GPT-5'ten bu yana GPT modelleri içinde otonom kodlamada en büyük sıçramayı temsil ediyor ve kendi fiyat aralığında alanının en iyisi kodlama modeli konumunda. Versiyon numarasındaki artış, zeka düzeyindeki gerçek sıçramayı olduğundan daha küçük gösteriyor. GPT-5.2'yi Windsurf genelinde ve Devin'in çeşitli temel iş yüklerinde varsayılan hale getirecek olmaktan büyük heyecan duyuyoruz."
Jeff Wang, CEO, Windsurf

Olgusallık

GPT‑5.2 Thinking, GPT‑5.1 Thinking'e kıyasla daha az hayal ürünü yanıt üretiyor. ChatGPT'den anonimleştirilmiş bir sorgu setinde hatalı yanıtlar yüzde 38 oranında azaldı. Profesyoneller için bu durum, modeli araştırma, yazım, analiz ve karar destek süreçlerinde kullanırken daha az hata ve daha yüksek güvenilirlik anlamına geliyor; böylece bu model, gündelik bilgiye dayalı işlerde daha dayanıklı bir araç haline geliyor.

Akıl yürütme düzeyi, mevcut olan en yüksek seviyeye ayarlanmış ve bir arama aracı etkinleştirilmiştir. Hatalar, kendileri de hata yapabilen diğer modeller tarafından tespit edilmiştir. Çoğu yanıt birçok iddia içerdiğinden, iddia düzeyindeki hata oranları yanıt düzeyindeki hata oranlarından çok daha düşüktür.

Tüm modeller gibi GPT‑5.2 Thinking de kusursuz değildir; kritik bir konuda kullanılırken yanıtların mutlaka tekrar kontrol edilmesi gerekir.

Uzun bağlam

GPT‑5.2 Thinking, uzun bağlamlı akıl yürütmede yeni bir standart belirleyerek OpenAI MRCRv2 değerlendirmesinde (bir modelin, uzun belgelere yayılmış bilgileri birleştirme yeteneğini ölçen bir test) lider performans gösteriyor. Yüz binlerce token'a yayılan ilgili bilgileri bir araya getirmeyi gerektiren derin belge analizi gibi gerçek dünya görevlerinde GPT‑5.2 Thinking, GPT‑5.1 Thinking'e kıyasla belirgin ölçüde daha yüksek doğruluk sunuyor. Özellikle, 256 bin token'a kadar uzanan 4-needle MRCR varyantında neredeyse yüzde 100 doğruluğa ulaştığını gördüğümüz ilk model oldu.

Pratik açıdan bu, profesyonellerin GPT‑5.2'yi raporlar, sözleşmeler, araştırma makaleleri, görüşme dökümleri ve çok dosyalı projeler gibi uzun belgeler üzerinde çalışırken yüz binlerce token boyunca tutarlılığı ve doğruluğu koruyarak kullanabilmesini sağlıyor. Bu yetenek, GPT‑5.2'yi özellikle derin analiz, sentez ve karmaşık çok kaynaklı iş akışları için son derece uygun hale getiriyor.

OpenAI-MRCR⁠(yeni bir pencerede açılır) v2 değerlendirmesinde (çok turlu ortak gönderim çözümlemesi), birbirinin aynı olan birden fazla "needle" kullanıcı isteği, benzer istek ve yanıtların bulunduğu uzun "haystack" dizilerine yerleştirilir ve modelden n'inci needle'ın yanıtını yeniden üretmesi istenir. Değerlendirmenin 2. versiyonu, hatalı doğruluk değerlendirmesi değerlerine sahip yaklaşık yüzde 5'lik görevi düzeltir. Ortalama eşleşme oranı, modelin ürettiği yanıt ile doğru yanıt arasındaki ortalama dize eşleşme oranını ölçer. 256 bin maksimum girdi token'ı noktalarındaki değerler, 128 bin-256 bin girdi token'ı aralığındaki ortalamaları temsil eder; diğer noktalar da aynı şekilde kendi aralıklarının ortalamalarını gösterir. Burada 256 bin, 256 × 1024 = 262.144 token'a karşılık gelir. Akıl yürütme düzeyi, mevcut olan en yüksek seviyeye ayarlanmıştır.

Modelin bağlam penceresinde tek seferde görebileceğinden daha fazla bilgi üzerinde düşünmesinin avantaj sağladığı görevler için GPT‑5.2 Thinking, modelin etkin bağlam penceresini genişleten yeni Responses /compact uç noktamızla uyumludur. Bu sayede GPT‑5.2 Thinking, normalde bağlam uzunluğuyla sınırlanacak olan, daha fazla araç kullanımına dayalı, uzun süre çalışan iş akışlarını da gerçekleştirebilir. Daha fazla bilgi için API belgelerimize(yeni bir pencerede açılır) göz atabilirsiniz.

Vision

GPT‑5.2 Thinking, grafik yorumlama ve yazılım arayüzlerini anlama alanlarında hata oranlarını yaklaşık yarıya indirerek şimdiye kadarki en güçlü görsel modelimiz haline geldi.

Günlük profesyonel kullanımda bu, modelin kontrol panellerini, ürün ekran görüntülerini, teknik diyagramları ve görsel raporları çok daha doğru şekilde yorumlayabildiği anlamına geliyor. Böylece görsel bilginin kritik rol oynadığı finans, operasyon, mühendislik, tasarım ve müşteri desteği gibi iş akışlarını daha güçlü biçimde destekiyor.

CharXiv Reasoning(yeni bir pencerede açılır) değerlendirmesinde modeller, bilimsel makalelerdeki görsel grafiklerle ilgili soruları yanıtlar. Bu testte Python aracı etkinleştirilmiş ve akıl yürütme düzeyi en yüksek seviyeye ayarlanmıştır.

ScreenSpot-Pro(yeni bir pencerede açılır) değerlendirmesinde modellerin, çeşitli profesyonel ortamlardan alınmış grafik kullanıcı arayüzlerine ait yüksek çözünürlüklü ekran görüntüleri üzerinde akıl yürütmesi gerekir. Bu testte Python aracı etkinleştirilmiş ve akıl yürütme düzeyi en yüksek seviyeye ayarlanmıştır. Python aracı olmadan puanlar belirgin şekilde düşmektedir; bu nedenle bu tür görsel görevlerde Python aracının etkinleştirilmesini öneriyoruz.

Önceki modellere kıyasla GPT‑5.2 Thinking, bir görsel içindeki öğelerin konumlarını çok daha iyi kavrıyor; bu da göreli yerleşimin problemin çözümünde kritik rol oynadığı durumlarda önemli bir avantaj sağlıyor. Aşağıdaki örnekte modelde, bir görseldeki bileşenleri (bu örnekte bir anakart) tanıması ve yaklaşık sınırlayıcı kutularla birlikte etiketler döndürmesi isteniyor. Düşük kaliteli bir görselde bile GPT‑5.2, ana bölgeleri doğru şekilde belirleyip her bir bileşenin gerçek konumunu kabaca yansıtan kutular yerleştirirken; GPT‑5.1 ise yalnızca birkaç parçayı etiketleyebiliyor ve öğelerin uzamsal düzenini çok daha az anlıyor.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Araç çağrısı

GPT‑5.2 Thinking, uzun ve çok adımlı görevler boyunca araçları güvenilir biçimde kullanma becerisini göstererek Tau2-bench Telecom değerlendirmesinde %98,7 ile yeni bir sektör standardına ulaşıyor.

Hızın öncelikli olduğu kullanım senaryolarında GPT‑5.2 Thinking, reasoning.effort=’none’ modunda da çok daha iyi performans göstererek GPT‑5.1 ve GPT‑4.1'i belirgin şekilde geride bırakıyor.

In τ2-bench⁠(yeni bir pencerede açılır) değerlendirmesinde modeller, simüle edilmiş bir kullanıcıyla çok turlu bir etkileşim içinde müşteri destek görevlerini tamamlamak için araçlar kullanır. Telekom alanında performansı artırmak amacıyla sistem komutuna kısa ve genel bir yardımcı yönerge ekledik. Daha düşük kaliteli doğruluk değerlendirmesi nedeniyle Havayolu alt kümesini hariç tuttuk.

Profesyoneller için bu, müşteri destek taleplerini çözme, birden fazla sistemden veri çekme, analiz yürütme ve adımlar arasında daha az kopuklukla nihai çıktılar üretme gibi uçtan uca iş akışlarının çok daha güçlü hale gelmesi anlamına geliyor.

Örneğin, çok adımlı bir çözüm gerektiren karmaşık bir müşteri hizmetleri sorusu yöneltildiğinde model, birden fazla otonom ajan arasında tüm iş akışını çok daha etkili şekilde koordine edebilir. Aşağıdaki örnekte bir yolcu; gecikmeli bir uçuş, kaçırılmış bir bağlantı, New York'ta geçirilen bir gece ve tıbbi koltuk gereksinimi bildiriyor. GPT‑5.2, yeniden rezervasyon, özel destekli koltuk ayarlama ve tazminat süreçleri dahil tüm görev zincirini yöneterek GPT‑5.1'e kıyasla daha kapsamlı bir sonuç üretiyor.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Bilim ve matematik

Yapay zekaya dair en büyük umutlarımızdan biri, bilimsel araştırmaları herkesin yararına olacak şekilde hızlandırmasıdır. Bu doğrultuda, bilim insanlarıyla birlikte çalışarak ve onları dinleyerek yapay zekanın araştırmalarını nasıl hızlandırabileceğini anlamaya çalışıyoruz; geçtiğimiz ay da bazı erken ortak deneyleri burada paylaştık.

GPT‑5.2 Pro ve GPT‑5.2 Thinking'in, bilim insanlarına yardımcı olmak ve araştırma süreçlerini hızlandırmak için dünyanın en iyi modelleri olduğuna inanıyoruz. Lisansüstü düzeyde ve Google aramasıyla yanıtlanamayacak şekilde tasarlanmış GPQA Diamond kıyaslamasında GPT‑5.2 Pro %93,2'ye ulaşırken, GPT‑5.2 Thinking de %92,4 ile onu yakından takip ediyor.

GPQA Diamond(yeni bir pencerede açılır) değerlendirmesinde modeller, fizik, kimya ve biyolojiyle ilgili çoktan seçmeli soruları yanıtlar. Bu testte herhangi bir araç etkinleştirilmemiş ve akıl yürütme düzeyi en yüksek seviyeye ayarlanmıştır.

Uzman düzeyindeki matematiği değerlendiren FrontierMath (Tier 1–3) testinde GPT‑5.2 Thinking, problemlerin %40,3'ünü çözerek sektörde yeni bir rekora imza attı.

FrontierMath(yeni bir pencerede açılır) değerlendirmesinde modeller, uzman düzeyindeki matematik problemlerini çözer. Bu testte bir Python aracı etkinleştirilmiş ve akıl yürütme düzeyi en yüksek seviyeye ayarlanmıştır.

Yapay zeka modellerinin matematik ve bilim alanlarında somut biçimde ilerlemeyi hızlandırmaya başladığını görüyoruz. Örneğin, son çalışmalarda GPT‑5.2 Pro kullanan araştırmacılar, istatistiksel öğrenme teorisinde henüz cevaplanmamış bir soruyu keşfettiler. Dar ve iyi tanımlanmış bir bağlamda bu model, yazarlar tarafından sonradan doğrulanan ve dış uzmanlarla birlikte gözden geçirilen bir kanıt önerdi; bu da en üst düzey modellerin sıkı insan gözetimi altında matematiksel araştırmalara nasıl katkı sağlayabileceğini gösteriyor.

ARC-AGI 2

Genel akıl yürütme yeteneğini ölçmek üzere tasarlanmış ARC-AGI-1 (Verified) kıyaslamasında GPT‑5.2, %90 eşiğini aşan ilk model oldu. Geçen yıl o3‑preview ile elde edilen %87 seviyesinin üzerine çıkarak bu performansa 390 kat daha düşük maliyetle ulaştı.

Ezbere değil, tamamen yeni durumlara uyum sağlayabilen akıcı ve esnek akıl yürütmeyi ölçen ve zorluk seviyesi daha yüksek olan ARC-AGI-2 (Verified) kıyaslamasında GPT‑5.2 Thinking, %52,9 ile düşünce zinciri modelleri arasında alanının en iyisi performans gösteriyor. GPT‑5.2 Pro ise %54,2'ye ulaşarak modelin yeni ve soyut problemler üzerinde akıl yürütme kapasitesini daha da ileri taşıyor.

Bu değerlendirmelerde görülen iyileştirmeler, GPT‑5.2'nin pratikte çok adımlı akıl yürütmede daha yüksek güç, nicel doğrulukta artış ve karmaşık teknik görevlerde daha güvenilir problem çözme becerisi sergilemesiyle karşılık buluyor.

İşte ilk test kullanıcılarımızın GPT‑5.2 hakkında söyledikleri:

"GPT-5.2, tamamen yeni bir mimariye geçişin kapısını açtı. Kırılgan, çoklu otonom ajanlı bir sistemi tek seferde 20'den fazla aracı yönetebilen tek bir mega otonom ajana dönüştürdük. En güzel yanı ise şu: Sorunsuz çalışıyor. Bu mega otonom ajan daha hızlı, daha akıllı ve bakım açısından 100 kat daha kolay. Gecikme sürelerinin dramatik biçimde azaldığını, araç çağrısının çok daha güçlü hale geldiğini görüyoruz ve artık karmaşık, sayfalarca sistem komutlarına ihtiyaç duymuyoruz; çünkü 5.2, tek satırlık basit bir komut ile tertemiz şekilde çalışıyor. Bu gerçekten büyüleyici."
AJ Orbach, CEO, Triple Whale

ChatGPT'te GPT‑5.2

ChatGPT'de kullanıcılar, GPT‑5.2'nin günlük kullanımda daha iyi hissettirdiğini; daha yapılandırılmış, daha güvenilir ve halen sohbet etmesi keyifli olduğunu fark edeceklerdir.

GPT‑5.2 Instant, GPT‑5.1 Instant ile gelen daha samimi sohbet tonunu temel alarak bilgi arama, adım adım rehberler, teknik yazım ve çeviri gibi alanlarda belirgin iyileştirmeler sunan; günlük çalışma ve öğrenme için hızlı ve yetenekli bir modeldir. İlk test kullanıcıları, önemli bilgileri öne çıkaran daha net açıklamaları özellikle vurguladı.

GPT‑5.2 Thinking, daha derin çalışmalar için tasarlanmış olup kullanıcılara özellikle kodlama, uzun belgeleri özetleme, karşıya yüklenen dosyalarla ilgili soruları yanıtlama, matematik ve mantık problemlerini adım adım çözme ile planlama ve karar verme süreçlerini daha net bir yapı ve daha faydalı ayrıntılarla destekleme gibi karmaşık görevlerde daha özenli ve güçlü bir deneyim sunar.

GPT‑5.2 Pro, daha yüksek kaliteli yanıtların beklenmeye değer olduğu zor sorular için şimdiye kadarki en akıllı ve en güvenilir modelimizdir; ilk testler, büyük hataların daha az görüldüğünü ve özellikle programlama gibi karmaşık alanlarda daha güçlü bir performans sergilediğini gösteriyor.

Güvenlik

GPT‑5.2, modele en yararlı yanıtı verirken güvenlik sınırları içinde kalmayı öğreten ve GPT‑5 ile tanıttığımız güvenli tamamlama (safe completion) araştırmasının üzerine inşa ediliyor.

Bu sürümle birlikte, modellerimizin hassas konuşmalardaki yanıtlarını güçlendirme yönündeki çalışmalarımızı sürdürdük; özellikle intihar veya kendine zarar verme belirtileri, ruh sağlığı sıkıntısı ya da modele duygusal bağımlılık ifade eden yönlendirmelere verdikleri yanıtlarda anlamlı iyileşmeler sağladık. Bu hedefli iyileştirmeler sayesinde GPT‑5.2 Instant ve GPT‑5.2 Thinking modelleri, GPT‑5.1 ile GPT‑5 Instant ve Thinking'e kıyasla daha az istenmeyen yanıt üretiyor. Daha fazla ayrıntıyı sistem kartında bulabilirsiniz.

18 yaşın altındaki kullanıcılar için içerik korumalarını otomatik olarak uygulayabilmek ve hassas içeriklere erişimi sınırlayabilmek amacıyla yaş tahmini modelimizi kullanıma sunmanın ilk aşamasındayız. Bu çalışma, yaşı 18'in altında olduğunu bildiğimiz kullanıcılara yönelik mevcut yaklaşımımızın ve ebeveyn denetimlerimizin üzerine inşa ediliyor.

GPT‑5.2, devam eden iyileştirme serimizin bir adımı ve yolun henüz çok başındayız. Bu sürüm, zeka ve üretkenlik açısından anlamlı kazanımlar sağlasa da insanların daha fazlasını istediği alanlar olduğunu biliyoruz. ChatGPT'de aşırı reddetmeler gibi bilinen sorunlar üzerinde çalışıyor ve genel güvenlik ile güvenilirlik seviyesini yükseltmeye devam ediyoruz. Bu değişiklikler karmaşık; odağımız bunları doğru şekilde hayata geçirmek.

Ruh sağlığı değerlendirmeleri


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Ruh sağlığı

0,995

0,883

0,915

0,684

Duygusal bağımlılık

0,938

0,945

0,955

0,785

Kendine zarar verme

0,938

0,925

0,963

0,937

Kullanılabilirlik ve fiyatlandırma

ChatGPT olarak bugün GPT‑5.2'yi (Instant, Thinking ve Pro) ücretli Plus, Pro, Go, Business ve Enterprise planlarından başlayarak kullanıma sunmaya başlıyoruz. ChatGPT'nin mümkün olduğunca sorunsuz ve güvenilir çalışmasını sağlamak için GPT‑5.2'yi kademeli olarak kullanıma alıyoruz. ChatGPT'de GPT‑5.1, ücretli kullanıcılar için üç ay boyunca eski modeller altında erişilebilir olmaya devam edecek ve bu sürenin sonunda GPT‑5.1'i kullanım dışı bırakacağız.

ChatGPT ve API genelinde model adlandırması

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

API Platformumuzda GPT‑5.2 Thinking, bugün itibarıyla Responses API ve Chat Completions API'de GPT‑5.2 olarak, GPT‑5.2 Instant ise gpt-5.2-chat-latest adıyla sunuluyor. GPT‑5.2 Pro, Responses API'de gpt-5.2-pro adıyla sunuluyor. Geliştiriciler artık GPT‑5.2 Pro'da akıl yürütme parametresini ayarlayabilir ve hem GPT‑5.2 Pro hem de GPT‑5.2 Thinking, kalitenin kritik önem taşıdığı görevler için yeni sunulan xhigh adlı beşinci akıl yürütme düzeyini destekler.

GPT‑5.2'nin fiyatlandırması; 1 milyon girdi token'ı için 1,75 $, 1 milyon çıktı token'ı için 14 $ olup önbelleğe alınmış girdilerde fiyat yüzde 90 oranında düşüyor. Birden fazla otonom ajan içeren değerlendirmelerde GPT‑5.2'nin token başına maliyeti daha yüksek olsa da, daha yüksek token verimliliği sayesinde belirli bir kalite seviyesine ulaşmanın toplam maliyeti daha düşük oldu.

ChatGPT abonelik fiyatları sabit kalırken, API'de GPT‑5.2 daha yetenekli bir model olduğu için token başına GPT‑5.1'den daha yüksek fiyatlandırılıyor. Buna rağmen halen diğer üst düzey modellerine kıyasla daha düşük bir fiyat seviyesinde sunulduğundan kullanıcılar modeli günlük işlerinde ve temel uygulamalarında derinlemesine kullanmaya devam edebiliyor.

Milyon token başına fiyat

Model

Girdi

Önbelleğe alınmış girdi

Çıktı

gpt-5.2 /
gpt-5.2-chat-latest

1,75 $

0,175 $

14 $

gpt-5.2-pro

21 $

-

168 $

gpt-5.1 /
gpt-5.1-chat-latest

1,25 $

0,125 $

10 $

gpt-5-pro

15 $

-

120 $

API'de GPT‑5.1, GPT‑5 veya GPT‑4.1'i kullanım dışı bırakmaya yönelik şu anda bir planımız bulunmuyor; böyle bir plan oluştuğunda geliştiricileri yeterli süre önce bilgilendireceğiz. GPT‑5.2, Codex içinde mevcut haliyle iyi çalışsa da, önümüzdeki haftalarda Codex için optimize edilmiş bir GPT‑5.2 versiyonunu yayınlamayı planlıyoruz.

Ortaklarımız

GPT‑5.2, uzun süredir birlikte çalıştığımız iş ortaklarımız NVIDIA ve Microsoft ile iş birliği içinde geliştirildi. Azure veri merkezleri ile H100, H200 ve GB200-NVL72 gibi NVIDIA GPU'ları, OpenAI'ın geniş ölçekli eğitim altyapısının temelini oluşturarak model zekasında önemli kazanımlar sağlıyor. Bu iş birliği sayesinde hesaplama kapasitemizi güvenle ölçekleyebiliyor ve yeni modelleri pazara çok daha hızlı sunabiliyoruz.

Ek

Ayrıntılı kıyaslamalar

Aşağıda, GPT‑5.2 Thinking için kapsamlı kıyaslama sonuçlarını ve GPT‑5.2 Pro için seçili bir alt kümenin sonuçlarını paylaşıyoruz.

Profesyonel
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Kodlama
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Olgusallık
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Uzun bağlam
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vision
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Araç kullanımı
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademik
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Soyut akıl yürütme
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modeller, profesyonel değerlendirmeler hariç olmak üzere API'mizde mevcut en yüksek akıl yürütme düzeyinde (GPT‑5.2 Thinking ve Pro için xhigh, GPT‑5.1 Thinking için high) çalıştırıldı. Profesyonel değerlendirmelerde ise GPT‑5.2 Thinking, ChatGPT Pro'da sunulan en yüksek seviye olan heavy akıl yürütme düzeyinde çalıştırıldı. Kıyaslamalar bir araştırma ortamında yürütüldü; bu nedenle bazı durumlarda canlı ChatGPT ortamındaki çıktılardan hafif farklılıklar görülebilir.

* SWE-Lancer sonucunda altyapımızda çalıştırılamayan 40/237 problem değerlendirmeden çıkarıldı.

Yazar

OpenAI