Ana içeriğe atla
OpenAI

5 Mart 2026

ÜrünSürüm

GPT‑5.4 ile tanışın

Profesyonel işler için tasarlandı

Yükleniyor...

Bugün GPT‑5.4'ü (GPT‑5.4 Thinking olarak) ChatGPT'de, API'de ve Codex'te kullanıma sunuyoruz. GPT‑5.4, profesyonel kullanım senaryoları için şimdiye kadarki en yetenekli ve en verimli, en üst seviye modelimizdir. Ayrıca, karmaşık görevlerde en yüksek performansı talep eden kullanıcılar için GPT‑5.4 Pro'yu ChatGPT'de ve API'de de yayınlıyoruz.

GPT‑5.4; akıl yürütme, kodlama ve otonom ajan tabanlı iş akışlarındaki en son ilerlemelerimizi tek bir en üst seviye modelde bir araya getirir. GPT‑5.3‑Codex'in sektör lideri kodlama yeteneklerini entegre ederken araçlar, yazılım ortamları ve elektronik tablolar, sunumlar ve belgeler gibi profesyonel görevler genelinde çalışma kapasitesini de ileri taşır. Ortaya çıkan sonuç; karmaşık ve gerçek dünyaya ait iş görevlerini doğru, etkili ve verimli biçimde tamamlayan, hedeflediğiniz çıktıyı daha az ileri geri gerektirecek şekilde sunan bir modeldir.

ChatGPT'de GPT‑5.4 Thinking artık düşünme sürecine ilişkin önceden bir plan sunabilmektedir. Bu sayede model, yanıt üretimi sırasında gerektiğinde yön değiştirebilir ve ek turlara ihtiyaç duymadan gereksinimlerinize daha yakın bir nihai çıktıya ulaşabilir. GPT‑5.4 Thinking, özellikle son derece spesifik sorgularda derin web araştırma kapasitesini geliştirirken, daha uzun akıl yürütme gerektiren sorularda bağlamı daha tutarlı biçimde korur. Bu iyileştirmeler birlikte, daha hızlı sunulan ve göreve yüksek düzeyde uygunluk gösteren daha kaliteli yanıtlar anlamına gelir.

Codex ve API'de GPT‑5.4, yerleşik ve son teknoloji bilgisayar kullanım yetenekleriyle yayınladığımız ilk genel amaçlı modeldir. Bu sayede otonom ajanlar, bilgisayarları kullanabilir ve uygulamalar arasında karmaşık iş akışlarını yürütebilir. Model, 1 milyon token'a kadar bağlamı destekler. Bu kapasite, otonom ajanların uzun zaman ufuklarına yayılan görevleri planlamasına, yürütmesine ve doğrulamasına olanak tanır. GPT‑5.4 ayrıca, araç arama özelliği sayesinde modellerin geniş araç ve bağlayıcı ekosistemlerinde nasıl çalıştığını geliştirir; bu da otonom ajanların zekadan ödün vermeden doğru araçları daha verimli şekilde bulup kullanmasına yardımcı olur. Son olarak GPT‑5.4, şimdiye kadarki en verimli akıl yürütme modelimizdir. GPT‑5.2 ile karşılaştırıldığında problemleri çözmek için önemli ölçüde daha az token kullanır; bu da daha düşük token tüketimi ve daha yüksek hız anlamına gelir.

Genel akıl yürütme, kodlama ve profesyonel bilgi çalışmasındaki ilerlemelerle birlikte GPT‑5.4; ChatGPT, API ve Codex genelinde daha güvenilir otonom ajanlar, daha hızlı geliştirici iş akışları ve daha yüksek kaliteli çıktılar sunar.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (daha iyi veya eşit performans)

%83,0

%70,9

%70,9

SWE-Bench Pro (Genel)

%57,7

%56,8

%55,6

OSWorld-Verified

%75,0

%74,0* 

%47,3

Toolathlon

%54,6

%51,9

%46,3

BrowseComp

%82,7

%77,3

%65,8

*Daha önce %64,7 olarak bildirildi. GPT‑5.3‑Codex orijinal görsel çözünürlüğünü koruyan yeni kullanıma sunulan bir API parametresiyle %74.0 elde eder.

Bilgiye dayalı işler

GPT‑5.2'nin genel akıl yürütme yetenekleri üzerine inşa edilen GPT‑5.4, profesyoneller için kritik öneme sahip gerçek dünya görevlerinde daha tutarlı ve daha rafine sonuçlar sunar.

Otonom ajanların 44 meslek grubunda iyi tanımlanmış bilgi çalışması görevlerini yerine getirme yeteneğini ölçen GDPval değerlendirmesinde GPT‑5.4, yeni bir en ileri seviye performansa ulaşmıştır. Model, karşılaştırmaların %83,0'ında sektör profesyonelleriyle eşit ya da daha iyi sonuç verirken, bu oran GPT‑5.2 için %71,0 düzeyindedir.

GDPval değerlendirmesinde modeller, ABD GSMH'sine en fazla katkı yapan 9 ana sektörden 44 meslek alanını kapsayan gerçek ve net biçimde tanımlanmış bilgiye dayalı işleri yerine getirmeye çalışır. Bu görevler; satış sunumları, muhasebe tabloları, acil bakım planlamaları, üretim diyagramları veya kısa videolar gibi gerçek iş çıktıları üretilmesini gerektirir. Akıl yürütme işlem düzeyi, GPT‑5.4 için xhigh, GPT‑5.2 için heavy olarak ayarlanmıştır (ChatGPT'de biraz daha düşük bir seviye mevcuttur).

"GPT-5.4, şimdiye kadar denediğimiz en iyi model. Profesyonel hizmet çalışmalarındaki model performansını ölçen APEX-Agents kıyaslamamızda liderlik tablosunun zirvesine yerleşti. Slayt sunumları, finansal modeller ve hukuki analizler gibi uzun soluklu çıktılar üretmede üstün performans sergiliyor; üstelik bunu rakip en üst seviye modellere kıyasla daha hızlı ve daha düşük maliyetle gerçekleştiriyor."
- Brendan Foody, Mercor CEO'su

GPT‑5.4'ün özellikle elektronik tablo, sunum ve belge oluşturma ile düzenleme alanındaki yeteneklerini geliştirmeye odaklandık. Genç bir yatırım bankacılığı analistinin gerçekleştirebileceği elektronik tablo modelleme görevlerine yönelik dahili bir kıyaslamada GPT‑5.4, ortalama %87,5 puan elde ederken GPT‑5.2'nin ortalaması ise %68,4 olarak ölçülmüştür. Sunum değerlendirme komutlarından oluşan bir test setinde ise insan değerlendiriciler; daha güçlü estetik anlayış, daha fazla görsel çeşitlilik ve görsel üretimin daha etkili kullanımı nedeniyle sunumların %68,0'ında GPT‑5.4'ü GPT‑5.2'ye tercih etmiştir.

GPT-5.2 ile GPT-5.4'ün elektronik tablo çıktılarının yan yana karşılaştırma örneği

Belgeler oluşturulurken akıl yürütme işlem düzeyi xhigh olarak ayarlanmıştır

Bu yetenekleri ChatGPT'de GPT‑5.4 Thinking veya GPT‑5.4 Pro üzerinden deneyebilirsiniz. Enterprise müşterisiyseniz, bugün kullanıma sunulan yeni ChatGPT for Excel and Google Sheets eklentilerimizi(yeni bir pencerede açılır) de öneririz. Ayrıca Codex ve API'de sunduğumuz elektronik tablo(yeni bir pencerede açılır) ve sunum becerilerini(yeni bir pencerede açılır) de güncelledik.

GPT‑5.4'ü gerçek dünya iş akışlarında daha güvenilir hale getirmek amacıyla halüsinasyonları ve hataları azaltmaya yönelik çalışmalarımızı da sürdürdük. GPT‑5.4 şimdiye kadarki en olgusal modelimizdir. Kullanıcılar tarafından olgusal hata olarak işaretlenen, kimlikten arındırılmış komutlardan oluşan bir test setinde; GPT‑5.4'ün bireysel iddialarının yanlış olma olasılığı GPT‑5.2'ye kıyasla %33 daha düşüktür. Ayrıca, tam yanıtlarının herhangi bir hata içerme olasılığı da %18 daha düşüktür.

"GPT-5.4, kapsamlı belge analizine dayanan hukuki çalışmalar için yeni bir performans standardı belirliyor. BigLaw Bench değerlendirmemizde %91 puan elde etti. Diğer modellere kıyasla GPT-5.4; karmaşık işlemsel analizleri yapılandırma, uzun sözleşmeler boyunca doğruluğu koruma ve hukuk profesyonellerinin ihtiyaç duyduğu yüksek ayrıntı düzeyini sağlama konusunda şu anda daha başarılı."
- Niko Grupen, Harvey’de Uygulamalı Araştırma Başkanı

Bilgisayar kullanımı ve görme

GPT‑5.4, yerleşik bilgisayar kullanım yeteneklerine sahip ilk genel amaçlı modelimizdir ve hem geliştiriciler hem de otonom ajan tabanlı sistemler için önemli bir ilerlemeyi temsil eder. Web siteleri ve yazılım sistemleri genelinde gerçek görevleri yerine getiren otonom ajanlar geliştiren ekipler için şu anda mevcut en iyi modeldir.

GPT‑5.4, geniş bir bilgisayar kullanımı iş yükü yelpazesinde yüksek performans gösterecek şekilde tasarlanmıştır. Model; Playwright gibi kitaplıklar aracılığıyla bilgisayarları çalıştırmak üzere kod yazmada ve ekran görüntülerine yanıt olarak fare ile klavye komutları üretmede son derece başarılıdır. Davranışı, geliştirici mesajları aracılığıyla yönlendirilebilir. Bu sayede geliştiriciler, modeli belirli kullanım senaryolarına uygun şekilde yapılandırabilir. Ayrıca geliştiriciler, özel onay politikaları tanımlayarak modelin güvenlik davranışını farklı risk toleransı seviyelerine göre ayarlayabilir.

Modelin performansı ve esnekliği, farklı ortamlarda bilgisayar kullanımını ölçen kıyaslamalara da yansımaktadır. Ekran görüntüleri ile klavye ve fare eylemleri aracılığıyla bir masaüstü ortamında gezinme yeteneğini değerlendiren OSWorld-Verified kıyaslamasında GPT‑5.4, %75,0 ile en ileri seviye başarı oranına ulaşmıştır. Bu sonuç, GPT‑5.2'nin %47,3'lük performansını açık ara geride bırakmakta ve %72,4 düzeyindeki insan performansını da aşmaktadır.1

Tarayıcı kullanımını değerlendiren WebArena-Verified kıyaslamasında GPT‑5.4; DOM tabanlı ve ekran görüntüsü tabanlı etkileşimi birlikte kullandığında %67,3 ile lider başarı oranına ulaşmıştır. Bu oran, GPT‑5.2'nin %65,4'lük performansının üzerindedir. Tarayıcı kullanımını ölçen bir diğer kıyaslama olan Online-Mind2Web'de GPT‑5.4 yalnızca ekran görüntüsü tabanlı gözlemlerle %92,8 başarı oranına ulaşmıştır. Bu sonuç, %70,9 başarı oranına sahip ChatGPT Atlas Otonom Ajan Modunun güvenilirliğini geride bırakmaktadır.

Araç yanıtını bekleme durumu, asistanın araçlardan gelen yanıtları beklemek üzere kontrolü bırakmasını ifade eder. Örneğin, 3 araç paralel olarak çağrılır ve ardından yine paralel biçimde 3 araç daha çağrılırsa, araç yanıtını bekleme durumu sayısı 2 olur. Araç yanıtını bekleme durumu sayısı, paralelleştirmenin sağladığı kazanımları yansıttığı için, gecikmeyi yalnızca araç çağrısı sayısına göre ölçmekten daha anlamlı bir göstergedir.

GPT‑5.4, bir tarayıcı arayüzünün ekran görüntülerini yorumlar ve koordinat tabanlı tıklama yoluyla kullanıcı arayüzü öğeleriyle etkileşime girerek e-posta gönderme ve takvim etkinliği planlama gibi işlemleri gerçekleştirir.

GPT‑5.4'ün gelişmiş bilgisayar kullanımı yetenekleri, modelin genel görsel algı kapasitesindeki iyileştirmelere dayanmaktadır. Modelin görsel anlama ve akıl yürütme performansını ölçen MMMU-Pro kıyaslamasında GPT‑5.4, araç kullanmadan %81,2 başarı oranına ulaşarak GPT‑5.2'nin %79,5'lik performansını geride bırakmıştır. Geliştirilmiş görsel algı, daha iyi belge ayrıştırma performansına da yansımaktadır. OmniDocBench kıyaslamasında GPT‑5.4, akıl yürütme işlem düzeyi olmadan, model tahmini ile gerçek değer arasındaki normalize edilmiş düzenleme mesafesiyle ölçülen ortalama hata oranında 0,109 değerine ulaşmış; bu sonuç GPT‑5.2'nin 0,140'lık değerine kıyasla iyileşme göstermiştir.

MMMUPro çalıştırılırken akıl yürütme işlem düzeyi xhigh olarak ayarlanmıştır. OmniDocBench, düşük maliyetli ve düşük gecikmeli performansı yansıtmak amacıyla akıl yürütme işlem düzeyi ayarı "none" olarak ayarlanmış şekilde çalıştırıldı.

Ayrıca tam doğruluğun kritik olduğu yoğun ve yüksek çözünürlüklü görseller için görsel anlama kapasitemizi daha da geliştirdik. GPT‑5.4 ile birlikte, toplam 10,24 milyon piksele veya maksimum 6000 piksel boyuta (hangisi daha düşükse) kadar tam doğrulukta algıyı destekleyen bir orijinal görsel girdi ayrıntı(yeni bir pencerede açılır) düzeyi sunuyoruz. Yüksek görsel girdi ayrıntı düzeyi ise artık toplam 2,56 milyon piksele veya maksimum 2048 piksel boyuta kadar desteklemektedir. API kullanıcılarıyla yürütülen erken testlerde, orijinal veya yüksek ayrıntı düzeyi kullanıldığında konum belirleme doğruluğunda, genel görsel anlama performansında ve tıklama hassasiyetinde güçlü iyileşmeler gözlemlenmiştir.

"Yaklaşık 30 bin HOA ve emlak vergisi portalı genelinde bilgisayar kullanım performansını ölçen değerlendirmelerimizde GPT-5.4, ilk denemede %95 başarı oranına, üç deneme içinde ise %100 başarıya ulaştı. Önceki CUA modellerinde bu oran yaklaşık %73-%79 aralığındaydı. Ayrıca oturumları yaklaşık 3 kat daha hızlı tamamladı ve yaklaşık %70 daha az token kullandı. Bu da ölçekli kullanımda hem güvenilirliği hem de maliyet verimliliğini önemli ölçüde artırdı."
- Dod Fraser, Mainstay CEO'su

API'de geliştiriciler, güncellenmiş bilgisayar aracını kullanarak bu yeteneklere erişebilir. Önerilen en iyi uygulamalar için güncellenmiş belgelerimizi(yeni bir pencerede açılır) inceleyebilirsiniz.

Kodlama

GPT‑5.4; GPT‑5.3‑Codex'in güçlü kodlama kapasitesini, uzun soluklu görevlerde modelin araç kullanabildiği, yineleme yapabildiği ve süreci daha az manuel müdahaleyle ilerletebildiği senaryolarda kritik öneme sahip lider bilgi odaklı çalışması ve bilgisayar kullanım yetenekleriyle bir araya getirir. Model, akıl yürütme çalışmalarında daha düşük gecikme sunarken, SWE-Bench Pro kıyaslamasında GPT‑5.3‑Codex ile aynı düzeyde performans gösterir ya da onu geride bırakır.

Modellerimizin canlı kullanım ortamındaki davranışlarını analiz ederek ve bu davranışı offline simüle ederek gecikmeyi tahmin ediyoruz. Gecikme tahmininde araç çağrısı süresi (örn. kod çalıştırma süresi), örneklenen token'lar ve girdi token'ları dikkate alınır. Gerçek dünyadaki gecikme önemli ölçüde değişkenlik gösterebilir ve simülasyonumuzda yakalanmayan birçok etkene bağlıdır. Akıl yürütme işlem düzeyi, none'dan xhigh'a yükseltildi.

/fast modu, Codex'te etkinleştirildiğinde GPT‑5.4 ile token hızını 1.5 kata kadar artırır. Aynı model, aynı zeka, ama daha hızlısıdır. Bu da kullanıcıların kodlama görevlerinde, yineleme ve hata ayıklama süreçlerinde akışı kesintiye uğratmadan ilerleyebilmesi anlamına gelir. Geliştiriciler, öncelikli işlem(yeni bir pencerede açılır) kullanarak API üzerinden GPT‑5.4'e aynı hızlarda erişebilir.

Değerlendirme ve dahili testlerde, GPT‑5.4'ün karmaşık en üst seviye görevlerde üstün performans gösterdiğini; şimdiye kadar yayınladığımız modeller arasında en estetik ve en işlevsel çıktıları ürettiğini gözlemledik.

Modelin iyileştirilmiş bilgisayar kullanımı ve kodlama yeteneklerinin birlikte çalışmasını göstermek amacıyla, "Playwright (Interactive)(yeni bir pencerede açılır)" adlı deneysel bir Codex becerisini de yayınlıyoruz. Bu özellik, Codex’in web ve Electron uygulamalarında görsel hata ayıklama yapmasını sağlar; hatta bir uygulamayı geliştirirken eş zamanlı testler yürütmek için de kullanılabilir.

Tek bir hafif tanımlanmış komut ile GPT‑5.4 kullanılarak oluşturulan tema parkı simülasyon oyunu; tarayıcıda oyun testi için Playwright Interactive kullanılarak, izometrik varlık seti için ise görsel oluşturma kullanılarak geliştirildi. Simülasyon; karo düzenine dayalı yol yerleştirme, eğlence ünitesi ve çevre inşası, ziyaretçi yol bulma, kuyruk yönetimi ve sürüş döngülerini içerir. Bütçe, ziyaretçi sayısı, mutluluk düzeyi, temizlik ve puan gibi park metrikleri, yerleşim performansına ve ziyaretçilerin tepkilerine bağlı olarak artar veya azalır. Parkın inşa edilip genişletilmesini, yolların ve yapıların eklenip kaldırılmasını, kamera navigasyonunun kontrol edilmesini ve ziyaretçilerin, kuyrukların, sürüş durumlarının ve kullanıcı arayüzü metriklerinin birden fazla oyun turu boyunca doğru şekilde güncellendiğinin doğrulanmasını otomatikleştirmek için Playwright kullanılmıştır.

Komut: $playwright-interactive ve $imagegen kullan. Tarayıcıda inşa edebileceğim ve içinde gezinebileceğim etkileşimli, izometrik bir tema parkı simülasyon oyunu oluştur. Genel görsel vizyonu belirlemek ve eğlence üniteleri, yollar, arazi, ağaçlar, su öğeleri, yiyecek stantları, dekorasyonlar, binalar, ikonlar ve kullanıcı arayüzü illüstrasyonları gibi oyun varlıklarını oluşturmak için imagegen becerisini kullan. Oluşturulan dünya; uyumlu, tamamlanmış ve görsel olarak zengin bir estetik sunmalı; izometrik açıdan güçlü ve yüksek kaliteli bir sanat yönetimiyle tasarlanmış olmalı. Park içinde yolları yerleştirip kaldırabilmeli, eğlence üniteleri ekleyebilmeli, çevresel öğeleri konumlandırabilmeli ve ziyaretçi hareketliliğini, sürüş durumlarını ve parkın büyümesini izlerken park içinde akıcı biçimde dolaşabilmeliyim. Ziyaretçilerin inandırıcı hareketini, para, temizlik, kuyruk yönetimi ve mutluluk düzeyi gibi temel park yönetim sistemlerini dahil et ve deneyimin kaba bir prototipten ziyade eğlenceli, net ve tamamlanmış hissettirmesini sağla. Gerçekçilikten çok çekiciliğe, okunabilirliğe ve güçlü bir oyun hissine öncelik ver. 

Oyun testi sırasında parkı birkaç oyun turu boyunca inşa edip genişlettiğinden emin ol; yerleştirme ve navigasyonun sorunsuz çalıştığını doğrula; ziyaretçilerin park düzenine ve eğlence ünitelerine anlamlı biçimde tepki verdiğini teyit et ve görsellerin, kullanıcı arayüzünün ve etkileşimlerin stabil ve tutarlı bir deneyim sunduğundan emin ol.

"Mühendislerimiz GPT-5.4'ü önceki modellere kıyasla daha doğal ve daha kararlı buluyor. Belirsiz problemler üzerinde kendini ikinci kez sorgulamadan ilerliyor ve işleri sürdürmek için paralelleştirme konusunda proaktif davranıyor."
- Lee Robinson, Cursor'da Geliştirici Eğitiminden Sorumlu Başkan Yardımcısı

Araç kullanımı

GPT‑5.4 ile birlikte, modellerin harici araçlarla etkileşim biçimini önemli ölçüde geliştirdik. Otonom ajanlar artık daha geniş araç ekosistemlerinde çalışabilir, doğru araçları daha güvenilir biçimde seçebilir ve çok adımlı iş akışlarını daha düşük maliyet ve gecikmeyle tamamlayabilir.

Araç arama

API'de GPT‑5.4, modellerin çok sayıda araçla çalışırken verimliliğini artıran araç arama(yeni bir pencerede açılır) özelliğini sunuyor.

Önceki yaklaşımda, bir modele araçlar sağlandığında tüm araç tanımları, komutun başına eklenirdi. Çok sayıda araç içeren sistemlerde bu durum, her isteğe binlerce hatta on binlerce token ekleyerek maliyeti artırabilir, yanıt süresini uzatabilir ve modelin hiç kullanmayabileceği bilgilerle bağlamı gereksiz biçimde doldurabilirdi.

Araç arama ile GPT‑5.4 bunun yerine, araç arama yeteneğiyle birlikte mevcut araçların hafif bir listesini alır. Model, bir aracı kullanması gerektiğinde, ilgili aracın tanımını o anda arayıp bulur ve yalnızca gerektiğinde konuşma bağlamına ekler.

Bu yaklaşım, araçların yoğun olduğu iş akışlarında gereken toplam token sayısını önemli ölçüde azaltır; önbelleği koruyarak istekleri daha hızlı ve daha düşük maliyetli hale getirir. Ayrıca otonom ajanların çok daha geniş araç ekosistemleriyle güvenilir biçimde çalışmasını mümkün kılar. Araç tanımlarında on binlerce token barındırabilen MCP sunucuları söz konusu olduğunda, verimlilik kazanımları kayda değer düzeyde olabilir.

Verimlilik kazanımlarını göstermek amacıyla Scale'in MCP Atlas(yeni bir pencerede açılır) kıyaslamasından 250 görevi; 36 MCP sunucusunun tamamı etkin olacak şekilde iki modda değerlendirdik: (1) Her MCP işlevini doğrudan model bağlamında sunarak ve (2) Tüm MCP sunucularını araç arama katmanının arkasına yerleştirerek. Araç arama yapılandırması, aynı doğruluk düzeyini korurken toplam token kullanımını %47 oranında azaltmıştır.

Örnek token sayıları, MCP-Atlas herkese açık veri setinde yer alan 250 görevin ortalaması alınarak hesaplanmıştır.

Otonom ajan tabanlı araç çağrısı

GPT‑5.4, araç çağrısı mekanizmasını da geliştirmiştir. Özellikle API'de, modelin akıl yürütme süreci sırasında araçları ne zaman ve nasıl kullanacağına karar verme becerisi daha doğru ve daha verimli hale getirilmiştir.  GPT‑5.2 ile karşılaştırıldığında GPT‑5.4, gerçek dünya araçları ve API'leri kullanarak çok adımlı görevleri tamamlama becerisini ölçen Toolathlon kıyaslamasında daha az turda daha yüksek doğruluk elde eder. Örneğin, bir otonom ajanın; e-postaları okuması, ödev eklerini çıkarması, bunları karşıya yüklemesi, notlandırması ve sonuçları bir elektronik tabloya kaydetmesi gerekebilir.

Araç yanıtını bekleme durumu, asistanın araçlardan gelen yanıtları beklemek üzere kontrolü bırakmasını ifade eder. Örneğin, 3 araç paralel olarak çağrılır ve ardından yine paralel biçimde 3 araç daha çağrılırsa, araç yanıtını bekleme durumu sayısı 2 olur. Araç yanıtını bekleme durumu sayısı, paralelleştirmenin sağladığı kazanımları yansıttığı için, gecikmeyi yalnızca araç çağrısı sayısına göre ölçmekten daha anlamlı bir göstergedir.

GPT‑5.4, gecikmeye duyarlı kullanım senaryolarında, akıl yürütme işlem düzeyinin None olarak tercih edildiği durumlarda da önceki sürümlere kıyasla ek iyileştirmeler sunar.

τ2-bench⁠(yeni bir pencerede açılır) değerlendirmesinde model, bir müşteri hizmetleri görevini tamamlamak için araçları kullanmak zorundadır; bu senaryoda, modelle iletişim kurabilen ve sistemin durumuna etki edebilen simüle edilmiş bir kullanıcı bulunabilir. Akıl yürütme işlem düzeyi None olarak ayarlanmıştır.

İyileştirilmiş web araması

GPT‑5.4, otonom ajan tabanlı web aramasında daha güçlüdür. Yapay zeka otonom ajanlarının zor bulunan bilgileri tespit etmek amacıyla web'de ısrarla gezinme yeteneğini ölçen BrowseComp kıyaslamasında GPT‑5.4, GPT‑5.2'ye kıyasla mutlak %17’lik bir artış gösterir. GPT‑5.4 Pro ise %89,3 ile yeni bir en ileri seviye performans sunar.

Pratikte bu, GPT‑5.4 Thinking'in web üzerindeki çok sayıda kaynaktan bilgileri bir araya getirmeyi gerektiren sorulara yanıt vermede daha güçlü olduğu anlamına gelir. Özellikle "samanlıkta iğne arama" türündeki sorularda, en ilgili kaynakları belirlemek için birden fazla tur boyunca daha tutarlı arama yapabilir ve bulguları açık, iyi temellendirilmiş bir yanıta sentezleyebilir.

BrowseComp değerlendirmesinde, kıyaslama yanıtlarını içeren web sitelerini kapsam dışı bırakan bir arama engelleme listesi kullandık. Bu yaklaşım, değerlendirme verisi sızıntısını önlemeyi ve performansı adil bir şekilde ölçmeyi amaçlamaktadır. GPT‑5.4, GPT‑5.2'den daha sonraki bir tarihte ölçülmüştür. Bu nedenle sonuçlar; modelde, arama sistemimizde ve internet içeriğinde zaman içinde meydana gelen değişiklikleri yansıtabilir. GPT‑5.4, daha kapsamlı ve güncellenmiş bir engelleme listesiyle test edilmiştir. Modeller, ChatGPT arama aracını kullanmaktadır; bu araç, API aramasına kıyasla küçük farklılıklar gösterebilir.

"GPT-5.4 xhigh, çok adımlı araç kullanımı için yeni bir en ileri seviye performans sunar. Zapier, sektördeki en kapsamlı araç kullanımı kıyaslamalarından bazılarını yürütüyor ve modelleri yüzlerce gelişmiş gerçek dünya iş akışı üzerinden test ediyor. GPT-5.4, önceki modellerin vazgeçtiği noktada görevi tamamladı. Bu, bugüne kadarki en ısrarcı model."
- Wade, Zapier CEO'su

Yönlendirilebilirlik

Codex'in çalışmaya başlamadan önce yaklaşımını ana hatlarıyla açıklamasına benzer şekilde GPT‑5.4 Thinking de artık ChatGPT'de daha uzun ve karmaşık sorgular için yanıt öncesinde kısa bir plan özeti sunar. Yanıt süreci sırasında ek talimatlar verebilir veya talimatların yönünü ayarlayabilirsiniz. Bu sayede baştan başlamaya ya da çok sayıda ek tur yürütmeye gerek kalmadan modeli istediğiniz sonuca yönlendirmek daha kolay hale gelir. Bu özellik şu anda chatgpt.com(yeni bir pencerede açılır)'da ve Android uygulamasında kullanılabilmekte; iOS uygulamasında da yakında sunulacaktır.

Model, konuşmanın önceki adımlarına ilişkin daha güçlü bağlamsal farkındalığını korurken, zor görevler üzerinde daha uzun süre akıl yürütebilir. Bu sayede yanıtların bütünlüğünü ve alaka düzeyini muhafaza ederek daha uzun iş akışlarını ve daha karmaşık istemleri etkili biçimde ele alabilir.

Bu video, açıklayıcı amaçlarla hızlandırılmıştır.

Güvenlik

Son aylarda GPT‑5.4'ü kullanıma hazırlarken, GPT‑5.3‑Codex ile birlikte sunduğumuz güvenlik önlemlerini daha da geliştirdik. GPT‑5.3‑Codex'te olduğu gibi, GPT‑5.4'ü de Risklere Hazırlık Çerçevemiz kapsamında Yüksek siber yetenek düzeyinde değerlendiriyor ve sistem kartında açıklandığı şekilde ilgili korumalarla devreye alıyoruz. Bu korumalar; genişletilmiş bir siber güvenlik altyapısını, gelişmiş izleme sistemlerini, güvenilir erişim kontrollerini ve Sıfır Veri Saklama (ZDR) yüzeylerindeki müşteriler için daha yüksek riskli taleplere yönelik asenkron engelleme mekanizmalarını kapsar. Ayrıca daha geniş güvenlik ekosistemine yönelik sürekli yatırımlarımız da bu çerçevede sürmektedir.

Siber güvenlik yeteneklerinin doğası gereği çift kullanımlı olması nedeniyle, politikalarımızı ve sınıflandırıcılarımızı kalibre etmeye devam ederken devreye alma sürecinde ihtiyatlı bir yaklaşım benimsiyoruz. ZDR yüzeylerindeki belirli müşteriler için istek düzeyinde engelleme, siber risk azaltma altyapımızın bir parçası olmaya devam etmektedir. Sınıflandırıcılar halen geliştirilme aşamasında olduğundan, güvenlik önlemlerini iyileştirme sürecinde zaman zaman yanlış pozitifler görülebilir. Bu güncellemeler; kötüye kullanıma karşı güçlü korumaları sürdürürken, gereksiz reddetmeleri ve aşırı çekinceli yanıtları azaltarak güvenlik önlemlerinin pratikteki işleyişini iyileştirmeyi amaçlamaktadır.

Modellerin nasıl akıl yürüttüğünü daha iyi anlamak ve potansiyel kötüye kullanımı tespit etmeye yardımcı olmak amacıyla Düşünce Zinciri izlenebilirliği üzerine güvenlik araştırmalarımızı sürdürdük. Bu kapsamda, modellerin izlemeyi atlatmak amacıyla akıl yürütmelerini bilinçli olarak gizleyip gizleyemediğini ölçen yeni bir açık kaynak değerlendirmesi olan düşünce zincirinin kontrol edilebilirliği yaklaşımını sunuyoruz. Bulgularımıza göre GPT‑5.4 Thinking'in düşünce zincirini kontrol etme yeteneği zayıftır. Bu durum, güvenlik açısından olumlu bir özelliktir; modelin akıl yürütmesini bilinçli olarak gizleme kapasitesine sahip olmadığını ve düşünce zinciri izlenebilirliğinin etkili bir güvenlik aracı olmaya devam ettiğini göstermektedir.

Kullanılabilirlik ve fiyatlandırma

GPT‑5.4, bugün itibarıyla ChatGPT ve Codex genelinde kademeli olarak kullanıma sunulmaktadır. API'de GPT‑5.4 şu anda gpt-5.4 adıyla erişilebilir durumdadır. GPT‑5.4 Pro, en karmaşık görevlerde en yüksek performansa ihtiyaç duyan geliştiriciler için API'de gpt-5.4-pro adıyla sunulmaktadır.

ChatGPT'de GPT‑5.4 Thinking, bugünden itibaren ChatGPT Plus, Team ve Pro kullanıcılarının erişimine açıktır ve GPT‑5.2 Thinking'in yerini alır. GPT‑5.2 Thinking, ücretli kullanıcılar için Eski Modeller bölümünde üç ay boyunca erişilebilir kalacak; 5 Haziran 2026 tarihinde ise kullanımdan kaldırılacaktır. Enterprise ve Edu planına sahip kullanıcılar ise yönetici ayarları üzerinden erken erişimi etkinleştirebilir. GPT‑5.4 Pro; Pro ve Enterprise planlarında kullanılabilir. ChatGPT'de bağlam pencereleri(yeni bir pencerede açılır), GPT‑5.4 Thinking için, GPT‑5.2 Thinking ile aynı şekilde değişmeden kalır.

GPT‑5.4, GPT‑5.3‑codex'in en üst seviye kodlama yeteneklerini entegre eden ilk ana akım akıl yürütme modelimizdir ve ChatGPT, API ve Codex genelinde erişime açılmıştır. Bu ilerlemeyi yansıtmak ve Codex kullanırken modeller arasındaki seçimi kolaylaştırmak amacıyla modeli GPT‑5.4 olarak adlandırdık. Zaman içinde Instant ve Thinking model ailelerimizin farklı hızlarda gelişmeye devam etmesini bekleyebilirsiniz.

Codex'te GPT‑5.4, 1 milyon token'lık bağlam penceresi için deneysel destek sunar. Geliştiriciler bu özelliği, model_context_window ve model_auto_compact_token_limit ayarlarını yapılandırarak deneyebilir. Standart 272.000 token'lık bağlam penceresini aşan istekler, kullanım limitlerine normal oranın 2 katı üzerinden yansıtılır.

API'de GPT‑5.4, iyileştirilmiş yeteneklerini yansıtacak şekilde GPT‑5.2'ye kıyasla token başına daha yüksek fiyatlandırılmaktadır. Bununla birlikte, artan token verimliliği birçok görevde ihtiyaç duyulan toplam token miktarını azaltarak genel maliyeti dengelemeye yardımcı olabilir. Toplu ve Esnek fiyatlandırma seçenekleri, standart API ücretinin yarısı oranında sunulurken; Öncelikli işlem, standart API ücretinin iki katı oranında sunulmaktadır.

API modeli

Girdi fiyatı

Önbelleğe alınmış girdi fiyatı

Çıktı fiyatı

gpt-5.2

1,75 $ / 1 milyon token

0,175 $ / 1 milyon token

14 $ / 1 milyon token

gpt-5.4

2,50 $ / 1 milyon token

0,25 $ / 1 milyon token

15 $ / 1 milyon token

gpt-5.2-pro

21 $ / 1 milyon token

-

168 $ / 1 milyon token

gpt-5.4-pro

30 $ / 1 milyon token

-

180 $ / 1 milyon token

Değerlendirmeler

Profesyonel

Değerlendirme

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

%83,0

%82,0

%70,9

%70,9

%74,1

FinanceAgent v1.1

%56,0

%61,5

%54,0

%59,5

-

Yatırım Bankacılığı Modelleme Görevleri (Dahili)

%87,3

%83,6

%79,3

%68,4

%71,7

OfficeQA

%68,1

-

%65,1

%63,1

-

Kodlama

Değerlendirme

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Herkese Açık)

%57,7

-

%56,8

%55,6

-

Terminal-Bench 2.0

%75,1

-

%77,3

%62,2

-

Bilgisayar kullanımı ve görme

Değerlendirme

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

%75,0

-

%74,0

%47,3

-

MMMU Pro (araçsız)

%81,2

-

-

%79,5

-

MMMU Pro (araçlı)

%82,1

-

-

%80,4

-

Araç kullanımı

Değerlendirme

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

%82,7

%89,3

%77,3

%65,8

%77,9

MCP Atlas

%67,2

-

-

%60,6

-

Toolathlon

%54,6

-

%51,9

%45,7

-

Tau2-bench Telecom

%98,9

-

-

%98,7

-

Akademik

Değerlendirme

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

En Üst Seviye Bilimsel Araştırmalar

%33,0

%36,7

-

%25,2

-

FrontierMath Tier 1–3

%47,6

-

-

%40,7

-

FrontierMath Tier 4

%27,1

%38,0

-

%18,8

%31,3

GPQA Diamond

%92,8

%94,4

%92,6

%92,4

%93,2

Humanity's Last Exam (araçsız)

%39,8

%42,7

-

%34,5

%36,6

Humanity's Last Exam (araçlı)

%52,1

%58,7

-

%45,5

%50,0

Uzun bağlam

Değerlendirme

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128.000

%93,0

-

-

%94,0

-

Graphwalks BFS 256.000–1 milyon

%21,4

-

-

-

-

Graphwalks üst düğüm 0–128.000 (doğruluk)

%89,8

-

-

%89,0

-

Graphwalks üst düğüm 256.000–1 milyon (doğruluk)

%32,4

-

-

-

-

OpenAI MRCR v2 8-needle 4000–8000

%97,3

-

-

%98,2

-

OpenAI MRCR v2 8-needle 8000–16.000

%91,4

-

-

%89,3

-

OpenAI MRCR v2 8-needle 16.000–32.000

%97,2

-

-

%95,3

-

OpenAI MRCR v2 8-needle 32.000–64.000

%90,5

-

-

%92,0

-

OpenAI MRCR v2 8-needle 64.000–128.000

%86,0

-

-

%85,6

-

OpenAI MRCR v2 8-needle 128.000–256.000

%79,3

-

-

%77,0

-

OpenAI MRCR v2 8-needle 256.000–512.000

%57,5

-

-

-

-

OpenAI MRCR v2 8-needle 512.000–1 milyon

%36,6

-

-

-

-

Soyut akıl yürütme

Değerlendirme

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Verified)

%93,7

%94,5

-

%86,2

%90,5

ARC-AGI-2 (Verified)

%73,3

%83,3

-

%52,9

54.2% (high)

Akıl yürütme olmadan değerlendirmeler

Değerlendirme

GPT‑5.4
(none)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (normalize edilmiş düzenleme mesafesi)

0,109

0,140

Tau2-bench Telecom

%64,3

%57,2

%43,6

Aksi belirtilmedikçe değerlendirmeler, akıl yürütme düzeyi xhigh olarak ayarlanarak gerçekleştirilmiştir. Kıyaslamalar bir araştırma ortamında yürütülmüştür; bu nedenle bazı durumlarda canlı ChatGPT ortamındaki çıktılardan hafif farklılıklar görülebilir.