Kodlama ve ajan tabanlı görevler için en iyi modelimiz olan GPT‑5’i bugün API platformumuzda kullanıma sunuyoruz.
Temel kodlama kıyaslamalarında üstün (SOTA) performans sergileyen GPT‑5, SWE-bench Verified’da %74,9, Aider Polyglot’ta %88 başarıya ulaşıyor. GPT‑5’i gerçek bir kodlama yardımcısı olmak üzere eğittik. Yüksek kaliteli kod üretmekte olağanüstü performans sunan model; hata düzeltme, kod düzenleme ve karmaşık kod tabanlarına ilişkin soruları yanıtlama gibi görevleri başarılı bir şekilde yerine getiriyor. İş birliğine dayalı, yönlendirilebilir bir model olan GPT‑5, oldukça detaylı talimatları yüksek doğrulukla takip edebiliyor; araç çağrılarının öncesinde ve arasında eylemleri hakkında bilgilendirmelerde bulunuyor. Ön uç kodlamada da başarılı olan model; iç testlerin %70’inde ön uç web geliştirme konusunda OpenAI o3’ü geride bırakıyor.
Erken aşama testlerinde farklı girişimlerden ve kurumlardan kişilerle iş birliği kurarak GPT‑5’i gerçek kodlama görevleri için eğittik. Cursor, GPT‑5’in “[kullandıkları] en akıllı model” olduğunu belirtiyor ve “şaşırtıcı derecede zeki, kolay yönlendirilebilir olduğunu hatta diğer modellerde [görmedikleri] bir kişiliğe sahip olduğunu” söylüyor. Windsurf, kendi değerlendirmelerinde GPT‑5’in üstün (SOTA) performans sergilediğini belirterek “araç çağrısı hata oranının diğer öncü modellerin yarısı kadar olduğunu” söylüyor. Vercel, onun “ön uç kodlama konusunda en iyi yapay zeka modeli olduğunu ve hem estetik açıdan hem de kod kalitesi anlamında üstün performans göstererek başlı başına ayrı bir kategoride yer aldığını” söylüyor.
Ajan tabanlı uzun vadeli görevlerde de son derece başarılı olan GPT‑5, sadece 2 ay önce yayımlanan ve araç çağırma performansını ölçen τ2-bench telecom’da %96,7 ile üstün (SOTA) performans sergiliyor. Gelişmiş araç zekası sayesinde onlarca araç çağrısını hem sıralı hem de paralel olarak güvenilir bir şekilde birbirine bağlayan GPT‑5 bu süreçte yolunu kaybetmiyor ve gerçek hayattaki karmaşık görevleri baştan sona yerine getirmede çok daha başarılı. Ayrıca talimatları daha hassas bir şekilde uyguluyor, araç hatalarını daha iyi ele alıyor ve uzun bağlamlı bilgi erişiminde üstün performans gösteriyor. Manus, GPT‑5’in “[kendi] iç kıyaslamalarında bugüne kadar tek bir modelde [gördükleri] en iyi performansı yakaladığını” belirtiyor. Notion, “özellikle düşük akıl yürütme modunda [modelin] verdiği hızlı yanıtlar sayesinde GPT‑5’in karmaşık görevleri tek seferde tamamlamak için ideal bir model olduğunu” söylüyor. Inditex, “[GPT‑5’i] diğerlerinden farklı kılan asıl özelliğin derin akıl yürütme yeteneği olduğunu” belirterek modelin “konuyu gerçekten anladığını gösteren detaylı, çok katmanlı yanıtlarının” altını çiziyor.
Geliştiricilerin, model yanıtlarını daha iyi kontrol etmesini sağlamak için API’mizde yeni özellikleri kullanıma sunuyoruz. GPT‑5, yanıtların kısa ve net ya da uzun ve kapsamlı olmasını belirlemeyi kolaylaştırmak için ayrıntı düzeyini düşük, orta, yüksek değerlerde ayarlama olanağı tanıyan yeni bir verbosity parametresini destekliyor. Artık GPT‑5’in reasoning_effort parametresine minimal bir değer atayarak, başlangıçta kapsamlı akıl yürütme yeteneğini kullanmadan daha hızlı yanıtlar almak mümkün. GPT‑5’in araç çağrılarında JSON yerine düz metin kullanmasını sağlamak için, özel araçlar adını verdiğimiz yeni bir araç türü de ekledik. Özel araçlar, geliştiricilerin bağlamdan bağımsız dil kurallarıyla sınırlandırmalar yapmasına olanak tanıyor.
Geliştiricilerin performans, maliyet ve gecikme süresi açısından dengeli seçimler yapmalarını kolaylaştırarak onlara daha fazla esneklik sağlamak için, API’de GPT‑5’i gpt-5, gpt-5-mini ve gpt-5-nano olmak üzere üç farklı boyutuyla kullanıma sunuyoruz. ChatGPT’de sunulan GPT‑5; akıl yürütme modelleri, akıl yürütme yeteneğini kullanmadan basit cevaplar veren modeller ve bunların hangisinin kullanılacağını belirleyen yönlendirici modellerden oluşan bir sistemdir. API’de sunulan GPT‑5 ise ChatGPT’nin maksimum performansa ulaşmasını sağlayan akıl yürütme modelidir. Minimal akıl yürütme seçeneğine sahip olmasıyla öne çıkan GPT‑5, ChatGPT’de akıl yürütme yeteneğini kullanmadan basit cevaplar veren modelden farklıdır ve geliştiriciler için daha kullanışlıdır. ChatGPT’de akıl yürütme yeteneğini kullanmadan basit cevaplar veren model gpt-5-chat-latest adıyla kullanıma sunuldu.
ChatGPT’de sunulan GPT‑5 hakkında bilgi almak ve ChatGPT’ye ilişkin diğer gelişmeleri öğrenmek için araştırma blogumuza göz atabilirsiniz. İşletmelerin GPT‑5’i kullanmak konusunda ne kadar heyecanlı olduğunu görmek için iş dünyası blogumuza göz atabilirsiniz.
GPT‑5’in kodlama yetenekleri, bugüne kadar yayınladığımız tüm modelleri geride bırakıyor. Çeşitli kodlama kıyaslamalarında ve gerçek kullanım örneklerinde o3’ten daha iyi performans sergileyen modelin Cursor, Windsurf, GitHub Copilot ve Codex CLI gibi ajan tabanlı kodlama ürünlerinde öne çıkmasını sağlamak için hassas ayarlamalar yapıldı. GPT‑5, alfa sürümü test eden ekiplerin özel iç değerlendirmelerinin birçoğunda rekorlar kırarak etkileyici bir performans sergiledi.
GPT‑5’in gerçek kodlama görevleri hakkındaki ilk geri bildirimler
“GPT-5 bugüne kadar kullandığımız en akıllı model. Ekibimiz onun şaşırtıcı derecede zeki ve kolay yönlendirilebilir olduğunu hatta hiçbir diğer modelde görmedikleri bir kişiliğe sahip olduğunu düşünüyor. Sadece derinlerde gizlenen, karmaşık hataları tespit etmekle kalmıyor; uzun süren, çok adımlı alt görevleri ajanlar aracılığıyla arka planda yürüterek, önceki modellerin yarıda bıraktığı zor görevleri tamamlıyor. GPT-5, kapsam belirleme ve PR planlamadan uçtan uca yapıları tamamlamaya kadar her şey için günlük itici gücümüz haline geldi.”
GPT‑5, gerçek yazılım mühendisliği görevlerinden oluşan SWE-bench Verified değerlendirmesinde o3’ün %69,1’lik performansının üzerine çıkarak %74,9’luk başarıya ulaştı. Üstelik, GPT‑5 bu yüksek skora daha verimli ve daha hızlı bir şekilde ulaşıyor. Yüksek düzeyde akıl yürütme yeteneğine sahip o3’le kıyaslandığında, GPT‑5’in çıktı tokeni kullanımı %22, araç çağrısı kullanımı %45 azalıyor.
SWE-bench Verified testinde, bir modele bir kod deposu ve sorun tanımı verilerek, sorunu çözecek bir yama üretmesi istenir. Akıl yürütme seviyesi, metin formatında açıklamalarla belirlenir. Toplam 500 problem arasından, altyapımızda her seferinde güvenilir çözümler sunmayan 23 tanesini değerlendirmemize dâhil etmedik. GPT‑5’e kısa bir istem girerek çözümleri kapsamlı bir şekilde doğrulamasının altını çizdik. Aynı istem, o3’te işe yaramadı.
Kod düzenleme yeteneklerini değerlendiren Aider polyglot testinde %88 ile yeni bir rekor kıran GPT‑5, o3 ile kıyaslandığında hata oranını üçte bir azaltıyor.
Aider polygot(yeni bir pencerede açılır) (diff) kıyaslamasında, bir modele Exercism’den bir kodlama egzersizi verilerek çözümü code diff (kod farklılıkları) formatında yazması istenir. Akıl yürütme modelleri, yüksek akıl yürütme düzeyinde çalıştırılmıştır.
GPT‑5, çeşitli parçaların birlikte veya ayrı ayrı çalışma şekillerine dair soruları yanıtlamak için kod tabanlarını derinlemesine araştırma konusunda kusursuz bir performans sergiliyor. OpenAI’ın takviyeli öğrenme altyapısı gibi karmaşık bir kod tabanında bile, GPT‑5’in kodumuzla ilgili akıl yürütmemize ve sorularımızı yanıtlamaya yardımcı olarak kendi günlük işlerimize hız kazandırdığını gördük.
GPT‑5, web uygulamaları için ön uç geliştirirken daha estetik, daha iddialı ve daha doğru çıktılar üretiyor. o3 ile yan yana kıyaslandığında, test ekiplerimiz değerlendirmelerin %70’inde GPT‑5’i tercih etti.
GPT‑5’in tek bir istemle neler yapabileceğine dair özenle seçilmiş, eğlenceli örnekleri aşağıda bulabilirsiniz.
İstem: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
GPT‑5’le ilgili daha fazla örnek için buradan(yeni bir pencerede açılır) galerimize göz atabilirsiniz.
GPT‑5 özellikle Cursor, Windsurf, GitHub Copilot ve Codex CLI gibi ajan tabanlı kodlama ürünlerinde size daha fazla yardımcı oluyor. GPT‑5 çalışırken araç çağrıları arasında size planlar, güncellemeler ve özetler sunabiliyor. Önceki modellerimize kıyasla daha proaktif olan GPT‑5, zorlu görevleri tamamlarken sizden onay istemek için duraksamıyor veya fazlasıyla karmaşık görevlerde tereddüde düşmüyor.
GPT‑5’in, bir restoran için web sitesi hazırlama gibi karmaşık bir görevi nasıl ele aldığına ilişkin örneği aşağıda bulabilirsiniz:
Kullanıcı, restoranı için bir web sitesi istedikten sonra GPT‑5 hemen işe koyuluyor. Planını kullanıcıyla paylaşıyor, uygulamayı yapılandırıyor, bağımlılıkları yüklüyor, site içeriğini oluşturuyor, derleme hatalarını kontrol etmek için bir versiyonu çalıştırıyor, yaptığı işleri özetliyor ve ileriye dönük önerilerde bulunuyor. Bu video, fazla vaktinizi almamak için üç kat hızla oynatılmaktadır. Web sitesinin tamamlanması yaklaşık üç dakika sürmüştür.
GPT‑5, sadece ajan tabanlı kodlamada değil, ajan tabanlı görevlerin çoğunda daha iyi performans sergiliyor. Talimatlara uyma ve araç çağırma yeteneklerini ölçen kıyaslamalarda yeni rekorlara imza atan GPT‑5, Scale MultiChallenge’da o3‑mini’nin değerlendirmesine göre %69,6’lık, τ2-bench telecom’da ise %96,7’lik başarıya ulaşıyor. GPT‑5, araç kullanma zekasındaki gelişmeler sayesinde, gerçek hayattaki görevleri yerine getirmek için eylemleri daha güvenilir bir şekilde art arda ekliyor.
GPT‑5’in ajan tabanlı görevleri hakkındaki ilk geri bildirimler
“GPT-5 büyük bir atılımı temsil ediyor. İç kıyaslamalarımızda, bugüne kadar tek bir modelde gördüğümüz en iyi performansı yakaladı. Ajan tabanlı çeşitli görevlerde, bir satır kod değiştirmeye veya özel bir istem girmeye gerek kalmadan üstün başarı gösteriyor. Yeni bilgilendirme mesajları ve araç kullanımını daha hassas bir şekilde kontrol edebilme özelliği hem tutarlılık hem de yönlendirilebilirlik açısından önemli bir atılım yapmamızı sağladı.”
Önceki modellere göre talimatlara çok daha güvenilir bir şekilde uyan GPT‑5, hem COLLIE ve Scale MultiChallenge’da hem de kurum içi değerlendirmelerimizde yüksek puanlar almayı başarıyor.
COLLIE(yeni bir pencerede açılır)’de modeller, çeşitli sınırlandırmalara yönelik metinler yazmalıdır. Scale MultiChallenge(yeni bir pencerede açılır)’da ise modeller çok adımlı konuşmalar üzerinden sınanır ve önceki mesajlardan dört tür bilgiyi doğru şekilde kullanmaları istenir. Bu puanları, GPT‑4o’dan daha doğru sonuçlar veren o3‑mini’yi değerlendirici olarak kullanarak elde ettik. OpenAI API’nin talimatlara uyma yeteneğini test ettiğimiz iç değerlendirmelerde, modellerin gerçek geliştirici geri bildirimlerinden türetilen zor talimatlara uyması istenir. Akıl yürütme modelleri, yüksek akıl yürütme düzeyinde çalıştırılmıştır.
Modelin araç çağırma yeteneklerini, geliştiricilerin işine yarayacak şekillerde iyileştirmek için çok çalıştık. GPT‑5; araç talimatlarına uymak, araç hatalarını gidermek ve onlarca araç çağrısını proaktif bir şekilde sıralı ya da paralel olarak yerine getirmek konusunda daha yetkin. Talimat verildiğinde GPT‑5, daha uzun süren ajan tabanlı görevlerin ilerleyişi hakkında kullanıcılara güncellemeler aktarmak için araç çağrılarının öncesinde veya arasında bilgilendirme mesajları da üretebiliyor.
İki ay önce Sierra.ai, zorlu bir araç kullanım kıyaslaması olan τ2-bench telecom’u yayımladı. Sonuçlar, kullanıcıların değiştirebildiği dinamik ortamlarda dil modellerinin performansının önemli ölçüde düştüğünü gösteriyor. Yayımlanan(yeni bir pencerede açılır) verilere göre, hiçbir model bu testte %49’u aşamıyor. GPT‑5 ise %97’lik bir performans ortaya koyuyor.
τ2-bench(yeni bir pencerede açılır)’de modelin, bir müşteri hizmetleri görevini tamamlamak için araç kullanması istenir. Bu senaryo, modelle konuşabilen ve gerçek dünyada işlem yapabilen bir kullanıcıyı da içerebilir. Akıl yürütme modelleri, yüksek akıl yürütme düzeyinde çalıştırılmıştır.
GPT‑5, uzun bağlam performansı açısından da ciddi ilerleme kaydediyor. GPT‑5, uzun bağlamlı bilgi erişimini ölçen OpenAI-MRCR testinde o3 ve GPT‑4.1’i geride bırakıyor. Bu modellerle arasındaki performans farkı, daha uzun girdilerde ciddi şekilde artıyor.
OpenAI-MRCR(yeni bir pencerede açılır) (çok turlu eş referans çözümleme) testinde, birden fazla aynı kullanıcı isteği (iğne) benzer isteklerin ve yanıtların (saman yığınları) arasına serpiştirilir. Bu senaryoda, “iğneler” uzun “saman yığınlarının” arasında gizlendiği için, modelden belirli bir iğnenin yanıtını doğru şekilde üretmesi istenir. Ortalama eşleşme oranı, modelin yanıtının doğru cevaba metinsel olarak ne kadar benzediğini yüzde olarak gösterir. Maksimum 256.000 girdi tokenine yerleştirilen noktalar, 128.000 ile 256.000 token arasındaki ortalamaların sonucudur. Diğer aralıklar da bu şekilde hesaplanır. Buradaki 256.000 sayısı, 256 × 1.024 hesaplamasıyla toplam 262.144 tokeni ifade eder. Akıl yürütme modelleri, yüksek akıl yürütme düzeyinde çalıştırılmıştır.
Ayrıca, uzun bağlamlı soru cevap performansını değerlendirmek için geliştirdiğimiz yeni bir kıyaslama olan BrowseComp Long Context(yeni bir pencerede açılır)’i de açık kaynak olarak paylaşıyoruz. Bu kıyaslamada, modele bir kullanıcı sorgusu ve ilgili arama sonuçlarının uzun bir listesi verilerek soruyu arama sonuçlarına göre yanıtlaması istenir. BrowseComp Long Context’i tasarlarken hem gerçekçi ve zor olmasına hem de doğruluğuna güvenilir referans yanıtlar vermesine özen gösterdik. 128.000-256.000 token uzunluğundaki girdilerde, GPT‑5’in doğru cevap verme oranı %89’dur.
API’de tüm GPT‑5 modelleri en fazla 272.000 girdi tokeni kabul edip, en fazla 128.000 akıl yürütme ve çıktı tokeni üretebilir. Bu da toplamda 400.000 token uzunluğunda bir bağlamı ifade eder.
GPT‑5, önceki modellerimize göre daha güvenilirdir. LongFact ve FactScore testlerinde kullanılan istemlerde, o3’e kıyasla %80 daha az hata yapmaktadır. Bu nedenle GPT‑5; özellikle kod, veri ve karar verme gibi doğruluğun önemli olduğu ajan tabanlı kullanım örnekleri için daha uygundur.
Yüksek değerler daha kötüdür. LongFact(yeni bir pencerede açılır) ve FActScore(yeni bir pencerede açılır) doğruluğu ölçen açık uçlu sorulardan oluşur. Bu kıyaslamalardaki istemlere verilen yanıtların doğruluğunu ölçmek için, internette tarama yapabilen, LLM bazlı bir değerlendirici kullanarak gerçeğe aykırı iddiaların oranını hesaplıyoruz. Uygulama ve değerlendirmeye ilişkin daha fazla ayrıntıyı sistem kartında bulabilirsiniz. Akıl yürütme modelleri, yüksek akıl yürütme düzeyini kullanmıştır. Arama özelliği etkinleştirilmemiştir.
GPT‑5’i eğitirken, genel olarak kendi sınırlamalarının daha çok farkında olmasına ve modeli kandırmaya yönelik beklenmedik durumları daha iyi ele almasına odaklandık. GPT‑5’i aynı zamanda sağlık sorularını çok daha doğru yanıtlayacak şekilde eğittik (daha fazla bilgi için araştırma blogumuza göz atabilirsiniz). Tüm dil modellerinde olduğu gibi, yüksek riskli durumlarda GPT‑5’in çıktılarını doğrulamanızı öneririz.
Geliştiriciler, GPT‑5’in yanıt vermeden önce ne kadar düşündüğünü kontrol etmek için API’deki reasoning_effort parametresini kullanabilir. GPT‑5, önceki düşük, orta (varsayılan) ve yüksek değerlere ek olarak, hızlı yanıt vermek için GPT‑5’in akıl yürütme düzeyini en aza indiren minimal seçeneğini de destekliyor.
reasoning_effort değeri yükseldikçe kalite en üst düzeye çıkar; daha düşük değerler ise hızı en üst düzeye çıkarır. Akıl yürütme düzeyini yükseltmek, her göreve eşit oranda fayda sağlamaz. Bu yüzden, ilgilendiğiniz kullanım örneklerinde hangilerinin işe yaradığını görmek için denemeler yapmanızı öneririz.
Örneğin, akıl yürütme parametresini düşük seviyenin üstüne çıkarmak uzun bağlamlı bilgi erişiminde büyük bir fark yaratmıyor ama görsel akıl yürütme testi CharXiv Reasoning(yeni bir pencerede açılır)’deki performansı belirgin şekilde artırıyor.
GPT‑5’in akıl yürütme düzeyini ayarlamak, farklı görevlerde farklı faydalar sağlar. CharXiv Reasoning için GPT‑5’in bir python aracına erişimi sağlanmıştır.
GPT‑5’in yanıtlarının varsayılan uzunluğunu belirlemenize yardımcı olmak için, API’de ayrıntı düzeyini düşük, orta (varsayılan) ve yüksek değerlerde ayarlama olanağı tanıyan yeni verbosity parametresini kullanıma sunduk. Açık talimatlar ayrıntı düzeyi parametreleriyle çeliştiğinde, açık talimatlara öncelik verilir. Örneğin, GPT‑5’ten “5 paragraflık bir makale” yazmasını istediğinizde, ayrıntı düzeyinden bağımsız olarak her zaman 5 paragraflık yanıtlar üretilir (ama paragraflar daha uzun veya daha kısa olabilir).
Ayrıntı düzeyi=düşük
Verbosity=medium
Ayrıntı düzeyi=yüksek
Talimat verildiğinde GPT‑5, araç çağrılarının öncesinde veya arasında kullanıcıya gösterilen bilgilendirme mesajları üretir. Bu görünür mesajlar, gizlenen akıl yürütme mesajlarından farklı olarak GPT‑5’in planlarını ve ilerleyişini kullanıcıyla paylaşmasını sağlar. Böylece son kullanıcıların, araç çağrılarının ardındaki yaklaşımı ve niyeti anlamalarına yardımcı olur.
GPT‑5’in JSON yerine düz metin kullanarak araç çağırmasını sağlamak için, özel araçlar adını verdiğimiz yeni bir araç türünü kullanıma sunuyoruz. Geliştiriciler, GPT‑5’i özel araç formatlarına uyacak şekilde sınırlandırmak için bir regex (düzenli ifade) sağlayabilir ya da bağlamdan bağımsız dil kurallarını(yeni bir pencerede açılır) çok daha kapsamlı bir şekilde belirtebilirler.
Geliştiricilerin tanımladığı araçlar için sunulan arayüzümüz daha önce bunların, web API’leri ve geliştiricilerin kullandığı bir format olan JSON ile çağrılmasını gerektiriyordu. Ancak modelin geçerli JSON çıktıları üretebilmesi için tüm kesme işaretleri, ters eğik çizgiler, satır başları ve diğer kontrol karakterlerinin hatasız bir şekilde kaçış karakterleriyle yazılması gerekiyordu. Modellerimiz JSON çıktıları üretmek için kapsamlı eğitimlerden geçmiş olsa da, yüzlerce satırlık kod veya 5 sayfalık bir rapor gibi uzun girdiler söz konusu olduğunda hata ihtimali de artıyor. GPT‑5, özel araçlar sayesinde araç girdilerini düz metin formatında yazabiliyor. Bu yüzden, kaçış karakteriyle yazılması gereken karakterler için böyle bir işleme gerek kalmıyor.
SWE-bench Verified’da JSON araçları yerinde özel araçlar kullanıldığında, GPT‑5 hemen hemen aynı performansı sergiliyor.
Daha sağlam, daha güvenilir ve daha faydalı bir model olan GPT‑5 güvenlik konusunda yeni standartlar belirliyor. Önceki modellere kıyasla halüsinasyon görme ihtimali çok daha düşük olan GPT‑5, eylemleri ve yetenekleri hakkında daha açık bilgilendirmelerde bulunuyor ve güvenlik sınırlamalarının dışına çıkmadan en faydalı yanıtı sunuyor. Daha fazla bilgi almak için araştırma blogumuza göz atabilirsiniz.
API platformunda GPT‑5’i gpt-5, gpt-5-mini ve gpt-5-nano olmak üzere üç farklı boyutuyla kullanabilirsiniz. Responses API ve Chat Completions API’de mevcut olan GPT‑5, Codex CLI’da varsayılan olarak sunuluyor. GPT‑5’in fiyatlandırması 1 milyon girdi tokeni için 1,25 dolar, 1 milyon çıktı tokeni için 10 dolar olarak belirlendi. GPT‑5 mini 1 milyon girdi tokeni için 0,25 dolar, 1 milyon çıktı tokeni için 2 dolar şeklinde fiyatlandırıldı. GPT‑5 nano’nun fiyatlandırması ise 1 milyon girdi tokeni için 0.05 dolar, 1 milyon çıktı tokeni için 0,40 dolar olarak belirlendi.
Bu modeller, API’deki reasoning_effort ve verbosity parametrelerinin yanı sıra özel araçları da destekliyor. Modeller; paralel araç çağrılarının yanı sıra web araması, dosya arama, görsel üretimi gibi yerleşik araçları; olay/veri akışı ve Yapılandırılmış Çıktılar gibi temel API özelliklerini; istem önbellekleme ve Batch API gibi maliyet tasarrufu sağlayan özellikleri de destekliyor.
GPT‑5’in ChatGPT’de kullanılan ve akıl yürütme yeteneğine başvurmadan basit cevaplar veren versiyonu, API’de gpt-5-chat-latest adıyla kullanıma sunuldu. Fiyatlandırma 1 milyon girdi tokeni için 1,25 dolar, 1 milyon çıktı tokeni için 10 dolar olarak belirlendi.
GPT‑5 ayrıca Microsoft 365 Copilot, Copilot, GitHub Copilot ve Azure AI Foundry dahil olmak üzere Microsoft platformları üzerinden de kullanılabilir.
Başlamak için GPT‑5 belgelerine(yeni bir pencerede açılır), fiyatlandırma bilgilerine(yeni bir pencerede açılır) ve istem kılavuzuna(yeni bir pencerede açılır) göz atabilirsiniz.
Zeka
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | %94,6 | %91,1 | %85,2 | %88,9 | %92,7 | %46,4 | %40,2 | - |
| FrontierMath(with python tool only) | %26,3 | %22,1 | %9,6 | %15,8 | %15,4 | - | - | - |
| GPQA diamond(no tools) | %85,7 | %82,3 | %71,2 | %83,3 | %81,4 | %66,3 | %65,0 | %50,3 |
| HLE[1](no tools) | %24,8 | %16,7 | %8,7 | %20,2 | %14,7 | %5,4 | %3,7 | - |
| HMMT 2025(no tools) | %93,3 | %87,8 | %75,6 | %81,7 | %85,0 | %28,9 | %35,0 | - |
[1] Önceki blog yazımızda bildirilen değerler, HLE’nin geçmiş bir sürümüyle elde edildiği için bu değerlerle arasında ufak farklılıklar bulunuyor.
Çok Modlu
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | %84,2 | %81,6 | %75,6 | %82,9 | %81,6 | %74,8 | %72,7 | %55,4 |
| MMMU-Pro(avg across standard and vision sets) | %78,4 | %74,1 | %62,6 | %76,4 | %73,4 | %60,3 | %58,9 | %33,0 |
| CharXiv reasoning(python enabled) | %81,1 | %75,5 | %62,7 | %78,6 | %72,0 | %56,7 | %56,8 | %40,5 |
| VideoMMMU, max frame 256 | %84,6 | %82,5 | %66,8 | %83,3 | %79,4 | %60,9 | %55,1 | %30,2 |
| ERQA | %65,7 | %62,9 | %50,1 | %64,0 | %56,5 | %44,3 | %42,3 | %26,5 |
Kodlama
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $112 B | $75 B | $49 B | $86 B | $66 B | $34 B | $31 B | $9 B |
| SWE-bench Verified[2] | %74,9 | %71,0 | %54,7 | %69,1 | %68,1 | %54,6 | %23,6 | - |
| Aider polyglot(diff) | %88,0 | %71,6 | %48,4 | %79,6 | %58,2 | %52,9 | %31,6 | %6,2 |
[2] Toplam 500 problem arasından, altyapımızda her seferinde güvenilir çözümler sunmayan 23 tanesini değerlendirmeye almadık. Değerlendirmeye alınmayan 23 görevin tam listesi: ‘astropy__astropy-7606’, ‘astropy__astropy-8707’, ‘astropy__astropy-8872’, ‘django__django-10097’, ‘django__django-7530’, ‘matplotlib__matplotlib-20488’, ‘matplotlib__matplotlib-20676’, ‘matplotlib__matplotlib-20826’, ‘matplotlib__matplotlib-23299’, ‘matplotlib__matplotlib-24970’, ‘matplotlib__matplotlib-25479’, ‘matplotlib__matplotlib-26342’, ‘psf__requests-6028’, ‘pylint-dev__pylint-6528’, ‘pylint-dev__pylint-7080’, ‘pylint-dev__pylint-7277’, ‘pytest-dev__pytest-5262’, ‘pytest-dev__pytest-7521’, ‘scikit-learn__scikit-learn-12973’, ‘sphinx-doc__sphinx-10466’, ‘sphinx-doc__sphinx-7462’, ‘sphinx-doc__sphinx-8265’ ve ‘sphinx-doc__sphinx-9367’.
Talimatlara Uyma
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | %69,6 | %62,3 | %54,9 | %60,4 | %57,5 | %46,2 | %42,2 | %31,1 |
| Internal API instruction following eval(hard) | %64,0 | %65,8 | %56,1 | %47,4 | %44,7 | %49,1 | %45,1 | %31,6 |
| COLLIE | %99,0 | %98,5 | %96,9 | %98,4 | %96,1 | %65,8 | %54,6 | %42,5 |
[3] Uyarı: MultiChallenge’daki varsayılan değerlendiricinin (GPT-4o), model yanıtlarını sıklıkla hatalı puanladığını tespit ettik. Değerlendiriciyi o3-mini gibi bir akıl yürütme modeliyle değiştirdiğimizde, incelediğimiz örneklerdeki puanlama doğruluğunun önemli ölçüde arttığını gördük.
Fonksiyon Çağırma
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | %62,6 | %60,0 | %41,0 | %64,8 | %60,2 | %56,0 | %51,0 | %14,0 |
| Tau2-bench retail | %81,1 | %78,3 | %62,3 | %80,2 | %70,5 | %74,0 | %66,0 | %21,5 |
| Tau2-bench telecom | %96,7 | %74,1 | %35,5 | %58,2 | %40,5 | %34,0 | %44,0 | %12,1 |
Uzun Bağlam
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | %95,2 | %84,3 | %43,2 | %55,0 | %56,4 | %57,2 | %47,2 | %36,6 |
| OpenAI-MRCR: 2 needle 256k | %86,8 | %58,8 | %34,9 | - | - | %56,2 | %45,5 | %22,6 |
| Graphwalks bfs <128k | %78,3 | %73,4 | %64,0 | %77,3 | %62,3 | %61,7 | %61,7 | %25,0 |
| Graphwalks parents <128k | %73,3 | %64,3 | %43,8 | %72,9 | %51,1 | %58,0 | %60,5 | %9,4 |
| BrowseComp Long Context 128k | %90,0 | %89,4 | %80,4 | %88,3 | %80,0 | %85,9 | %89,0 | %89,4 |
| BrowseComp Long Context 256k | %88,8 | %86,0 | %68,4 | - | - | %75,5 | %81,6 | %19,1 |
| VideoMME(long, with subtitle category) | %86,7 | %78,5 | %65,7 | %84,9 | %79,5 | %78,7 | %68,4 | %55,2 |
Halüsinasyonlar
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | %1,0 | %0,7 | %1,0 | %5,2 | %3,0 | %0,7 | %1,1 | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | %1,2 | %1,3 | %2,8 | %6,8 | %8,9 | %1,1 | %1,8 | - |
| FActScore hallucination rate(no tools)[lower is better] | %2,8 | %3,5 | %7,3 | %23,5 | %38,7 | %6,7 | %10,9 | - |


