Bugün Codex'te kullanıma sunulan yeni en üst seviye otonom kodlama modelimiz GPT‑5.1‑Codex‑Max'i tanıtıyoruz. GPT‑5.1‑Codex‑Max, yazılım mühendisliği, matematik, araştırma ve daha birçok alandaki otonom görevlere yönelik olarak eğitilmiş ve güncellenmiş temel akıl yürütme modelimiz üzerine inşa edilmiştir. Bu, geliştirme döngüsünün her aşamasında daha hızlı, daha zeki ve daha verimli bir token kullanımı sunarak güvenilir bir kodlama ortağına doğru attığımız yeni bir adımı temsil eder.
GPT‑5.1‑Codex‑Max uzun soluklu ve detaylı çalışmalar için tasarlanmıştır. Bu model, sıkıştırma (compaction) adı verilen bir süreç sayesinde birden fazla bağlam penceresinde doğal olarak çalışacak şekilde eğitilmiş ilk modelimizdir; tek bir görevde milyonlarca token üzerinde tutarlı biçimde çalışabilir. Bu da proje ölçeğinde yeniden düzenlemeleri, derin hata ayıklama oturumlarını ve saatler süren ajan döngülerini mümkün kılar.
GPT‑5.1‑Codex‑Max; CLI, IDE uzantısı, bulut ve kod inceleme kullanımları için bugün Codex'te erişilebilir durumdadır; API erişimi ise yakında sunulacaktır.
GPT‑5.1‑Codex‑Max; PR oluşturma, kod inceleme, ön uç kodlama ve soru-cevap gibi gerçek dünya yazılım mühendisliği görevleri üzerine eğitilmiştir ve birçok en üst seviye kodlama değerlendirmesinde önceki modellerimizi geride bırakır. Bu kıyaslama başarısı, gerçek kullanım senaryolarına da doğrudan yansır: GPT‑5.1‑Codex‑Max, Windows ortamlarında çalışacak şekilde özel olarak eğitilmiş ilk modelimizdir ve eğitim sürecine artık Codex CLI içinde daha güçlü iş akışları sunmaya yönelik görevler de dahil edilmiştir.
* Tüm değerlendirmeler, Ekstra Yüksek akıl yürütme seviyesinde sıkıştırma etkin şekilde çalıştırılmıştır
* Terminal-Bench2.0, Codex CLI ile Laude Institute Harbor çerçevesinde(yeni bir pencerede açılır) çalıştırılmıştır
GPT‑5.1‑Codex‑Max, daha etkili akıl yürütme sayesinde token verimliliğinde önemli iyileştirmeler gösterir. SWE-bench Verified değerlendirmesinde, "orta" akıl yürütme seviyesinde GPT‑5.1‑Codex‑Max, aynı akıl yürütme seviyesindeki GPT‑5.1‑Codex'ten daha iyi performans sunarken %30 daha az düşünme token'ı kullanır. Gecikme duyarlılığı düşük görevler için ise, daha iyi yanıtlar üretmek amacıyla daha uzun süre düşünen yeni bir Ekstra Yüksek ("xhigh") akıl yürütme seviyesi de sunuyoruz. Yine de, çoğu görev için günlük kullanımda orta seviyenin kullanılmasını öneririz.
Token verimliliğindeki bu iyileştirmelerin geliştiriciler için gerçek dünyada maliyet tasarrufuna dönüşmesini bekliyoruz.
Örneğin, GPT‑5.1‑Codex‑Max, GPT‑5.1‑Codex'e kıyasla çok daha düşük maliyetle benzer işlevsellik ve estetiğe sahip yüksek kaliteli ön uç tasarımlar üretebiliyor.
Komut: Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.
Özellikler
Must be able to actually train a policy to make model better at cart poleVisualizer for the activations/weights when the model is training or at inferenceSteps in the episode, rewards this episodeLast survival time and best survival time in steps
Save to index.html
Sıkıştırma, GPT‑5.1‑Codex‑Max'in bağlam penceresi limitleri nedeniyle daha önce tamamlanamayan görevleri yerine getirmesine olanak tanır. Bu model, geçmiş bağlamını akıllıca sadeleştirirken uzun vadede gerekli olan temel bilgileri koruyarak karmaşık yeniden düzenleme işlemlerini ve uzun süreli ajan döngülerini sürdürebilir. Codex uygulamalarında GPT‑5.1‑Codex‑Max, bağlam penceresi limitine yaklaştığında oturumunu otomatik olarak sıkıştırarak yeni bir bağlam penceresi oluşturur ve görev sonuçlanıncaya kadar bu işlemi yineleyerek çalışmaya devam eder.
Uzun süre boyunca tutarlı şekilde çalışabilme yeteneği, daha genel ve güvenilir yapay zeka sistemlerine giden yolun temel gereksinimlerinden biridir. GPT‑5.1‑Codex‑Max saatlerce, hatta tam bir gün boyunca bağımsız biçimde çalışabilir. Dahili değerlendirmelerimizde, GPT‑5.1‑Codex‑Max'in 24 saati aşan görevlerde kesintisiz ilerlediğini; bu süre boyunca uygulamasını sürekli yineleyip test hatalarını düzelttiğini ve görevi sonunda başarıyla tamamladığını gözlemledik.
Bu örnekte, GPT‑5.1‑Codex‑Max, Codex CLI açık kaynak deposunu bağımsız olarak yeniden yapılandırmaktadır.
Oturum süresi, modelin bağlam penceresine yaklaştıkça oturum otomatik olarak sıkıştırılır ve böylece ilerlemeyi kaybetmeden göreve devam etmek için alan açılır.
Video, daha anlaşılır olması için kırpılmış ve hızlandırılmıştır.
GPT‑5.1‑Codex‑Max, uzun süre boyunca tutarlı akıl yürütme gerektiren değerlendirmelerde anlamlı ölçüde daha yüksek performans sergiler. Sıkıştırma sayesinde birden fazla bağlam penceresi arasında tutarlılığı koruyabildiği için, uzun soluklu kodlama ve siber güvenlik gibi zorlu alanlarda daha başarılı sonuçlar üretir. Bu modelin birinci ve üçüncü taraf değerlendirmelerdeki performansı, GPT‑5.1‑Codex‑Max sistem kartında ayrıntılı olarak incelenmiştir.
GPT‑5.1‑Codex‑Max, Preparedness Framework (Hazırlık Çerçevesi) kapsamındaki Siber Güvenlik alanında "Yüksek" yeterlilik seviyesine ulaşmasa da, bugüne kadar dağıttığımız en yetenekli siber güvenlik modelidir ve otonom siber güvenlik yetenekleri hızla gelişmektedir. Bu nedenle, Siber Güvenlik için Yüksek kapasiteye hazırlanmak amacıyla adımlar atıyor, siber alandaki güvenlik önlemlerimizi güçlendiriyor ve Aardvark gibi programlarla savunucuların bu gelişmiş yeteneklerden yararlanmasını sağlamak için çalışıyoruz.
GPT‑5‑Codex'i kullanıma sunduğumuzda, kötü amaçlı faaliyetleri tespit etmek ve engellemek için siber güvenliğe özel izleme sistemleri uygulamaya koyduk. Büyük ölçekli kötüye kullanımda anlamlı bir artış gözlemlemesek de, gelişmiş yeteneklere yönelik ek korumalar hazırlıyoruz. Ekiplerimiz, modellerimizi kötüye kullanmaya yönelik girişimlerde bulunan siber operasyonları halihazırda engelledi ve şüpheli aktiviteler, politika izleme sistemlerimiz aracılığıyla incelemeye yönlendiriliyor.
Codex varsayılan olarak güvenli bir sandbox ortamında çalışacak şekilde tasarlanmıştır: dosya yazma işlemleri kendi çalışma alanıyla sınırlıdır ve geliştirici tarafından etkinleştirilmedikçe ağ erişimi devre dışı bırakılır. Internet veya web aramasının etkinleştirilmesi, güvenilmeyen içeriklerden komut enjeksiyonu riskleri doğurabileceği için Codex'i bu kısıtlı erişim modunda tutmanızı öneririz.
Codex uzun süreli görevlerde daha yetenekli hale geldikçe, geliştiricilerin kodu değiştirmeden veya gerçek kullanıma sunmadan önce ajan çalışmasını incelemesi giderek daha önemli hale geliyor. Bunu desteklemek için Codex; terminal günlükleri üretir, araç çağrılarını ve test sonuçlarını kaynak gösterir. Kod incelemeleri, model veya insan kaynaklı hataların gerçek kullanıma sunulma riskini azaltsa da Codex mutlaka insan incelemesinin yerini alıyor gibi değil, ek bir inceleme olarak değerlendirilmelidir.
Siber güvenlik yetenekleri hem savunma hem de saldırı amaçlı kullanılabileceğinden, aşamalı bir devreye alım yaklaşımı benimsiyoruz: gerçek dünya kullanımından öğreniyor, koruyucu önlemleri güncelliyor ve otomatik güvenlik açığı taraması ile düzeltme desteği gibi önemli savunma araçlarını koruyoruz.
GPT‑5.1‑Codex‑Max, Codex'te ChatGPT Plus, Pro, Business, Edu ve Enterprise planlarıyla mevcuttur. Planınıza ait kullanım limitlerinin nasıl işlediğine dair ayrıntılı bilgi için lütfen belgelerimize(yeni bir pencerede açılır) göz atın.
API Anahtarı aracılığıyla Codex CLI kullanan geliştiriciler için, API içinde GPT‑5.1‑Codex‑Max'i kullanıma sunmayı planlıyoruz.
Bugünden itibaren GPT‑5.1‑Codex‑Max, Codex yüzeylerinde varsayılan model olarak GPT‑5.1‑Codex'in yerini alacak. GPT‑5.1 genel amaçlı bir modeldir; GPT‑5.1‑Codex‑Max ve genel olarak Codex model ailesinin ise yalnızca Codex veya Codex'e benzer ortamlardaki otonom kodlama görevleri için kullanılmasını öneriyoruz.
GPT‑5.1‑Codex‑Max, modellerin uzun süreli kodlama görevlerini sürdürme, karmaşık iş akışlarını yönetme ve çok daha az token kullanarak yüksek kaliteli uygulamalar üretme konusunda ne kadar ilerlediğini gösteriyor. Bu model; CLI, IDE uzantısı, bulut entegrasyonu ve kod inceleme araçlarımıza yapılan düzenli iyileştirmelerle birleşerek mühendislik üretkenliğini büyük ölçüde artırdı. Dahili olarak OpenAI mühendislerinin %95'i Codex'i haftalık olarak kullanıyor ve bu mühendisler, Codex'in benimsenmesinden bu yana yaklaşık %70 oranında daha fazla çekme isteği gönderiyor. Ajanların yapabildiği şeylerin sınırlarını genişletmeye devam ederken, sizin de onlarla neler inşa edeceğinizi görmek için heyecanlıyız.
GPT‑5.1‑Codex (yüksek) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | %73,7 | %77,9 |
SWE-Lancer IC SWE | %66,3 | %79,9 |
Terminal-Bench 2.0 | %52,8 | %58,1 |


