Karşınızda gpt-oss
‘gpt-oss-120b’ ve ‘gpt-oss-20b’ açık ağırlıklı akıl yürütme modellerinin sınırlarını zorluyor
Düşük maliyetle güçlü gerçek dünya performansı sunan iki adet açık ağırlıklı ve son teknoloji ürünü dil modelleri gpt-oss-120b ve gpt-oss-20b'yi yayınlıyoruz. Esnek Apache 2.0 lisansı altında sunulan bu modeller, akıl yürütme görevlerinde benzer boyuttaki açık modellerden daha iyi performans gösteriyor ve güçlü araç kullanım yetenekleri sergiliyor. Ayrıca tüketici donanımlarında verimli dağıtım için optimize edildiler. Bu modeller, o3 ve diğer öncü sistemler de dahil olmak üzere OpenAI’ın en gelişmiş dahili modellerinden elde edlien takviyeli öğrenme ve tekniklerin bir karışımı kullanılarak eğitildiler.
gpt-oss-120b modeli, tek bir 80 GB GPU üzerinde verimli bir şekilde çalışırken, temel mantık kıyaslamalarında OpenAI o4-mini ile neredeyse eşit bir performans gösteriyor. Gpt-oss-20b modeli, yaygın kıyaslamalarda OpenAI o3‑mini ile benzer sonuçlar veriyor ve yalnızca 16 GB belleğe sahip uç cihazlarda çalışabiliyor. Bu da onu cihaz içi kullanım durumları, yerel çıkarımlar veya maliyetli altyapı olmadan hızlı yineleme için ideal hale getiriyor. Her iki model de araç kullanımı, az sayıda denemeyle fonksiyon çağırma, CoT akıl yürütme (Tau-Bench ajan değerlendirme paketindeki sonuçlarda görüldüğü gibi) ve HealthBench'te güçlü performans gösteriyor (OpenAI o1 ve GPT‑4o gibi özel modelleri bile geride bırakıyor).
Bu modeller Responses API'mizle (yeni bir pencerede açılır) uyumludur ve olağanüstü talimat takibi, web araması veya Python yürütme gibi araç kullanımı ve karmaşık akıl yürütme gerektirmeyen ve/veya çok düşük gecikmeli nihai çıktılar hedefleyen görevler için akıl yürütme çabasını ayarlama gibi akıl yürütme yetenekleriyle ajan iş akışları içinde kullanılmak üzere tasarlanmıştır. Tamamen özelleştirilebilen bu modeller eksiksiz düşünce zinciri (CoT) sunuyor ve Yapılandırılmış Çıktıları destekliyor.
Güvenlik, tüm modellerimizi yayınlama yaklaşımımızın temelini oluşturuyor ve özellikle açık modeller için büyük önem taşıyor. Modelleri kapsamlı güvenlik eğitimleri ve değerlendirmelerinden geçirmenin yanı sıra, Hazırlıklılık Çerçevemiz(yeni bir pencerede açılır) kapsamında gpt-oss-120b'nin hassas ayarlanmış bir sürümünü test ederek ek bir değerlendirme katmanı da ekledik. gpt-oss modelleri, dahili güvenlik ölçütlerinde öncü modellerimizle karşılaştırılabilir bir performans göstererek geliştiricilere son tescilli modellerimizle aynı güvenlik standartlarını sunuyor. O çalışmaların sonuçlarını ve daha fazla ayrıntıyı bir araştırma makalesinde ve model kartında bilginize sunuyoruz. Haricî uzmanlar tarafından incelenen metodolojimiz, açık ağırlıklı modeller için yeni güvenlik standartları belirleyen bir atılım olarak değerlendiriliyor.
Erken aşamalardan beri birlikte çalıştığımız AI Sweden(yeni bir pencerede açılır), Orange(yeni bir pencerede açılır) ve Snowflake(yeni bir pencerede açılır) gibi iş ortaklarımızla open modellerin gerçek hayattaki kullanım alanlarını keşfediyoruz. Örneğin, bu modelleri veri güvenliği için kurum içinde barındırıyor, özelleştirilmiş veri setleriyle ince ayarlar yapıyoruz. Yapay zekayı kendi altyapınızda çalıştırıp dilediğiniz gibi özelleştirmenizi sağlayan bu en gelişmiş modellerle, bireysel geliştiricilerden büyük işletmelere ve kamu kuruluşlarına kadar herkesin gücüne güç katmaktan heyecan duyuyoruz. Geliştiriciler, yapay zeka tabanlı iş akışlarını yürütmek için ihtiyaç duydukları performans, maliyet ve gecikme süresini API’mizde sunulan modeller sayesinde belirleyebiliyor.
gpt-oss modellerini, en gelişmiş ön eğitim ve eğitim sonrası tekniklerimizi kullanarak eğittik. Bu süreçte özellikle akıl yürütme, verimlilik ve çeşitli ortamlardaki gerçek kullanım senaryolarına odaklandık. Whisper ve CLIP dahil olmak üzere diğer modelleri açık bir şekilde kullanıma sunmuş olsak da, gpt-oss modelleri GPT‑2'den bu yana ilk açık ağırlıklı dil modellerimizdir[1].
Her model, Transformer mimarisine sahiptir ve Mixture-of-Experts (MoE[2]) tekniği sayesinde, girdileri işlemek için gereken etkin parametre sayısını azaltır. Mesela ‘gpt-oss-120b’ her bir token için 5,1 milyar parametreyi, ‘gpt-oss-20b’ ise 3,6 milyar parametreyi etkinleştirir. Oysa ‘gpt-oss-120b’ 117 milyar, ‘gpt-oss-20b’ ise 21 milyar toplam parametreye sahiptir. Bu modeller, GPT‑3[3] modeline benzer şekilde bazen tüm bağlamı dikkate alıp, bazen sadece birbirine yakın belirli tokenler üzerinde yoğunlaşan, dönüşümlü bir dikkat mekanizması kullanır. Çıkarım ve bellek verimliliği için, sorguları 8’li gruplar hâlinde işleyen bir dikkat mekanizmasından da faydalanırlar. Kelimelerin metin içindeki konumlarını anlamak için Rotary Positional Embedding (RoPE[4]) adlı konum kodlama sistemini kullanıyor ve 128 bin tokene kadar bağlam uzunluklarını destekliyoruz.
Model | Katmanlar | Toplam Parametre | Token Başına Etkin Parametre | Toplam Uzman Sayısı | Token Başına Etkin Uzman | Bağlam Uzunluğu |
gpt-oss-120b | 36 | 117 milyar | 5,1 milyar | 128 | 4 | 128 bin |
gpt-oss-20b | 24 | 21 milyar | 3,6 milyar | 32 | 4 | 128 bin |
Bu modelleri yüksek kaliteli, çoğunlukla İngilizce, sadece metin formatında, FeTeMM, kodlama ve genel bilgilere odaklanan bir veri setiyle eğittik. Bu verileri tokenlere dönüştürürken, OpenAI o4-mini ve GPT‑4o için kullandığımız tokenleştiricinin üst kümesi olan ‘o200k_harmony’ adlı sürümü kullandık. Bu sürümü bugünden itibaren açık kaynak olarak paylaşıyoruz.
Modellerimizin mimarisi ve eğitimi hakkında daha fazla bilgi almak için model kartını okuyabilirsiniz.
Tıpkı o4-mini’de olduğu gibi, gpt-oss modellerinin eğitim sonrası süreçlerinde de insan destekli ince ayarlar yapıldı ve yüksek bilgi işlem gücüyle takviyeli öğrenme yöntemi uygulandı. Amacımız, modeli OpenAI Model Özellikleri(yeni bir pencerede açılır) ile uyumlu hâle getirmek ve yanıt vermeden önce düşünce zinciriyle (CoT) akıl yürütmesini ve gerektiğinde araç kullanmasını öğretmekti. Tescilli SoTA akıl yürütme modellerimizle aynı teknikleri kullanan modeller, eğitim sonrası olağanüstü yetenekler sergiliyor.
Bu iki açık ağırlıklı model, tıpkı API’deki OpenAI o-serisi akıl yürütme modelleri gibi düşük, orta ve yüksek akıl yürütme düzeylerini destekliyor. Bu üç düzeyin her biri, gecikme süresi ve performans açısından farklı sonuçlar sunuyor. Geliştiriciler, sistem mesajına ekleyecekleri tek bir cümleyle ‘reasoning_effort’ parametresini ayarlayarak istenilen düzeyi belirleyebiliyor.
gpt-oss-120b ve gpt-oss-20b'yi; o3, o3‑mini ve o4-mini gibi diğer OpenAI akıl yürütme modelleriyle standart akademik kıyaslamalar üzerinden değerlendirerek kodlama, rekabet matematiği, sağlık ve ajan tabanlı araç kullanımındaki yeteneklerini ölçtük.
gpt-oss-120b, OpenAI o3‑mini'yi geride bırakıyor ve rekabet kodlamasında (Codeforces), genel problem çözmede (MMLU ve HLE) ve araç çağrısında (TauBench) OpenAI o4-mini ile eşit veya daha iyi performans sergiliyor. Ayrıca sağlıkla ilgili sorgularda (HealthBench) ve matematik yarışmalarında (AIME 2024 ve 2025) o4-mini'den daha iyi performans gösteriyor. gpt-oss-20b aynı değerlendirmelerde OpenAI o3‑mini'yi yakalıyor veya geçiyor, hatta küçük boyutuna rağmen matematik yarışmaları ve sağlık alanlarında onu geride bırakıyor.
gpt-oss models do not replace a medical professional and are not intended for the diagnosis or treatment of disease
Example rollouts
gpt-oss-120b, gezinme aracını kullanarak güncel bilgileri hızlı bir şekilde toplayabiliyor. Buna arka arkaya gelen onlarca çağrıyı birbirine bağlamak da dahil.
Son araştırmalarımız, eğer bir akıl yürütme modeli düşünce zinciri uyumlandırmasına yönelik doğrudan optimizasyon baskısıyla eğitilmediyse, modelin düşünce zincirini izlemenin istemeyen davranışları tespit etmeye yardımcı olduğunu gösteriyor. Bu yaklaşım sektördeki başka insanlar tarafından da benimseniyor(yeni bir pencerede açılır). OpenAI o1‑preview'u yayınladığımızdan beri benimsediğimiz ilkeler doğrultusunda, gpt-oss modelinin CoT'sine herhangi bir doğrudan denetim uygulamadık. Modelin uygunsuz davranışlarını, aldatmalarını ve kötüye kullanımını izlemek için bunun kritik olduğuna inanıyoruz. Denetimsiz bir düşünce zincirine sahip açık bir model yayınlayarak, geliştiricilere ve araştırmacılara kendi CoT izleme sistemlerini araştırma ve uygulama fırsatı sunmayı umuyoruz.
Geliştiriciler, uygulamalarındaki düşünce zincirlerini doğrudan kullanıcılara göstermemelidir. Bu düşünce zincirleri halüsinasyonlar, zararlı içerikler ve OpenAI’ın standart güvenlik politikalarını yansıtmayan bir dil içerebilir. Model, açık bir şekilde nihai çıktıya dâhil etmemesi istenen bilgilere de yer verebilir.
gpt-oss-120b, ürettiği çıktılarda sistem talimatlarına kusursuz bir şekilde uyuyor ama düşünce zincirinde genellikle talimatlara uymadığı açıkça görülüyor.
gpt-oss modellerini, güvenlik eğitimine yönelik en gelişmiş tekniklerimizi kullanarak eğitiyoruz. Ön eğitim aşamasında, CBRN (Kimyasal, Biyolojik, Radyolojik, Nükleer) ile ilgili zararlı olabilecek bazı verileri ayıkladık. Eğitim sonrası aşamada, düşünerek uyumlandırma ve talimat hiyerarşisi(yeni bir pencerede açılır) kullanarak, modele güvensiz istemleri reddetmeyi ve zararlı istem girişimlerine karşı savunmayı öğrettik.
Açık ağırlıklı bir model kullanıma sunulduğunda, kötü niyetli kişiler modelde ince ayarlamalar yaparak onu zararlı amaçlar için kullanabilir. Bu riskleri, modeli uzmanlaşmış biyoloji ve siber güvenlik verilerinde ince ayar yaparak saldırganların yapabileceği gibi her alan için alana özgü reddetmeyen bir sürüm oluşturarak doğrudan değerlendirdik. Bu testler, OpenAI’ın alanında lider olan eğitim verileri ve son derece güçlü ince ayar teknikleri kullanıldığında bile, kötü amaçlı eğitilmiş modellerin Hazırlıklılık Çerçevemiz’de belirtilen yetkinlik düzeylerine ulaşamadıklarını gösterdi. Bu kötü amaçlı ince ayar metodolojisini değerlendiren uzmanlardan oluşan üç bağımsız grup, eğitim sürecimizi geliştirecek önerilerde bulundu. Biz de bunların çoğunu uyguladık. Bu önerileri, model kartında ayrıntılı olarak açıklıyoruz. Bu süreçler, open model güvenliği açısından önemli bir atılımı temsil ediyor. Elde ettiğimiz sonuçlar, gpt-oss modellerini kullanıma sunma kararımızın doğruluğundan emin olmamızı sağladı. Bu modellerin, sektör genelinde güvenlik eğitimi ve uyumlandırma araştırmalarına hız kazandıracağını umuyoruz.
Daha güvenli bir açık kaynak ekosistemine katkıda bulunmak için, Kırmızı Takım Testleri Yarışması düzenleyerek dünyanın dört bir yanındaki araştırmacıları, geliştiricileri ve konuya ilgisi olan herkesi güvenliğe ilişkin yeni sorunları tespit etmemize yardımcı olmaya teşvik ediyoruz. Yarışma sonucunda, diğer öncü laboratuvarlara bağlı, uzman jüri üyelerinden oluşan bir panelin değerlendirmeleri doğrultusunda toplam 500.000 dolar değerinde ödül dağıtılacak. Yarışmanın ardından bir rapor yayımlayacağız ve doğrulanmış sonuçlara göre hazırlanan değerlendirme veri setini açık kaynak olarak paylaşarak bir an önce tüm topluluğun faydasına sunacağız. Daha fazla bilgi edinmek ve katılmak için buraya tıklayın.
‘gpt-oss-120b’ ve ‘gpt-oss-20b’ modellerinin ağırlıklarını Hugging Face’ten ücretsiz olarak indirebilirsiniz. Her ikisi de MoE ağırlıkları için MXFP4 formatında nicemlenmiş bir şekilde sunuluyor. Verimliliği artıran bu özellik sayesinde, ‘gpt-oss-120b’nin tam sürümü 80 GB’lık bir bellek üzerinde çalışabiliyor; ‘gpt-oss-20b’ ise sadece 16 GB’lık belleğe ihtiyaç duyuyor.
Eğitim sonrası aşamada, modellerimizi Harmony istem formatımız(yeni bir pencerede açılır) ile eğittik. Üstelik Harmony işleyicimizi(yeni bir pencerede açılır) hem Python hem Rust dillerinde açık kaynaklı olarak sunarak kullanımın yaygınlaşmasını kolaylaştırıyoruz. Ayrıca, modelin PyTorch ve Apple’ın Metal platformunda nasıl çalıştırılacağını göstermek için referans uygulamalar ve modelle birlikte kullanılabilecek örnek araçlar koleksiyonunu da paylaşıyoruz.
Esneklik için tasarladığımız gpt-oss’u kendi bilgisayarınız ya da sunucunuzda, diğer cihazlarda veya dış hizmet sağlayıcılar aracılığıyla her yerde kolaylıkla çalıştırabilirsiniz. Bunu desteklemek için, lansman öncesinde Hugging Face, Azure, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare ve OpenRouter gibi önde gelen dağıtım platformlarıyla iş birliği yaptık ve modelleri geliştiriciler için geniş çapta erişilebilir hale getirdik. Donanım tarafında ise NVIDIA, AMD, Cerebras ve Groq gibi sektör liderleriyle çalışarak farklı sistemler için optimize edilmiş performans sunuyoruz.
Microsoft, bugün yayımlanan sürümün bir parçası olarak gpt-oss-20b modelinin GPU için optimize edilmiş sürümlerini Windows cihazlarına da getiriyor. ONNX Runtime tarafından desteklenen bu modeller, yerel çıkarımları destekliyor ve Foundry Local ile VS Code için AI Toolkit aracılığıyla kullanılabiliyor. Böylece Windows geliştiricileri açık modellerle daha kolay geliştirme yapabiliyor.
gpt-oss, ince ayar yaparak kendi ortamlarında kullanabilecekleri, tamamen özelleştirilebilir modeller isteyen geliştiriciler için birebir. API platformumuzda sunulan modeller ise farklı modları destekleyen, yerleşik araçlara sahip ve platformumuza kusursuz bir şekilde entegre olan modeller arayanlar için en iyi seçenek olmayı sürdürüyor. Geliştiricilerin geri bildirimlerini dikkatle dinlemeye devam ediyoruz. Gelecekte gpt-oss için API desteği sağlamayı da düşünebiliriz.
Modellerimizi denemek istiyorsanız open model playground(yeni bir pencerede açılır)’a göz atabilirsiniz. Modelleri farklı ekosistem sağlayıcılarıyla nasıl kullanacağınız veya onlara nasıl ince ayar uygulayacağınız hakkında daha fazla bilgi almak için kılavuzlarımızı inceleyebilirsiniz(yeni bir pencerede açılır).
‘gpt-oss-120b’ ve ‘gpt-oss-20b’ modellerinin yayınlanması, açık ağırlıklı modeller açısından önemli bir adım. Bu modeller, boyutlarına rağmen akıl yürütme yetenekleri ve güvenlik açısından kayda değer gelişmeler sunuyor. Bu açık modelleri mevcut API teklifimize ekleyerek, öncü araştırmaları hızlandırmayı, inovasyonu teşvik etmeyi ve çeşitli kullanım durumlarında daha güvenli ve daha şeffaf bir yapay zeka geliştirmeyi hedefliyoruz.
Bu open modeller; gelişmekte olan pazarların, sınırlı kaynaklarla çalışan sektörlerin ve ticari modelleri kullanmak için yeterli bütçeye veya esnekliğe sahip olmayan küçük kuruluşların da yapay zekaya kolayca erişmesini sağlıyor. Bu kolay kullanılan, güçlü araçlar dünya genelindeki insanların üretmesini, yeniliklere imza atmasını ve hem kendileri hem de başkaları için yeni fırsatlar yaratmasını sağlıyor. ABD'de geliştirilen bu yetenekli açık ağırlıklı modellere geniş erişim, demokratik yapay zeka yollarının genişlemesine yardımcı oluyor.
Sağlıklı bir açık model ekosistemi, yapay zekanın herkes için yaygın olarak erişilebilir ve faydalı olmasına yardımcı olmanın önemli bir boyutu. Bu ekosisteme nasıl katkıda bulunabileceğimizi keşfetmek için, open modellerimizi kullanıma sunuyoruz. Ayrıca bu modellerin güçlü ve faydalı özelliklerinin gelecekte open modellere yatırımı teşvik edip etmeyeceğini de anlamaya çalışıyoruz. Open modellerimizi kullanan bir geliştiriciyseniz, modelin güçlü özelliklerine ve gerçek kullanım alanlarına dair geri bildirimleriniz kararlarımızı şekillendirmede önemli bir rol oynuyor.
Geliştiricileri ve araştırmacıları bu modelleri denemeye, iş birliği yapmaya ve potansiyel uygulamaların sınırlarını zorlamaya davet ediyoruz. Yapacaklarınızı görmek için sabırsızlanıyoruz.
Yazar
Alıntılar
Contributors
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


