12 Eylül 2024

Karşınızda OpenAI o1‑preview

Zor problemleri çözmek için yeni bir akıl yürütme modelleri serisi. Şimdi kullanıma açıldı.

Yükleniyor...

17 Eylül 2024 tarihli güncelleme: İstek limitleri artık o1‑preview için haftada 50 sorgu ve o1‑mini için günde 50 sorgu olacak.

Yanıt vermeden önce daha uzun süre düşünmek üzere tasarlanmış yeni bir yapay zeka modelleri serisi geliştirdik. Bu modeller bilim, kodlama ve matematik alanlarında önceki modellere kıyasla daha karmaşık görevler üzerinde akıl yürütebiliyor ve daha zorlu problemleri çözebiliyor.

Bu serinin ilkini bugün ChatGPT ve API’mizde yayınlıyoruz. Bu bir ön izleme ve düzenli güncellemeler ile iyileştirmeler yapmayı hedefliyoruz. Bu sürüm ile birlikte, şu anda geliştirme aşamasında olan bir sonraki güncelleme için değerlendirmeleri de paylaşıyoruz.

Nasıl çalışır

Bu modelleri, yanıt vermeden önce problemler üzerinde aynı bir insanın yapacağı gibi daha fazla düşünmeleri için eğittik. Eğitim aracılığıyla düşünme süreçlerini iyileştirmeyi, değişik stratejiler denemeyi ve hatalarını fark etmeyi öğreniyorlar.

Yaptığımız testlerde, bir sonraki model güncellemesi fizik, kimya ve biyoloji alanlarındaki zorlu benchmark görevlerinde doktora öğrencilerine yakın performans sergiledi. Ayrıca matematik ve kodlama becerilerinde de ustalaştığını gözlemledik. Uluslararası Matematik Olimpiyatı (IMO) için düzenlenen bir eleme sınavında, GPT‑4o soruların sadece %13’ünü doğru çözebilirken akıl yürütme modeli %83’lük bir başarı oranına ulaştı. Modelin kodlama yetenekleri yarışmalarda değerlendirildi ve Codeforces yarışmalarında 89’uncu yüzdebirlik dilime girdi. Bu konu hakkında daha fazla bilgi almak için teknik araştırma yazımızı okuyabilirsiniz.

Erken bir model olarak, web’de bilgi arama ve dosyalar ve görseller yükleme gibi ChatGPT’yi kullanışlı kılan birçok özelliği henüz içermiyor. GPT‑4o çoğu genel kullanım durumunda çok yakında daha yetenekli olacak.

Ancak karmaşık akıl yürütme görevleri açısından bu kayda değer bir ilerleme ve yapay zeka kapasitesinde yeni bir seviyeyi ifade ediyor. Bunları göz önüne alarak sayacı 1’e alıyoruz ve bu seriye OpenAI o1 adını veriyoruz.

Güvenlik

Bu yeni modelleri geliştirirken güvenlik ve uyumlandırma yönergelerine bağlı kalmalarını sağlamak için akıl yürütme becerilerinden yararlanan yeni bir güvenlik eğitimi yaklaşımını benimsedik. İlgili bağlamda güvenlik kurallarımıza dair akıl yürütebildikleri için kuralları daha etkili bir şekilde uygulayabiliyorlar.

Güvenliği değerlendirme yöntemlerimizden biri de, bir kullanıcı güvenlik kurallarını ihlal etmeye çalıştığında (buna “jailbreak” adı verilir) modelimizin güvenlik kurallarına ne kadar sadık kaldığını test etmektir. En zorlu jailbreak testlerimizden birinde, 0’dan 100’e kadarlık bir ölçekte GPT‑4o 22 puan alırken, o1‑preview modelimiz 84 puana ulaştı. Bu konu hakkında daha fazla bilgi almak için sistem kartını ve araştırma yazımızı okuyabilirsiniz.

Bu modellerin yeni yeteneklerine paralel olarak güvenlik yaklaşımımızı, iç yönetişimimizi ve federal hükümet ile iş birliğimizi güçlendirdik. Bu çalışmalarımız arasında, Hazırlıklılık Çerçevemizi⁠(yeni bir pencerede açılır) kullanarak yürüttüğümüz kapsamlı testleri ve değerlendirmeleri, endüstrinin en gelişkin kırmızı takım testlerini ve ayrıca Güvenlik ve Veri Güvenliği Komitemiz gibi yönetim kurulu düzeyinde inceleme süreçlerini sayabiliriz.

Yapay zeka güvenliğine yönelik taahhüdümüzü pekiştirmek amacıyla yakın zamanda ABD ve Birleşik Krallık Yapay Zeka Güvenliği Enstitüleri ile resmi anlaşmalar imzaladık. Bu modelin araştırma sürümü için enstitülere erken erişim sağlamak gibi yaklaşımlar yoluyla bu anlaşmaları hayata geçirmeye başladık. Bu gelişmeler ortaklığımız için önemli bir ilk adımdı ve gelecekteki modeller genel kullanıma açılmadan önce ve sonra yürütülecek araştırmalar, değerlendirmeler ve testler için belirli bir sürecin oluşturulmasına yardımcı oldu.

Bu model kimler için

Özellikle bilim, kodlama, matematik ve benzeri alanlarda karmaşık problemler ile uğraşıyorsanız, bu gelişmiş akıl yürütme yetenekleri oldukça işinize yarayabilir. Örneğin, sağlık araştırmacıları hücre dizileme verilerine açıklamalar eklemek, fizikçiler kuantum optiği için gereken karmaşık matematiksel formülleri üretmek ve her alandaki geliştiriciler çok adımlı iş akışları oluşturup yürütmek için o1 kullanabilir.

OpenAI o1-mini

o1 serisi karmaşık kodları doğru bir şekilde üretme ve hata ayıklama konusunda üstün bir performans sergiliyor. Geliştiricilere daha etkili bir çözüm sunmak amacıyla, özellikle kodlama konusunda yetkin, daha hızlı ve daha uygun maliyetli olan OpenAI o1‑mini akıl yürütme modelini de kullanıma açıyoruz. Daha küçük olan o1‑mini modeli, o1‑preview modelinden %80 daha ucuz. Bu da onun dünya hakkında geniş kapsamlı bilgi gerektirmeyen, ama akıl yürütme becerisi isteyen uygulamalar için güçlü ve uygun maliyetli bir model olmasını sağlıyor.

OpenAI o1 nasıl kullanılır

ChatGPT Plus ve Team kullanıcıları bugünden itibaren ChatGPT içinde o1 modellerine erişebilecek. Hem o1‑preview hem de o1‑mini, model seçicide elle seçilebiliyor. Modeller kullanıma açıldığında haftalık istek limiti o1‑preview için 30 mesaj, o1‑mini için 50 mesaj olacak. Bu limitleri yükseltmek ve ChatGPT’nin belirli bir istem için en uygun modeli otomatik olarak seçmesini sağlamak üzere çalışmalarımız sürüyor.

Parlak sarı ve mavi renklerde soyut bir arka plan üzerinde, yeni “o1-preview” model seçeneğini gösteren yeni ChatGPT açılır menüsünün görüntüsü

ChatGPT Enterprise ve Edu kullanıcıları önümüzdeki haftadan itibaren her iki modele de erişebilecek.

API kullanım kademesi 5⁠(yeni bir pencerede açılır) için uygun olan geliştiriciler, bugünden itibaren API’de her iki modeli de kullanarak 20 RPM istek limitiyle prototip oluşturmaya başlayabilir. Ek testlerden sonra bu limitleri artırma çalışmalarımız sürüyor. Şu an için bu modellerin API’si fonksiyon çağırma, akış, sistem mesajları için destek ve diğer bazı özellikleri içermiyor. Başlamak için API belgelerine⁠(yeni bir pencerede açılır) bakın.

Ayrıca tüm ChatGPT Free kullanıcılarına o1‑mini erişimi sağlamayı hedefliyoruz.

Sırada ne var

Bu aslında bu akıl yürütme modellerinin ChatGPT ve API’de erken bir ön izlemesi. Model güncellemelerine ek olarak web’de gezinme, dosya ve görsel yükleme ve daha başka özellikler ekleyerek bu modelleri herkes için daha işlevsel hale getirmeyi hedefliyoruz.

Ayrıca, yeni OpenAI o1 serisinin yanı sıra GPT serimizdeki modelleri geliştirmeye ve kullanıma açmaya devam etmeyi hedefliyoruz.

Yazarlar

OpenAI