OpenAI, zekayı mümkün olduğunca geniş bir kitleye ulaştırmaya kararlı. Bugün, en uygun maliyetli küçük modelimiz olan GPT‑4o mini'yi sunuyoruz. GPT‑4o mini'nin, zekayı çok daha uygun fiyatlı hâle getirerek yapay zeka ile oluşturulan uygulama yelpazesini önemli ölçüde genişleteceğini öngörüyoruz. GPT‑4o mini, MMLU'da %82 puan elde etti ve şu anda LMSYS liderlik tablosunda(yeni bir pencerede açılır) sohbet tercihlerinde GPT‑41'den daha iyi performans gösteriyor. Fiyatı bir milyon girdi tokeni başına 15 sent ve bir milyon çıktı tokeni başına 60 sent.Önceki öncü modellerden çok daha uygun fiyatlı ve GPT‑3.5 Turbo'dan %60’ın üzerinde daha ucuz.
GPT‑4o mini, düşük maliyeti ve gecikme süresinin kısalığıyla çok sayıda model çağrısını zincirleme veya paralel hâle getiren uygulamalar (örneğin, birden fazla API çağrısı), modele büyük hacimli bağlam aktaran uygulamalar (örneğin, tam kod tabanı veya konuşma geçmişi) veya hızlı, gerçek zamanlı metin yanıtları ile müşterilerle etkileşim kuran uygulamalar (örneğin, müşteri destek sohbet robotları) gibi çok çeşitli görevleri yerine getirir.
GPT‑4o mini, bugün API'de metin ve görseli destekliyor. Metin, görsel, video ve ses girdileri ile çıktıları ise gelecekte desteklenmeye başlayacak. Model, 128.000 tokenlik bir bağlam penceresine sahiptir, istek başına en fazla 16.000 çıktı tokenini destekler ve Ekim 2023'e kadar olan bilgilere sahiptir. GPT‑4o ile paylaşılan geliştirilmiş tokenleştirici sayesinde, İngilizce olmayan metinlerin işlenmesi artık daha da uygun maliyetli hâle geldi.
Üstün metin zekasına ve çok modlu akıl yürütme yeteneğine sahip küçük bir model
GPT‑4o mini, hem metin zekası hem de çok modlu akıl yürütme alanlarında akademik kıyaslama testlerinde GPT‑3.5 Turbo ve diğer küçük modelleri geride bırakıyor ve GPT‑4o ile aynı dil yelpazesini destekliyor. Ayrıca, geliştiricilerin haricî sistemlerle verileri alan veya eylemler gerçekleştiren uygulamalar geliştirmelerine olanak tanıyan fonksiyon çağırma işlevinde güçlü bir performans sergilemenin yanı sıra, GPT‑3.5 Turbo'ya kıyasla daha gelişmiş bir uzun bağlam performansı da sergiliyor.
GPT‑4o mini, birçok önemli kıyaslamada2 değerlendirildi.
Akıl yürütme görevleri: GPT‑4o mini, hem metin hem de görsel içeren akıl yürütme görevlerinde diğer küçük modellerden daha iyi. Metinsel zeka ve akıl yürütme konularında kıyaslama testi olan MMLU'da %82,0 puan alırken, Gemini Flash %77,9 ve Claude Haiku %73,8 puan aldı.
Matematik ve kodlama yetkinliği: Matematiksel akıl yürütme ve kodlama görevlerinde mükemmel olan GPT‑4o mini, piyasadaki önceki küçük modelleri geride bıraktı. Matematiksel akıl yürütmeyi ölçen MGSM'de GPT‑4o mini %87,0 puan alırken, Gemini Flash %75,5 ve Claude Haiku %71,7 puan aldı. GPT‑4o mini, kodlama performansını ölçen HumanEval'de %87,2 puan alırken, Gemini Flash %71,5 ve Claude Haiku %75,9 puan aldı.
Çok modlu akıl yürütme: GPT‑4o mini, çok modlu akıl yürütme değerlendirmesi olan MMMU'da da güçlü bir performans sergileyerek %59,4 puan aldı. Gemini Flash %56,1, Claude Haiku ise %50,2 puan aldı.
Model Değerlendirme Skorları
Model geliştirme sürecimizin bir parçası olarak, GPT‑4o mini'nin kullanım örneklerini ve sınırlamalarını daha iyi anlamak için birkaç güvenilir iş ortağıyla çalıştık. Ramp(yeni bir pencerede açılır) ve Superhuman(yeni bir pencerede açılır) gibi şirketlerle iş birliği yaptık. Bu şirketler, GPT‑4o mini'nin, fiş dosyalarından yapılandırılmış veri ayıklama veya mesaj dizisi geçmişi sağlandığında yüksek kaliteli e-posta yanıtları oluşturma gibi görevlerde GPT‑3.5 Turbo'dan önemli ölçüde daha iyi performans gösterdiğini tespit etti.
Yerleşik güvenlik önlemleri
Güvenlik, modellerimize en başından itibaren entegre ediliyor ve geliştirme sürecimizin her aşamasında daha da güçlendiriliyor. Ön eğitimde nefret söylemi, yetişkin içeriği, esas amacı kişisel bilgileri toplamak olan siteler ve spam’ler gibi, modellerimizin öğrenmesini veya çıktısını vermesini istemediğimiz bilgileri filtreliyoruz(yeni bir pencerede açılır). Eğitim sonrası aşamada, modellerin yanıtlarının doğruluğunu ve güvenilirliğini artırmak için insan geri bildirimi ile pekiştirme öğrenimi (RLHF) gibi teknikler kullanarak modelin davranışını politikalarımıza uyumlu hâle getiriyoruz.
GPT‑4o mini, GPT‑4o ile aynı güvenlik önlemlerine sahiptir. Bu önlemler, Hazırlıklı Olma Çerçevemize göre ve gönüllü taahhütlerimize uygun olarak hem otomatik hem de insan değerlendirmeleriyle dikkatlice değerlendirilmiştir. Sosyal psikoloji ve yanlış bilgilendirme gibi alanlarda çalışan, 70'den fazla harici uzman, potansiyel riskleri belirlemek için GPT‑4o'yu test etti. Bu riskleri ele aldık ve ayrıntılarını yakında yayınlanacak GPT‑4o sistem kartında ve Hazırlıklı olma puan kartında paylaşmayı planlıyoruz. Bu uzman değerlendirmelerinden elde edilen bilgiler, hem GPT‑4o hem de GPT‑4o mini'nin güvenliğinin artırılmasına yardımcı oldu.
Ekiplerimiz bu bilgiler ışığında, araştırmalarımızdan elde edilen yeni teknikleri kullanarak GPT‑4o mini'nin güvenliğini artırmak için de çalıştı. API'deki GPT‑4o mini, modelin jailbreak'lere, istem enjeksiyonlarına ve sistem istemi ekstraksiyonlarına karşı direncini artırmaya yardımcı olan yönerge hiyerarşisi(yeni bir pencerede açılır) yöntemimizi uygulayan ilk modeldir. Bu, modelin yanıtlarının daha güvenilir olmasını sağlar ve büyük ölçekli uygulamalarda kullanımını daha güvenli hale getirir.
GPT‑4o mini'nin nasıl kullanıldığını izlemeye ve yeni riskler tespit ettikçe modelin güvenliğini iyileştirmeye devam edeceğiz.
Kullanılabilirlik ve fiyatlandırma
GPT‑4o mini artık Assistants API, Sohbet Tamamlama API'si ve Batch API'sinde metin ve görsel model olarak kullanılabilir. Geliştiriciler, 1 milyon girdi tokeni başına 15 sent ve 1 milyon çıktı tokeni başına 60 sent öderler (standart bir kitapta yaklaşık 2500 sayfaya eşdeğer). Önümüzdeki günlerde GPT‑4o mini için ince ayarlar yayınlamayı planlıyoruz.
ChatGPT'de, Free, Plus ve Team kullanıcıları bugünden itibaren GPT‑3.5 yerine GPT‑4o mini'ye erişebilecekler. Yapay zekanın faydalarını herkes için erişilebilir kılma misyonumuz doğrultusunda, Enterprise kullanıcıları da önümüzdeki haftadan itibaren bu özelliğe erişebilecek.
Sırada Ne Var
Son birkaç yılda, yapay zeka alanında önemli gelişmelere tanıklık ederken bir yandan da maliyetlerde önemli düşüşler yaşandı. Örneğin, GPT‑4o mini'nin token başına maliyeti, 2022'de piyasaya sürülen daha az yetenekli bir model olan text-davinci-003'ten bu yana %99 oranında düştü. Maliyetleri düşürürken model özelliklerini geliştirme yolunda ilerlemeye kararlıyız.
Modellerin her uygulamaya ve her web sitesine sorunsuz bir şekilde entegre olduğu bir gelecek hayal ediyoruz. GPT‑4o mini, geliştiricilerin güçlü yapay zeka uygulamalarını daha verimli ve uygun maliyetli bir şekilde oluşturup ölçeklendirebilmelerinin önünü açıyor. Yapay zekanın geleceği daha erişilebilir, güvenilir ve gündelik dijital deneyimlerimize daha entegre hâle geliyor. Bu alanda öncü olmaya devam etmekten büyük heyecan duyuyoruz.
Yazar
Teşekkürler
Proje Alanı Liderleri: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such
Program Lideri: Mianna Chen
Katkıda bulunanlar şurada belirtilmiştir: https://openai.com/gpt-4o-contributions/
Dipnotlar
- 1
18 Temmuz 2024 itibarıyla GPT-4o mini'nin önceki bir sürümü, GPT-4T 01-25’ten daha iyi performans gösteriyor.
- 2
GPT-4o mini için değerlendirme sonuçları, API asistanı sistem mesajı istemiyle simple-evals(yeni bir pencerede açılır) depomuz kullanılarak hesaplandı. Rakip modellerde; bildirilen değerler (mevcutsa), HELM(yeni bir pencerede açılır) sıralaması ve simple-evals ile kendi yaptığımız tekrarlar arasındaki en yüksek değeri esas alıyoruz.