
Bugün Realtime API’yi, geliştiriciler ile kuruluşların güvenilir ve üretime hazır ses ajanları geliştirmesini sağlayacak yeni özellikleriyle beraber genel kullanıma sunuyoruz. API artık uzak MCP sunucularını, görsel girdileri ve Oturum Başlatma Protokolü (SIP) aracılığıyla telefon aramalarını destekliyor ve bu sayede ses ajanlarını, ek araçlar ile bağlama erişim yoluyla daha yetenekli hâle getiriyor.
Ayrıca konuşmayı hem girdi hem çıktı olarak destekleyenler arasındaki şu ana kadarki en gelişmiş modelimiz olan gpt-realtime’ı da yayınlıyoruz. Bu yeni model; karmaşık talimatlara uyma, araçları doğrulukla çağırma ve kulağa hem daha doğal hem de daha anlamlı gelen konuşmalar üretme açısından iyileştirmeler sunuyor. Sistem mesajlarını ve geliştirici istemlerini yorumlamada daha iyi. Destek çağrılarında yasal uyarıları kelimesi kelimesine okumak, alfanümerik dizileri tekrar etmek veya cümlenin ortasında diller arasında sorunsuzca geçiş yapmak gibi talimatlara uyabiliyor. Bugünden itibaren yalnızca Realtime API kullanıcılarına özel olarak Cedar ve Marin adlı iki yeni ses de sunuyoruz.
Geçtiğimiz Ekim ayında Realtime API’yi herkese açık beta sürümüyle ilk kez kullanıma sunduğumuz günden bu yana binlerce geliştirici, API ile ürünler geliştirerek bugün yayınladığımız iyileştirmelerin şekillenmesine yardımcı oldu. Bu iyileştirmeler, üretimde sesli ajanları başarıyla devreye sokmak için güvenilirlik, düşük gecikme süreleri ve yüksek kalite sunacak şekilde optimize edildi. Realtime API, konuşmadan metne ve metinden konuşmaya dönüştürme özellikli birden fazla modeli birbirine ekleyen geleneksel sistemlerin aksine sesi tek bir model ve API üzerinden doğrudan işleyip üretiyor. Bu sayede gecikme süresi kısalıyor, konuşmadaki nüanslar korunuyor ve daha doğal ve anlamlı yanıtlar verilebiliyor.
OpenAI’ın Realtime API’sindeki, konuşmayı hem girdi hem çıktı olarak destekleyen yeni model, daha güçlü akıl yürütme yetenekleri ve daha doğal bir konuşma tarzı sunuyor. Böylece ilanları yaşam tarzı ihtiyaçlarına göre filtrelemek veya BuyAbility puanı benzeri araçlarımızla bütçe uygunluğuna yönelik yönlendirmeler yapmak gibi karmaşık ve çok adımlı talepleri yerine getirebiliyor. Bu da Zillow’da ev aramayı veya finansal seçenekler keşfetmeyi, bir arkadaşla sohbet edermişçesine doğal bir deneyime dönüştürüp ev satın almak, satmak veya kiralamak gibi kararları basitleştirmeye yardımcı oluyor.
– Josh Weisberg, Zillow Yapay Zeka Direktörü
Konuşmayı hem girdi hem çıktı olarak destekleyen yeni modelimiz gpt-realtime, bugüne kadarki en gelişmiş, üretime hazır ses modelimiz. Modeli; müşteri desteği, kişisel asistanlık ve eğitim gibi gerçek hayat görevlerinde üstün başarı göstermesi amacıyla müşterilerle yakın iş birliği içinde eğiterek geliştiricilerin ses ajanı tasarlama ve dağıtma süreçleriyle uyumlu hâle getirdik. Model; ses kalitesi, zeka, talimatlara uyma ve fonksiyon çağırma açısından iyileştirmeler sunuyor.
Kulağa doğal gelen konuşmalar, ses ajanlarının gerçek hayatta kullanımı açısından kritik bir öneme sahip. Keyif alınabilir bir deneyim yaratmak ve kullanıcılarla kesintisiz konuşmaları desteklemek için modellerin, insanlarınki gibi bir tonlamayla, duyguyla ve tempoyla konuşması gerekir. gpt-realtime’ı kulağa daha doğal gelen daha yüksek kaliteli sesler üretecek ve “hızlı ve profesyonel bir biçimde konuş” ya da “Fransız aksanıyla empati göstererek konuş” gibi incelikli talimatlara uyacak şekilde eğittik.
API kapsamında, kulağa doğal gelen konuşmada önemli iyileştirmeler sunan Marin ve Cedar adlı iki yeni sesi kullanıma açtık. Ayrıca mevcut sekiz sesi de bu iyileştirmelerden yararlanacak şekilde güncelliyoruz.
gpt-realtime, daha yüksek bir zeka sergiliyor ve ham ses girdilerini daha fazla doğrulukla kavrayabiliyor. Model, sözlü olmayan göstergeleri (ör. kahkaha) yakalayabiliyor, cümle ortasında başka bir dile geçebiliyor ve konuşma tonunu uyarlayabiliyor (“dinamik ve profesyonel” veya “nazik ve empatik”). Dâhilî değerlendirmelere göre model ayrıca İspanyolca, Çince, Japonca ve Fransızca gibi diğer dillerdeki alfanümerik dizileri (ör. telefon numaraları, araç şasi numaraları) tespit etmede doğruluğu daha yüksek bir performans sergiliyor. gpt-realtime, akıl yürütme yetilerini ölçen Big Bench Audio değerlendirmesinde elde ettiği %82,8’lik doğrulukla Aralık 2024’teki önceki modelimizin %65,6’lık puanını geçmiş durumda.
Big Bench Audio(yeni bir pencerede açılır) kıyaslaması, ses girdisi desteği sunan dil modellerinin akıl yürütme yeteneklerini ölçen bir değerlendirme veri setidir. Bu veri seti, gelişmiş akıl yürütmeye yönelik katı ölçütlü testleri nedeniyle tercih edilen Big Bench Hard sorularını ses alanına uyarlamaktadır.
Geliştiriciler, konuşmayı hem girdi hem çıktı olarak destekleyen uygulamalar geliştirirken modele nasıl davranacağına yönelik olarak nasıl konuşacağı, belirli durumlarda ne söyleyeceği veya ne yapıp ne yapmayacağı gibi bir dizi talimat verir. İyileştirmelerimizin bu yönergelere uymasına odaklandık, böylece ufak yönlendirmeler bile model için daha güçlü bir sinyal niteliğinde oldu. gpt-realtime, talimatlara uyma doğruluğunu ölçen MultiChallenge ses kıyaslamasında %30,5 puan alarak Aralık 2024’teki önceki modelimizin %20,6’lık puanına göre kayda değer bir gelişme ortaya koydu.
MultiChallenge(yeni bir pencerede açılır), LLM’lerin insanlarla yapılan çok aşamalı konuşmalardaki performansını değerlendirir. Mevcut öncü modeller için sorun teşkil eden dört gerçekçi zorluk kategorisine odaklanır. Bu zorluklar; modellerin talimatlara uyma, bağlam yönetimi ve bağlama uygun akıl yürütme yeteneklerini bir arada kullanabilmesini gerektirir. Bu değerlendirmenin sese yönelik bir versiyonunu oluşturmak için test sorularının sese uygun bir alt sesini metinden konuşmaya dönüştürdük.
Konuşmayı hem girdi hem çıktı olarak destekleyen bir modele sahip yetenekli bir ses ajanı geliştirmek için modelin, üretimde fayda sağlamak üzere doğru araçları doğru zaman çağırabilmesi gerekir. Fonksiyon çağırma özelliğini alakalı fonksiyonları çağırma, doğru zamanda çağırma ve uygun argümanlarla çağırma (daha yüksek doğruluk) olmak üzere üç açıdan iyileştirdik. gpt-realtimei fonksiyon çağırma performansını ölçen ComplexFuncBench ses değerlendirmesinde %66,5 puan aldı. Aralık 2024’te önceki modelimizin puanı ise %49,7’ydi.
Ayrıca eş zamansız fonksiyon çağırma(yeni bir pencerede açılır) özelliğinde de iyileştirmeler yaptık. Uzun süren fonksiyon çağrıları artık oturum akışını bozmayacak ve model, sonuçları beklerken konuşmayı akıcı bir şekilde sürdürebilecek. Bu yeni özellik gpt-realtime’da yerleşik olarak sunulduğundan geliştiricilerin kodlarını güncellemesine gerek olmayacak.
ComplexFuncBench(yeni bir pencerede açılır), modellerin zorlu fonksiyon çağırma görevlerini ne kadar iyi gerçekleştirebildiğini ölçer. Çok adımlı çağrılar, kısıtlar veya zımni parametreler hakkında akıl yürütmek ve çok uzun girdileri yönetmek gibi senaryolar genelindeki performansı değerlendirir. Bu değerlendirmenin modelimize uygun bir versiyonunu oluşturmak için orijinal metin istemlerini konuşmalara dönüştürdük.
Oturum yapılandırmasına uzak bir MCP sunucusunun URL’sini ekleyerek Realtime API oturumunda MCP desteğini etkinleştirebilirsin. Bağlantı kurulduktan sonra API, araç çağrılarını senin için otomatik olarak üstlenir. Bu nedenle entegrasyonları manuel olarak devreye sokman gerekmez.
Bu kurulum, ajanının yeteneklerinin kapsamını genişletmeyi kolaylaştırır. Söz konusu araçların kullanıma sunulması için oturumu farklı bir MCP sunucusuna yönlendirmen yeterlidir. Realtime ile MCP yapılandırması hakkında daha fazla bilgi almak için bu kılavuzu(yeni bir pencerede açılır) inceleyebilirsin.
gpt-realtime, artık görsel girdileri desteklediği için bir Realtime APUI oturumunda ses veya metinle birlikte görseller, fotoğraflar ve ekran görüntüleri de ekleyebilrisin. Model, konuşmalarında kullanıcıların gerçekten ne gördüğünü temel alabildiği için kullanıcılar, “ne görüyorsun?” ya da “bu ekran görüntüsündeki metni oku” gibi istemler yöneltebilir.
Sistem, bir görseli canlı bir video akışından ziyade sohbete eklenen bir resim gibi ele alır. Uygulaman, modelle hangi görsellerin paylaşılacağını ve bunların paylaşılma zamanını belirleyebilir. Böylece modelin ne gördüğü ve ne zaman yanıt verdiği konusunda kontrol sende olur.
Görsel girdilerle işe koyulmak için belgelerimizi(yeni bir pencerede açılır) inceleyebilirsin.
Realtime API’nin entegrasyonunu kolaylaştıran ve üretim amaçlı kullanımda daha esnek olmasını sağlayan birkaç başka özellik daha ekledik.
- Oturum Başlatma Protokolü (SIP) desteği: Uygulamalarını doğrudan Realtime API desteğiyle genel telefon şebekesine, özel santral sistemlerine, masaüstü telefonlara bağlayabilirsin. Ayrıntılar için belgeleri inceleyin.(yeni bir pencerede açılır)
- Tekrar kullanılabilir istemler: Artık Responses API’deki gibi farklı Realtime API oturumlarında da geliştirici mesajları, araçlar, değişkenler ve örnek kullanıcı/asistan mesajları gibi istemleri kaydedip yeniden kullanabilirsin. Ayrıntılar için belgeleri inceleyin.(yeni bir pencerede açılır)
Realtime API, kötüye kullanımı önlemeye yardımcı olacak çok katmanlı koruyucu ve risk azaltıcı önlemlere sahip. Güvenlik yaklaşımımız ve sistem kartı ayrıntılarına yönelik daha fazla bilgi için beta duyurusu hakkındaki blog yazısını inceleyebilirsin. Realtime API oturumlarında etkin sınıflandırıcılar kullanıyoruz. Bu, zararlık içerik yönergelerimizi ihlal ettiği tespit edilen belirli konuşmaların durdurulabilmesini sağlıyor. Geliştiriciler ayrıca Agents SDK(yeni bir pencerede açılır)’yi kullanarak kendi ek güvenlik önlemlerini de kolayca ekleyebilir.
Kullanım politikalarımız, hizmetlerimizdeki çıktıların istenmeyen gönderi paylaşımı, aldatma veya diğer zararlı amaçlarla yeniden kullanımı ya da dağıtımını yasaklıyor. Ayrıca geliştiricilerin, hâlihazırda bağlamdan anlaşılmadığı durumlarda son kullanıcılara bir yapay zeka ile etkileşim kurduklarını açıkça belirtmesi gerekiyor. Realtime API, kötü niyetli kişilerin başkalarını taklit etmesini önlemeye yardımcı olmak için önceden ayarlı sesler kullanıyor.
Realtime API, AB merkezli uygulamaları için AB Veri Yerleşimini(yeni bir pencerede açılır) tamamen destekliyor ve kurumsal gizlilik taahhütlerimize tabidir.
Genel erişime açık olan Realtime API ve yeni gpt-realtime modeli, bugünden itibaren tüm geliştiriciler tarafından kullanılabilir. gpt-realtime’ı gpt-4o-realtime-preview’e kıyasla %20 indirimli olarak, 1 milyon ses girdisi tokeni başına 32$ ve 1 milyon ses çıktısı başına 64$ karşılığında kullanıma sunuyoruz (ayrıntılı fiyatlandırmayı(yeni bir pencerede açılır) inceleyin). Ayrıca, uzun oturumların maliyetini önemli düzeyde düşürmek amacıyla geliştiricilerin akıllı token limitleri belirleyebilmesine ve aynı anda birden fazla etkileşimi kısaltabilmesine imkân tanıyan ayrıntılı kontroller de ekledik.
Başlamak için Realtime API belgelerimizi(yeni bir pencerede açılır) incele, yeni modeli Playground(yeni bir pencerede açılır)’da dene ve Realtime API istem kılavuzumuzu(yeni bir pencerede açılır) incele.


