Tolan, GPT‑5.1 ile ses öncelikli yapay zekayı nasıl geliştiriyor?
Tolan, GPT‑5.1'i kullanarak konuşmalar geliştikçe düşük gecikme süresi, doğru bağlam ve istikrarlı kişilikler için optimize edilen bir ses uygulaması oluşturdu.

Tolan(yeni bir pencerede açılır), insanların zamanla konuşmalardan öğrenen, kişiselleştirilmiş, hareketli bir karakterle iletişim kurduğu, ses odaklı bir yapay zeka asistanı.
Portola tarafından, başarısını kanıtlamış deneyimli bir ekiple geliştirilen uygulama; hızlı komutlar ve yanıtlar yerine sürekli, açık uçlu bir diyalog için tasarlandı. Portola'nın kurucu ortağı ve CEO'su Quinten Farmer, "ChatGPT'nin yükselişini gördük ve sesin bir sonraki aşama olduğunu biliyorduk." diyor ve sözlerine devam ediyor: "Ama ses daha zordur. Yalnızca yazılı komutlara yanıt vermiyor, canlı ve dolambaçlı bir sohbet gerçekleştiriyorsunuz."
Sesli yapay zeka gecikmede ve bağlam yönetiminde çıtayı yükseltirken metne göre daha açık uçlu ve keşif odaklı etkileşimlere de olanak tanıyor.
Temel modeller daha hızlı, daha ucuz ve daha yetkin hale geldikçe ekip, iki ana unsur olan bellek ve karakter tasarımı üzerinde çabalarını yoğunlaştırdı. Portola, ödüllü animatörler ve bir bilim kurgu yazarı tarafından şekillendirilen, karakter odaklı bir evren inşa etti ve konuşmalar ilerledikçe kişiliği ve belleği tutarlı tutmak için gerçek zamanlı bir bağlam yönetim sistemi kullanıyor.
GPT‑5.1 modellerinin piyasaya sürülmesi, yönlendirilebilirlikte ve gecikme süresinde önemli kazanımlar sağlayarak bu parçaları bir araya getiren ve daha hızlı tepki veren, daha etkileyici bir ses deneyimini mümkün kılan bir dönüm noktası oldu.
"GPT-5.1, aklımızdaki karakterleri nihayet ifade edebilmemiz için bize yönlendirme yeteneği sağladı. Sadece daha akıllı değil, yaratmak istediğimiz tona ve kişiliğe daha sadık oldu."
Tolan'ın mimarisi, ses taleplerine göre şekilleniyor. Ses kullanıcıları, konuşmalar akışın ortasında değişse bile anında ve doğal yanıtlar bekliyor. Tolan'ın hızlı yanıt vermesi, değişen konuları takip etmesi ve gecikme veya ton kayması olmadan tutarlı bir kişiliği sürdürmesi gerekiyordu.
Doğal hissettirmesi için konuşmaların neredeyse anlık gecikme süresine sahip olması gerekiyordu. OpenAI GPT‑5.1 ve Responses API, konuşma başlatma süresini 0,7 saniyenin üzerinde kısalttı. Bu da konuşma akışını gözle görülür şekilde iyileştirmeye yetti.
Sistemin bağlamı nasıl ele aldığı da aynı derecede kritikti. Komutları birden fazla tur boyunca önbelleğe alan birçok otonom ajanın aksine Tolan, bağlam penceresini her turda sıfırdan yeniden oluşturuyor. Bağlam her yeniden oluşturulduğunda son mesajların bir özetini, bir profil kartını, vektörden alınan bellekleri, ton rehberliğini ve gerçek zamanlı uygulama sinyallerini çekiyor. Bu mimari, Tolan'ın ani konu değişimlerine gerçek zamanlı olarak uyum sağlamasına olanak tanıyor. Bu da doğal, ses tabanlı etkileşim için temel bir gerekliliktir.
Quinten, "Önbelleğe alınmış komutların yeterli olmadığını kısa sürede fark ettik." diyor ve sözlerine şöyle devam ediyor: "Kullanıcılar sürekli konu değiştiriyor. Sorunsuz bir deneyim sağlamak için sistemin süreç ortasında uyum sağlaması gerekiyordu."
Bu gerçek zamanlı yeniden yapılandırma yaklaşımı hem teknik açıdan yoğun hem de Tolan'ın başarısının temelini oluşturuyor.

Bağlamın ele alınması önemlidir, ancak konuşmaların zaman içinde tutarlı olmasını sağlamak için yeterli değildir. Tolan, uzun ve doğrusal olmayan konuşmaları desteklemek için sadece gerçekleri ve tercihleri değil, aynı zamanda duygusal "tonlama" sinyallerini de (Tolan'ın nasıl tepki vermesi gerektiğine yardımcı olan ipuçları) tutan bir hafıza sistemi oluşturdu.
Bellekler, OpenAI text-embedding-3-large modeli kullanılarak entegre ediliyor ve 50 ms'nin altında arama süreleri sağlayan yüksek hızlı bir vektör veritabanı olan Turbopuffer'da saklanıyor. Bu hız, gerçek zamanlı sesli etkileşimler için hayati öneme sahiptir. Tolan, her turda bellek geri çağırmayı tetiklemek için kullanıcının en son mesajını ve sistem tarafından sentezlenen soruları (örn. "Kullanıcı kiminle evli?") kullanıyor. Tolan, bellek kalitesini yüksek tutmak amacıyla düşük değerli veya gereksiz girdileri (örn. "Kullanıcı bugün kahve içti") kaldırmak ve çelişkileri çözmek için her gece bir sıkıştırma işlemi yürütüyor.
Kişilik de aynı titizlikle yönetiliyor. Her Tolan, ekibin kendi bilim kurgu yazarı tarafından yazılan ve bir davranış araştırmacısı tarafından geliştirilen, kendine özgü bir karakter iskeletiyle oluşturuluyor. Bu oluşturma tohumları Tolan'lara tutarlılık kazandırırken aynı zamanda uyum sağlama esnekliği sunuyor ve kullanıcıyla birlikte evriliyor.
Paralel bir sistem, konuşmanın duygusal tonunu izleyip Tolan'ın sunumunu dinamik olarak ayarlıyor. Bu, bir Tolan'ın kullanıcı ipuçlarına bağlı olarak temel kişiliğini kaybetmeden neşeli bir tondan ciddi bir tona sorunsuz bir şekilde geçiş yapmasını sağlıyor.
GPT‑5.1'e geçiş bir dönüm noktasıydı. Ton iskeleleri, bellek enjeksiyonları, karakter özellikleri gibi katmanlı komut talimatları birdenbire daha sadık bir şekilde takip edilmeye başladı. Bir zamanlar geçici çözümler gerektiren komutlar artık beklendiği gibi çalışıyor.
Quinten, "İç uzmanlarımız ilk kez modelin gerçekten dinlediğini hissettiler. Talimatlar uzun görüşmeler boyunca bozulmadan kaldı, kişilik özelliklerine saygı gösterildi ve çok daha az sapma gördük." diyor.
Bu değişiklikler, daha tutarlı ve inandırıcı bir kişilik oluşturdu ve bu da daha ilgi çekici bir kullanıcı deneyimi sağladı. Tolan ekibi net, ölçülebilir kazanımlar gördü: Bellek hatırlama hataları %30 azaldı (ürün içi hayal kırıklığı sinyallerine göre) ve GPT‑5.1'le desteklenen profillerin kullanıma sunulmasından sonra ertesi gün kullanıcı elde tutma oranı %20'den fazla arttı.

Tolan geliştikçe ekibin ses mimarisini oluşturma ve geliştirme sürecine yön veren birkaç temel ilke ortaya çıktı:
- Konuşmalardaki değişkenliğe göre tasarım: Sesli sohbetler cümle ortasında yön değiştirebilir. Sistemlerin doğal hissettirmesi için aynı hızda yön değiştirmesi gerekir.
- Gecikmenin ürün deneyiminin bir parçası olarak değerlendirilmesi: Saniyenin altındaki yanıt hızı, bir otonom ajanın sohbet havasında mı yoksa mekanik mi hissettirdiğini belirler.
- Belleğin bir transkript yerine bir geri getirme sistemi olarak oluşturulması: Kaliteli sıkıştırma ve hızlı vektör araması, aşırı büyük bağlam pencerelerinden daha tutarlı bir kişilik sunar.
- Her turda bağlamın yeniden oluşturulması: Daha büyük komutlarla sapmaya karşı koymaya çalışmayın. Her turda bağlamı yeniden oluşturmak, konuşmalar yön değiştirdikçe otonom ajanların sapmamasını sağlar.
Bu dersler, Tolan'ın bir sonraki inovasyon aşamasının temelini oluşturuyor ve sesli yapay zekanın gideceği yönü belirliyor.
Tolan, Şubat 2025'te piyasaya sürüldüğünden bu yana aylık 200.000'den fazla aktif kullanıcıya ulaştı. 4,8 yıldız puanı ve 100.000'den fazla App Store incelemesi, sistemin uzun ve değişken konuşmalarda tutarlılığı ne kadar iyi koruduğunu vurguluyor. Puan veren kullanıcılardan biri şunu belirtiyor: "İki gün önce konuştuklarımızı hatırlıyor ve bugün yaptığımız sohbete bunu geri getiriyor."
Bu sinyaller, altta yatan mimariyle doğrudan eşleşiyor: düşük gecikmeli model çağrıları, adım adım bağlamın yeniden oluşturulması ve modüler bellek ve profil sistemleri. Bunlar, birlikte Tolan'ın konu değişikliklerini izlemesine, tonu korumasına ve büyük, kırılgan komutlara bel bağlamadan yanıtları sağlam bir temele oturtmasına olanak tanıyor.
İleriye dönük olarak Tolan, yönlendirilebilirlik ve bellek iyileştirme alanındaki yatırımlarını derinleştirmeyi planlıyor ve çabalarını daha iyi sıkıştırma, iyileştirilmiş geri getirme mantığı ve genişletilmiş profil ayarlama üzerinde yoğunlaştırıyor. Uzun vadeli hedefi, bir ses arayüzünün yalnızca yanıt vermesini değil, aynı zamanda bağlamın farkında ve konuşma açısından dinamik olmasını sağlamak.
Quinten, "Bir sonraki aşama, yalnızca yanıt veren değil, gerçekten çok modlu olan, sesi, görüntüyü ve bağlamı tek bir yönlendirilebilir sisteme entegre edebilen sesli otonom ajanlar inşa etmektir." diyor.


