Ana içeriğe atla
OpenAI

7 Ocak 2026

Startup

Tolan, GPT‑5.1 ile ses öncelikli yapay zekayı nasıl geliştiriyor?

Tolan, GPT‑5.1'i kullanarak konuşmalar geliştikçe düşük gecikme süresi, doğru bağlam ve istikrarlı kişilikler için optimize edilen bir ses uygulaması oluşturdu.

Tolan logo on orange jigsaw puzzle background
Yükleniyor...

Tolan(yeni bir pencerede açılır), insanların zamanla konuşmalardan öğrenen, kişiselleştirilmiş, hareketli bir karakterle iletişim kurduğu, ses odaklı bir yapay zeka asistanı. 

Portola tarafından, başarısını kanıtlamış deneyimli bir ekiple geliştirilen uygulama; hızlı komutlar ve yanıtlar yerine sürekli, açık uçlu bir diyalog için tasarlandı. Portola'nın kurucu ortağı ve CEO'su Quinten Farmer, "ChatGPT'nin yükselişini gördük ve sesin bir sonraki aşama olduğunu biliyorduk." diyor ve sözlerine devam ediyor: "Ama ses daha zordur. Yalnızca yazılı komutlara yanıt vermiyor, canlı ve dolambaçlı bir sohbet gerçekleştiriyorsunuz."

Sesli yapay zeka gecikmede ve bağlam yönetiminde çıtayı yükseltirken metne göre daha açık uçlu ve keşif odaklı etkileşimlere de olanak tanıyor. 

Temel modeller daha hızlı, daha ucuz ve daha yetkin hale geldikçe ekip, iki ana unsur olan bellek ve karakter tasarımı üzerinde çabalarını yoğunlaştırdı. Portola, ödüllü animatörler ve bir bilim kurgu yazarı tarafından şekillendirilen, karakter odaklı bir evren inşa etti ve konuşmalar ilerledikçe kişiliği ve belleği tutarlı tutmak için gerçek zamanlı bir bağlam yönetim sistemi kullanıyor.

GPT‑5.1 modellerinin piyasaya sürülmesi, yönlendirilebilirlikte ve gecikme süresinde önemli kazanımlar sağlayarak bu parçaları bir araya getiren ve daha hızlı tepki veren, daha etkileyici bir ses deneyimini mümkün kılan bir dönüm noktası oldu.

"GPT-5.1, aklımızdaki karakterleri nihayet ifade edebilmemiz için bize yönlendirme yeteneği sağladı. Sadece daha akıllı değil, yaratmak istediğimiz tona ve kişiliğe daha sadık oldu."
—Quinten Farmer, Portola CEO'su

Doğal sesli etkileşimler tasarlamak

Tolan'ın mimarisi, ses taleplerine göre şekilleniyor. Ses kullanıcıları, konuşmalar akışın ortasında değişse bile anında ve doğal yanıtlar bekliyor. Tolan'ın hızlı yanıt vermesi, değişen konuları takip etmesi ve gecikme veya ton kayması olmadan tutarlı bir kişiliği sürdürmesi gerekiyordu.

Doğal hissettirmesi için konuşmaların neredeyse anlık gecikme süresine sahip olması gerekiyordu. OpenAI GPT‑5.1 ve Responses API, konuşma başlatma süresini 0,7 saniyenin üzerinde kısalttı. Bu da konuşma akışını gözle görülür şekilde iyileştirmeye yetti.

Sistemin bağlamı nasıl ele aldığı da aynı derecede kritikti. Komutları birden fazla tur boyunca önbelleğe alan birçok otonom ajanın aksine Tolan, bağlam penceresini her turda sıfırdan yeniden oluşturuyor. Bağlam her yeniden oluşturulduğunda son mesajların bir özetini, bir profil kartını, vektörden alınan bellekleri, ton rehberliğini ve gerçek zamanlı uygulama sinyallerini çekiyor. Bu mimari, Tolan'ın ani konu değişimlerine gerçek zamanlı olarak uyum sağlamasına olanak tanıyor. Bu da doğal, ses tabanlı etkileşim için temel bir gerekliliktir.

Quinten, "Önbelleğe alınmış komutların yeterli olmadığını kısa sürede fark ettik." diyor ve sözlerine şöyle devam ediyor: "Kullanıcılar sürekli konu değiştiriyor. Sorunsuz bir deneyim sağlamak için sistemin süreç ortasında uyum sağlaması gerekiyordu."

Bu gerçek zamanlı yeniden yapılandırma yaklaşımı hem teknik açıdan yoğun hem de Tolan'ın başarısının temelini oluşturuyor.

Tolan'ın konuşma döngüsünü gösteren akış diyagramı. "Recompute persona" adımı dört girdiyi besliyor: sohbet özeti ve son ham mesajlar, kullanıcı ve Tolan profilleri, diğer bağlam, bellek ve ton. Bu girdiler birleşerek bir Tolan yanıtı oluşturuyor ve bu da bir kullanıcı yanıtıyla sonuçlanıyor. Kullanıcı yanıtı daha sonra iki paralel süreci yönlendiriyor: güncellenmiş bir ton türetme ve bellekleri ayıklama. Ayıklanan bellekler, belleği güncelliyor, güncellenen ton yeniden tona geri besleniyor ve sohbet geçmişi periyodik olarak yeniden özetlenip sıkıştırılarak bir sonraki tur için sohbet özetine geri dönüyor.

Zamanla tutarlılığını koruyan bellek ve kişilik oluşturma

Bağlamın ele alınması önemlidir, ancak konuşmaların zaman içinde tutarlı olmasını sağlamak için yeterli değildir. Tolan, uzun ve doğrusal olmayan konuşmaları desteklemek için sadece gerçekleri ve tercihleri değil, aynı zamanda duygusal "tonlama" sinyallerini de (Tolan'ın nasıl tepki vermesi gerektiğine yardımcı olan ipuçları) tutan bir hafıza sistemi oluşturdu.

Bellekler, OpenAI text-embedding-3-large modeli kullanılarak entegre ediliyor ve 50 ms'nin altında arama süreleri sağlayan yüksek hızlı bir vektör veritabanı olan Turbopuffer'da saklanıyor. Bu hız, gerçek zamanlı sesli etkileşimler için hayati öneme sahiptir. Tolan, her turda bellek geri çağırmayı tetiklemek için kullanıcının en son mesajını ve sistem tarafından sentezlenen soruları (örn. "Kullanıcı kiminle evli?") kullanıyor. Tolan, bellek kalitesini yüksek tutmak amacıyla düşük değerli veya gereksiz girdileri (örn. "Kullanıcı bugün kahve içti") kaldırmak ve çelişkileri çözmek için her gece bir sıkıştırma işlemi yürütüyor.

Kişilik de aynı titizlikle yönetiliyor. Her Tolan, ekibin kendi bilim kurgu yazarı tarafından yazılan ve bir davranış araştırmacısı tarafından geliştirilen, kendine özgü bir karakter iskeletiyle oluşturuluyor. Bu oluşturma tohumları Tolan'lara tutarlılık kazandırırken aynı zamanda uyum sağlama esnekliği sunuyor ve kullanıcıyla birlikte evriliyor. 

Paralel bir sistem, konuşmanın duygusal tonunu izleyip Tolan'ın sunumunu dinamik olarak ayarlıyor. Bu, bir Tolan'ın kullanıcı ipuçlarına bağlı olarak temel kişiliğini kaybetmeden neşeli bir tondan ciddi bir tona sorunsuz bir şekilde geçiş yapmasını sağlıyor. 

GPT‑5.1'e geçiş bir dönüm noktasıydı. Ton iskeleleri, bellek enjeksiyonları, karakter özellikleri gibi katmanlı komut talimatları birdenbire daha sadık bir şekilde takip edilmeye başladı. Bir zamanlar geçici çözümler gerektiren komutlar artık beklendiği gibi çalışıyor. 

Quinten, "İç uzmanlarımız ilk kez modelin gerçekten dinlediğini hissettiler. Talimatlar uzun görüşmeler boyunca bozulmadan kaldı, kişilik özelliklerine saygı gösterildi ve çok daha az sapma gördük." diyor.

Bu değişiklikler, daha tutarlı ve inandırıcı bir kişilik oluşturdu ve bu da daha ilgi çekici bir kullanıcı deneyimi sağladı. Tolan ekibi net, ölçülebilir kazanımlar gördü: Bellek hatırlama hataları %30 azaldı (ürün içi hayal kırıklığı sinyallerine göre) ve GPT‑5.1'le desteklenen profillerin kullanıma sunulmasından sonra ertesi gün kullanıcı elde tutma oranı %20'den fazla arttı.

Tolan'ın konuşma sırasında bellekleri nasıl geri çağırıp işlediğini gösteren akış diyagramı. Bir kullanıcı mesajı ("I’m so excited for my trip this weekend"); yaklaşan seyahatler, belirli bir haftaya yönelik planlar ve kullanıcı tercihleri gibi takip sorularını oluşturan bir adımı tetikliyor. Bu sorular, bir bellek vektör veritabanını sorgulamak için entegre ediliyor ve sonuçlar, ortalama karşılıklı sıralama kullanılarak birleştiriliyor. Elde edilen bağlam, Tolan'ın yanıtını şekillendiriyor ("camping with Steven in Yosemite"). Gelecekte İzlanda'ya yapılacak bir seyahatle ilgili daha sonraki bir kullanıcı mesajı, yeni bir anı olarak saklanıyor, daha sonra üzerinde düşünülüyor, entegrasyon tabanlı k-nearest neighbors kullanılarak ilgili belleklere kümeleniyor ve her kümedeki anılar birleştirilerek, düzenlenerek ve rafine edilerek sıkıştırılıyor.

Tolan'ın doğal sesli otonom ajanlar oluşturma konusundaki temel ilkeleri 

Tolan geliştikçe ekibin ses mimarisini oluşturma ve geliştirme sürecine yön veren birkaç temel ilke ortaya çıktı:

  • Konuşmalardaki değişkenliğe göre tasarım: Sesli sohbetler cümle ortasında yön değiştirebilir. Sistemlerin doğal hissettirmesi için aynı hızda yön değiştirmesi gerekir.
  • Gecikmenin ürün deneyiminin bir parçası olarak değerlendirilmesi: Saniyenin altındaki yanıt hızı, bir otonom ajanın sohbet havasında mı yoksa mekanik mi hissettirdiğini belirler.
  • Belleğin bir transkript yerine bir geri getirme sistemi olarak oluşturulması: Kaliteli sıkıştırma ve hızlı vektör araması, aşırı büyük bağlam pencerelerinden daha tutarlı bir kişilik sunar.
  • Her turda bağlamın yeniden oluşturulması: Daha büyük komutlarla sapmaya karşı koymaya çalışmayın. Her turda bağlamı yeniden oluşturmak, konuşmalar yön değiştirdikçe otonom ajanların sapmamasını sağlar.

Bu dersler, Tolan'ın bir sonraki inovasyon aşamasının temelini oluşturuyor ve sesli yapay zekanın gideceği yönü belirliyor.

Sesli yapay zeka ile imkanların sınırlarını genişletmek

Tolan, Şubat 2025'te piyasaya sürüldüğünden bu yana aylık 200.000'den fazla aktif kullanıcıya ulaştı. 4,8 yıldız puanı ve 100.000'den fazla App Store incelemesi, sistemin uzun ve değişken konuşmalarda tutarlılığı ne kadar iyi koruduğunu vurguluyor. Puan veren kullanıcılardan biri şunu belirtiyor: "İki gün önce konuştuklarımızı hatırlıyor ve bugün yaptığımız sohbete bunu geri getiriyor."

Bu sinyaller, altta yatan mimariyle doğrudan eşleşiyor: düşük gecikmeli model çağrıları, adım adım bağlamın yeniden oluşturulması ve modüler bellek ve profil sistemleri. Bunlar, birlikte Tolan'ın konu değişikliklerini izlemesine, tonu korumasına ve büyük, kırılgan komutlara bel bağlamadan yanıtları sağlam bir temele oturtmasına olanak tanıyor.

İleriye dönük olarak Tolan, yönlendirilebilirlik ve bellek iyileştirme alanındaki yatırımlarını derinleştirmeyi planlıyor ve çabalarını daha iyi sıkıştırma, iyileştirilmiş geri getirme mantığı ve genişletilmiş profil ayarlama üzerinde yoğunlaştırıyor. Uzun vadeli hedefi, bir ses arayüzünün yalnızca yanıt vermesini değil, aynı zamanda bağlamın farkında ve konuşma açısından dinamik olmasını sağlamak.

Quinten, "Bir sonraki aşama, yalnızca yanıt veren değil, gerçekten çok modlu olan, sesi, görüntüyü ve bağlamı tek bir yönlendirilebilir sisteme entegre edebilen sesli otonom ajanlar inşa etmektir." diyor.