Bagaimana Tolan membangun AI berbasis suara dengan GPT‑5.1
Dengan GPT‑5.1, Tolan membangun aplikasi suara yang dioptimalkan untuk latensi rendah, konteks yang akurat, serta kepribadian yang konsisten seiring percakapan berkembang.

Tolan(terbuka di jendela baru) adalah pendamping AI yang mengutamakan interaksi suara, di mana pengguna berbicara dengan karakter animasi yang dipersonalisasi dan terus belajar dari percakapan seiring waktu.
Dibangun oleh Portola, sebuah tim veteran dengan pengalaman exit sebelumnya, aplikasi ini dirancang untuk dialog yang berkelanjutan dan terbuka, bukan sekadar prompt dan balasan cepat. “Kami melihat kebangkitan ChatGPT dan tahu bahwa suara adalah batas berikutnya,” kata Quinten Farmer, salah satu pendiri dan CEO Portola. “Namun, suara jauh lebih sulit. Anda tidak hanya menanggapi prompt yang diketik; Anda sedang menjalani percakapan langsung yang mengalir.”
Voice AI meningkatkan standar dalam hal latensi dan manajemen konteks, sekaligus memungkinkan interaksi yang lebih terbuka dan eksploratif dibandingkan dengan teks.
Dengan model fondasi yang semakin cepat, lebih murah, dan lebih mampu, tim memusatkan upaya mereka pada dua faktor utama: memori dan desain karakter. Portola membangun sebuah semesta yang digerakkan oleh karakter, dibentuk oleh animator pemenang penghargaan serta seorang penulis fiksi ilmiah, dengan memanfaatkan sistem manajemen konteks waktu nyata untuk menjaga kepribadian dan memori tetap konsisten sepanjang percakapan berlangsung.
Peluncuran model GPT‑5.1 menandai sebuah titik balik, menghadirkan peningkatan signifikan dalam kemampuan pengendalian dan latensi yang menyatukan seluruh elemen tersebut, sekaligus membuka pengalaman suara yang jauh lebih responsif dan menarik.
“GPT-5.1 memberi kami kemampuan untuk akhirnya mengekspresikan karakter yang kami bayangkan. Ini bukan sekadar lebih cerdas—tetapi juga lebih setia pada nada dan kepribadian yang ingin kami ciptakan.”
Arsitektur Tolan dibentuk oleh tuntutan interaksi suara. Pengguna suara mengharapkan respons yang instan dan alami, bahkan ketika arah percakapan berubah di tengah jalan. Tolan harus mampu merespons dengan cepat, melacak topik yang bergeser, serta mempertahankan kepribadian yang konsisten tanpa jeda maupun pergeseran nada.
Agar terasa alami, percakapan memerlukan latensi yang hampir seketika. Penerapan OpenAI GPT‑5.1 dan API Respons memangkas waktu inisiasi ucapan lebih dari 0,7 detik—cukup untuk meningkatkan kelancaran alur percakapan secara signifikan.
Yang tidak kalah penting adalah cara sistem menangani konteks. Berbeda dengan banyak agen yang menyimpan cache prompt selama beberapa giliran, Tolan membangun ulang jendela konteksnya dari awal pada setiap giliran. Setiap rekonstruksi konteks mencakup ringkasan pesan terbaru, kartu persona, memori yang diambil melalui vektor, panduan nada, serta sinyal aplikasi secara real-time. Arsitektur ini memungkinkan Tolan untuk beradaptasi secara real-time terhadap pergeseran topik yang tiba-tiba, yang merupakan persyaratan utama untuk interaksi berbasis suara yang alami.
“Kami segera menyadari bahwa prompt yang di-cache ternyata tidak memadai,” kata Quinten. “Pengguna sering berganti topik. Agar tetap terasa lancar, sistem harus mampu beradaptasi di tengah proses.”
Pendekatan rekonstruksi real-time ini menuntut kemampuan teknis yang tinggi dan menjadi fondasi bagi keberhasilan Tolan.

Penanganan konteks memang penting, tetapi tidak cukup untuk menjaga agar percakapan tetap terasa koheren seiring waktu. Untuk mendukung percakapan yang panjang dan tidak linear, Tolan membangun sistem memori yang menyimpan bukan hanya fakta dan preferensi, tetapi juga sinyal “vibe” emosional—petunjuk yang membantu mengarahkan bagaimana Tolan seharusnya merespons.
Memori disematkan menggunakan model OpenAI text-embedding-3-large dan disimpan di Turbopuffer, sebuah basis data vektor berkecepatan tinggi yang memungkinkan waktu pencarian di bawah 50ms. Kecepatan ini sangat penting untuk mendukung interaksi suara secara real-time. Pada setiap giliran percakapan, Tolan menggunakan pesan terbaru dari pengguna serta pertanyaan yang disintesis oleh sistem (misalnya, “Dengan siapa pengguna menikah?”) untuk memicu proses pemanggilan kembali memori. Untuk menjaga kualitas memori tetap tinggi, Tolan menjalankan tugas kompresi setiap malam yang menghapus entri bernilai rendah atau berlebihan (misalnya, “pengguna tersebut minum kopi hari ini”) serta menyelesaikan kontradiksi yang ada.
Kepribadian juga dikelola dengan sangat hati-hati. Setiap Tolan ditanamkan dengan kerangka karakter yang unik, ditulis oleh penulis fiksi ilmiah internal tim dan disempurnakan oleh peneliti perilaku. Benih-benih ini memberi Tolan konsistensi, sekaligus fleksibilitas untuk beradaptasi seiring waktu dan berkembang bersama pengguna.
Sistem paralel memantau nada emosional percakapan dan menyesuaikan penyampaian Tolan secara dinamis. Hal ini memungkinkan Tolan untuk beralih secara mulus dari gaya yang ceria ke gaya yang lebih membumi, bergantung pada isyarat pengguna, tanpa kehilangan kepribadian intinya.
Transisi ke GPT‑5.1 menjadi titik balik. Tiba-tiba, instruksi prompt berlapis—perancah nada, injeksi memori, dan sifat karakter—diikuti dengan jauh lebih setia. Prompt yang sebelumnya memerlukan berbagai solusi sementara mulai berfungsi sebagaimana dimaksudkan.
“Untuk pertama kalinya, para pakar internal kami merasa seolah-olah model benar-benar mendengarkan,” kata Quinten. “Instruksi tetap utuh sepanjang percakapan yang panjang, ciri-ciri persona dihormati, dan kami melihat jauh lebih sedikit penyimpangan.”
Perubahan tersebut menghadirkan kepribadian yang lebih konsisten dan dapat dipercaya, yang pada akhirnya menciptakan pengalaman pengguna yang lebih menarik. Tim Tolan mencatat peningkatan yang jelas dan terukur: kegagalan dalam mengingat memori turun sebesar 30% (berdasarkan sinyal frustrasi di dalam produk), dan retensi pengguna pada hari berikutnya meningkat lebih dari 20% setelah di perkuat GPT‑5.1 persona diluncurkan.

Seiring Tolan berkembang, sejumlah prinsip muncul yang kini memandu cara tim membangun serta mengembangkan arsitektur suara mereka:
- Rancang untuk volatilitas percakapan: Percakapan suara dapat berubah di tengah kalimat. Sistem perlu beradaptasi dengan cepat agar tetap terasa alami.
- Perlakukan latensi sebagai bagian dari pengalaman produk: Responsivitas di bawah satu detik menentukan apakah agen suara terasa alami dan percakapan, atau justru mekanis.
- Bangun memori sebagai sistem pengambilan, bukan sebagai transkrip: Kompresi berkualitas tinggi dan pencarian vektor yang cepat menghasilkan kepribadian yang lebih konsisten dibandingkan jendela konteks yang terlalu besar.
- Bangun ulang konteks pada setiap giliran: jangan melawan penyimpangan dengan prompt yang lebih besar. Meregenerasi konteks di setiap giliran membuat agen tetap berpijak ketika percakapan berkelana.
Bersama-sama, pelajaran ini membentuk fondasi bagi fase inovasi Tolan berikutnya serta menetapkan arah masa depan voice AI.
Sejak diluncurkan pada Februari 2025, Tolan telah berkembang hingga melampaui 200.000 pengguna aktif bulanan. Peringkat 4,8 bintang serta lebih dari 100.000 ulasan di App Store menegaskan betapa baik sistem ini menjaga konsistensi sepanjang percakapan yang panjang dan terus berubah. Seorang pengulas mencatat, “Mereka mengingat hal-hal yang kami bicarakan dua hari lalu dan membawanya kembali ke dalam percakapan yang sedang kami lakukan hari ini.”
Sinyal-sinyal ini memetakan secara langsung ke arsitektur yang mendasarinya: pemanggilan model berlatensi rendah, rekonstruksi konteks pada setiap giliran, serta sistem memori dan persona yang modular. Secara bersama-sama, komponen ini memungkinkan Tolan untuk melacak perubahan topik, mempertahankan nada, dan menjaga respons tetap berlandaskan, tanpa bergantung pada prompt yang besar dan rapuh.
Ke depan, Tolan berencana memperdalam investasinya dalam kemampuan pengendalian dan penyempurnaan memori, dengan memusatkan upaya pada kompresi yang lebih ketat, logika pengambilan yang lebih baik, serta penyetelan persona yang lebih luas. Tujuan jangka panjangnya adalah memperluas definisi antarmuka suara: tidak hanya responsif, tetapi juga sadar konteks dan dinamis dalam percakapan.
“Perbatasan berikutnya,” kata Quinten, “adalah membangun agen suara yang tidak hanya responsif, tetapi benar-benar multimodal, mampu mengintegrasikan suara, penglihatan, dan konteks ke dalam satu sistem yang dapat diarahkan.”


