Carane Tolan mbangun AI voice-first nganggo GPT‑5.1

Kanthi GPT‑5.1, Tolan nggawe app swara sing dioptimalake kanggo latensi rendah, konteks sing akurat, lan kepribadian sing stabil nalika percakapan berkembang.

Lagi dimuat…

Tolan⁠(mbukak ing jendhela anyar) yaiku pendamping AI voice-first sing ngidini wong ngobrol karo karakter animasi sing dipersonalisasi lan sinau saka percakapan saka wektu ke wektu.

Digawe dening Portola, tim veteran sing sadurunge wis sukses exit, app iki dirancang kanggo dialog sing terus mlaku lan mbukak, dudu mung prompt lan balesan sing cepet. "Kita weruh munggahe ChatGPT lan ngerti yen swara dadi frontier sabanjure," ujare Quinten Farmer, co-founder lan CEO Portola. "Nanging swara luwih angel. Sampeyan ora mung nanggapi prompt sing diketik; sampeyan njaga percakapan langsung sing ngalor-ngidul."

AI swara nambah standar kanggo latensi lan manajemen konteks, nanging uga ndadekake interaksi sing luwih mbukak lan eksploratif tinimbang teks.

Nalika model foundation dadi luwih cepet, luwih murah, lan luwih mumpuni, tim iki ngarahake upayane marang rong tuas utama: memori lan desain karakter. Portola mbangun semesta sing digerakake karakter, dibentuk dening animator pemenang penghargaan lan penulis fiksi ilmiah, nggunakake sistem manajemen konteks real-time kanggo njaga kepribadian lan memori tetep konsisten nalika percakapan lumaku.

Rilis model GPT‑5.1 dadi titik balik, menehi peningkatan gedhe ing steerability lan latensi sing nyawijikake kabeh unsur kasebut, mbukak pengalaman swara sing luwih responsif lan narik kawigaten.

“GPT-5.1 menehi steerability sing pungkasane ngidini kita ngungkapake karakter sing wis kita bayangake. Iku ora mung luwih pinter—nanging uga luwih setya marang tone lan kepribadian sing pengin kita ciptakake.”

—Quinten Farmer, CEO, Portola

Ngrancang interaksi swara sing alami

Arsitektur Tolan dibentuk dening tuntutan swara. Pangguna swara ngarepake respons sing instan lan alami, sanajan percakapan owah ing tengah dalan. Tolan kudu nanggapi kanthi cepet, nglacak topik sing owah, lan njaga kepribadian tetep konsisten tanpa lag utawa pergeseran tone.

Supaya krasa alami, percakapan butuh latensi sing meh seketika. Ngenalake OpenAI GPT‑5.1 lan Responses API nyuda wektu wiwitan ucapan luwih saka 0,7 detik—cukup kanggo ningkatake alur percakapan kanthi katon cetha.

Sing padha penting yaiku carane sistem nangani konteks. Beda karo akeh agen sing nyimpen prompt ing pirang-pirang giliran, Tolan mbangun maneh jendhela konteks saka nol saben giliran. Saben rekonstruksi konteks narik ringkesan pesen paling anyar, kartu persona, memori sing dijupuk nganggo vektor, pandhuan tone, lan sinyal app real-time. Arsitektur iki ngidini Tolan adaptasi kanthi real-time marang owah-owahan topik sing dadakan, syarat penting kanggo interaksi swara sing alami.

"Kita cepet sadar yen prompt sing dicache pancen ora cukup," ujare Quinten. "Pangguna gonta-ganti topik terus. Supaya krasa mulus, sistem kudu bisa adaptasi ing tengah dalan."

Pendekatan rekonstruksi real-time iki loro-lorone intensif sacara teknis lan dadi dhasar keberhasilan Tolan.

Diagram alur sing nuduhake loop percakapan Tolan. Langkah “Hitung ulang persona” nampa papat input: ringkesan chat lan pesen mentah paling anyar, persona pangguna lan Tolan uga konteks liyane, memori, lan tone. Input iki digabung kanggo ngasilake respons Tolan, sing banjur nuwuhake respons pangguna. Respons pangguna banjur nggerakake rong proses paralel: ngasilake tone sing dianyari lan ngekstrak memori. Memori sing diekstrak nganyari memori, tone sing dianyari bali menyang tone, lan riwayat percakapan sacara berkala diringkes lan dikompres, banjur mbalek menyang ringkesan chat kanggo giliran sabanjure.

Mbangun memori lan kepribadian sing tetep nyambung saka wektu ke wektu

Nangani konteks iku penting, nanging kuwi durung cukup kanggo njaga percakapan supaya tetep koheren suwe-suwe. Kanggo ndhukung percakapan dawa lan nonlinear, Tolan mbangun sistem memori sing nyimpen ora mung fakta lan preferensi, nanging uga sinyal "vibe" emosional—pitunjuk sing mbantu ngarahake carane Tolan kudu nanggapi.

Memori di-embedding nganggo model OpenAI text-embedding-3-large lan disimpen ing Turbopuffer, database vektor kacepetan dhuwur sing ngidini wektu lookup kurang saka 50ms. Kacepetan iki penting kanggo interaksi swara real-time. Saben giliran, Tolan nggunakake pesen paling anyar saka pangguna lan pitakon sing disintesis sistem (umpamane, "Pangguna nikah karo sapa?") kanggo micu pangeling memori. Supaya kualitas memori tetep dhuwur, Tolan nglakokake tugas kompresi saben wengi sing mbusak entri sing regane cilik utawa duplikatif (umpamane "pangguna ngombe kopi dina iki") lan ngrampungake kontradiksi.

Kepribadian uga dikelola kanthi teliti. Saben Tolan diwenehi scaffold karakter sing béda, ditulis dening penulis fiksi ilmiah internal tim lan disempurnakake dening peneliti perilaku. Bibit iki menehi konsistensi marang Tolan, nanging uga keluwesan kanggo adaptasi saka wektu ke wektu, berkembang bareng pangguna.

Sistem paralel ngawasi tenor emosional percakapan lan kanthi dinamis nyetel cara Tolan nyampaikan respon. Iki ngidini Tolan pindhah kanthi mulus saka guyonan menyang luwih membumi gumantung marang isyarat pangguna, tanpa kelangan kepribadian intine.

Transisi menyang GPT‑5.1 dadi titik balik. Dumadakan, instruksi prompt sing berlapis—scaffold tone, suntikan memori, sipat karakter—dituruti kanthi luwih setya. Prompt sing biyen mbutuhake akal-akalan wiwit tumindak kaya sing dikarepake.

"Kanggo pisanan, para ahli internal kita rumangsa model iki tenan ngrungokake," ujare Quinten. "Instruksi tetep utuh sajrone percakapan dawa, sipat persona dihormati, lan kita weruh drift sing adoh luwih sithik."

Owahan kasebut bebarengan ngasilake kepribadian sing luwih konsisten lan bisa dipercaya, sing banjur nggawe pengalaman pangguna luwih narik kawigaten. Tim Tolan ndeleng asil sing cetha lan bisa diukur: kegagalan pangeling memori mudhun 30% (adhedhasar sinyal frustrasi ing produk), lan retensi pangguna dina sabanjure munggah luwih saka 20% sawise persona bertenaga GPT‑5.1 diluncurake.

Diagram alur sing nerangake carane Tolan njupuk lan nyaring memori sajrone percakapan. Pesen pangguna (“Aku seneng banget kanggo perjalanan akhir minggu iki”) micu langkah sing nyintesis pitakon tindak lanjut, kayata perjalanan sing bakal teka, rencana kanggo minggu tartamtu, lan preferensi pangguna. Pitakon iki di-embedding lan digunakake kanggo ngueri database vektor memori, kanthi asil digabung nganggo mean reciprocal rank. Konteks sing dijupuk menehi informasi kanggo respons Tolan (“camping karo Steven ing Yosemite”). Pesen pangguna sabanjure babagan perjalanan mbesuk menyang Islandia disimpen dadi memori anyar, banjur direfleksikake, dikelompokake karo memori sing gegandhengan nganggo k-nearest neighbors berbasis embedding, lan dikompres kanthi nggabungake, nyunting, lan nyaring memori ing saben klaster.

Prinsip inti Tolan kanggo mbangun agen swara sing alami

Nalika Tolan berkembang, ana sawetara prinsip sing muncul lan saiki nuntun cara tim mbangun lan ngembangake arsitektur swarane:

Rancang kanggo volatilitas percakapan: Percakapan swara owah ing tengah ukara. Sistem kudu muter arah kanthi padha cepete supaya krasa alami.
Anggep latensi minangka bagean saka pengalaman produk: Respons kurang saka sedetik mbentuk apa agen swara krasa conversational utawa mekanis.
Bangun memori minangka sistem retrieval, dudu transkrip: Kompresi berkualitas dhuwur lan telusur vektor sing cepet menehi kepribadian luwih konsisten tinimbang jendhela konteks sing kegedhen.
Bangun maneh konteks saben giliran: Aja nglawan drift nganggo prompt sing luwih gedhe. Nggenerate maneh konteks saben giliran njaga agen tetep grounded nalika percakapan ngalor-ngidul.

Bebarengan, pelajaran iki dadi dhasar kanggo fase inovasi Tolan sabanjure lan nemtokake arah tumrap masa depan AI swara.

Ngembangake apa wae sing mungkin nganggo AI swara

Wiwit diluncurake ing Februari 2025, Tolan wis tuwuh dadi luwih saka 200.000 pangguna aktif saben wulan. Rating 4,8 lintang lan luwih saka 100.000 ulasan App Store nuduhake sepira apik sistem iki njaga konsistensi sajrone percakapan dawa lan terus owah. Salah siji pengulas nyathet, "Dheweke kelingan bab-bab sing kita omongake rong dina kepungkur lan nggawa maneh menyang percakapan sing kita lakoni dina iki."

Sinyal iki langsung nyambung karo arsitektur dhasare: panggilan model latensi rendah, rekonstruksi konteks saben giliran, lan sistem memori lan persona sing modular. Bebarengan, kabeh iki ngidini Tolan nglacak owah-owahan topik, njaga tone, lan njaga respons tetep grounded tanpa gumantung marang prompt gedhe sing rapuh.

Ndelok menyang ngarep, Tolan ngrancang kanggo nambah investasi ing steerability lan penyempurnaan memori, kanthi fokus marang kompresi sing luwih rapet, logika retrieval sing luwih apik, lan tuning persona sing luwih jembar. Tujuan jangka panjangé yaiku ngembangake apa sing bisa dadi antarmuka swara: ora mung responsif, nanging uga sadar konteks lan dinamis sacara percakapan.

"Frontier sabanjure," ujare Quinten, "yaiku mbangun agen swara sing ora mung responsif, nanging tenan multimodal, bisa nggabungake swara, visi, lan konteks menyang siji sistem sing bisa diarahkan."

Terus maca

Deleng kabeh

Taruhan gedhe Warp kanggo mbangun sumber terbuka nganggo GPT-5.5

Startup27 Mei 2026

Parloa builds service agents customers want to talk to

Startup7 Mei 2026

Gradient Labs menehi saben nasabah bank manajer akun AI

Startup1 Apr 2026