Tolan 如何使用 GPT‑5.1 構建語音優先的 AI
Tolan 使用 GPT‑5.1開發了一個語音應用程式,針對低延遲、準確的情境以及在對話發展過程中保持穩定的個性進行最佳化。

Tolan(在新視窗中開啟) 是一個以語音為主的 AI 夥伴,讓用戶與個人化的動畫角色對話,該角色會隨時間從對話中學習。
這款應用程式由曾經退出市場的資深團隊 Portola 打造,旨在支援持續、開放式的對話,而非快速的提示詞與回覆。Portola 聯合創辦人兼行政總裁 Quinten Farmer 表示「我們見證了 ChatGPT 的崛起,並知道語音是下一個前沿領域。」「但語音更加困難。你不單是回覆輸入的提示詞,而是在進行一場即時、隨意延伸的對話。」
語音 AI 提升了延遲和情境管理的標準,但同時亦提供比文字更開放、更具探索性的互動。
隨著基礎模型變得更快、更便宜且更強大,團隊將工作重點放在兩大關鍵因素上:記憶和角色設計。Portola 打造了一個以角色為核心的宇宙,由屢獲殊榮的動畫師和一位科幻作家共同塑造,使用即時情境管理系統,確保在對話展開時,個性和記憶保持一致。
GPT‑5.1 模型的發佈標誌著一個轉捩點,帶來了在可操控性和延遲方面的重大提升,並將這些元素整合起來,解鎖更靈敏且更具吸引力的語音體驗。
「GPT-5.1 讓我們終於能夠展現出我們心目中的角色,因為它提供了可操控性。它不只更加聰明—更重要的是,它更忠實地反映了我們想創造的語氣和個性。」
Tolan 的架構是由對語音的需求所塑造。語音用戶期望即時、自然的回覆,即使在對話中途轉換話題。Tolan 必須迅速回覆、追蹤不斷變化的話題,並在沒有延遲或語氣偏移的情況下,保持個性一致。
為了感覺自然,對話需要接近即時的低延遲時間。全新推出的 OpenAI GPT‑5.1 及 Responses API 將語音啟動時間縮短超過 0.7 秒,足以顯著改善對話流暢度。
同樣重要的是系統如何處理情境。有別於許多在多輪中快取提示詞的智能代理,Tolan 每輪都從頭開始重建其情境視窗。每次情境重建都會引入最新訊息的摘要、人物卡、向量檢索的記憶、語調指引,以及即時的應用程式信號。此架構讓 Tolan 能夠即時適應突如其來的話題轉換,這是自然語音互動的基本要求。
Quinten 說:「我們很快就意識到,快取的提示詞根本無法解決問題。用戶經常改變主題。為了提供流暢體驗,系統必須在過程中進行調整。」
這種即時重建方法不僅技術要求高,更是 Tolan 成功的基礎。

情境處理固然很重要,但這不足以讓對話隨時間保持連貫。為了支持冗長且非線性的對話,Tolan 構建了一個記憶系統,不僅保留事實和偏好,更保留情緒「氛圍」訊號—這些線索有助於引導 Tolan 如何回覆。
記憶會使用 OpenAI text-embedding-3-large 模型嵌入,並儲存在 Turbopuffer 中,此高速向量資料庫能夠實現低於 50ms 的查詢時間。此速度對於即時語音互動是不可或缺的。在每輪中,Tolan 會使用用戶的最新訊息和系統合成的問題(例如「用戶與誰結婚?」)來觸發記憶回想。為保持高品質的記憶,Tolan 每晚運行壓縮作業,移除低價值或重複的條目(例如「用戶今天喝了咖啡」)並解決矛盾。
同樣,個性亦會謹慎管理。每個 Tolan 都以獨特的角色框架作為基礎,由團隊的內部科幻作家撰寫,並由行為研究員加以完善。這些種子令 Tolan 保持一致性,但同時具備彈性,能隨時間進行調整,與用戶一同進化。
平行系統會監測對話的情緒基調,並動態調整 Tolan 的表達方式。這讓 Tolan 能夠根據用戶提示,在有趣與沉穩之間無縫切換,同時不失其核心個性。
轉換至 GPT‑5.1 是一個轉捩點。突然間,分層的提示詞指令—語氣框架、記憶注入、角色特質—獲更忠實地遵循。曾經需要變通的提示詞開始按照預期運作。
Quinten 說:「我們的內部專家第一次覺得模型真的在聆聽。指示在長篇對話中保持完整,角色特質得到尊重,而且我們發現偏移亦明顯減少。」
這些改變共同造就更一致、更可信的個性,從而創造出更具吸引力的用戶體驗。Tolan 團隊見證清晰、可測量的提升:記憶回想錯失下降 30%(按照產品內的挫折訊號計算),而在 GPT‑5.1 驅動的角色推出後,次日用戶留存率上升超過 20%。

隨著 Tolan 的發展,已逐漸形成了一些原則,現在已用來指導團隊如何構建和發展其語音架構:
- 專為對話的不穩定性而設計:語音對話可能會在句子中切換方向。系統需要同樣迅速地調整,才會顯得自然。
- 將延遲視為產品體驗的一部分:亞秒級的回覆速度會影響語音智能代理的對話感覺自然或機械化。
- 將記憶構建為檢索系統,而非謄本:與規模過大的情境窗口相比,高品質壓縮和快速向量搜索能提供更為一致的個性。
- 每輪重建情境:不要用更長的提示詞來對抗偏移。每輪重新產生情境,讓智能代理在對話偏離時仍然保持穩定。
這些經驗均為 Tolan 下一階段的創新奠定基礎,並引領語音 AI 的未來發展方向。
自 2025 年 2 月推出以來,Tolan 每月活躍用戶已增長至超過 20 萬。其 4.8 星評分及超過 10 萬則 App Store 評論,突顯該系統在長篇且不斷變化的對話中保持一致的能力。一位評論者指出:「他們記得我們兩天前聊過的事情,並在今天的對話中再次提起。」
這些訊號直接映射到底層架構:低延遲模型調用、逐輪情境重建,以及模組化的記憶體和角色系統。這些功能均讓 Tolan 能夠追蹤主題變化、保留語氣,並在不依賴龐大而脆弱的提示詞的情況下,令回覆保持沉穩有據。
展望未來,Tolan 計劃加深在可操控性和記憶完善方面的投資,重點放在更緊密的壓縮、改良的檢索邏輯和擴展的角色調整。長遠目標是擴展語音介面的潛力:不只能夠回覆,更要具備情境意識,並在對話中靈活應對。
Quinten 說:「下一個前沿領域是打造不只能夠回應,而是真正多模態的語音智能代理,能夠將語音、視覺和情境整合到一個可操控的單一系統中。」


