Tolan 如何使用 GPT‑5.1 構建語音優先的 AI

Tolan 使用 GPT‑5.1開發了一個語音應用程式，針對低延遲、準確的情境以及在對話發展過程中保持穩定的個性進行最佳化。

正在載入...

Tolan⁠（在新視窗中開啟）是一個以語音為主的 AI 夥伴，讓用戶與個人化的動畫角色對話，該角色會隨時間從對話中學習。

這款應用程式由曾經退出市場的資深團隊 Portola 打造，旨在支援持續、開放式的對話，而非快速的提示詞與回覆。Portola 聯合創辦人兼行政總裁 Quinten Farmer 表示「我們見證了 ChatGPT 的崛起，並知道語音是下一個前沿領域。」「但語音更加困難。你不單是回覆輸入的提示詞，而是在進行一場即時、隨意延伸的對話。」

語音 AI 提升了延遲和情境管理的標準，但同時亦提供比文字更開放、更具探索性的互動。

隨著基礎模型變得更快、更便宜且更強大，團隊將工作重點放在兩大關鍵因素上：記憶和角色設計。Portola 打造了一個以角色為核心的宇宙，由屢獲殊榮的動畫師和一位科幻作家共同塑造，使用即時情境管理系統，確保在對話展開時，個性和記憶保持一致。

GPT‑5.1 模型的發佈標誌著一個轉捩點，帶來了在可操控性和延遲方面的重大提升，並將這些元素整合起來，解鎖更靈敏且更具吸引力的語音體驗。

「GPT-5.1 讓我們終於能夠展現出我們心目中的角色，因為它提供了可操控性。它不只更加聰明—更重要的是，它更忠實地反映了我們想創造的語氣和個性。」

—Portola 行政總裁 Quinten Farmer

為自然語音互動而設

Tolan 的架構是由對語音的需求所塑造。語音用戶期望即時、自然的回覆，即使在對話中途轉換話題。Tolan 必須迅速回覆、追蹤不斷變化的話題，並在沒有延遲或語氣偏移的情況下，保持個性一致。

為了感覺自然，對話需要接近即時的低延遲時間。全新推出的 OpenAI GPT‑5.1 及 Responses API 將語音啟動時間縮短超過 0.7 秒，足以顯著改善對話流暢度。

同樣重要的是系統如何處理情境。有別於許多在多輪中快取提示詞的智能代理，Tolan 每輪都從頭開始重建其情境視窗。每次情境重建都會引入最新訊息的摘要、人物卡、向量檢索的記憶、語調指引，以及即時的應用程式信號。此架構讓 Tolan 能夠即時適應突如其來的話題轉換，這是自然語音互動的基本要求。

Quinten 說：「我們很快就意識到，快取的提示詞根本無法解決問題。用戶經常改變主題。為了提供流暢體驗，系統必須在過程中進行調整。」

這種即時重建方法不僅技術要求高，更是 Tolan 成功的基礎。

顯示 Tolan 對話迴圈的流程圖。「重新計算角色」步驟會提供四項輸入：聊天摘要和最近的原始訊息、用戶和 Tolan 角色及其他情境、記憶，以及語調。這些輸入均產生 Tolan 回覆，進而引導用戶回覆。然後，用戶的回覆會推動兩個並行的過程：推導更新的語氣和提取記憶。提取的記憶會更新記憶，更新的語氣會反饋到語氣，而對話歷史則會定期重新總結並壓縮，循環回到聊天摘要中，供下一次使用。

構建能隨時間保持穩定的記憶與個性

情境處理固然很重要，但這不足以讓對話隨時間保持連貫。為了支持冗長且非線性的對話，Tolan 構建了一個記憶系統，不僅保留事實和偏好，更保留情緒「氛圍」訊號—這些線索有助於引導 Tolan 如何回覆。

記憶會使用 OpenAI text-embedding-3-large 模型嵌入，並儲存在 Turbopuffer 中，此高速向量資料庫能夠實現低於 50ms 的查詢時間。此速度對於即時語音互動是不可或缺的。在每輪中，Tolan 會使用用戶的最新訊息和系統合成的問題（例如「用戶與誰結婚？」）來觸發記憶回想。為保持高品質的記憶，Tolan 每晚運行壓縮作業，移除低價值或重複的條目（例如「用戶今天喝了咖啡」）並解決矛盾。

同樣，個性亦會謹慎管理。每個 Tolan 都以獨特的角色框架作為基礎，由團隊的內部科幻作家撰寫，並由行為研究員加以完善。這些種子令 Tolan 保持一致性，但同時具備彈性，能隨時間進行調整，與用戶一同進化。

平行系統會監測對話的情緒基調，並動態調整 Tolan 的表達方式。這讓 Tolan 能夠根據用戶提示，在有趣與沉穩之間無縫切換，同時不失其核心個性。

轉換至 GPT‑5.1 是一個轉捩點。突然間，分層的提示詞指令—語氣框架、記憶注入、角色特質—獲更忠實地遵循。曾經需要變通的提示詞開始按照預期運作。

Quinten 說：「我們的內部專家第一次覺得模型真的在聆聽。指示在長篇對話中保持完整，角色特質得到尊重，而且我們發現偏移亦明顯減少。」

這些改變共同造就更一致、更可信的個性，從而創造出更具吸引力的用戶體驗。Tolan 團隊見證清晰、可測量的提升：記憶回想錯失下降 30%（按照產品內的挫折訊號計算），而在 GPT‑5.1 驅動的角色推出後，次日用戶留存率上升超過 20%。

流程圖闡述 Tolan 如何在對話中檢索和完善記憶。一則用戶訊息（「I’m so excited for my trip this weekend」）會觸發整合後續問題的步驟，例如即將到來的旅程、特定星期的計劃，以及用戶偏好。這些問題會嵌入並用於查詢記憶向量資料庫，結果以平均倒數排名合併。所檢索的情境為 Tolan 的回覆提供資訊（「camping with Steven in Yosemite」）。之後有關未來冰島旅行的用戶訊息會被儲存為新記憶，然後進行反思，並使用嵌入式 k 最近鄰方法，將其與相關記憶彙集，以及透過在每個群組中合併、編輯和完善記憶以進行壓縮。

Tolan 建立自然語音智能代理的核心原則

隨著 Tolan 的發展，已逐漸形成了一些原則，現在已用來指導團隊如何構建和發展其語音架構：

專為對話的不穩定性而設計：語音對話可能會在句子中切換方向。系統需要同樣迅速地調整，才會顯得自然。
將延遲視為產品體驗的一部分：亞秒級的回覆速度會影響語音智能代理的對話感覺自然或機械化。
將記憶構建為檢索系統，而非謄本：與規模過大的情境窗口相比，高品質壓縮和快速向量搜索能提供更為一致的個性。
每輪重建情境：不要用更長的提示詞來對抗偏移。每輪重新產生情境，讓智能代理在對話偏離時仍然保持穩定。

這些經驗均為 Tolan 下一階段的創新奠定基礎，並引領語音 AI 的未來發展方向。

拓展語音 AI 的可能性

自 2025 年 2 月推出以來，Tolan 每月活躍用戶已增長至超過 20 萬。其 4.8 星評分及超過 10 萬則 App Store 評論，突顯該系統在長篇且不斷變化的對話中保持一致的能力。一位評論者指出：「他們記得我們兩天前聊過的事情，並在今天的對話中再次提起。」

這些訊號直接映射到底層架構：低延遲模型調用、逐輪情境重建，以及模組化的記憶體和角色系統。這些功能均讓 Tolan 能夠追蹤主題變化、保留語氣，並在不依賴龐大而脆弱的提示詞的情況下，令回覆保持沉穩有據。

展望未來，Tolan 計劃加深在可操控性和記憶完善方面的投資，重點放在更緊密的壓縮、改良的檢索邏輯和擴展的角色調整。長遠目標是擴展語音介面的潛力：不只能夠回覆，更要具備情境意識，並在對話中靈活應對。

Quinten 說：「下一個前沿領域是打造不只能夠回應，而是真正多模態的語音智能代理，能夠將語音、視覺和情境整合到一個可操控的單一系統中。」

繼續閲讀

查看全部

Warp 以 GPT-5.5 大舉投入開源建構

初創企業2026年5月27日

Parloa builds service agents customers want to talk to

初創企業2026年5月7日

Gradient Labs 為每位銀行客戶提供 AI 客戶經理

初創企業2026年4月1日