Tolan 如何使用 GPT‑5.1 開發語音優先的 AI。

使用 GPT‑5.1，Tolan 開發了一款語音應用程式，專為低延遲、準確的上下文，以及在對話演變過程中保持穩定的人格特質而優化。

載入中…

Tolan⁠(在新視窗中開啟) 是一個以語音為主的 AI 夥伴，使用者可以與個人化的動畫角色對話，角色會隨著時間從對話中學習。

由 Portola 打造，這支擁有先前成功退出經驗的資深團隊所開發，該應用程式的設計重點在於持續、開放式的對話，而非快速的提示詞與回覆。「我們看到 ChatGPT 的崛起，並知道語音是下一個前沿，」Portola 共同創辦人兼執行長 Quinten Farmer 表示。「但聲音更難。」你不僅僅是在回應輸入的提示詞，而是在進行一場即時且漫談的對話。

語音 AI 提升了延遲和上下文管理的標準，但也能促進比文字更開放、更具探索性的互動。

隨著基礎模型變得更快、更省成本且更有能力，團隊將心力聚焦在兩個關鍵要素：記憶體與角色設計。Portola 打造了一個以角色為核心的宇宙，由屢獲殊榮的動畫師和一位科幻作家共同塑造，並使用即時上下文管理系統，在對話展開時保持角色個性和記憶的一致性。

GPT‑5.1 模型的發布標誌著一個轉捩點，在可控性和延遲方面帶來重大提升，將這些要素整合在一起，解鎖更具回應性和吸引力的語音體驗。

“GPT-5.1 讓我們能夠更精準地引導，終於能表達出我們心中所想的角色。它不僅更聰明，還更忠實於我們想要創造的語氣和個性。」

—Portola 執行長 Quinten Farmer

設計自然語音互動

Tolan 的架構受到語音需求的影響而形成。語音使用者期望能立即獲得自然的回應，即使在對話中途轉換話題也是如此。Tolan 必須快速回應、追蹤不斷變化的話題，並在沒有延遲或語氣漂移的情況下保持一致的個性。

為了讓對話感覺自然，需要近乎即時的延遲。推出 OpenAI GPT‑5.1 和 Responses API，將語音啟動時間縮短超過 0.7 秒，足以明顯改善對話流暢度。

同樣重要的是系統如何處理上下文。不同於許多會在多個回合間快取提示詞的智慧體，Tolan 每回合都會從頭重建其上下文視窗。每次上下文重建都會納入近期訊息摘要、角色卡、向量檢索的記憶、語氣指引，以及即時的應用程式信號。這種架構讓 Tolan 能夠即時適應突如其來的主題轉換，這是自然語音互動的基本要求。

「我們很快就意識到，快取的提示詞根本不夠用，」Quinten 說。「使用者總是在變換主題。」為了讓體驗無縫，系統必須在過程中調整。

這種即時重建方法不僅技術要求高，還是 Tolan 成功的基石。

流程圖顯示 Tolan 的對話循環。「重新計算角色」步驟需要四個輸入：聊天摘要、近期原始訊息、使用者與 Tolan 角色、其他脈絡、記憶，以及語氣。這些輸入結合起來會產生 Tolan 回應，進而引導使用者回應。使用者回應接著會驅動兩個平行流程：推導更新的語氣並擷取記憶。擷取的記憶會更新記憶，更新的語氣會回饋到語氣，對話歷史會定期重新摘要並壓縮，然後迴圈回到聊天摘要中，供下一次使用。

建立能隨時間保持一致的記憶與個性

上下文處理很重要，但這還不足以讓對話隨著時間的推移保持連貫。為了支援長篇、非線性的對話，Tolan 建立了一套記憶系統，不僅能保留事實與偏好，還能保留情緒「氛圍」訊號，這些線索有助於引導 Tolan 應該如何回應。

記憶使用 OpenAI text-embedding-3-large 模型進行嵌入，並儲存在 Turbopuffer，一個高速向量資料庫中，能夠實現低於 50 毫秒的查詢時間。這種速度對於即時語音互動是必不可少的。每一回合，Tolan 會使用使用者的最新訊息和系統合成的問題（例如：「使用者和誰結婚？」）來觸發記憶回想。為了保持記憶體的高品質，Tolan 每晚都會執行壓縮作業，移除低價值或重複的項目（例如「使用者今天喝了咖啡」並解決矛盾。

個性也被同樣仔細地管理。每個 Tolan 都會植入一個獨特的角色框架，由團隊的內部科幻作家撰寫，並由行為研究人員精煉。這些種子賦予 Tolans 穩定性，同時也提供了隨時間調整的彈性，能與使用者一同演進。

平行系統會監控對話的情緒基調，並動態調整 Tolan 的表達方式。這讓 Tolan 能夠根據使用者的提示，在俏皮與沉穩之間無縫切換，同時不失其核心個性。

轉向 GPT‑5.1 是一個關鍵的轉捩點。突然，分層的提示詞指令—語氣框架、記憶注入、角色特徵—被更忠實地遵循。曾經需要變通方法的提示詞開始如預期運作。

「第一次，我們的內部專家覺得模型真的有在聽，」Quinten 說。「在長時間的對話中，指令保持完整，角色特質受到尊重，我們看到的漂移也少了很多。」

這些變更累積起來，塑造出更一致且可信的個性，進而創造出更具吸引力的使用者體驗。Tolan 團隊看到了明確且可衡量的提升：記憶回想失誤下降了 30%（根據產品內的挫折訊號），而次日用戶留存率在 GPT‑5.1 推出後上升了超過 20%。Persona 已上線。

說明 Tolan 在對話中如何擷取並精煉記憶的流程圖。使用者訊息（「I’m so excited for my trip this weekend」）會觸發一個步驟，用來生成後續追問問題，例如即將到來的旅行、特定一週的計畫，以及使用者偏好。這些問題被嵌入用於查詢記憶向量資料庫，結果使用平均倒數排名合併。擷取到的上下文為 Tolan 的回應提供資訊（「在優勝美地和 Steven 露營」）。稍後的使用者訊息，關於未來的冰島旅行，會被儲存為新的記憶，然後反思，使用基於嵌入的 k 近鄰與相關記憶進行分群，並透過合併、編輯和精煉每個群集內的記憶來壓縮。

Tolan 建立自然語音代理的核心原則

隨著 Tolan 的發展，幾項原則逐漸形成，現在用來指導團隊如何構建和發展其語音架構：

為對話的波動性而設計：語音對話可能會在句中改變方向。系統需要同樣迅速地調整，才能讓人感覺自然。
將延遲視為產品體驗的一部分：次秒級的回應速度決定了語音智慧體是更像在對話還是更像機械式互動。
將記憶建構為檢索系統，而非逐字稿：高品質壓縮與快速向量搜尋，比起過大的上下文視窗，能提供更一致的個性化體驗。
每回合重建上下文：不要用更長的提示詞來對抗漂移。每一回合重新生成上下文，能讓代理在對話逐漸偏離時保持穩定。

這些課程共同構成 Tolan 下一階段創新的基礎，並為語音 AI 的未來發展方向定下基調。

擴展語音 AI 的可能性

自 2025 年 2 月推出以來，Tolan 已成長至每月活躍使用者超過 20 萬人。其 4.8 星評分與超過 10 萬則 App Store 評論，凸顯該系統在長時間、持續變動的對話中維持一致性的能力。一位評論者指出：「他們記得我們兩天前談過的事情，並在今天的對話中再次提起。」

這些信號直接映射到底層架構：低延遲模型呼叫、逐步脈絡重建，以及模組化記憶和角色系統。它們共同讓 Tolan 能追蹤主題變更、保留語氣，並在不依賴大型、脆弱的提示詞的情況下，讓回應保持有根據。

展望未來，Tolan 計劃加深在可操控性與記憶微調方面的投資，重點放在更緊密的壓縮、更完善的檢索邏輯，以及擴大的人格特質調校。長期目標是擴展語音介面的潛力：不僅要能回應，還要具備上下文覺察能力，並能在對話中靈活應對。

「下一個前沿，」Quinten 說，「是打造不僅僅是回應式，而是真正多模態的語音代理，能將語音、視覺和情境整合到單一、可操控的系統中。」

繼續閱讀

檢視全部

Warp 以 GPT-5.5 大舉投入開放式開發

新創公司2026年5月27日

Parloa builds service agents customers want to talk to

新創公司2026年5月7日

Gradient Labs 讓每位銀行客戶都能擁有 AI 客戶經理

新創公司2026年4月1日