Tolan이 GPT‑5.1을 사용하여 음성 우선 AI를 구축하는 방법
GPT‑5.1을 통해 Tolan은 대화가 진행됨에 따라 낮은 레이턴시, 정확한 컨텍스트, 안정적인 특징에 최적화된 음성 앱을 개발했습니다.

Tolan(새 창에서 열기)은 사람들이 시간이 지남에 따라 대화를 통해 학습하는 개인화된 애니메이션 캐릭터와 대화하는 음성 우선 AI 컴패니언입니다.
이전에 매각을 통해 투자금을 회수했던 Portola라는 베테랑 팀이 만든 이 앱은 빠른 프롬프트와 답변보다는 지속적이고 열린 대화를 위해 설계되었습니다. “ChatGPT의 부상을 보고 음성이 차세대 개척자라는 것을 알았습니다. 하지만 음성 대화는 더 어렵습니다. 여러분은 단지 입력된 프롬프트에 응답하는 것이 아니라 실시간으로 이어지는 자유로운 대화를 나누는 것입니다.”라고 Portola의 공동 창립자 겸 CEO인 Quinten Farmer는 말합니다.
음성 AI는 레이턴시와 컨텍스트 관리의 수준을 한 단계 끌어올리며, 텍스트보다 더 개방적이고 탐구적인 상호작용을 가능하게 합니다.
파운데이션 모델이 더 빠르고, 저렴하고, 더 뛰어난 역량을 갖추게 되면서 팀은 두 가지 핵심 요소인 메모리와 캐릭터 디자인에 집중했습니다. Portola는 수상 경력이 있는 애니메이터와 공상 과학 작가가 창조한 캐릭터 중심의 세계를 구축했으며, 실시간 컨텍스트 관리 시스템을 사용하여 대화가 진행되는 동안 특징과 메모리의 일관성을 유지합니다.
GPT‑5.1 모델 출시는 전환점이 되었으며, 조종가능성과 레이턴시에서 큰 폭의 개선을 이루어 이러한 요소들을 하나로 결합하고, 더 신속하고 매력적인 음성 경험을 제공했습니다.
“GPT-5.1 덕분에 우리가 염두에 두었던 캐릭터를 마침내 표현할 수 있는 조종가능성을 얻었습니다. 그저 더 똑똑했던 게 아니라 우리가 만들고자 했던 어조와 특징에도 더 충실했습니다.”
Tolan의 아키텍처는 음성 요구에 의해 형성됩니다. 음성 사용자들은 대화가 중간에 바뀌더라도 즉각적이고 자연스러운 응답을 기대합니다. Tolan은 신속하게 대응하고, 변화하는 주제를 추적하며, 지연이나 어조의 변화 없이 일관된 특징을 유지해야 했습니다.
대화가 자연스럽게 느껴지려면 거의 즉각적인 레이턴시가 필요했습니다. OpenAI GPT‑5.1 및 Responses API를 도입함으로써 음성 시작 시간을 0.7초 이상 단축하여 대화 흐름을 눈에 띄게 개선했습니다.
마찬가지로 중요한 것은 시스템이 컨텍스트를 어떻게 처리했는지였습니다. 여러 턴에 걸쳐 프롬프트를 캐시하는 많은 에이전트와는 달리 Tolan은 매 턴마다 컨텍스트 창을 처음부터 다시 구성합니다. 각 컨텍스트 재구성은 최근 메시지 요약, 페르소나 카드, 벡터로 검색된 메모리, 어조 가이드, 실시간 앱 신호를 가져옵니다. 이 아키텍처는 Tolan이 갑작스러운 주제 전환에 실시간으로 적응할 수 있게 하므로 자연스러운 음성 기반 상호작용을 위한 필수 요건입니다.
“우리는 캐시된 프롬프트가 금방 한계에 부딪힌다는 것을 빠르게 깨달았습니다. 사용자들은 항상 주제를 바꿉니다. 원활하고 자연스럽게 느껴지도록 하려면 시스템이 이러한 전환을 중간에 적응해야 했습니다.”라고 Quinten은 말합니다.
이 실시간 재구성 접근 방식은 기술 집약적일 뿐만 아니라 Tolan의 성공에 근본적인 역할을 합니다.

컨텍스트 처리는 중요하지만, 시간이 지나면서 대화의 일관성을 유지하기에는 충분하지 않았습니다. 길고 비선형적인 대화를 지원하기 위해 Tolan은 사실과 선호도뿐만 아니라 감정적 “분위기” 신호, 즉 Tolan이 어떻게 응답해야 하는지를 안내하는 단서도 유지하는 메모리 시스템을 구축했습니다.
메모리는 OpenAI text-embedding-3-large 모델을 사용하여 임베딩되고, 50ms 미만의 조회 시간을 가능하게 하는 고속 벡터 데이터베이스인 Turbopuffer에 저장됩니다. 이 속도는 실시간 음성 상호작용에 필수적입니다. Tolan은 각 턴마다 사용자의 최신 메시지와 시스템이 합성한 질문(예: “사용자는 누구와 결혼했나요?”)을 사용하여 메모리 재현을 트리거합니다. 메모리 품질을 높게 유지하기 위해 Tolan은 매일 밤 가치가 낮거나 중복된 항목을 제거하는 압축 작업을 실행하고(예: “사용자가 오늘 커피를 마셨다") 모순을 해결합니다.
특징도 이와 마찬가지로 신중하게 관리됩니다. 각 Tolan에는 팀의 사내 공상 과학 작가가 작성하고 행동 연구자가 다듬은 고유한 캐릭터 스캐폴드가 갖추어져 있습니다. 이를 통해 Tolan은 일관성뿐만 아니라, 시간이 지나면서 사용자와 함께 진화하고 적응할 수 있는 유연성도 유지할 수 있습니다.
병렬 시스템이 대화의 감정적 분위기를 모니터링하고 Tolan의 전달 방식을 동적으로 조정합니다. 이를 통해 Tolan은 사용자의 신호에 따라 장난스러운 분위기에서 차분한 분위기로 자연스럽게 전환하면서도 핵심 특징을 잃지 않습니다.
GPT‑5.1로의 전환은 중요한 전환점이었습니다. 갑자기, 계층화된 프롬프트 지침(톤 스캐폴드, 메모리 주입, 캐릭터 특성)이 더욱 충실하게 이행되었습니다. 한때 해결책이 필요했던 프롬프트가 의도한 대로 작동하기 시작했습니다.
“내부 전문가들은 모델이 정말로 듣고 있다고 처음으로 느꼈습니다. 긴 대화에서도 지침이 그대로 유지되었고, 페르소나 특성이 준수되었으며, 드리프트가 훨씬 줄어든 것을 확인했습니다.”라고 Quinten은 말합니다.
이러한 변화가 누적되어 더 일관되고 설득력 있는 특징이 형성되었으며, 이는 더 매력적인 사용자 경험이 마련되었습니다. Tolan 팀은 명확하고 측정 가능한 성과를 확인했습니다. 메모리 재현 누락이 30% 감소했으며(제품 내 불만 신호 기반), GPT‑5.1 기반의 페르소나가 준비된 후 다음 날 사용자 유지율이 20% 이상 상승했습니다.

Tolan이 발전함에 따라 몇 가지 원칙이 도출되어, 이제 팀이 음성 아키텍처를 구축하고 발전시키는 방법에 대한 지침이 되었습니다.
- 대화의 변동성을 고려한 디자인: 음성 대화는 문장 중간에 방향이 바뀔 수 있습니다. 시스템이 자연스럽게 느껴지려면 빠르게 방향을 전환할 수 있어야 합니다.
- 레이턴시를 제품 경험의 일부로 취급: 1초 미만의 응답성은 음성 에이전트가 대화하듯 느끼는지, 아니면 기계적으로 느끼는지를 결정합니다.
- 텍스트 기록이 아닌 검색 시스템으로 메모리 구축: 고품질 압축과 빠른 벡터 검색은 과도하게 큰 컨텍스트 창보다 더 일관된 특징을 제공합니다.
- 매 턴마다 컨텍스트 다시 구축: 규모가 큰 프롬프트가 있는 드리프트를 다루려고 애쓰지 마세요. 매 턴마다 컨텍스트를 재생성하면 대화가 이리저리 흘러가더라도 에이전트가 중심을 잃지 않도록 유지합니다.
이러한 교훈은 Tolan의 다음 혁신 단계의 토대를 이루고 음성 AI의 향후 방향을 제시합니다.
2025년 2월 출시 이후 Tolan의 월간 활성 사용자 수는 20만 명을 넘어섰습니다. 별점 4.8점과 10만 개가 넘는 App Store 리뷰는 이 시스템이 길고 변화무쌍한 대화에서 일관성을 얼마나 잘 유지하는지를 보여줍니다. 한 리뷰어는 “Tolan은 이틀 전에 우리가 나눴던 이야기를 기억하고, 오늘 우리가 나누고 있는 대화에 그 내용을 다시 적용합니다.“라고 언급했습니다.
이러한 긍정적인 반응은 낮은 레이턴시 모델 호출, 턴별 컨텍스트 재구성, 모듈식 메모리 및 페르소나 시스템 등 기본 아키텍처에 직접적으로 영향을 줍니다. 이를 통해 Tolan은 주제 변화를 추적하고, 어조를 유지하며, 크고 취약한 프롬프트에 의존하지 않고도 근거에 기반한 응답을 유지할 수 있습니다.
앞으로 Tolan은 조종가능성과 메모리 개선을 위한 투자를 강화할 계획이며 더욱 촘촘한 압축, 개선된 검색 로직, 확장된 페르소나 튜닝에 노력을 집중할 것입니다. 장기적인 목표는 음성 인터페이스의 가능성을 확장하는 것입니다. 단순한 반응형이 아니라 컨텍스트를 인지하고 대화를 동적으로 진행하도록 하는 것입니다.
“차세대 개척자는 단순히 반응하는 수준을 넘어 음성, 비전, 컨텍스트를 하나의 조정 가능한 시스템에 통합할 수 있는 진정한 멀티모달 음성 에이전트를 구축하는 것입니다.”라고 Quinten은 말합니다.


