Cách thức Tolan phát triển AI ưu tiên thoại với GPT‑5.1
Với GPT‑5.1, Tolan đã phát triển một ứng dụng thoại được tối ưu hóa cho độ trễ thấp, ngữ cảnh chính xác và tính cách ổn định khi các cuộc trò chuyện phát triển.

Tolan(mở trong cửa sổ mới) là trợ lý AI ưu tiên thoại, nơi mọi người có thể trò chuyện với một nhân vật hoạt hình được cá nhân hóa, học hỏi từ các cuộc trò chuyện theo thời gian.
Được phát triển bởi Portola, một đội ngũ kỳ cựu đã từng thoái vốn thành công, ứng dụng này được thiết kế để đối thoại liên tục và mở, thay vì chỉ đưa ra các câu lệnh và phản hồi nhanh chóng. “Chúng tôi chứng kiến sự trỗi dậy của ChatGPT và biết rằng lĩnh vực thoại là biên giới tiếp theo,” Quinten Farmer, đồng sáng lập kiêm Giám đốc điều hành của Portola, cho biết. Nhưng thoại khó hơn. Bạn không chỉ phản hồi các câu lệnh được nhập; bạn đang duy trì một cuộc trò chuyện trực tiếp, lan man."
AI thoại nâng cao tiêu chuẩn về độ trễ và quản lý ngữ cảnh, nhưng nó cũng cho phép các tương tác mở hơn và mang tính khám phá hơn so với văn bản.
Khi các mô hình nền tảng nhanh hơn, rẻ hơn và có năng lực hơn, nhóm đã tập trung nỗ lực vào hai đòn bẩy then chốt: bộ nhớ và thiết kế nhân vật. Portola đã xây dựng một vũ trụ do nhân vật dẫn dắt, được định hình bởi các họa sĩ hoạt hình đoạt giải và một nhà văn khoa học viễn tưởng, sử dụng hệ thống quản lý ngữ cảnh theo thời gian thực để giữ cho tính cách và trí nhớ nhất quán khi các cuộc trò chuyện diễn ra.
Việc phát hành các mô hình GPT‑5.1 đánh dấu một bước ngoặt, mang lại những cải tiến lớn về khả năng điều khiển và độ trễ, giúp kết nối các yếu tố đó lại với nhau, mở ra một trải nghiệm thoại phản hồi nhanh hơn và hấp dẫn hơn.
“GPT-5.1 cung cấp cho chúng tôi khả năng điều chỉnh để cuối cùng có thể thể hiện các nhân vật mà chúng tôi đã tưởng tượng. Nó không chỉ thông minh hơn—mà còn trung thành hơn với giọng điệu và cá tính mà chúng tôi muốn tạo ra.”
Kiến trúc của Tolan được định hình bởi những yêu cầu của dịch vụ thoại. Người dùng dịch vụ thoại mong đợi phản hồi tức thì và tự nhiên, ngay cả khi cuộc trò chuyện chuyển hướng giữa chừng. Tolan phải phản hồi nhanh chóng, theo dõi các chủ đề thay đổi và duy trì một tính cách nhất quán mà không bị trễ hoặc lệch giọng điệu.
Để các cuộc trò chuyện cảm thấy tự nhiên, cần có độ trễ gần như tức thì. Giới thiệu OpenAI GPT‑5.1 và Responses API giúp giảm thời gian khởi hoạt thoại hơn 0,7 giây—đủ để cải thiện đáng kể sự trôi chảy của cuộc trò chuyện.
Cũng quan trọng không kém là cách hệ thống xử lý ngữ cảnh. Không giống như nhiều tác nhân lưu vào bộ nhớ đệm các câu lệnh qua nhiều lượt, Tolan xây dựng lại cửa sổ ngữ cảnh từ đầu ở mỗi lượt. Mỗi lần tái tạo ngữ cảnh sẽ bao gồm một bản tóm tắt các tin nhắn gần đây, một thẻ nhân vật, các ký ức được truy xuất bằng vector, hướng dẫn về giọng điệu, và các tín hiệu ứng dụng theo thời gian thực. Kiến trúc này cho phép Tolan thích ứng theo thời gian thực với những thay đổi đột ngột về chủ đề, một yêu cầu thiết yếu để tương tác tự nhiên bằng giọng nói.
“Chúng tôi nhanh chóng nhận thấy câu lệnh lưu sẵn hoàn toàn không đáp ứng được yêu cầu,” Quinten chia sẻ. “Người dùng liên tục thay đổi chủ đề. Để tạo cảm giác liền mạch, hệ thống đã phải thích ứng giữa chừng.”
Phương pháp tái tạo theo thời gian thực này vừa đòi hỏi kỹ thuật cao vừa là nền tảng cho sự thành công của Tolan.

Việc xử lý ngữ cảnh rất quan trọng, nhưng điều đó vẫn chưa đủ để duy trì sự mạch lạc của các cuộc trò chuyện theo thời gian. Để hỗ trợ các cuộc trò chuyện dài, không tuyến tính, Tolan đã xây dựng một hệ thống bộ nhớ không chỉ lưu giữ các sự kiện và sở thích, mà còn cả các tín hiệu “vibe” (sắc thái) về cảm xúc—những manh mối giúp định hướng cách thức Tolan nên phản hồi.
Các ký ức được nhúng bằng mô hình OpenAI text-embedding-3-large và được lưu trữ trong Turbopuffer, một cơ sở dữ liệu véc-tơ tốc độ cao cho phép thời gian tra cứu dưới 50 ms. Tốc độ này là rất quan trọng cho các tương tác thoại thời gian thực. Mỗi lượt, Tolan sử dụng tin nhắn mới nhất của người dùng và các câu hỏi do hệ thống tổng hợp (ví dụ: “Người dùng kết hôn với ai?”) để kích hoạt việc truy xuất trí nhớ. Để duy trì chất lượng bộ nhớ ở mức cao, Tolan chạy một tác vụ nén hằng đêm để loại bỏ các mục có giá trị thấp hoặc trùng lặp (ví dụ: “người dùng đã uống cà phê hôm nay”) và giải quyết thông tin xung đột.
Tính cách cũng được quản lý cẩn thận như thế. Mỗi Tolan được gieo mầm một khung nhân vật riêng biệt, do nhà văn khoa học viễn tưởng nội bộ của nhóm chấp bút và được một nhà nghiên cứu hành vi tinh chỉnh. Những hạt giống này mang lại cho Tolan sự nhất quán, nhưng cũng có khả năng linh hoạt để thích ứng theo thời gian, phát triển cùng với người dùng.
Một hệ thống song song theo dõi sắc thái cảm xúc của cuộc trò chuyện và điều chỉnh linh hoạt cách truyền đạt của Tolan. Điều này cho phép Tolan chuyển đổi liền mạch từ vui nhộn sang điềm tĩnh tùy theo tín hiệu từ người dùng, mà không làm mất đi cá tính cốt lõi của nó.
Quá trình chuyển đổi sang GPT‑5.1 là một bước ngoặt. Đột nhiên, các hướng dẫn câu lệnh phân lớp—khung giọng điệu, tiêm bộ nhớ, đặc điểm nhân vật—được tuân thủ một cách trung thành hơn. Những câu lệnh từng cần đến các giải pháp tạm thời nay đã hoạt động như mong đợi.
“Lần đầu tiên, các chuyên gia nội bộ của chúng tôi cảm thấy như mô hình thực sự đang lắng nghe,” Quinten nói. “Các hướng dẫn vẫn được giữ nguyên trong suốt những cuộc trò chuyện dài, các đặc điểm tính cách được tôn trọng và chúng tôi thấy ít sự lệch hướng hơn nhiều.”
Những thay đổi đó đã góp phần tạo nên một tính cách nhất quán và đáng tin cậy hơn, từ đó tạo ra trải nghiệm người dùng hấp dẫn hơn. Đội ngũ Tolan nhận thấy cải thiện rõ ràng, có thể đo lường: số lần bỏ lỡ khi ghi nhớ lại giảm 30% (dựa trên các tín hiệu thất vọng trong sản phẩm), và tỷ lệ giữ chân người dùng vào ngày hôm sau tăng hơn 20% sau khi các nhân dạng được hỗ trợ bởi–GPT‑5.1 được phát hành.

Khi Tolan phát triển, một vài nguyên tắc đã xuất hiện và hiện là kim chỉ nam hướng dẫn cách thức đội ngũ xây dựng và phát triển kiến trúc thoại của họ:
- Thiết kế dành cho sự biến động của hội thoại: Đàm thoại bằng giọng nói có thể thay đổi giữa chừng trong câu nói. Các hệ thống cần xoay chuyển nhanh chóng để mọi thức cảm thấy tự nhiên.
- Coi độ trễ là một phần của trải nghiệm sản phẩm: Khả năng phản hồi dưới một giây định hình việc tác nhân thoại có cảm giác như đang trò chuyện hay máy móc.
- Xây dựng bộ nhớ như một hệ thống truy xuất, không phải là bản ghi chép: Nén chất lượng cao và tìm kiếm vector nhanh mang lại tính cách nhất quán hơn so với các cửa sổ ngữ cảnh quá lớn.
- Xây dựng lại ngữ cảnh mỗi lượt: Đừng chống lại sự lệch hướng bằng các câu lệnh dài hơn. Việc tái tạo ngữ cảnh ở mỗi lượt giúp các tác nhân duy trì sự tập trung khi cuộc trò chuyện đi lạc hướng.
Những bài học này cùng nhau tạo nền tảng cho giai đoạn đổi mới tiếp theo của Tolan và định hướng cho tương lai của AI thoại.
Kể từ khi ra mắt vào tháng 2 năm 2025, Tolan đã phát triển lên hơn 200.000 người dùng hoạt động hàng tháng. Xếp hạng 4,8 sao và hơn 100.000 bài đánh giá trên App Store cho thấy hệ thống duy trì tính nhất quán tốt như thế nào trong các cuộc trò chuyện dài, liên tục thay đổi. Một người đánh giá nhận xét, “Công cụ này ghi nhớ những điều chúng tôi đã nói hai ngày trước và đưa nó trở lại vào cuộc trò chuyện mà chúng tôi đang có hôm nay.”
Những tín hiệu này trực chỉ tới kiến trúc nền tảng: các lệnh gọi mô hình có độ trễ thấp, tái tạo ngữ cảnh theo từng lượt, và các hệ thống bộ nhớ và nhân dạng kiểu mô-đun. Cùng nhau, chúng cho phép Tolan theo dõi các thay đổi chủ đề, duy trì giọng điệu và đảm bảo các phản hồi có cơ sở mà không cần dựa vào các câu lệnh lớn, dễ vỡ.
Nhìn về tương lai, Tolan dự định tăng cường đầu tư vào khả năng điều hướng và tinh chỉnh bộ nhớ, tập trung vào việc nén chặt hơn, cải thiện logic truy xuất và mở rộng điều chỉnh nhân dạng. Mục tiêu dài hạn là mở rộng khả năng của giao diện thoại: không chỉ phản hồi, mà còn nhận biết ngữ cảnh và linh hoạt trong hội thoại.
“Biên giới tiếp theo,” Quinten nói, “là phát triển các tác nhân thoại không chỉ phản hồi mà còn thực sự đa phương thức, có khả năng tích hợp thoại, hình ảnh và ngữ cảnh vào một hệ thống duy nhất có thể điều khiển.”


