Tolan چگونه AI صدا محور را با GPT‑5.1 میسازد
با GPT‑5.1، Tolan یک اپلیکیشن صوتی ساخت که برای تأخیر کم، بافت دقیق و شخصیتهای پایدار با تکامل مکالمات بهینهسازی شده است.

Tolan(در یک پنجره جدید باز میشود) یک همراه AI صوتمحور است که در آن افراد با یک شخصیت شخصیسازیشده و انیمیشنی صحبت میکنند که با گذشت زمان از مکالمات یاد میگیرد.
این اپلیکیشن را که Portola، تیمی کهنهکار با تجربه موفق استارتاپ، ساخته است، برای گفتوگوی مداوم و صریح طراحی شده است، نه دستورات سریع و پاسخهای کوتاه. Quinten Farmer همبنیانگذار و مدیر عامل Portola میگوید: «ما شاهد اوجگیری ChatGPT بودیم و میدانستیم جبهه بعدی، صداست.» «اما صدا سختتر است. شما فقط به دستورات تایپشده پاسخ نمیدهید بلکه در حال پیش بردن یک مکالمهی زنده و پرپیچوخم نیز هستید.»
هوش مصنوعی صوتی استانداردهای تأخیر و مدیریت بافت را ارتقا میدهد، اما همچنین تعاملات بازتر و اکتشافیتری نسبت به متن را ممکن میکند.
با سریعتر، ارزانتر و توانمندتر شدن مدلهای پایه، تیم تلاشهای خود را بر دو اهرم کلیدی متمرکز کرد: حافظه و طراحی شخصیت. Portola یک جهان شخصیت محور ساخت که با انیماتورهای پرافتخار و یک نویسنده علمیتخیلی شکل گرفت و با استفاده از یک سیستم مدیریت بافت در زمان واقعی، شخصیت و حافظه را همزمان با پیشرفت مکالمات سازگار نگه میداشت.
عرضه مدلهای GPT‑5.1 نقطه عطفی بود که با ارائه پیشرفتهای چشمگیر در هدایتپذیری و کاهش تأخیر، این اجزا را به هم پیوند داد و تجربه صوتی پاسخگو و جذابتری را ممکن ساخت.
«GPT-5.1 به ما قابلیت هدایتپذیری داد تا بالاخره شخصیتهایی را که در ذهن داشتیم بیان کنیم. این صرفاً هوشمندتر نبود—بلکه به لحن و شخصیتی که میخواستیم ایجاد کنیم وفادارتر بود.»
معماری Tolan تحت تأثیر نیازهای صوتی شکل میگیرد. کاربران صوتی انتظار پاسخهای فوری و طبیعی دارند، حتی زمانی که مسیر مکالمهها در میانهی راه تغییر میکند. Tolan باید سریع پاسخ میداد، موضوعات در حال تغییر را دنبال میکرد و بدون تأخیر یا تغییر لحن، شخصیت ثابتی را حفظ میکرد.
برای اینکه مکالمات طبیعی به نظر برسند، به تأخیری تقریباً آنی نیاز بود. معرفی OpenAI GPT‑5.1 و API پاسخها زمان آغاز گفتار را بیش از ۰.۷ ثانیه کاهش میدهد—بهاندازهای که جریان مکالمه را بهطور محسوسی بهبود بخشد.
به همان اندازه مهم بود که سیستم چگونه با بافت برخورد میکرد. برخلاف بسیاری از عاملها که دستورات را در چندین نوبت ذخیره میکنند، Tolan در هر نوبت پنجره بافت خود را از ابتدا بازسازی میکند. هر بازسازی بافت شامل خلاصهای از پیامهای اخیر، کارت شخصیت، حافظههای بازیابیشده با بردار، راهنمایی لحن و سیگنالهای بلادرنگ برنامه میشود. این معماری به Tolan امکان میدهد تا به صورت بلادرنگ با تغییرات ناگهانی موضوع تطبیق یابد، که یک نیاز ضروری برای تعامل طبیعی مبتنی بر صدا است.
Quinten میگوید: «خیلی زود متوجه شدیم که دستورات ذخیره شده در حافظه نهان واقعاً کارساز نیستند. کاربران همیشه موضوع را عوض میکنند. برای اینکه سیستم بیوقفه عمل کند، باید در میانه راه سازگار میشد.»
این رویکرد بازسازی بلادرنگ هم از نظر فنی پیچیده است و هم زیربنای موفقیت Tolan است.

مدیریت بافت مهم است، اما برای اینکه مکالمات در گذر زمان منسجم بمانند کافی نبود. برای پشتیبانی از مکالمههای طولانی و غیرخطی، Tolan یک سیستم حافظهای ساخت که نهتنها واقعیتها و ترجیحات، بلکه سیگنالهای عاطفی «حال و هوا» را نیز حفظ میکند—سرنخهایی که به هدایت نحوه پاسخدهی Tolan کمک میکنند.
حافظهها با استفاده از مدل تعبیهسازی متنیِ بزرگِ نسخهٔ 3 که شرکت OpenAI توسعه داده است، بهصورت برداری ایجاد میشوند و در Turbopuffer ذخیره میشوند که یک پایگاه دادهٔ برداریِ بسیار پرسرعت است و امکان جستوجو با زمان پاسخ کمتر از ۵۰ میلیثانیه را فراهم میکند. این سرعت برای تعاملات صوتی در زمان واقعی ضروری است. در هر نوبت، Tolan از آخرین پیام کاربر و پرسشهای ساخت سیستم (مثلاً، «کاربر با چه کسی ازدواج کرده است؟») برای فعالسازی بازیابی حافظه استفاده میکند. برای حفظ کیفیت بالای حافظه، Tolan هر شب یک کار فشردهسازی اجرا میکند که ورودیهای کمارزش یا تکراری را حذف میکند (مثلاً «کاربر امروز قهوه نوشید») و تناقضها را رفع میکند.
شخصیت نیز به همان اندازه با دقت مدیریت میشود. هر Tolan با یک اسکلت شخصیت متمایز بذرگذاری میشود که توسط نویسنده علمیتخیلی داخلی تیم نوشته شده و توسط یک پژوهشگر رفتارشناسی پالایش شده است. این بذرها به Tolan ثبات میبخشند، اما همچنین انعطافپذیری لازم را برای تطبیق در طول زمان فراهم میکنند و همگام با کاربر تکامل مییابند.
یک سیستم موازی لحن عاطفی مکالمه را پایش میکند و بهطور پویا نحوهٔ ارائهٔ پاسخ Tolan را تنظیم میکند. این به یک Tolan اجازه میدهد بسته به نشانههای کاربر، بدون از دست دادن شخصیت اصلیاش، بهطور یکپارچه از حالت بازیگوش به حالت متین تغییر وضعیت دهد.
انتقال به GPT‑5.1 یک نقطه عطف بود. ناگهان، دستورالعملهای دستور چندلایه—داربستهای لحن، تزریقهای حافظه، ویژگیهای شخصیت—با دقت بیشتری دنبال شدند. دستوراتی که زمانی به راهحلهای موقتی نیاز داشتند، به تدریج طبق انتظار عمل میکردند.
Quinten میگوید: «برای اولین بار، کارشناسان داخلی ما احساس کردند که این مدل واقعاً دارد گوش میدهد. دستورالعملها در طول گفتوگوهای طولانی دستنخورده باقی ماندند، ویژگیهای شخصیت مورد نظر رعایت شدند و ما انحراف بسیار کمتری مشاهده کردیم.»
این تغییرات به شخصیتی منسجمتر و باورپذیرتر منجر شد که به نوبه خود تجربه کاربری جذابتری را ایجاد کرد. تیم Tolan دستاوردهایی واضح و قابلاندازهگیری را تجربه کرد: خطاهای یادآوری حافظه ۳۰٪ کاهش یافت (بر اساس سیگنالهای ناامیدی درونمحصولی)، و ماندگاری کاربران در روز بعد بیش از ۲۰٪ پس از فعال شدن شخصیتهای تحت حمایت GPT‑5.1 افزایش یافت.

با پیشرفت Tolan، چند اصل پدیدار شد که اکنون نحوه ساخت و توسعه معماری صدای آن به دست تیم را هدایت میکند:
- طراحی برای نوسانات مکالمه: مکالمات صوتی در میانهی جمله تغییر میکنند. سیستمها باید به همان سرعت تغییر جهت دهند تا طبیعی به نظر برسند.
- تأخیر را به عنوان بخشی از تجربه محصول در نظر بگیرید: پاسخگویی زیر یک ثانیه تعیین میکند که آیا عامل صوتی اهل گفتگو به نظر میرسد یا مکانیکی.
- حافظه را بهعنوان یک سیستم بازیابی بسازید، نه یک رونوشت: فشردهسازی باکیفیت و جستوجوی برداری سریع، شخصیتی سازگارتر از پنجرههای بافت بیشازحد بزرگ ارائه میدهد.
- بازسازی بافت در هر نوبت: برای مبارزه با انحراف، از دستورات بزرگتر استفاده نکنید. بازسازیِ زمینه در هر نوبت باعث میشود عاملها حتی وقتی مکالمه شاخهبهشاخه و پراکنده میشود، منسجم و در مسیر باقی بمانند.
در کنار هم، این درسها پایه و اساس مرحله بعدی نوآوری Tolan را شکل میدهند و مسیر حرکت AI صوتی را مشخص میکنند.
رشد Tolan از زمان راهاندازی در فوریه ۲۰۲۵، برابر با بیش از ۲۰۰٬۰۰۰ کاربر فعال ماهانه بوده است. امتیاز ۴.۸ ستارهای آن و بیش از ۱۰۰,۰۰۰ نظر در App Store نشان میدهد که این سیستم تا چه حد در مکالمههای طولانی و در حال تغییر، ثبات را حفظ میکند. یکی از بازبینها اشاره کرد، «آنها چیزهایی را که دو روز پیش دربارهشان صحبت کرده بودیم به خاطر میسپارند و آن را دوباره وارد مکالمهای میکنند که امروز داریم.»
این سیگنالها مستقیماً به معماری زیربنایی نگاشت میشوند: فراخوانیهای مدل با تأخیر کم، بازسازی بافت بهصورت نوبتبهنوبت، و سیستمهای پودمانی حافظه و شخصیت. اینها همه با هم، به Tolan اجازه میدهند تغییرات موضوع را پیگیری کند، لحن را حفظ کند و پاسخها را بدون اتکا به دستورات بزرگ و شکننده، مبتنی بر واقعیت نگه دارد.
با نگاهی به آینده، Tolan قصد دارد سرمایهگذاریهای خود را در بافتٔ هدایتپذیری و پالایش حافظه عمیقتر کند و تلاشهای خود را بر فشردهسازی دقیقتر، منطق بازیابی بهبودیافته و تنظیم شخصیت گستردهتر متمرکز کند. هدف بلندمدت این است که قابلیتهای یک رابط صوتی گسترش یابد: نه تنها پاسخگو، بلکه آگاه به بافت و پویا در مکالمه.
Quinten میگوید: «جبهه بعدی ساخت عاملهای صوتیای است که صرفاً پاسخگو نباشند، بلکه واقعاً چندوجهی باشند و بتوانند صدا، بینایی و بافت را در یک سیستم واحدِ قابل هدایت ادغام کنند.»


