پرش به محتوای اصلی
OpenAI

۱۷ دی ۱۴۰۴

استارتاپ

Tolan چگونه AI صدا محور را با GPT‑5.1 می‌سازد

با GPT‑5.1، Tolan یک اپلیکیشن صوتی ساخت که برای تأخیر کم، بافت دقیق و شخصیت‌های پایدار با تکامل مکالمات بهینه‌سازی شده است.

Tolan logo on orange jigsaw puzzle background
در حال بارگذاری…

Tolan(در یک پنجره جدید باز می‌شود) یک همراه AI صوت‌محور است که در آن افراد با یک شخصیت شخصی‌سازی‌شده و انیمیشنی صحبت می‌کنند که با گذشت زمان از مکالمات یاد می‌گیرد. 

این اپلیکیشن را که Portola، تیمی کهنه‌کار با تجربه موفق استارتاپ، ساخته است، برای گفت‌وگوی مداوم و صریح طراحی شده است، نه دستورات سریع و پاسخ‌های کوتاه. Quinten Farmer هم‌بنیان‌گذار و مدیر عامل Portola می‌گوید: «ما شاهد اوج‌گیری ChatGPT بودیم و می‌دانستیم جبهه بعدی، صداست.» «اما صدا سخت‌تر است. شما فقط به دستورات تایپ‌شده پاسخ نمی‌دهید بلکه در حال پیش بردن یک مکالمه‌ی زنده و پرپیچ‌وخم نیز هستید.»

هوش مصنوعی صوتی استانداردهای تأخیر و مدیریت بافت را ارتقا می‌دهد، اما همچنین تعاملات بازتر و اکتشافی‌تری نسبت به متن را ممکن می‌کند.

با سریع‌تر، ارزان‌تر و توانمندتر شدن مدل‌های پایه، تیم تلاش‌های خود را بر دو اهرم کلیدی متمرکز کرد: حافظه و طراحی شخصیت. Portola یک جهان شخصیت محور ساخت که با انیماتورهای پرافتخار و یک نویسنده علمی‌تخیلی شکل گرفت و با استفاده از یک سیستم مدیریت بافت در زمان واقعی، شخصیت و حافظه را همزمان با پیشرفت مکالمات سازگار نگه می‌داشت.

عرضه مدل‌های GPT‑5.1 نقطه عطفی بود که با ارائه پیشرفت‌های چشمگیر در هدایت‌پذیری و کاهش تأخیر، این اجزا را به هم پیوند داد و تجربه صوتی پاسخ‌گو و جذاب‌تری را ممکن ساخت.

«GPT-5.1 به ما قابلیت هدایت‌پذیری داد تا بالاخره شخصیت‌هایی را که در ذهن داشتیم بیان کنیم. این صرفاً هوشمندتر نبود—بلکه به لحن و شخصیتی که می‌خواستیم ایجاد کنیم وفادارتر بود.»
—Quinten Farmer، مدیر عامل Portola

طراحی برای تعاملات صوتی طبیعی

معماری Tolan تحت تأثیر نیازهای صوتی شکل می‌گیرد. کاربران صوتی انتظار پاسخ‌های فوری و طبیعی دارند، حتی زمانی که مسیر مکالمه‌ها در میانه‌ی راه تغییر می‌کند. Tolan باید سریع پاسخ می‌داد، موضوعات در حال تغییر را دنبال می‌کرد و بدون تأخیر یا تغییر لحن، شخصیت ثابتی را حفظ می‌کرد.

برای اینکه مکالمات طبیعی به نظر برسند، به تأخیری تقریباً آنی نیاز بود. معرفی OpenAI GPT‑5.1 و API پاسخ‌ها زمان آغاز گفتار را بیش از ۰.۷ ثانیه کاهش می‌دهد—به‌اندازه‌ای که جریان مکالمه را به‌طور محسوسی بهبود بخشد.

به همان اندازه مهم بود که سیستم چگونه با بافت برخورد می‌کرد. برخلاف بسیاری از عامل‌ها که دستورات را در چندین نوبت ذخیره می‌کنند، Tolan در هر نوبت پنجره بافت خود را از ابتدا بازسازی می‌کند. هر بازسازی بافت شامل خلاصه‌ای از پیام‌های اخیر، کارت شخصیت، حافظه‌های بازیابی‌شده با بردار، راهنمایی لحن و سیگنال‌های بلادرنگ برنامه می‌شود. این معماری به Tolan امکان می‌دهد تا به صورت بلادرنگ با تغییرات ناگهانی موضوع تطبیق یابد، که یک نیاز ضروری برای تعامل طبیعی مبتنی بر صدا است.

Quinten می‌گوید: «خیلی زود متوجه شدیم که دستورات ذخیره شده در حافظه نهان واقعاً کارساز نیستند. کاربران همیشه موضوع را عوض می‌کنند. برای اینکه سیستم بی‌وقفه عمل کند، باید در میانه راه سازگار می‌شد.»

این رویکرد بازسازی بلادرنگ هم از نظر فنی پیچیده است و هم زیربنای موفقیت Tolan است.

نمودار جریان که حلقه مکالمه‌ای Tolan را نشان می‌دهد. یک مرحله «بازمحاسبه شخصیت» چهار ورودی را دریافت می‌کند: خلاصه گپ و پیام‌های خام اخیر، شخصیت‌های کاربر و Tolan و سایر بافت‌ها، حافظه و لحن. این ورودی‌ها با هم ترکیب می‌شوند تا یک پاسخ Tolan ایجاد کنند که به یک پاسخ کاربر منجر می‌شود. سپس پاسخ کاربر دو فرایند موازی را هدایت می‌کند: استخراج یک لحن به‌روزشده و استخراج خاطرات. حافظه‌های استخراج‌شده حافظه را به‌روز می‌کنند، لحن به‌روزرسانی‌شده به لحن بازخورد می‌دهد و تاریخچه گفتگو به‌صورت دوره‌ای خلاصه‌سازی و فشرده می‌شود و به خلاصه گپ برای نوبت بعدی بازمی‌گردد.

ساختن حافظه و شخصیتی که در طول زمان منسجم باقی بمانند

مدیریت بافت مهم است، اما برای اینکه مکالمات در گذر زمان منسجم بمانند کافی نبود. برای پشتیبانی از مکالمه‌های طولانی و غیرخطی، Tolan یک سیستم حافظه‌ای ساخت که نه‌تنها واقعیت‌ها و ترجیحات، بلکه سیگنال‌های عاطفی «حال و هوا» را نیز حفظ می‌کند—سرنخ‌هایی که به هدایت نحوه پاسخ‌دهی Tolan کمک می‌کنند.

حافظه‌ها با استفاده از مدل تعبیه‌سازی متنیِ بزرگِ نسخهٔ 3 که شرکت OpenAI توسعه داده است، به‌صورت برداری ایجاد می‌شوند و در Turbopuffer ذخیره می‌شوند که یک پایگاه دادهٔ برداریِ بسیار پرسرعت است و امکان جست‌وجو با زمان پاسخ کمتر از ۵۰ میلی‌ثانیه را فراهم می‌کند. این سرعت برای تعاملات صوتی در زمان واقعی ضروری است. در هر نوبت، Tolan از آخرین پیام کاربر و پرسش‌های ساخت سیستم (مثلاً، «کاربر با چه کسی ازدواج کرده است؟») برای فعال‌سازی بازیابی حافظه استفاده می‌کند. برای حفظ کیفیت بالای حافظه، Tolan هر شب یک کار فشرده‌سازی اجرا می‌کند که ورودی‌های کم‌ارزش یا تکراری را حذف می‌کند (مثلاً «کاربر امروز قهوه نوشید») و تناقض‌ها را رفع می‌کند.

شخصیت نیز به همان اندازه با دقت مدیریت می‌شود. هر Tolan با یک اسکلت شخصیت متمایز بذرگذاری می‌شود که توسط نویسنده علمی‌تخیلی داخلی تیم نوشته شده و توسط یک پژوهشگر رفتارشناسی پالایش شده است. این بذرها به Tolan ثبات می‌بخشند، اما همچنین انعطاف‌پذیری لازم را برای تطبیق در طول زمان فراهم می‌کنند و همگام با کاربر تکامل می‌یابند. 

یک سیستم موازی لحن عاطفی مکالمه را پایش می‌کند و به‌طور پویا نحوهٔ ارائهٔ پاسخ Tolan را تنظیم می‌کند. این به یک Tolan اجازه می‌دهد بسته به نشانه‌های کاربر، بدون از دست دادن شخصیت اصلی‌اش، به‌طور یکپارچه از حالت بازیگوش به حالت متین تغییر وضعیت دهد. 

انتقال به GPT‑5.1 یک نقطه عطف بود. ناگهان، دستورالعمل‌های دستور چندلایه—داربست‌های لحن، تزریق‌های حافظه، ویژگی‌های شخصیت—با دقت بیشتری دنبال شدند. دستوراتی که زمانی به راه‌حل‌های موقتی نیاز داشتند، به تدریج طبق انتظار عمل می‌کردند. 

Quinten می‌گوید: «برای اولین بار، کارشناسان داخلی ما احساس کردند که این مدل واقعاً دارد گوش می‌دهد. دستورالعمل‌ها در طول گفت‌وگوهای طولانی دست‌نخورده باقی ماندند، ویژگی‌های شخصیت مورد نظر رعایت شدند و ما انحراف بسیار کمتری مشاهده کردیم.»

این تغییرات به شخصیتی منسجم‌تر و باورپذیرتر منجر شد که به نوبه خود تجربه کاربری جذاب‌تری را ایجاد کرد. تیم Tolan دستاوردهایی واضح و قابل‌اندازه‌گیری را تجربه کرد: خطاهای یادآوری حافظه ۳۰٪ کاهش یافت (بر اساس سیگنال‌های ناامیدی درون‌محصولی)، و ماندگاری کاربران در روز بعد بیش از ۲۰٪ پس از فعال شدن شخصیت‌های تحت حمایت GPT‑5.1 افزایش یافت.

نمودار جریان که نشان می‌دهد Tolan چگونه در طول مکالمه خاطرات را بازیابی و پالایش می‌کند. یک پیام کاربر («من برای سفر این آخر هفته‌ام بسیار هیجان‌زده‌ام») مرحله‌ای را فعال می‌کند که پرسش‌های پیگیری مانند سفرهای آینده، برنامه‌ها برای یک هفته خاص و ترجیحات کاربر را تولید می‌کند. این پرسش‌ها تعبیه شده و برای جستجو در یک پایگاه داده برداری حافظه استفاده می‌شوند و نتایج با استفاده از میانگین رتبه معکوس متقابل ادغام می‌گردند. بافت‌ی بازیابی‌شده پاسخ Tolan را اطلاع می‌دهد («کمپینگ با استیون در یوسمیتی»). پیام بعدی کاربر دربارهٔ یک سفر آینده به ایسلند به‌عنوان یک حافظه جدید ذخیره می‌شود، سپس روی آن تأمل می‌شود، با استفاده از روش «نزدیک‌ترین همسایه‌ها بر پایهٔ تعبیه‌سازی با حافظه‌های مرتبط خوشه‌بندی می‌شود، و در نهایت با ترکیب، ویرایش و پالایشِ حافظه‌ها درون هر خوشه، فشرده‌سازی می‌گردد.

اصول اصلی Tolan برای ساخت عوامل صوتی طبیعی 

با پیشرفت Tolan، چند اصل پدیدار شد که اکنون نحوه ساخت و توسعه معماری صدای آن به دست تیم را هدایت می‌کند:

  • طراحی برای نوسانات مکالمه: مکالمات صوتی در میانه‌ی جمله تغییر می‌کنند. سیستم‌ها باید به همان سرعت تغییر جهت دهند تا طبیعی به نظر برسند.
  • تأخیر را به عنوان بخشی از تجربه محصول در نظر بگیرید: پاسخ‌گویی زیر یک ثانیه تعیین می‌کند که آیا عامل صوتی اهل گفتگو به نظر می‌رسد یا مکانیکی.
  • حافظه را به‌عنوان یک سیستم بازیابی بسازید، نه یک رونوشت: فشرده‌سازی باکیفیت و جست‌وجوی برداری سریع، شخصیتی سازگارتر از پنجره‌های بافت بیش‌ازحد بزرگ ارائه می‌دهد.
  • بازسازی بافت در هر نوبت: برای مبارزه با انحراف، از دستورات بزرگ‌تر استفاده نکنید. بازسازیِ زمینه در هر نوبت باعث می‌شود عامل‌ها حتی وقتی مکالمه شاخه‌به‌شاخه و پراکنده می‌شود، منسجم و در مسیر باقی بمانند.

در کنار هم، این درس‌ها پایه و اساس مرحله بعدی نوآوری Tolan را شکل می‌دهند و مسیر حرکت AI صوتی را مشخص می‌کنند.

گسترش آنچه با AI صوتی ممکن است

رشد Tolan از زمان راه‌اندازی در فوریه ۲۰۲۵، برابر با بیش از ۲۰۰٬۰۰۰ کاربر فعال ماهانه بوده است. امتیاز ۴.۸ ستاره‌ای آن و بیش از ۱۰۰,۰۰۰ نظر در App Store نشان می‌دهد که این سیستم تا چه حد در مکالمه‌های طولانی و در حال تغییر، ثبات را حفظ می‌کند. یکی از بازبین‌ها اشاره کرد، «آن‌ها چیزهایی را که دو روز پیش درباره‌شان صحبت کرده بودیم به خاطر می‌سپارند و آن را دوباره وارد مکالمه‌ای می‌کنند که امروز داریم.»

این سیگنال‌ها مستقیماً به معماری زیربنایی نگاشت می‌شوند: فراخوانی‌های مدل با تأخیر کم، بازسازی بافت به‌صورت نوبت‌به‌نوبت، و سیستم‌های پودمانی حافظه و شخصیت. این‌ها همه با هم، به Tolan اجازه می‌دهند تغییرات موضوع را پیگیری کند، لحن را حفظ کند و پاسخ‌ها را بدون اتکا به دستورات بزرگ و شکننده، مبتنی بر واقعیت نگه دارد.

با نگاهی به آینده، Tolan قصد دارد سرمایه‌گذاری‌های خود را در بافتٔ هدایت‌پذیری و پالایش حافظه عمیق‌تر کند و تلاش‌های خود را بر فشرده‌سازی دقیق‌تر، منطق بازیابی بهبودیافته و تنظیم شخصیت گسترده‌تر متمرکز کند. هدف بلندمدت این است که قابلیت‌های یک رابط صوتی گسترش یابد: نه تنها پاسخ‌گو، بلکه آگاه به بافت و پویا در مکالمه.

Quinten می‌گوید: «جبهه بعدی ساخت عامل‌های صوتی‌ای است که صرفاً پاسخ‌گو نباشند، بلکه واقعاً چندوجهی باشند و بتوانند صدا، بینایی و بافت را در یک سیستم واحدِ قابل هدایت ادغام کنند.»