كيف يبني Tolan ذكاءً اصطناعيًا يركز على الصوت باستخدام GPT‑5.1
اعتمد Tolan على نموذج GPT‑5.1 لإنشاء تطبيق صوتي يجمع بين الاستجابة الفورية، ودقة إدارة السياق، وثبات الشخصية طوال المحادثات الطويلة والمتطورة.

Tolan(يفتح في نافذة جديدة) رفيق ذكاء اصطناعي صوتي، يقدّم تجربة محادثة حيّة مع شخصية متحركة وفريدة، تتعلّم من كل محادثة لتصبح أكثر قربًا وذكاءً مع الوقت.
طور فريق Portola، المخضرم والذي لديه خبرة سابقة ناجحة، هذا التطبيق ليتيح محادثات مفتوحة ومستمرّة بدلًا من المطالبات والردود السريعة. ويقول "كوينتن فارمر"، الشريك المؤسس والرئيس التنفيذي لشركة Portola: "شهدنا صعود ChatGPT وأصبح واضحًا لنا أن الصوت سيمثل المرحلة التالية من الابتكار". "لكن الصوت يمثل تحديًا أكبر. فأنت لا تتعامل مع مطالبات مكتوبة فحسب، بل تقود محادثة حية تتفرع وتتجدد بشكل طبيعي".
يرفع الذكاء الاصطناعي الصوتي سقف التحديات في زمن الاستجابة وإدارة السياق، لكنه يمنح أيضًا الحرية لإجراء محادثات مفتوحة واستكشافية تتجاوز حدود النصوص.
مع تحسن النماذج الأساسية لتصبح أسرع وأقل تكلفة وأكثر كفاءة، ركز الفريق جهوده على محورين رئيسين: الذاكرة وتصميم الشخصيات. صنعت Portola عالمًا متحركًا يدور حول الشخصيات، بمساهمة رسامي رسوم متحركة حائزين على جوائز وكاتب خيال علمي، مستعينين بنظام إدارة سياق في الوقت الحقيقي يضمن اتساق الشخصية وذاكرتها مع تطور كل محادثة.
شكّل إطلاق نماذج GPT‑5.1 نقطة تحوّل حاسمة، إذ قدّم تحسينات كبيرة في قابلية التوجيه وزمن الاستجابة، ما أتاح جمع هذه العناصر معًا وفتح الباب أمام تجربة صوتية أكثر تفاعلًا واستجابة.
"أتاح لنا GPT-5.1 إمكانية توجيه الشخصيات كما تخيلناها أخيرًا. لم يكن مجرد أذكى، بل كان أكثر انسجامًا مع النبرة والشخصية التي أردنا ابتكارها".
صُممت بنية Tolan استجابة لمتطلبات التفاعل الصوتي. حيث يتوقع المستخدمون ردودًا فورية وطبيعية، حتى عند تغيّر سياق المحادثة فجأة. لذا كان على Tolan الاستجابة بسرعة، ومتابعة تغير الموضوعات، والحفاظ على اتساق الشخصية دون أي تأخير أو تغيّر في النبرة.
لكي تبدو المحادثات طبيعية، فإنها تتطلب زمن استجابة شبه فوري. أدّى إطلاق نموذج OpenAI GPT‑5.1 وواجهة برمجة الإجابات Responses API إلى تقليص زمن بدء الكلام بأكثر من 0.7 ثانية، وهو تحسّن كافٍ لإحداث فرق ملحوظ في سلاسة تدفّق المحادثة.
كما كان التعامل مع السياق أمرًا بالغ الأهمية. على عكس العديد من الوكلاء الذين يحتفظون بالمطالبات السابقة عبر عدة دورات، تُعاد بناء نافذة السياق في Tolan بالكامل في كل مرة. تشمل كل إعادة بناء ملخصًا للرسائل الأخيرة، وبطاقة الشخصية، والذاكرات المسترجعة بواسطة المتجهات، وتوجيهات النبرة، وإشارات التطبيق في الوقت الفعلي. تتيح هذه البنية لنظام Tolan بالتكيف الفوري مع التحولات المفاجئة في الموضوع، وهو شرط أساسي للتفاعل الصوتي الطبيعي.
يقول "كوينتن فارمر": "أدركنا سريعًا أن الاحتفاظ بالمطالبات السابقة لم يكن كافيًا. فالمستخدمون يغيّرون الموضوعات باستمرار. ولكي تكون التجربة سلسة، كان على النظام التكيف في منتصف المحادثة".
يشكل هذا الأسلوب لإعادة بناء السياق في الوقت الفعلي تحديًا تقنيًا كبيرًا، لكنه أيضًا أساس نجاح Tolan وتميزه.

يعد التعامل مع السياق أمرًا مهمًا، لكنه لم يكن كافيًا للحفاظ على اتساق المحادثات مع مرور الوقت. لدعم الحوارات الطويلة والمتفرعة، طوّرت Tolan نظام ذاكرة متقدمًا، يحتفظ بالحقائق والتفضيلات، ويقرأ "إشارات" المزاج العاطفي—دليل على كيفية توجيه استجابة Tolan.
تُدمج الذاكرات باستخدام نموذج OpenAI text-embedding-3-large وتُخزن في قاعدة بيانات متجهية فائقة السرعة تُسمى Turbopuffer، ما يسمح باسترجاع البيانات في أقل من 50 مللي ثانية. وتعد هذه السرعة أساسية لتجربة الصوت في الوقت الفعلي. في كل دورة، يستخدم Tolan أحدث رسالة من المستخدم وأسئلة مولدة من النظام (مثل: "من متزوج المستخدم؟") لاستدعاء الذاكرة. وللحفاظ على كفاءة الذاكرة، ينفذ Tolan كل ليلة عملية ضغط لإزالة الإدخالات غير المهمة أو المكررة (مثل: "شرب المستخدم القهوة اليوم") ومعالجة أي تناقضات.
تُدار الشخصية بنفس القدر من العناية. يُنشأ كل Tolan بناءً على شخصية محددة، مستوحاة من كاتب الخيال العلمي الخاص بالفريق ومصقولة بواسطة باحث سلوكي. تمنح هذه البنية النظام اتساقًا في الشخصية، مع القدرة على التكيف والنمو مع مرور الوقت جنبًا إلى جنب مع المستخدم.
يُراقب نظام موازٍ الجانب العاطفي للمحادثة ويكيّف طريقة تفاعل Tolan تلقائيًا. يتيح هذا للنظام الانتقال بسلاسة من أسلوب مرح إلى أسلوب أكثر جدية وفق إشارات المستخدم، دون فقدان جوهر شخصيته.
شكّل الانتقال إلى نموذج GPT‑5.1 نقطة تحوّل حاسمة. فجأة، أصبح الالتزام بتعليمات المطالبات متعددة الطبقات، مثل أطر النبرة، وحقن الذاكرة، وسمات الشخصية، أكثر دقة وموثوقية. أصبحت المطالبات التي كانت تحتاج سابقًا إلى حلول بديلة تؤدي وظيفتها على النحو المقصود.
يضيف "كوينتن": "لأول مرة، شعر خبراؤنا الداخليّون بأن النموذج كان يستمع بالفعل. بقيت التعليمات متسقة طوال المحادثات الطويلة، وتم احترام سمات الشخصية، ولاحظنا انخفاضًا كبيرًا في الانحراف".
أسهمت هذه التغييرات في خلق شخصية أكثر اتساقًا ومصداقية، ما أتاح بدوره تجربة مستخدم أكثر جاذبية. شهد فريق Tolan تحسينات واضحة وقابلة للقياس: انخفضت حالات فشل استدعاء الذاكرة بنسبة 30% (استنادًا إلى مؤشرات الإحباط داخل المنتج)، وارتفع معدل احتفاظ المستخدمين في اليوم التالي بأكثر من 20% بعد اعتماد نموذج GPT‑5.1. أصبحت الشخصيات جاهزة للاستخدام المباشر.

مع تطوّر Tolan، ظهرت بعض المبادئ التي أصبحت اليوم توجّه الفريق في كيفية بناء بنية الصوت وتطويره:
- تصميم يدعم تقلبات الحوار: إذ يمكن أن تتغير مجريات المحادثة الصوتية أثناء الكلام نفسه. ويجب أن تتكيف الأنظمة بسرعة مماثلة لتبدو طبيعية.
- اعتبار زمن الاستجابة جزءًا من تجربة المنتج: تؤثر الاستجابة الفورية تحت الثانية على ما إذا كان وكيل الصوت يبدو حواريًا أم آليًا.
- بناء الذاكرة كنظام استرجاع، لا مجرد نص مسجّل: يوفّر الضغط عالي الجودة والبحث المتجه السريع شخصية أكثر اتساقًا من استخدام نوافذ سياق ضخمة.
- إعادة بناء السياق في كل جولة: لا تحارب الانحراف بزيادة حجم المطالبات. توليد السياق من جديد في كل جولة يضمن بقاء الوكلاء متماسكين ومرتبطين بالمحادثة حتى مع تغيّر مسار الحوار.
تكوّن هذه الدروس مجتمعة الركيزة التي ستقود المرحلة التالية من ابتكارات Tolan، وتضع خارطة الطريق لما ينتظر الذكاء الاصطناعي الصوتي في المستقبل.
منذ إطلاق Tolan في فبراير 2025، وصل عدد مستخدميه النشطين شهريًا إلى أكثر من 200000. ويعكس تقييمه البالغ 4.8 نجوم وما يزيد عن 100000 مراجعة في متجر التطبيقات App Store مدى قدرة النظام على الحفاظ على اتساق المحادثات الطويلة والمتغيرة. وأشار أحد المراجعين: "يتذكرون الأمور التي تحدثنا عنها قبل يومين ويعيدون دمجها في المحادثة الحالية".
ترتبط هذه المؤشرات ارتباطًا مباشرًا ببنية Tolan الأساسية: استدعاءات نموذجية سريعة، إعادة بناء السياق خطوة بخطوة، وأنظمة ذاكرة وشخصية مرنة. تعمل هذه المكونات معًا على تمكين النظام من متابعة تغيّرات الموضوع، والحفاظ على النبرة، وضمان استجابات متسقة وواقعية دون الاعتماد على مطالبات ضخمة وهشة.
مع التطلع إلى المستقبل، يخطط Tolan لتعميق استثماراته في التحكم الدقيق في التوجيه وتحسين نظام الذاكرة، مع التركيز على ضغط البيانات بشكل أفضل، تحسين منطق الاسترجاع، وتوسيع ضبط سمات الشخصية. الهدف طويل المدى هو توسيع إمكانات واجهة الصوت، لتصبح ليست فقط مستجيبة، بل أيضًا واعية بالسياق وديناميكية في الحوار.
يقول "كوينتن": "المستوى التالي يكمن في ابتكار وكلاء صوتيين ليسوا مجرد مستجيبين، بل متعددين الوسائط بشكل حقيقي، يستطيعون دمج الصوت والرؤية والسياق ضمن نظام واحد يمكن توجيهه".


