Tolan کیسے GPT‑5.1 کے ساتھ وائس-فرسٹ AI تیار کرتا ہے

GPT‑5.1 کے ساتھ، Tolan نے ایک وائس ایپ بنائی ہے جو کم تاخیر، درست سیاق و سباق اور گفتگو کے ارتقا کے ساتھ مستحکم شخصیات کے لیے موزوں بنائی گئی ہے.

لوڈ ہو رہا ہے…

Tolan⁠(نئی ونڈو میں کھلتا ہے) ایک وائس-فرسٹ AI ساتھی ہے جہاں لوگ ایک ذاتی نوعیت کے، متحرک کیریکٹر کے ساتھ بات چیت کرتے ہیں جو وقت کے ساتھ گفتگو سے سیکھتا ہے.

Portola، پیشگی ایگزٹ کی حامل ایک تجربہ کار ٹیم کی جانب سے تیار کردہ، یہ ایپ فوری پرامپٹس اور جوابات کے بجائے مسلسل، کھلے اختتام والے مکالمے کے لیے ڈیزائن کی گئی ہے. "ہم نے ChatGPT کے عروج کو دیکھا اور جانا کہ وائس یا آواز اگلا محاذ ہے،" کوئنٹن فارمر، Portola کے شریک بانی اور CEO، کہتے ہیں. "لیکن آواز زیادہ مشکل ہوتی ہے. "آپ صرف ٹائپ کردہ پرامپٹس کا جواب نہیں دے رہے ہیں؛ آپ ایک براہِ راست بے تکلف گفتگو کر رہے ہوتے ہیں."

Voice AI تاخیر اور سیاق و سباق کے انتظام کے معیار کو بلند کرتا ہے، لیکن یہ متن کے مقابلے میں زیادہ کھلے اختتام والے اور جستجو پر مبنی تعاملات کو بھی ممکن بناتا ہے.

فاؤنڈیشن ماڈلز کے تیز تر، سستے اور زیادہ قابل بننے کے ساتھ، ٹیم نے اپنی کوششوں کو دو اہم عوامل پر مرکوز کیا: یادداشت اور کیریکٹر ڈیزائن. Portola نے کیریکٹر پر مبنی ایک کائنات تخلیق کی، جسے ایوارڈ یافتہ اینیمیٹرز اور ایک سائنس فکشن مصنف نے تشکیل دیا اور گفتگو کے دوران شخصیت اور یادداشت کو مستقل رکھنے کے لیے حقیقی وقت کے سیاق و سباق کے نظم و نسق کے نظام کا استعمال کیا.

GPT‑5.1 ماڈلز کے اجرا نے ایک اہم موڑ کی نشاندہی کی، جس نے قابلِ توجیہ اور تاخیر میں بڑی بہتریاں فراہم کی، ان حصوں کو یکجا کیا، اور ایک زیادہ جوابدہ اور دل چسپ وائس تجربہ کو ممکن بنایا.

"GPT-5.1 نے ہمیں وہ اسٹیئریبلٹی فراہم کی جس کی مدد سے ہم آخرکار ان کیریکٹرز کا اظہار کر سکے جو ہمارے ذہن میں تھے. "یہ صرف زیادہ ہوشیار نہیں تھا—یہ اُس لہجے اور شخصیت کے زیادہ وفادار تھا جو ہم تخلیق کرنا چاہتے تھے."

—کوئنٹن فارمر، CEO، Portola

قدرتی آواز کے تعاملات کے لیے ڈیزائن کرنا

Tolan کی معمار آواز کے تقاضوں کے مطابق ڈھلتی ہے. وائس صارفین فوری اور قدرتی جوابات کی توقع رکھتے ہیں، یہاں تک کہ جب گفتگو دورانِ گفتگو رخ بدل لیتی ہے. Tolan کو تیزی سے جواب دینا تھا، بدلتے ہوئے موضوعات کو ٹریک کرنا تھا اور بغیر کسی تاخیر یا لہجے کے انحراف کے ایک مستقل شخصیت کو برقرار رکھنا تھا.

قدرتی محسوس ہونے کے لیے، گفتگوؤں کو تقریباً فوری-لیٹنسی درکار تھی. OpenAI GPT‑5.1 کا تعارف اور Responses API نے بات چیت کے آغاز کے وقت میں 0.7 سیکنڈ سے زیادہ کی کمی کی—جو گفتگو کے بہاؤ کو نمایاں طور پر بہتر بنانے کے لیے کافی ہے.

اتنا ہی اہم یہ تھا کہ نظام نے سیاق و سباق کو کیسے سنبھالا. بہت سے ایجنٹس کے برعکس جو متعدد باریوں میں پرامپٹس کو کیش کرتے ہیں، Tolan ہر باری میں اپنی سیاق و سباق ونڈو کو شروع سے دوبارہ بناتا ہے. ہر سیاق و سباق کی ازسرِنو تشکیل حالیہ پیغامات کا خلاصہ، ایک پرسونا کارڈ، ویکٹر کے ذریعے بازیافت کی گئی یادداشتیں، لہجے کی رہنمائی اور حقیقی وقت ایپ سگنلز کو شامل کرتی ہے. یہ فن تعمیر Tolan کو حقیقی وقت میں اچانک موضوعاتی تبدیلیوں کے مطابق خود کو ڈھالنے کی اجازت دیتا ہے، جو قدرتی آواز پر مبنی تعامل کے لیے ایک لازمی ضرورت ہے.

"ہمیں جلد ہی احساس ہو گیا کہ کیش شدہ پرامپٹس کافی نہیں تھے،" کوئنٹن کہتے ہیں. "صارفین ہر وقت موضوعات بدلتے رہتے ہیں." بغیر کسی رکاوٹ کے تجربے کے لیے، نظام کو دورانِ عمل خود کو ڈھالنا ضروری تھا.

یہ حقیقی وقت میں تعمیرِ نو کا طریقہ کار تکنیکی طور پر نہایت پیچیدہ ہے اور Tolan کی کامیابی کے لیے بنیادی حیثیت رکھتا ہے.

فلو ڈایاگرام جو Tolan کے مکالماتی لوپ کو دکھاتی ہے. ایک "ری کمپیوٹ پرسونا" مرحلہ چار ان پٹس فراہم کرتا ہے: چیٹ کا خلاصہ اور حالیہ خام پیغامات، صارف اور Tolan پرسوناز، دیگر سیاق و سباق، یادداشت اور ٹون. یہ ان پٹس مل کر ایک Tolan ردعمل پیدا کرتی ہیں، جو صارف کے ردعمل کی طرف لے جاتا ہے. پھر صارف کا جواب دو متوازی عملوں کو آگے بڑھاتا ہے: ایک تازہ شدہ لہجہ اخذ کرنا اور یادداشتیں اخذ کرنا. اخذ کردہ یادیں یادداشت کو اپ ڈیٹ کرتی ہیں، اپ ڈیٹ شدہ لہجہ واپس لہجے میں شامل ہوتا ہے اور گفتگو کی تاریخ کا وقتاً فوقتاً دوبارہ خلاصہ بنا کر اور کمپریس کر کے، اگلی باری کے لیے چیٹ سمری میں واپس لوپ کر دیا جاتا ہے.

وقت کے ساتھ برقرار رہنے والی یادداشت اور شخصیت کی تعمیر

سیاق و سباق کو سنبھالنا اہم ہے، لیکن یہ وقت کے ساتھ گفتگو کو مربوط رکھنے کے لیے کافی نہیں تھا. طویل اور غیر خطی گفتگوؤں کو سپورٹ کرنے کے لیے، Tolan نے ایک یادداشت سسٹم تیار کیا جو نہ صرف حقائق اور ترجیحات کو محفوظ رکھتا ہے بلکہ جذباتی "وائب" سگنلز کو بھی—یہ اشارے جو یہ طے کرنے میں مدد کرتے ہیں کہ Tolan کو کیسے جواب دینا چاہیے.

یاداشتیں OpenAI text-embedding-3-بڑے ماڈل کا استعمال کرتے ہوئے ایمبیڈ کی جاتی ہیں اور Turbopuffer میں محفوظ کی جاتی ہیں، یہ ایک تیز رفتار ویکٹر ڈیٹابیس ہے جو 50 ملی سیکنڈ سے کم تلاش کے اوقات کو ممکن بناتا ہے. یہ رفتار حقیقی وقت صوتی تعاملات کے لیے ضروری ہے. ہر باری پر، Tolan صارف کے تازہ ترین پیغام اور سسٹم کے ترکیب شدہ سوالات (مثال کے طور پر، "صارف کی شادی کس سے ہوئی ہے؟") کو یاداشت کھنگالنے کو متحرک کرنے کے لیے استعمال کرتا ہے. یادداشت کے معیار کو بلند رکھنے کے لیے، Tolan رات کے وقت ایک کمپریشن جاب چلاتا ہے جو کم قدر یا غیر ضروری اندراجات کو ہٹا دیتا ہے (مثال کے طور پر، "صارف نے آج کافی پی") اور تضادات کو حل کرتا ہے.

شخصیت کو بھی اتنی ہی احتیاط سے منظم کیا جاتا ہے. ہر Tolan کو ایک منفرد کیریکٹر کے ڈھانچے کے ساتھ بویا جاتا ہے، جسے ٹیم کے اندرونی سائنس فکشن مصنف نے لکھا اور ایک رویہ جاتی محقق نے بہتر بنایا. یہ بیج Tolans کو یکسانیت فراہم کرتے ہیں، لیکن وقت کے ساتھ ساتھ خود کو ڈھالنے کی لچک بھی دیتے ہیں اور صارف کے ساتھ ساتھ ترقی کرتے ہیں.

ایک متوازی نظام گفتگو کے جذباتی لہجے کی نگرانی کرتا ہے اور Tolan کی ترسیل کو متحرک طور پر ایڈجسٹ کرتا ہے. یہ Tolan کو صارف کے اشاروں کے مطابق چنچل سے سنجیدہ انداز میں بغیر کسی رکاوٹ کے منتقل ہونے کی اجازت دیتا ہے، جبکہ اپنی بنیادی شخصیت کو برقرار رکھتا ہے.

GPT‑5.1 کی منتقلی ایک اہم موڑ تھی. اچانک، تہہ دار پرامپٹ ہدایات—آواز کے ڈھانچے، یادداشت کے انجیکشن، کیریکٹر کی خصوصیات—پر زیادہ وفاداری سے عمل کیا جانے لگا. وہ پرامپٹس جو پہلے عارضی حل کی ضرورت رکھتی تھی، اب اپنے مطلوبہ طریقے سے کام کرنے لگی ہیں.

پہلی بار، ہمارے اندرونی ماہرین کو ایسا محسوس ہوا کہ ماڈل واقعی سن رہا ہے،" کوئنٹن کہتے ہیں. "طویل گفتگوؤں کے دوران ہدایات برقرار رہیں، شخصیت کی خصوصیات کا احترام کیا گیا اور ہم نے بہت کم انحراف دیکھا.

ان تبدیلیوں نے ایک زیادہ مستقل اور قابلِ یقین شخصیت کو جنم دیا، جس کے نتیجے میں صارف کا تجربہ مزید دلچسپ بن گیا. Tolan ٹیم نے واضح، قابلِ پیمائش بہتری دیکھی: یادداشت کھنگالنے میں بھول چوک 30% کم ہوئیں (ان-پروڈکٹ فرسٹریشن سگنلز کی بنیاد پر) جب سے GPT‑5.1– تقویت یافتہ پرسوناز لائیو ہوئے.

فلو ڈایاگرام یہ ظاہر کرتی ہے کہ Tolan گفتگو کے دوران یادوں کو کیسے بازیافت کرتا ہے اور انہیں بہتر بناتا ہے. ایک صارف کا پیغام ("میں اس اختتام ہفتے کے اپنے سفر کے لیے بہت پرجوش ہوں") ایک مرحلہ شروع کرتا ہے جو فالو اپ سوالات تیار کرتا ہے، جیسے آنے والے سفر، کسی مخصوص ہفتے کے لیے پلانز اور صارف کی ترجیحات. یہ سوالات ایمبیڈ کیے جاتے ہیں اور یادداشت ویکٹر ڈیٹابیس کو استفسار کرنے کے لیے استعمال ہوتے ہیں اور نتائج مین ریسیپروکل رینک (mean reciprocal rank) کے ذریعے ضم کیے جاتے ہیں. بازیافت کردہ سیاق و سباق Tolan کے جواب کو مطلع کرتا ہے ("یوسمائٹ میں اسٹیون کے ساتھ کیمپنگ"). آئس لینڈ کے مستقبل کے سفر کے بارے میں بعد میں آنے والا صارف کا پیغام ایک نئی یادداشت کے طور پر محفوظ کیا جاتا ہے، پھر اس پر غور کیا جاتا ہے، ایمبیڈنگ پر مبنی کے-نیئرسٹ نیبرز (k-nearest neighbors) کے ذریعے متعلقہ یادداشتوں کے ساتھ کلسٹر کیا جاتا ہے اور ہر کلسٹر کے اندر یادداشتوں کو یکجا کرنے، ترمیم کرنے اور بہتر بنانے کے ذریعے کمپریس کیا جاتا ہے.

Tolan کے قدرتی آواز والے ایجنٹس کی تعمیر کے بنیادی اصول

جیسے جیسے Tolan ارتقاء پذیر ہوا، چند اصول سامنے آئے جو اب اس بات کی رہنمائی کرتے ہیں کہ ٹیم اپنی وائس آرکیٹیکچر کو کیسے بناتی اور ارتقاء پذیر ہوتی ہے:

گفتگو کی غیر یقینی کیفیت کے لیے ڈیزائن کریں: وائس کنورسیشنز جملے کے درمیان میں بدل جاتی ہیں. سسٹمز کو بھی اتنی ہی تیزی سے مڑنے کی ضرورت ہے تاکہ وہ قدرتی محسوس ہوں.
تاخیر کو پروڈکٹ کے تجربے کا حصہ سمجھیں: ایک سیکنڈ سے کم ردعمل یہ طے کرتا ہے کہ آیا وائس ایجنٹ، باتونی سا یا مکینیکل محسوس ہوتا ہے.
یادداشت کو بازیافت کرنے کے نظام کے طور پر بنائیں، نہ کہ ٹرانسکرپٹ کے طور پر: اعلٰی معیار کی کمپریشن اور تیز ویکٹر تلاش، حد سے بڑی سیاق و سباق ونڈوز کے مقابلے میں زیادہ مستقل شخصیت فراہم کرتی ہیں.
ہر موڑ پر سیاق و سباق کو دوبارہ بنائیں: بڑی پرامپٹس کے ذریعے ڈرفٹ سے لڑائی نہ کریں. ہر باری سیاق و سباق کو دوبارہ تیار کرنا ایجنٹس کو مستحکم بنیاد پر رکھتا ہے جب گفتگو ادھر اُدھر بھٹکتی ہے.

مل کر، یہ اسباق Tolan کی اگلی جدت کے مرحلے کی بنیاد بناتے اور اس سمت کا تعین کرتے ہیں کہ voice AI کس طرف جا رہا ہے.

Voice AI کے ذریعے ممکنات کو بڑھانا

فروری 2025 میں لانچ ہونے کے بعد سے، Tolan کے ماہانہ فعال صارفین کی تعداد 200,000 سے متجاوز کر چکی ہے. اس کی 4.8-اسٹار ریٹنگ اور App Store پر 100,000 سے زیادہ جائزے یہ اجاگر کرتے ہیں کہ نظام طویل، بدلتی ہوئی گفتگوؤں میں مطابقت کو کتنی اچھی طرح برقرار رکھتا ہے. ایک جائزہ لینے والے نے نوٹ کیا، "انہیں وہ باتیں یاد رہتی ہیں جن کے بارے میں ہم نے دو دن پہلے بات کی تھی اور وہ اسے آج کی گفتگو میں واپس لے آتے ہیں."

یہ سگنلز براہ راست بنیادی ڈھانچے سے مطابقت رکھتے ہیں: کم تاخیر والے ماڈل کالز، باری باری سیاق و سباق کی تعمیر نو اور ماڈیولر یادداشت اور پرسونا سسٹمز. مل کر، وہ Tolan کو موضوع کی تبدیلیوں کو ٹریک کرنے، لہجے کو برقرار رکھنے اور بڑی، نازک پرامپٹس پر انحصار کیے بغیر جوابات کو حقیقت پر مبنی رکھنے کی اجازت دیتے ہیں.

آگے کی طرف دیکھتے ہوئے، Tolan اسٹیئریبلٹی اور یادداشت کی بہتری میں اپنی سرمایہ کاری کو مزید گہرا کرنے کا ارادہ رکھتا ہے، اپنی کوششوں کو زیادہ سخت کمپریشن، بہتر بازیافت منطق اور وسیع تر پرسونا ٹیوننگ پر مرکوز کرے گا. طویل مدتی مقصد یہ ہے کہ وائس انٹرفیس کی صلاحیتوں کو وسعت دی جائے: یہ نہ صرف ردعمل دینے والا ہو، بلکہ سیاق و سباق سے آگاہ اور گفتگو کے لحاظ سے متحرک بھی ہو.

"اگلا محاذ،" کوئنٹن کہتے ہیں، "ایسے وائس ایجنٹس بنانا ہے جو صرف ردعمل دینے والے نہ ہوں، بلکہ واقعی ملٹی موڈل ہوں، جو آواز، بصارت اور سیاق و سباق کو ایک واحد، قابل رہنمائی نظام میں ضم کر سکیں."

پڑھتے رہیں

سب دیکھیں

GPT-5.5 کے ساتھ اوپن سورس بنانے پر Warp کی بڑی شرط

اسٹارٹ اپ۲۷ مئی، ۲۰۲۶

Parloa builds service agents customers want to talk to

اسٹارٹ اپ۷ مئی، ۲۰۲۶

Gradient Labs ہر بینک صارف کو ایک AI اکاؤنٹ مینیجر دیتا ہے

اسٹارٹ اپ۱ اپریل، ۲۰۲۶