Tolan কিভাবে GPT‑5.1 দিয়ে ভয়েস-ফাস্ট AI তৈরি করে
GPT‑5.1 দিয়ে Tolan একটি ভয়েস অ্যাপ তৈরি করেছে যা লো-লেটেন্সি, সঠিক প্রেক্ষাপট এবং কথোপকথন বিকশিত হওয়ার সাথে সাথে স্থিতিশীল ব্যক্তিত্বের জন্য অপ্টিমাইজ করা হয়েছে.

Tolan(একটি নতুন উইন্ডোতে খোলে) হলো একটি ভয়েস-ফার্স্ট AI সঙ্গী যেখানে মানুষ একটি ব্যক্তিগত, অ্যানিমেটেড চরিত্রের সাথে কথা বলে, যা সময়ের সাথে কথোপকথন থেকে শেখে.
Portola দ্বারা নির্মিত, একটি অভিজ্ঞ দল যারা পূর্বে সফলভাবে প্রস্থান করেছে, এই অ্যাপটি দ্রুত প্রম্পট এবং জবাবের পরিবর্তে চলমান, উন্মুক্ত সংলাপের জন্য ডিজাইন করা হয়েছে. “আমরা ChatGPT‑এর উত্থান দেখেছি এবং জানতাম ভয়েসই পরবর্তী ফ্রন্টিয়ার,” বলেন Portola-এর সহ-প্রতিষ্ঠাতা এবং CEO কুইন্টেন ফার্মার. “কিন্তু কণ্ঠস্বর আরও কঠিন. আপনি শুধু টাইপ করা প্রম্পটের জবাব দিচ্ছেন না; আপনি একটি সরাসরি, ঘুরে বেড়ানো কথোপকথন চালিয়ে যাচ্ছেন.
Voice AI ল্যাটেন্সি (সাড়া প্রদানের সময়কাল) এবং কনটেক্সট ম্যানেজমেন্টের মানদণ্ডকে আরও উঁচুতে নিয়ে গেছে; তবে এটি টেক্সট বা বার্তার তুলনায় আরও বেশি উন্মুক্ত এবং অনুসন্ধানমূলক মিথস্ক্রিয়ার সুযোগ তৈরি করে.
ফাউন্ডেশন মডেলগুলো আরও দ্রুত, সাশ্রয়ী এবং আরও সক্ষম হয়ে ওঠার সাথে সাথে, দলটি দুটি মূল বিষয়ের উপর তাদের প্রচেষ্টা নিবদ্ধ করেছে: মেমোরি এবং ক্যারেক্টার ডিজাইন. Portola একটি চরিত্র-নির্ভর মহাবিশ্ব তৈরি করেছে, যা পুরস্কারপ্রাপ্ত অ্যানিমেটর এবং একজন বিজ্ঞান কল্পকাহিনি লেখকের দ্বারা গঠিত এবং কথোপকথন চলাকালীন ব্যক্তিত্ব ও স্মৃতিকে সঙ্গতিপূর্ণ রাখতে একটি রিয়েল-টাইম কনটেক্স ব্যবস্থাপনা সিস্টেম ব্যবহার করেছে.
GPT‑5.1 মডেলগুলির মুক্তি একটি গুরুত্বপূর্ণ পরিবর্তন সূচিত করেছিল, যা স্টিয়ারেবিলিটি এবং ল্যাটেন্সিতে উল্লেখযোগ্য উন্নতি এনে, সেই উপাদানগুলোকে একত্রিত করে আরও প্রতিক্রিয়াশীল এবং আকর্ষণীয় ভয়েস অভিজ্ঞতা উন্মোচন করেছিল.
“GPT-5.1 আমাদের এমন নিয়ন্ত্রণ ক্ষমতা দিয়েছে, যার ফলে আমরা অবশেষে আমাদের কল্পনায় থাকা চরিত্রগুলোকে প্রকাশ করতে পেরেছি. এটা শুধু আরও স্মার্ট ছিল না—এটা আমাদের তৈরি করতে চাওয়া টোন এবং ব্যক্তিত্বের প্রতি আরও বিশ্বস্ত ছিল."
Tolan-এর আর্কিটেকচার বা স্থাপত্য মূলত ভয়েসের চাহিদার উপর ভিত্তি করেই তৈরি করা হয়েছে. ভয়েস ব্যবহারকারীরা তাৎক্ষণিক এবং প্রাকৃতিক প্রতিক্রিয়া আশা করে, এমনকি যখন কথোপকথন মাঝপথে পরিবর্তিত হয়. Tolan-কে দ্রুত প্রতিক্রিয়া জানাতে, পরিবর্তনশীল বিষয়গুলি ট্র্যাক করতে এবং ল্যাগ বা টোন ড্রিফট ছাড়াই একটি ধারাবাহিক ব্যক্তিত্ব বজায় রাখতে হয়েছিল.
স্বাভাবিক মনে হওয়ার জন্য, কথোপকথনে প্রায় তাৎক্ষণিক প্রতিক্রিয়া প্রয়োজন. OpenAI GPT‑5.1 এবং Responses API পরিচিতি: বক্তৃতা শুরু করার সময় 0.7 সেকেন্ডেরও বেশি কমেছে—যা কথোপকথনের প্রবাহকে উল্লেখযোগ্যভাবে উন্নত করার জন্য যথেষ্ট.
সিস্টেমটি কিভাবে কনটেক্স পরিচালনা করে, সেটিও সমভাবে গুরুত্বপূর্ণ ছিল. একাধিক টার্ন জুড়ে প্রম্পট ক্যাশ করে এমন অনেক এজেন্টের মতো নয়, Tolan প্রতিটি টার্নে তার কনটেক্সট উইন্ডো শূন্য থেকে পুনর্গঠন করে. প্রতিটি কনটেক্স পুনর্গঠন সাম্প্রতিক বার্তাগুলোর সারাংশ, একটি পার্সোনা কার্ড, ভেক্টর থেকে প্রাপ্ত মেমোরি, টোন নির্দেশিকা এবং রিয়েল-টাইম অ্যাপ সংকেত অন্তর্ভুক্ত করে. এই স্থাপত্যটি Tolan-কে আকস্মিক বিষয় পরিবর্তনের সাথে রিয়েল-টাইমে খাপ খাইয়ে নিতে সক্ষম করে, যা প্রাকৃতিক ভয়েস-ভিত্তিক মিথস্ক্রিয়ার জন্য অত্যন্ত গুরুত্বপূর্ণ.
“আমরা দ্রুত বুঝতে পারলাম যে ক্যাশ করা প্রম্পটগুলো যথেষ্ট কার্যকর নয়,” বলেন কুইন্টেন. “ব্যবহারকারীরা সবসময় বিষয় পরিবর্তন করে. ঝঞ্ঝাটবিহীন মনে করতে, সিস্টেমটিকে মাঝপথে অভিযোজিত হতে হয়েছিল.”
এই তাৎক্ষণিক পুনর্গঠন পদ্ধতিটি প্রযুক্তিগতভাবে জটিল এবং Tolan-এর সাফল্যের ভিত্তি.

কনটেক্স পরিচালনা গুরুত্বপূর্ণ, কিন্তু সময়ের সাথে কথোপকথনগুলোকে সুসংগত রাখতে এটি যথেষ্ট ছিল না. দীর্ঘ এবং অপ্রাসঙ্গিক বা অরৈখিক কথোপকথন চালিয়ে নেওয়ার জন্য, Tolan এমন একটি মেমোরি সিস্টেম তৈরি করেছে যা কেবল তথ্য এবং পছন্দগুলোই মনে রাখে না, বরং আবেগের "ভাইব" সংকেতগুলোও ধরে রাখে—যেসব সংকেত Tolan-কে কিভাবে প্রতিক্রিয়া জানানো উচিত তা নির্ধারণ করতে সাহায্য করে.
মেমোরিগুলি OpenAI text-embedding-3-large মডেল ব্যবহার করে এম্বেড করা হয় এবং Turbopuffer-এ সংরক্ষণ করা হয়, যা একটি উচ্চ-গতির ভেক্টর ডেটাবেস যা 50 মিলিসেকেন্ডের কম সময়ে লুকআপ সক্ষম করে. রিয়েল-টাইম ভয়েস ইন্টারঅ্যাকশনের জন্য এই গতি অত্যন্ত গুরুত্বপূর্ণ. প্রতিটি টার্নে, Tolan ব্যবহারকারীর সর্বশেষ বার্তা এবং সিস্টেম-সংশ্লেষিত প্রশ্ন (যেমন, “ব্যবহারকারী কার সাথে বিবাহিত?”) ব্যবহার করে স্মৃতি পুনরুদ্ধার সক্রিয় করে. মেমোরির মান উচ্চ রাখতে, Tolan প্রতি রাতে একটি কম্প্রেশন কাজ চালায় যা কম-মূল্যের বা অপ্রয়োজনীয় এন্ট্রি সরিয়ে দেয় (যেমন, “ব্যবহারকারী আজ কফি পান করেছে” এবং বিরোধগুলি সমাধান করে.
ব্যক্তিত্বও ঠিক ততটাই যত্ন সহকারে পরিচালিত হয়. প্রতিটি Tolan-এ একটি স্বতন্ত্র চরিত্রের কাঠামো স্থাপন করা হয়, যা দলের নিজস্ব সায়েন্স ফিকশন লেখক দ্বারা রচিত এবং একজন আচরণগত গবেষক দ্বারা পরিমার্জিত. এই বীজগুলি Tolan-দের ধারাবাহিকতা দেয়, তবে সময়ের সাথে খাপ খাইয়ে নেওয়ার নমনীয়তাও দেয়, ব্যবহারকারীর সাথে সাথে বিকশিত হয়.
একটি সমান্তরাল সিস্টেম কথোপকথনের আবেগগত সুর পর্যবেক্ষণ করে এবং Tolan-এর উপস্থাপনকে গতিশীলভাবে সমন্বয় করে. এটি প্রতিটি Tolan-কে তার মূল ব্যক্তিত্ব না হারিয়েই ব্যবহারকারীর সংকেতের উপর ভিত্তি করে খেলার ছলে কথা বলা থেকে শুরু করে বাস্তবসম্মত বা গম্ভীর আলোচনায় অনায়াসেই পরিবর্তন হওয়ার সুযোগ দেয়.
GPT‑5.1‑এ রূপান্তর একটি গুরুত্বপূর্ণ পরিবর্তন ছিল. হঠাৎ করে, স্তরযুক্ত প্রম্পট নির্দেশনা—টোন স্ক্যাফোল্ড, মেমরি ইনজেকশন, চরিত্রের বৈশিষ্ট্য—আরও বিশ্বস্তভাবে অনুসরণ করা হচ্ছিল. যে প্রম্পটগুলি একসময় সমাধানের জন্য বিকল্প পদ্ধতির প্রয়োজন করত, সেগুলি এখন প্রত্যাশিতভাবে কাজ করতে শুরু করেছে.
“প্রথমবারের মতো, আমাদের অভ্যন্তরীণ বিশেষজ্ঞরা অনুভব করলেন যেন মডেল সত্যিই শুনছে,” কুইন্টেন বলেন. “দীর্ঘ কথোপকথন জুড়ে নির্দেশনাগুলো অক্ষুণ্ণ ছিল, ব্যক্তিত্বের বৈশিষ্ট্যগুলো সম্মানিত হয়েছে এবং আমরা অনেক কম বিচ্যুতি দেখেছি.”
সেই পরিবর্তনগুলো একটি আরও ধারাবাহিক এবং বিশ্বাসযোগ্য ব্যক্তিত্ব তৈরি করেছে, যা আরও আকর্ষণীয় ব্যবহারকারীর অভিজ্ঞতা সৃষ্টি করেছে. Tolan দল স্পষ্ট এবং পরিমাপযোগ্য উন্নতি লক্ষ্য করেছে: মেমোরি রিকল বা তথ্য মনে করার ত্রুটি 30% কমে গেছে (পণ্যের ভেতরের ব্যবহারকারীর অসন্তুষ্টির সংকেতের উপর ভিত্তি করে), এবং GPT‑5.1 চালিত ব্যক্তিত্বসমূহ (personas) চালু করার পর পরবর্তী দিনগুলোতে ব্যবহারকারীর ধরে রাখার হার 20-এর বেশি বৃদ্ধি পেয়েছে.

যখন Tolan বিকশিত হয়েছিল, তখন কিছু নীতি উদ্ভূত হয়েছিল যা এখন দলটি তার ভয়েস আর্কিটেকচার কিভাবে তৈরি এবং বিকশিত করে তা নির্দেশ করে:
- কথোপকথনের অস্থিরতার জন্য ডিজাইন করুন: ভয়েস কথোপকথন বাক্যের মাঝপথেই পরিবর্তিত হয়ে যায়. সিস্টেমগুলোকেও ঠিক তত দ্রুত দিক পরিবর্তন করতে হবে যেন তা স্বাভাবিক মনে হয়.
- লেটেন্সিকে পণ্যের অভিজ্ঞতার অংশ হিসেবে বিবেচনা করুন: এক সেকেন্ডের কম সময়ের মধ্যে সাড়া দেওয়ার ক্ষমতা নির্ধারণ করে দেয় যে, একটি ভয়েস এজেন্টকে কি কথোপকথনমূলক মনে হবে নাকি যান্ত্রিক.
- মেমোরিকে ট্রান্সক্রিপ্টের মতো নয়, বরং রিট্রিভাল সিস্টেম হিসেবে তৈরি করুন: উচ্চ-মানের কম্প্রেশন এবং দ্রুত ভেক্টর সার্চ অতিরিক্ত বড় কনটেক্স উইন্ডোর তুলনায় আরও ধারাবাহিক ব্যক্তিত্ব প্রদান করে.
- প্রতিটি টার্নে কনটেক্স পুনর্গঠন করুন: বড় প্রম্পট দিয়ে ড্রিফ্টের বিরুদ্ধে লড়াই করবেন না. প্রতিটি ধাপে কনটেক্স পুনর্গঠন করলে কথোপকথন এদিক-ওদিক ঘুরলেও এজেন্টরা স্থিতিশীল থাকে.
একসাথে, এই পাঠগুলো Tolan-এর উদ্ভাবনের পরবর্তী পর্যায়ের ভিত্তি স্থাপন করে এবং ভয়েস AI কোন দিকে যাচ্ছে তার পথনির্দেশ করে.
2025 সালের ফেব্রুয়ারিতে চালু হওয়ার পর থেকে, Tolan-এর মাসিক সক্রিয় ব্যবহারকারীর সংখ্যা 200,000-এরও বেশি হয়েছে. এর 4.8-স্টার রেটিং এবং 100,000-এর বেশি App Store রিভিউ দেখায় যে দীর্ঘ, পরিবর্তনশীল কথোপকথন জুড়ে সিস্টেমটি কতটা ভালোভাবে ধারাবাহিকতা বজায় রাখে. একজন পর্যালোচক উল্লেখ করেছেন, “তারা দুই দিন আগে আমরা যে বিষয়গুলো নিয়ে কথা বলেছিলাম তা মনে রাখে এবং আজকের কথোপকথনে সেগুলো আবার নিয়ে আসে.”
এই সংকেতগুলো অন্তর্নিহিত আর্কিটেকচারের সাথে সরাসরি ম্যাপ করে: লো-ল্যাটেন্সি মডেল কল, টার্ন-বাই-টার্ন কনটেক্স পুনর্গঠন এবং মডুলার মেমোরি ও পারসোনা সিস্টেম. একসাথে, এগুলি Tolan-কে বিষয় পরিবর্তন ট্র্যাক করতে, টোন বজায় রাখতে এবং বড়, ভঙ্গুর প্রম্পটগুলোর উপর নির্ভর না করে প্রতিক্রিয়াগুলোকে ভিত্তিসম্পন্ন রাখতে সাহায্য করে.
ভবিষ্যতের দিকে তাকিয়ে, Tolan স্টিয়ারেবিলিটি এবং মেমরি পরিমার্জনে তার বিনিয়োগ আরও গভীর করার পরিকল্পনা করছে, এবং আরও শক্তিশালী কমপ্রেশন, উন্নত রিট্রিভাল লজিক, ও বর্ধিত পারসোনা টিউনিংয়ে তার প্রচেষ্টা কেন্দ্রীভূত করবে. দীর্ঘমেয়াদি লক্ষ্য হলো ভয়েস ইন্টারফেসের সম্ভাবনাকে প্রসারিত করা: এটি শুধু প্রতিক্রিয়াশীল নয়, বরং প্রেক্ষাপট-সচেতন এবং কথোপকথনে গতিশীল হওয়া.
“পরবর্তী ফ্রন্টিয়ার,” কুইন্টেন বলেন, “হলো এমন ভয়েস এজেন্ট তৈরি করা, যা কেবল প্রতিক্রিয়াশীল নয়, বরং সত্যিকার অর্থে বহু-মোডাল—ভয়েস, দৃষ্টি, এবং প্রেক্ষাপটকে একটি একক, নিয়ন্ত্রণযোগ্য সিস্টেমে একীভূত করতে সক্ষম.”


