মূল কনটেন্টে যান
OpenAI

৭ জানুয়ারি, ২০২৬

স্টার্টআপ

Tolan কিভাবে GPT‑5.1 দিয়ে ভয়েস-ফাস্ট AI তৈরি করে

GPT‑5.1 দিয়ে Tolan একটি ভয়েস অ্যাপ তৈরি করেছে যা লো-লেটেন্সি, সঠিক প্রেক্ষাপট এবং কথোপকথন বিকশিত হওয়ার সাথে সাথে স্থিতিশীল ব্যক্তিত্বের জন্য অপ্টিমাইজ করা হয়েছে.

Tolan logo on orange jigsaw puzzle background
লোডিং…

Tolan(একটি নতুন উইন্ডোতে খোলে) হলো একটি ভয়েস-ফার্স্ট AI সঙ্গী যেখানে মানুষ একটি ব্যক্তিগত, অ্যানিমেটেড চরিত্রের সাথে কথা বলে, যা সময়ের সাথে কথোপকথন থেকে শেখে. 

Portola দ্বারা নির্মিত, একটি অভিজ্ঞ দল যারা পূর্বে সফলভাবে প্রস্থান করেছে, এই অ্যাপটি দ্রুত প্রম্পট এবং জবাবের পরিবর্তে চলমান, উন্মুক্ত সংলাপের জন্য ডিজাইন করা হয়েছে. “আমরা ChatGPT‑এর উত্থান দেখেছি এবং জানতাম ভয়েসই পরবর্তী ফ্রন্টিয়ার,” বলেন Portola-এর সহ-প্রতিষ্ঠাতা এবং CEO কুইন্টেন ফার্মার. “কিন্তু কণ্ঠস্বর আরও কঠিন. আপনি শুধু টাইপ করা প্রম্পটের জবাব দিচ্ছেন না; আপনি একটি সরাসরি, ঘুরে বেড়ানো কথোপকথন চালিয়ে যাচ্ছেন.

Voice AI ল্যাটেন্সি (সাড়া প্রদানের সময়কাল) এবং কনটেক্সট ম্যানেজমেন্টের মানদণ্ডকে আরও উঁচুতে নিয়ে গেছে; তবে এটি টেক্সট বা বার্তার তুলনায় আরও বেশি উন্মুক্ত এবং অনুসন্ধানমূলক মিথস্ক্রিয়ার সুযোগ তৈরি করে. 

ফাউন্ডেশন মডেলগুলো আরও দ্রুত, সাশ্রয়ী এবং আরও সক্ষম হয়ে ওঠার সাথে সাথে, দলটি দুটি মূল বিষয়ের উপর তাদের প্রচেষ্টা নিবদ্ধ করেছে: মেমোরি এবং ক্যারেক্টার ডিজাইন. Portola একটি চরিত্র-নির্ভর মহাবিশ্ব তৈরি করেছে, যা পুরস্কারপ্রাপ্ত অ্যানিমেটর এবং একজন বিজ্ঞান কল্পকাহিনি লেখকের দ্বারা গঠিত এবং কথোপকথন চলাকালীন ব্যক্তিত্ব ও স্মৃতিকে সঙ্গতিপূর্ণ রাখতে একটি রিয়েল-টাইম কনটেক্স ব্যবস্থাপনা সিস্টেম ব্যবহার করেছে.

GPT‑5.1 মডেলগুলির মুক্তি একটি গুরুত্বপূর্ণ পরিবর্তন সূচিত করেছিল, যা স্টিয়ারেবিলিটি এবং ল্যাটেন্সিতে উল্লেখযোগ্য উন্নতি এনে, সেই উপাদানগুলোকে একত্রিত করে আরও প্রতিক্রিয়াশীল এবং আকর্ষণীয় ভয়েস অভিজ্ঞতা উন্মোচন করেছিল.

“GPT-5.1 আমাদের এমন নিয়ন্ত্রণ ক্ষমতা দিয়েছে, যার ফলে আমরা অবশেষে আমাদের কল্পনায় থাকা চরিত্রগুলোকে প্রকাশ করতে পেরেছি. এটা শুধু আরও স্মার্ট ছিল না—এটা আমাদের তৈরি করতে চাওয়া টোন এবং ব্যক্তিত্বের প্রতি আরও বিশ্বস্ত ছিল."
—কুইন্টেন ফার্মার, Portola-এর CEO

স্বাভাবিক ভয়েস ইন্টারঅ্যাকশন ডিজাইন করা হচ্ছে

Tolan-এর আর্কিটেকচার বা স্থাপত্য মূলত ভয়েসের চাহিদার উপর ভিত্তি করেই তৈরি করা হয়েছে. ভয়েস ব্যবহারকারীরা তাৎক্ষণিক এবং প্রাকৃতিক প্রতিক্রিয়া আশা করে, এমনকি যখন কথোপকথন মাঝপথে পরিবর্তিত হয়. Tolan-কে দ্রুত প্রতিক্রিয়া জানাতে, পরিবর্তনশীল বিষয়গুলি ট্র্যাক করতে এবং ল্যাগ বা টোন ড্রিফট ছাড়াই একটি ধারাবাহিক ব্যক্তিত্ব বজায় রাখতে হয়েছিল.

স্বাভাবিক মনে হওয়ার জন্য, কথোপকথনে প্রায় তাৎক্ষণিক প্রতিক্রিয়া প্রয়োজন. OpenAI GPT‑5.1 এবং Responses API পরিচিতি: বক্তৃতা শুরু করার সময় 0.7 সেকেন্ডেরও বেশি কমেছে—যা কথোপকথনের প্রবাহকে উল্লেখযোগ্যভাবে উন্নত করার জন্য যথেষ্ট.

সিস্টেমটি কিভাবে কনটেক্স পরিচালনা করে, সেটিও সমভাবে গুরুত্বপূর্ণ ছিল. একাধিক টার্ন জুড়ে প্রম্পট ক্যাশ করে এমন অনেক এজেন্টের মতো নয়, Tolan প্রতিটি টার্নে তার কনটেক্সট উইন্ডো শূন্য থেকে পুনর্গঠন করে. প্রতিটি কনটেক্স পুনর্গঠন সাম্প্রতিক বার্তাগুলোর সারাংশ, একটি পার্সোনা কার্ড, ভেক্টর থেকে প্রাপ্ত মেমোরি, টোন নির্দেশিকা এবং রিয়েল-টাইম অ্যাপ সংকেত অন্তর্ভুক্ত করে. এই স্থাপত্যটি Tolan-কে আকস্মিক বিষয় পরিবর্তনের সাথে রিয়েল-টাইমে খাপ খাইয়ে নিতে সক্ষম করে, যা প্রাকৃতিক ভয়েস-ভিত্তিক মিথস্ক্রিয়ার জন্য অত্যন্ত গুরুত্বপূর্ণ.

“আমরা দ্রুত বুঝতে পারলাম যে ক্যাশ করা প্রম্পটগুলো যথেষ্ট কার্যকর নয়,” বলেন কুইন্টেন. “ব্যবহারকারীরা সবসময় বিষয় পরিবর্তন করে. ঝঞ্ঝাটবিহীন মনে করতে, সিস্টেমটিকে মাঝপথে অভিযোজিত হতে হয়েছিল.”

এই তাৎক্ষণিক পুনর্গঠন পদ্ধতিটি প্রযুক্তিগতভাবে জটিল এবং Tolan-এর সাফল্যের ভিত্তি.

Tolan-এর কথোপকথনের লুপ প্রদর্শনকারী ফ্লো ডায়াগ্রাম. একটি "রিকম্পিউট পারসোনা" ধাপ চারটি ইনপুট গ্রহণ করে: চ্যাট সারাংশ ও সাম্প্রতিক মূল বার্তাগুলো; ব্যবহারকারী ও Tolan-এর ব্যক্তিত্ব এবং অন্যান্য প্রাসঙ্গিক তথ্য; মেমোরি বা স্মৃতি; এবং কথার সুর বা টোন. এই ইনপুটগুলো একত্রিত হয়ে একটি Tolan প্রতিক্রিয়া তৈরি করে, যা ব্যবহারকারীর প্রতিক্রিয়ার দিকে নিয়ে যায়. তারপর ব্যবহারকারীর প্রতিক্রিয়া দুটি সমান্তরাল প্রক্রিয়াকে চালিত করে: একটি আপডেটেড টোন নির্ধারণ করা এবং স্মৃতি বের করা. এক্সট্র্যাক্ট করা স্মৃতিগুলি মেমোরি আপডেট করে, আপডেট হওয়া টোন আবার টোনে প্রতিফলিত হয় এবং কথোপকথনের ইতিহাস নিয়মিতভাবে পুনরায় সারসংক্ষেপ ও সংকুচিত করা হয়, যা পরবর্তী টার্নের জন্য চ্যাট সারাংশে ফিরে আসে.

সময়ের সাথে সাথে একত্রে টিকে থাকে এমন স্মৃতি এবং ব্যক্তিত্ব গঠন করা

কনটেক্স পরিচালনা গুরুত্বপূর্ণ, কিন্তু সময়ের সাথে কথোপকথনগুলোকে সুসংগত রাখতে এটি যথেষ্ট ছিল না. দীর্ঘ এবং অপ্রাসঙ্গিক বা অরৈখিক কথোপকথন চালিয়ে নেওয়ার জন্য, Tolan এমন একটি মেমোরি সিস্টেম তৈরি করেছে যা কেবল তথ্য এবং পছন্দগুলোই মনে রাখে না, বরং আবেগের "ভাইব" সংকেতগুলোও ধরে রাখে—যেসব সংকেত Tolan-কে কিভাবে প্রতিক্রিয়া জানানো উচিত তা নির্ধারণ করতে সাহায্য করে.

মেমোরিগুলি OpenAI text-embedding-3-large মডেল ব্যবহার করে এম্বেড করা হয় এবং Turbopuffer-এ সংরক্ষণ করা হয়, যা একটি উচ্চ-গতির ভেক্টর ডেটাবেস যা 50 মিলিসেকেন্ডের কম সময়ে লুকআপ সক্ষম করে. রিয়েল-টাইম ভয়েস ইন্টারঅ্যাকশনের জন্য এই গতি অত্যন্ত গুরুত্বপূর্ণ. প্রতিটি টার্নে, Tolan ব্যবহারকারীর সর্বশেষ বার্তা এবং সিস্টেম-সংশ্লেষিত প্রশ্ন (যেমন, “ব্যবহারকারী কার সাথে বিবাহিত?”) ব্যবহার করে স্মৃতি পুনরুদ্ধার সক্রিয় করে. মেমোরির মান উচ্চ রাখতে, Tolan প্রতি রাতে একটি কম্প্রেশন কাজ চালায় যা কম-মূল্যের বা অপ্রয়োজনীয় এন্ট্রি সরিয়ে দেয় (যেমন, “ব্যবহারকারী আজ কফি পান করেছে” এবং বিরোধগুলি সমাধান করে.

ব্যক্তিত্বও ঠিক ততটাই যত্ন সহকারে পরিচালিত হয়. প্রতিটি Tolan-এ একটি স্বতন্ত্র চরিত্রের কাঠামো স্থাপন করা হয়, যা দলের নিজস্ব সায়েন্স ফিকশন লেখক দ্বারা রচিত এবং একজন আচরণগত গবেষক দ্বারা পরিমার্জিত. এই বীজগুলি Tolan-দের ধারাবাহিকতা দেয়, তবে সময়ের সাথে খাপ খাইয়ে নেওয়ার নমনীয়তাও দেয়, ব্যবহারকারীর সাথে সাথে বিকশিত হয়. 

একটি সমান্তরাল সিস্টেম কথোপকথনের আবেগগত সুর পর্যবেক্ষণ করে এবং Tolan-এর উপস্থাপনকে গতিশীলভাবে সমন্বয় করে. এটি প্রতিটি Tolan-কে তার মূল ব্যক্তিত্ব না হারিয়েই ব্যবহারকারীর সংকেতের উপর ভিত্তি করে খেলার ছলে কথা বলা থেকে শুরু করে বাস্তবসম্মত বা গম্ভীর আলোচনায় অনায়াসেই পরিবর্তন হওয়ার সুযোগ দেয়. 

GPT‑5.1‑এ রূপান্তর একটি গুরুত্বপূর্ণ পরিবর্তন ছিল. হঠাৎ করে, স্তরযুক্ত প্রম্পট নির্দেশনা—টোন স্ক্যাফোল্ড, মেমরি ইনজেকশন, চরিত্রের বৈশিষ্ট্য—আরও বিশ্বস্তভাবে অনুসরণ করা হচ্ছিল. যে প্রম্পটগুলি একসময় সমাধানের জন্য বিকল্প পদ্ধতির প্রয়োজন করত, সেগুলি এখন প্রত্যাশিতভাবে কাজ করতে শুরু করেছে. 

“প্রথমবারের মতো, আমাদের অভ্যন্তরীণ বিশেষজ্ঞরা অনুভব করলেন যেন মডেল সত্যিই শুনছে,” কুইন্টেন বলেন. “দীর্ঘ কথোপকথন জুড়ে নির্দেশনাগুলো অক্ষুণ্ণ ছিল, ব্যক্তিত্বের বৈশিষ্ট্যগুলো সম্মানিত হয়েছে এবং আমরা অনেক কম বিচ্যুতি দেখেছি.”

সেই পরিবর্তনগুলো একটি আরও ধারাবাহিক এবং বিশ্বাসযোগ্য ব্যক্তিত্ব তৈরি করেছে, যা আরও আকর্ষণীয় ব্যবহারকারীর অভিজ্ঞতা সৃষ্টি করেছে. Tolan দল স্পষ্ট এবং পরিমাপযোগ্য উন্নতি লক্ষ্য করেছে: মেমোরি রিকল বা তথ্য মনে করার ত্রুটি 30% কমে গেছে (পণ্যের ভেতরের ব্যবহারকারীর অসন্তুষ্টির সংকেতের উপর ভিত্তি করে), এবং GPT‑5.1 চালিত ব্যক্তিত্বসমূহ (personas) চালু করার পর পরবর্তী দিনগুলোতে ব্যবহারকারীর ধরে রাখার হার 20-এর বেশি বৃদ্ধি পেয়েছে.

কথোপকথনের সময় Tolan কিভাবে স্মৃতি পুনরুদ্ধার ও পরিমার্জন করে তা প্রদর্শনকারী ফ্লো ডায়াগ্রাম. একজন ব্যবহারকারীর বার্তা (“আমি এই সাপ্তাহিক ছুটির দিনে আমার ভ্রমণের জন্য খুবই উচ্ছ্বসিত”) একটি ধাপ সক্রিয় করে যা ফলো-আপ প্রশ্ন তৈরি করে, যেমন আসন্ন ভ্রমণ, নির্দিষ্ট সপ্তাহের পরিকল্পনা এবং ব্যবহারকারীর পছন্দ. এই প্রশ্নগুলি এমবেড করা হয় এবং একটি মেমরি ভেক্টর ডেটাবেসে অনুসন্ধান করতে ব্যবহৃত হয়, যেখানে ফলাফলগুলি গড় পারস্পরিক র‍্যাঙ্ক ব্যবহার করে একত্রিত করা হয়. পুনরুদ্ধার করা কনটেক্স Tolan-এর প্রতিক্রিয়াকে অবহিত করে (“Steven-এর সাথে Yosemite-তে ক্যাম্পিং”). Iceland-এ ভবিষ্যৎ ভ্রমণ সম্পর্কে পরবর্তী ব্যবহারকারীর বার্তা নতুন মেমরি হিসেবে সংরক্ষণ করা হয়, এরপর তা নিয়ে চিন্তা করা হয়, embedding-based k-nearest neighbors ব্যবহার করে সম্পর্কিত মেমরিগুলোর সঙ্গে গুচ্ছবদ্ধ করা হয়, এবং প্রতিটি গুচ্ছের মধ্যে মেমরিগুলো একত্রিত, সম্পাদিত ও পরিমার্জিত করে সংকুচিত করা হয়.

ন্যাচারাল ভয়েস এজেন্ট তৈরির জন্য Tolan-এর মূল নীতিমালা 

যখন Tolan বিকশিত হয়েছিল, তখন কিছু নীতি উদ্ভূত হয়েছিল যা এখন দলটি তার ভয়েস আর্কিটেকচার কিভাবে তৈরি এবং বিকশিত করে তা নির্দেশ করে:

  • কথোপকথনের অস্থিরতার জন্য ডিজাইন করুন: ভয়েস কথোপকথন বাক্যের মাঝপথেই পরিবর্তিত হয়ে যায়. সিস্টেমগুলোকেও ঠিক তত দ্রুত দিক পরিবর্তন করতে হবে যেন তা স্বাভাবিক মনে হয়.
  • লেটেন্সিকে পণ্যের অভিজ্ঞতার অংশ হিসেবে বিবেচনা করুন: এক সেকেন্ডের কম সময়ের মধ্যে সাড়া দেওয়ার ক্ষমতা নির্ধারণ করে দেয় যে, একটি ভয়েস এজেন্টকে কি কথোপকথনমূলক মনে হবে নাকি যান্ত্রিক.
  • মেমোরিকে ট্রান্সক্রিপ্টের মতো নয়, বরং রিট্রিভাল সিস্টেম হিসেবে তৈরি করুন: উচ্চ-মানের কম্প্রেশন এবং দ্রুত ভেক্টর সার্চ অতিরিক্ত বড় কনটেক্স উইন্ডোর তুলনায় আরও ধারাবাহিক ব্যক্তিত্ব প্রদান করে.
  • প্রতিটি টার্নে কনটেক্স পুনর্গঠন করুন: বড় প্রম্পট দিয়ে ড্রিফ্টের বিরুদ্ধে লড়াই করবেন না. প্রতিটি ধাপে কনটেক্স পুনর্গঠন করলে কথোপকথন এদিক-ওদিক ঘুরলেও এজেন্টরা স্থিতিশীল থাকে.

একসাথে, এই পাঠগুলো Tolan-এর উদ্ভাবনের পরবর্তী পর্যায়ের ভিত্তি স্থাপন করে এবং ভয়েস AI কোন দিকে যাচ্ছে তার পথনির্দেশ করে.

ভয়েস AI-এর মাধ্যমে সম্ভাবনার বিস্তার

2025 সালের ফেব্রুয়ারিতে চালু হওয়ার পর থেকে, Tolan-এর মাসিক সক্রিয় ব্যবহারকারীর সংখ্যা 200,000-এরও বেশি হয়েছে. এর 4.8-স্টার রেটিং এবং 100,000-এর বেশি App Store রিভিউ দেখায় যে দীর্ঘ, পরিবর্তনশীল কথোপকথন জুড়ে সিস্টেমটি কতটা ভালোভাবে ধারাবাহিকতা বজায় রাখে. একজন পর্যালোচক উল্লেখ করেছেন, “তারা দুই দিন আগে আমরা যে বিষয়গুলো নিয়ে কথা বলেছিলাম তা মনে রাখে এবং আজকের কথোপকথনে সেগুলো আবার নিয়ে আসে.”

এই সংকেতগুলো অন্তর্নিহিত আর্কিটেকচারের সাথে সরাসরি ম্যাপ করে: লো-ল্যাটেন্সি মডেল কল, টার্ন-বাই-টার্ন কনটেক্স পুনর্গঠন এবং মডুলার মেমোরি ও পারসোনা সিস্টেম. একসাথে, এগুলি Tolan-কে বিষয় পরিবর্তন ট্র্যাক করতে, টোন বজায় রাখতে এবং বড়, ভঙ্গুর প্রম্পটগুলোর উপর নির্ভর না করে প্রতিক্রিয়াগুলোকে ভিত্তিসম্পন্ন রাখতে সাহায্য করে.

ভবিষ্যতের দিকে তাকিয়ে,  Tolan স্টিয়ারেবিলিটি এবং মেমরি পরিমার্জনে তার বিনিয়োগ আরও গভীর করার পরিকল্পনা করছে, এবং আরও শক্তিশালী কমপ্রেশন, উন্নত রিট্রিভাল লজিক, ও বর্ধিত পারসোনা টিউনিংয়ে তার প্রচেষ্টা কেন্দ্রীভূত করবে. দীর্ঘমেয়াদি লক্ষ্য হলো ভয়েস ইন্টারফেসের সম্ভাবনাকে প্রসারিত করা: এটি শুধু প্রতিক্রিয়াশীল নয়, বরং প্রেক্ষাপট-সচেতন এবং কথোপকথনে গতিশীল হওয়া.

“পরবর্তী ফ্রন্টিয়ার,” কুইন্টেন বলেন, “হলো এমন ভয়েস এজেন্ট তৈরি করা, যা কেবল প্রতিক্রিয়াশীল নয়, বরং সত্যিকার অর্থে বহু-মোডাল—ভয়েস, দৃষ্টি, এবং প্রেক্ষাপটকে একটি একক, নিয়ন্ত্রণযোগ্য সিস্টেমে একীভূত করতে সক্ষম.”