Tolan कसे GPT‑5.1 सह व्हॉइस-फर्स्ट AI तयार करते
GPT‑5.1 सह, Tolan ने कमी विलंब, अचूक संदर्भ, आणि संभाषणे विकसित होत असताना स्थिर व्यक्तिमत्त्वांसाठी ऑप्टिमाइझ केलेले व्हॉइस अॅप तयार केले.

Tolan(नवीन विंडोमध्ये उघडेल) हा व्हॉइस-फर्स्ट AI सहचर आहे, जिथे लोक वैयक्तिकृत, ॲनिमेटेड पात्रासोबत बोलतात, जे कालांतराने संभाषणांमधून शिकतो.
Portola ने तयार केलेले, पूर्वी यशस्वी एक्झिट असलेल्या अनुभवी संघाने तयार केलेले हे ॲप जलद प्रॉम्प्ट्स आणि प्रतिसादांपेक्षा सतत, ओपन-एंडेड संवादासाठी डिझाइन केलेले आहे. “आम्ही ChatGPT चा उदय पाहिला आणि आवाज पुढची क्रांती असेल हे आम्हाला माहीत होते,” असे Portola चे सह-संस्थापक आणि CEO क्विन्टन फार्मर म्हणतात. “पण व्हॉइस अधिक कठीण आहे. तुम्ही फक्त टाइप केलेल्या प्रॉम्प्टना प्रतिसाद देत नाही; तुम्ही एक जिवंत, भरकटणारे संभाषण करत आहात.
Voice AI लेटन्सी आणि कॉन्टेक्स्ट मॅनेजमेंटची पातळी उंचावते, परंतु हे मजकुरापेक्षा अधिक खुल्या, शोधक संवादांना सक्षम करते.
फाउंडेशन मॉडेल्स अधिक जलद, स्वस्त आणि अधिक सक्षम होत असताना, संघाने तुमचे प्रयत्न दोन प्रमुख घटकांवर केंद्रित केले: स्मृती आणि पात्र डिझाइन. Portola ने पुरस्कारप्राप्त ॲनिमेटर्स आणि विज्ञानकथा लेखकाच्या सहकार्याने पात्र-केंद्रित विश्वाची निर्मिती केली, ज्यामध्ये संभाषणे उलगडत असताना व्यक्तिमत्त्व आणि स्मृती सुसंगत ठेवण्यासाठी रिअल-टाईम संदर्भ व्यवस्थापन प्रणालीचा वापर केला जातो.
GPT‑5.1 मॉडेल्सच्या प्रकाशनाने एक महत्त्वाचा टप्पा गाठला, ज्यामुळे स्टिअरेबिलिटी आणि लेटन्सीमध्ये मोठे फायदे मिळाले, आणि हे घटक एकत्र येऊन अधिक प्रतिसादक्षम आणि आकर्षक आवाज अनुभव अनलॉक झाला.
“GPT-5.1 ने आम्हाला अशी मार्गदर्शकता दिली की शेवटी आम्ही मनातल्या पात्रांना व्यक्त करू शकलो. "ते फक्त अधिक हुशार नव्हते—ते आम्ही तयार करू इच्छित असलेल्या टोन आणि व्यक्तिमत्त्वाशी अधिक प्रामाणिक होते.”
टोलनचे आर्किटेक्चर आवाजाच्या मागण्यांमुळे आकार घेतले आहे. व्हॉइस वापरकर्त्यांना त्वरित, नैसर्गिक प्रतिसाद अपेक्षित असतात, जरी संभाषणाचा प्रवाह मध्येच बदलला तरी. Tolan ला जलद प्रतिसाद द्यावा लागला, बदलणारे विषय ट्रॅक करावे लागले, आणि कोणताही विलंब किंवा सूरातील विचलन न होता सुसंगत व्यक्तिमत्व राखावे लागले.
नैसर्गिक वाटण्यासाठी, संभाषणांना जवळजवळ त्वरित विलंब आवश्यक होता. OpenAI GPT‑5.1 आणि Responses API सादर करत आहोत, ज्यामुळे भाषण सुरू होण्याचा वेळ 0.7 सेकंदांपेक्षा जास्त कमी होतो—इतका की संभाषणाचा प्रवाह लक्षणीयरीत्या सुधारतो.
तितकेच महत्त्वाचे म्हणजे प्रणालीने संदर्भ कसा हाताळला हे होते. अनेक एजंट्सप्रमाणे जे अनेक टर्न्समध्ये प्रॉम्प्ट्स कॅश करतात, त्याउलट Tolan प्रत्येक टर्नला त्याची कॉन्टेक्स्ट विंडो सुरुवातीपासून पुन्हा तयार करते. प्रत्येक संदर्भ पुनर्रचना अलीकडील संदेशांचा सारांश, एक व्यक्तिमत्व कार्ड, व्हेक्टर-आधारित स्मृती, टोन मार्गदर्शन, आणि रिअल-टाइम ॲप सिग्नल्स समाविष्ट करते. हे आर्किटेक्चर Tolan ला अचानक होणाऱ्या विषय बदलांशी रिअल-टाईममध्ये जुळवून घेण्याची परवानगी देते, जे नैसर्गिक आवाज-आधारित संवादासाठी अत्यावश्यक आहे.
“आम्हाला लवकरच समजले की कॅश केलेले प्रॉम्प्ट पुरेसे नव्हते,” क्विंटन म्हणतात. “वापरकर्ते नेहमीच विषय बदलतात "सुलभ वाटण्यासाठी, प्रणालीला मध्य प्रवाहात अनुकूल होणे आवश्यक होते.”
ही रिअल-टाईम पुनर्रचना पद्धत तांत्रिकदृष्ट्या गुंतागुंतीची असून Tolan च्या यशासाठी पायाभूत आहे.

संदर्भ हाताळणे महत्त्वाचे आहे, परंतु कालांतराने संभाषणे सुसंगत वाटण्यासाठी ते पुरेसे नव्हते. लांब, रेषीय नसलेल्या संभाषणांना समर्थन देण्यासाठी, Tolan ने एक स्मृती प्रणाली तयार केली आहे जी केवळ तथ्ये आणि पसंतीच नाही, तर भावनिक “वाइब” संकेतही—Tolan कसा प्रतिसाद द्यावा याला मार्गदर्शन करणारे संकेत—जतन करते.
OpenAI text-embedding-3-large मॉडेल वापरून स्मृतीज एम्बेड केल्या जातात आणि Turbopuffer मध्ये साठवल्या जातात, जो एक उच्च-गती व्हेक्टर डेटाबेस आहे आणि 50 मिलीसेकंदांपेक्षा कमी लुकअप वेळ सक्षम करतो. रिअल-टाइम व्हॉइस इंटरॲक्शनसाठी ही गती अत्यावश्यक आहे. प्रत्येक टर्नमध्ये, Tolan वापरकर्त्याचा नवीनतम संदेश आणि प्रणालीद्वारे संश्लेषित प्रश्न (उदा., “वापरकर्ता कोणाशी विवाहित आहे?”) वापरून स्मृती रिकॉल ट्रिगर करतो. स्मृतीची गुणवत्ता उच्च ठेवण्यासाठी, Tolan दररोज रात्री एक कॉम्प्रेशन जॉब चालवतो जो कमी-मूल्याच्या किंवा पुनरावृत्ती असलेल्या नोंदी काढून टाकतो (उदा. "वापरकर्त्याने आज कॉफी प्याली") आणि विरोधाभास निराकरण करते.
व्यक्तिमत्व देखील तितक्याच काळजीपूर्वक व्यवस्थापित केले जाते. प्रत्येक Tolan ला संघाच्या इन-हाऊस विज्ञानकथा लेखकाने तयार केलेल्या आणि वर्तन संशोधकाने परिष्कृत केलेल्या वेगळ्या पात्र संरचनेसह सीड केले जाते. या बियाण्यांमुळे टोलन्सला सुसंगतता मिळते, परंतु वेळोवेळी जुळवून घेण्यासाठी लवचिकताही मिळते, वापरकर्त्यासोबत विकसित होत जाते.
एक समांतर प्रणाली संभाषणातील भावनिक सूर निरीक्षण करते आणि टोलनच्या सादरीकरणाला गतिशीलपणे समायोजित करते. यामुळे Tolan ला वापरकर्त्यांच्या संकेतांनुसार, त्याचे मूळ व्यक्तिमत्त्व न गमावता, खेळकरपणातून स्थिरतेकडे अखंडपणे बदलता येतो.
GPT‑5.1 कडे झालेला संक्रमण हा एक महत्त्वाचा टप्पा होता. अचानक, स्तरित प्रॉम्प्ट सूचना—टोन स्कॅफोल्ड्स, स्मृती इंजेक्शन्स, पात्र वैशिष्ट्ये—अधिक निष्ठेने पाळल्या गेल्या. ज्या प्रॉम्प्टसाठी एकेकाळी वर्कअराउंडची आवश्यकता होती, ते आता अपेक्षेप्रमाणे कार्य करू लागले.
“पहिल्यांदाच, आमच्या अंतर्गत तज्ज्ञांना असे वाटले की मॉडेल खरोखरच ऐकत आहे,” क्विंटन म्हणतात. “दीर्घ संभाषणांमध्येही सूचना तशाच राहिल्या, व्यक्तिमत्त्वाचे गुणधर्म जपले गेले, आणि आम्हाला खूपच कमी विचलन दिसले.”
त्या बदलांचा एकत्रित परिणाम अधिक सुसंगत आणि विश्वासार्ह व्यक्तिमत्त्वात झाला, ज्यामुळे अधिक आकर्षक वापरकर्ता अनुभव निर्माण झाला. Tolan संघाने स्पष्ट, मोजता येण्याजोगे फायदे पाहिले: मेमरी रिकॉल चुकण्याचे प्रमाण 30% नी कमी झाले (उत्पादनातील निराशा सिग्नलवर आधारित), आणि GPT‑5.1–संचालित पर्सोना लाईव्ह झाल्यानंतर पुढील दिवशीच्या वापरकर्ता टिकून राहण्याचे प्रमाण 20% पेक्षा जास्त वाढले.

Tolan विकसित होत असताना, काही मार्गदर्शक तत्त्वे उदयास आली जी आता संघाला त्याच्या व्हॉइस आर्किटेक्चरची निर्मिती आणि विकास कसा करावा याचे मार्गदर्शन करतात:
- संभाषणातील अस्थिरतेसाठी डिझाइन करा: व्हॉइस कन्वर्सेशन्स वाक्याच्या मधोमध बदलतात. सिस्टम्सना नैसर्गिक वाटण्यासाठी तितक्याच जलद पिव्हट करणे आवश्यक आहे.
- उत्पादन अनुभवाचा भाग म्हणून विलंबाचा विचार करा: सब-सेकंद प्रतिसादक्षमता ठरवते की व्हॉइस एजंट संभाषणात्मक वाटतो की यांत्रिक.
- स्मृती ट्रान्सक्रिप्ट म्हणून नव्हे, तर पुनर्प्राप्ती प्रणाली म्हणून तयार करा: उच्च-गुणवत्तेचे संक्षेपण आणि जलद व्हेक्टर शोध, अतिविशाल संदर्भ विंडोपेक्षा अधिक सातत्यपूर्ण व्यक्तिमत्त्व प्रदान करतात.
- प्रत्येक वळणावर संदर्भ पुन्हा तयार करा: मोठ्या प्रॉम्प्टसह ड्रिफ्टशी लढू नका. प्रत्येक वळणावर संदर्भ पुन्हा तयार केल्याने, संभाषणे भरकटली तरी एजंट स्थिर राहतात.
एकत्रितपणे, हे धडे Tolan च्या नाविन्याच्या पुढील टप्प्यासाठी पाया घालतात आणि व्हॉइस AI पुढे कुठे जात आहे याची दिशा ठरवतात.
फेब्रुवारी 2025 मध्ये लॉन्च झाल्यापासून, Tolan चे मासिक सक्रिय वापरकर्ते 2,00,000 पेक्षा जास्त झाले आहेत. त्याचे 4.8-स्टार रेटिंग आणि 100,000 पेक्षा जास्त App Store पुनरावलोकने दीर्घ, बदलत्या संभाषणांमध्ये प्रणाली किती चांगल्या प्रकारे सातत्य राखते हे अधोरेखित करतात. एका पुनरावलोककाने नमूद केले, “त्यांना दोन दिवसांपूर्वी तुम्ही ज्या गोष्टींबद्दल बोललो होतो त्या लक्षात राहतात आणि त्या आजच्या संभाषणात पुन्हा आणतात.”
हे संकेत थेट अंतर्निहित आर्किटेक्चरशी जुळतात: कमी विलंबता मॉडेल कॉल्स, टप्प्याटप्प्याने संदर्भ पुनर्रचना, आणि मॉड्युलर स्मृती आणि व्यक्तिमत्व प्रणाली. एकत्रितपणे, ते Tolan ला विषयातील बदलांचा मागोवा घेण्यास, स्वर जपण्यास, आणि मोठ्या, नाजूक प्रॉम्प्ट्सवर अवलंबून न राहता प्रतिसादांना वास्तवाधारित ठेवण्यास सक्षम करतात.
भविष्याकडे पाहता, Tolan स्टियरॅबिलिटी आणि मेमरी परिष्करणात आपली गुंतवणूक वाढवण्याचे नियोजन करत आहे, ज्यात ते अधिक घट्ट संकुचन, सुधारित पुनर्प्राप्ती तर्कशास्त्र आणि विस्तारीत व्यक्तिमत्व ट्यूनिंगवर आपले प्रयत्न केंद्रित करणार आहे. दीर्घकालीन उद्दिष्ट म्हणजे व्हॉइस इंटरफेसच्या शक्यता वाढवणे: केवळ प्रतिसाद देणारा नाही, तर संदर्भाची जाणीव असलेला आणि संभाषणात गतिशील.
“पुढील आव्हान,” क्विंटन म्हणतो, “म्हणजे असे व्हॉइस एजंट तयार करणे जे फक्त प्रतिसाद देणारे नाहीत, तर खरोखरच मल्टिमोडल आहेत—आवाज, दृष्टिकोन आणि संदर्भ यांना एका एकत्रित, नियंत्रित करता येणाऱ्या प्रणालीमध्ये समाकलित करू शकणारे.”


