Tolan कसे GPT‑5.1 सह व्हॉइस-फर्स्ट AI तयार करते

GPT‑5.1 सह, Tolan ने कमी विलंब, अचूक संदर्भ, आणि संभाषणे विकसित होत असताना स्थिर व्यक्तिमत्त्वांसाठी ऑप्टिमाइझ केलेले व्हॉइस अ‍ॅप तयार केले.

लोड होत आहे...

Tolan⁠(नवीन विंडोमध्ये उघडेल) हा व्हॉइस-फर्स्ट AI सहचर आहे, जिथे लोक वैयक्तिकृत, ॲनिमेटेड पात्रासोबत बोलतात, जे कालांतराने संभाषणांमधून शिकतो.

Portola ने तयार केलेले, पूर्वी यशस्वी एक्झिट असलेल्या अनुभवी संघाने तयार केलेले हे ॲप जलद प्रॉम्प्ट्स आणि प्रतिसादांपेक्षा सतत, ओपन-एंडेड संवादासाठी डिझाइन केलेले आहे. “आम्ही ChatGPT चा उदय पाहिला आणि आवाज पुढची क्रांती असेल हे आम्हाला माहीत होते,” असे Portola चे सह-संस्थापक आणि CEO क्विन्टन फार्मर म्हणतात. “पण व्हॉइस अधिक कठीण आहे. तुम्ही फक्त टाइप केलेल्या प्रॉम्प्टना प्रतिसाद देत नाही; तुम्ही एक जिवंत, भरकटणारे संभाषण करत आहात.

Voice AI लेटन्सी आणि कॉन्टेक्स्ट मॅनेजमेंटची पातळी उंचावते, परंतु हे मजकुरापेक्षा अधिक खुल्या, शोधक संवादांना सक्षम करते.

फाउंडेशन मॉडेल्स अधिक जलद, स्वस्त आणि अधिक सक्षम होत असताना, संघाने तुमचे प्रयत्न दोन प्रमुख घटकांवर केंद्रित केले: स्मृती आणि पात्र डिझाइन. Portola ने पुरस्कारप्राप्त ॲनिमेटर्स आणि विज्ञानकथा लेखकाच्या सहकार्याने पात्र-केंद्रित विश्वाची निर्मिती केली, ज्यामध्ये संभाषणे उलगडत असताना व्यक्तिमत्त्व आणि स्मृती सुसंगत ठेवण्यासाठी रिअल-टाईम संदर्भ व्यवस्थापन प्रणालीचा वापर केला जातो.

GPT‑5.1 मॉडेल्सच्या प्रकाशनाने एक महत्त्वाचा टप्पा गाठला, ज्यामुळे स्टिअरेबिलिटी आणि लेटन्सीमध्ये मोठे फायदे मिळाले, आणि हे घटक एकत्र येऊन अधिक प्रतिसादक्षम आणि आकर्षक आवाज अनुभव अनलॉक झाला.

“GPT-5.1 ने आम्हाला अशी मार्गदर्शकता दिली की शेवटी आम्ही मनातल्या पात्रांना व्यक्त करू शकलो. "ते फक्त अधिक हुशार नव्हते—ते आम्ही तयार करू इच्छित असलेल्या टोन आणि व्यक्तिमत्त्वाशी अधिक प्रामाणिक होते.”

—Quinten Farmer, Portola चे CEO

नैसर्गिक आवाज संवादांसाठी डिझाइन करणे

टोलनचे आर्किटेक्चर आवाजाच्या मागण्यांमुळे आकार घेतले आहे. व्हॉइस वापरकर्त्यांना त्वरित, नैसर्गिक प्रतिसाद अपेक्षित असतात, जरी संभाषणाचा प्रवाह मध्येच बदलला तरी. Tolan ला जलद प्रतिसाद द्यावा लागला, बदलणारे विषय ट्रॅक करावे लागले, आणि कोणताही विलंब किंवा सूरातील विचलन न होता सुसंगत व्यक्तिमत्व राखावे लागले.

नैसर्गिक वाटण्यासाठी, संभाषणांना जवळजवळ त्वरित विलंब आवश्यक होता. OpenAI GPT‑5.1 आणि Responses API सादर करत आहोत, ज्यामुळे भाषण सुरू होण्याचा वेळ 0.7 सेकंदांपेक्षा जास्त कमी होतो—इतका की संभाषणाचा प्रवाह लक्षणीयरीत्या सुधारतो.

तितकेच महत्त्वाचे म्हणजे प्रणालीने संदर्भ कसा हाताळला हे होते. अनेक एजंट्सप्रमाणे जे अनेक टर्न्समध्ये प्रॉम्प्ट्स कॅश करतात, त्याउलट Tolan प्रत्येक टर्नला त्याची कॉन्टेक्स्ट विंडो सुरुवातीपासून पुन्हा तयार करते. प्रत्येक संदर्भ पुनर्रचना अलीकडील संदेशांचा सारांश, एक व्यक्तिमत्व कार्ड, व्हेक्टर-आधारित स्मृती, टोन मार्गदर्शन, आणि रिअल-टाइम ॲप सिग्नल्स समाविष्ट करते. हे आर्किटेक्चर Tolan ला अचानक होणाऱ्या विषय बदलांशी रिअल-टाईममध्ये जुळवून घेण्याची परवानगी देते, जे नैसर्गिक आवाज-आधारित संवादासाठी अत्यावश्यक आहे.

“आम्हाला लवकरच समजले की कॅश केलेले प्रॉम्प्ट पुरेसे नव्हते,” क्विंटन म्हणतात. “वापरकर्ते नेहमीच विषय बदलतात "सुलभ वाटण्यासाठी, प्रणालीला मध्य प्रवाहात अनुकूल होणे आवश्यक होते.”

ही रिअल-टाईम पुनर्रचना पद्धत तांत्रिकदृष्ट्या गुंतागुंतीची असून Tolan च्या यशासाठी पायाभूत आहे.

Tolan च्या संभाषण लूपचे दर्शन करणारा फ्लो डायग्राम. “Recompute persona” पायरी चार इनपुट्स पुरवते: चॅट सारांश आणि अलीकडील रॉ संदेश, वापरकर्ता आणि Tolan व्यक्तिमत्वे, इतर संदर्भ, स्मृती, आणि टोन. ही इनपुट्स एकत्र येऊन Tolan प्रतिसाद निर्माण करतात, ज्यामुळे वापरकर्त्याचा प्रतिसाद मिळतो. वापरकर्त्याचा प्रतिसाद नंतर दोन समांतर प्रक्रिया चालवतो: अद्ययावत टोन तयार करणे आणि स्मृती काढणे. काढलेल्या आठवणी स्मृती अपडेट करतात, अपडेट केलेला टोन पुन्हा टोनमध्ये फीडबॅक होतो, आणि संभाषणाचा इतिहास वेळोवेळी पुन्हा सारांशित आणि संकुचित केला जातो, पुढील टर्नसाठी चॅट सारांशात परत लूप होतो.

कालांतराने सुसंगत राहणारी स्मृती आणि व्यक्तिमत्त्व तयार करणे

संदर्भ हाताळणे महत्त्वाचे आहे, परंतु कालांतराने संभाषणे सुसंगत वाटण्यासाठी ते पुरेसे नव्हते. लांब, रेषीय नसलेल्या संभाषणांना समर्थन देण्यासाठी, Tolan ने एक स्मृती प्रणाली तयार केली आहे जी केवळ तथ्ये आणि पसंतीच नाही, तर भावनिक “वाइब” संकेतही—Tolan कसा प्रतिसाद द्यावा याला मार्गदर्शन करणारे संकेत—जतन करते.

OpenAI text-embedding-3-large मॉडेल वापरून स्मृतीज एम्बेड केल्या जातात आणि Turbopuffer मध्ये साठवल्या जातात, जो एक उच्च-गती व्हेक्टर डेटाबेस आहे आणि 50 मिलीसेकंदांपेक्षा कमी लुकअप वेळ सक्षम करतो. रिअल-टाइम व्हॉइस इंटरॲक्शनसाठी ही गती अत्यावश्यक आहे. प्रत्येक टर्नमध्ये, Tolan वापरकर्त्याचा नवीनतम संदेश आणि प्रणालीद्वारे संश्लेषित प्रश्न (उदा., “वापरकर्ता कोणाशी विवाहित आहे?”) वापरून स्मृती रिकॉल ट्रिगर करतो. स्मृतीची गुणवत्ता उच्च ठेवण्यासाठी, Tolan दररोज रात्री एक कॉम्प्रेशन जॉब चालवतो जो कमी-मूल्याच्या किंवा पुनरावृत्ती असलेल्या नोंदी काढून टाकतो (उदा. "वापरकर्त्याने आज कॉफी प्याली") आणि विरोधाभास निराकरण करते.

व्यक्तिमत्व देखील तितक्याच काळजीपूर्वक व्यवस्थापित केले जाते. प्रत्येक Tolan ला संघाच्या इन-हाऊस विज्ञानकथा लेखकाने तयार केलेल्या आणि वर्तन संशोधकाने परिष्कृत केलेल्या वेगळ्या पात्र संरचनेसह सीड केले जाते. या बियाण्यांमुळे टोलन्सला सुसंगतता मिळते, परंतु वेळोवेळी जुळवून घेण्यासाठी लवचिकताही मिळते, वापरकर्त्यासोबत विकसित होत जाते.

एक समांतर प्रणाली संभाषणातील भावनिक सूर निरीक्षण करते आणि टोलनच्या सादरीकरणाला गतिशीलपणे समायोजित करते. यामुळे Tolan ला वापरकर्त्यांच्या संकेतांनुसार, त्याचे मूळ व्यक्तिमत्त्व न गमावता, खेळकरपणातून स्थिरतेकडे अखंडपणे बदलता येतो.

GPT‑5.1 कडे झालेला संक्रमण हा एक महत्त्वाचा टप्पा होता. अचानक, स्तरित प्रॉम्प्ट सूचना—टोन स्कॅफोल्ड्स, स्मृती इंजेक्शन्स, पात्र वैशिष्ट्ये—अधिक निष्ठेने पाळल्या गेल्या. ज्या प्रॉम्प्टसाठी एकेकाळी वर्कअराउंडची आवश्यकता होती, ते आता अपेक्षेप्रमाणे कार्य करू लागले.

“पहिल्यांदाच, आमच्या अंतर्गत तज्ज्ञांना असे वाटले की मॉडेल खरोखरच ऐकत आहे,” क्विंटन म्हणतात. “दीर्घ संभाषणांमध्येही सूचना तशाच राहिल्या, व्यक्तिमत्त्वाचे गुणधर्म जपले गेले, आणि आम्हाला खूपच कमी विचलन दिसले.”

त्या बदलांचा एकत्रित परिणाम अधिक सुसंगत आणि विश्वासार्ह व्यक्तिमत्त्वात झाला, ज्यामुळे अधिक आकर्षक वापरकर्ता अनुभव निर्माण झाला. Tolan संघाने स्पष्ट, मोजता येण्याजोगे फायदे पाहिले: मेमरी रिकॉल चुकण्याचे प्रमाण 30% नी कमी झाले (उत्पादनातील निराशा सिग्नलवर आधारित), आणि GPT‑5.1–संचालित पर्सोना लाईव्ह झाल्यानंतर पुढील दिवशीच्या वापरकर्ता टिकून राहण्याचे प्रमाण 20% पेक्षा जास्त वाढले.

संभाषणादरम्यान Tolan आठवणी कशा पुनर्प्राप्त करतो आणि परिष्कृत करतो हे दर्शवणारा फ्लो डायग्राम. वापरकर्त्याचा संदेश (“या वीकेंडला माझ्या ट्रिपसाठी मी खूप उत्साहित आहे”) पुढील प्रश्न तयार करणारी एक पायरी ट्रिगर करतो, जसे की येणाऱ्या ट्रिप्स, एखाद्या विशिष्ट आठवड्यासाठीच्या योजना, आणि वापरकर्त्याच्या प्राधान्ये. हे प्रश्न एम्बेड केले जातात आणि स्मृती व्हेक्टर डेटाबेसला क्वेरी करण्यासाठी वापरले जातात, आणि परिणाम मीन रेसिप्रोकल रँक वापरून एकत्र केले जातात. पुनर्प्राप्त केलेला संदर्भ Tolan च्या प्रतिसादाला माहिती देतो (“Yosemite मध्ये Steven सोबत कॅम्पिंग करत आहे”). आइसलँडच्या भविष्यातील प्रवासाबद्दलचा नंतरचा वापरकर्ता संदेश नवीन स्मृती म्हणून साठवला जातो. त्यानंतर त्यावर विचार केला जातो, embedding-based k-nearest neighbors वापरून संबंधित स्मृतींसोबत क्लस्टर केला जातो, आणि प्रत्येक क्लस्टरमधील स्मृती एकत्र करून, संपादित करून, आणि परिष्कृत करून संक्षिप्त केला जातो.

नैसर्गिक व्हॉइस एजंट्स तयार करण्यासाठी Tolanची मुख्य तत्त्वे

Tolan विकसित होत असताना, काही मार्गदर्शक तत्त्वे उदयास आली जी आता संघाला त्याच्या व्हॉइस आर्किटेक्चरची निर्मिती आणि विकास कसा करावा याचे मार्गदर्शन करतात:

संभाषणातील अस्थिरतेसाठी डिझाइन करा: व्हॉइस कन्वर्सेशन्स वाक्याच्या मधोमध बदलतात. सिस्टम्सना नैसर्गिक वाटण्यासाठी तितक्याच जलद पिव्हट करणे आवश्यक आहे.
उत्पादन अनुभवाचा भाग म्हणून विलंबाचा विचार करा: सब-सेकंद प्रतिसादक्षमता ठरवते की व्हॉइस एजंट संभाषणात्मक वाटतो की यांत्रिक.
स्मृती ट्रान्सक्रिप्ट म्हणून नव्हे, तर पुनर्प्राप्ती प्रणाली म्हणून तयार करा: उच्च-गुणवत्तेचे संक्षेपण आणि जलद व्हेक्टर शोध, अतिविशाल संदर्भ विंडोपेक्षा अधिक सातत्यपूर्ण व्यक्तिमत्त्व प्रदान करतात.
प्रत्येक वळणावर संदर्भ पुन्हा तयार करा: मोठ्या प्रॉम्प्टसह ड्रिफ्टशी लढू नका. प्रत्येक वळणावर संदर्भ पुन्हा तयार केल्याने, संभाषणे भरकटली तरी एजंट स्थिर राहतात.

एकत्रितपणे, हे धडे Tolan च्या नाविन्याच्या पुढील टप्प्यासाठी पाया घालतात आणि व्हॉइस AI पुढे कुठे जात आहे याची दिशा ठरवतात.

व्हॉईस AI सह काय काय शक्य आहे याचा विस्तार

फेब्रुवारी 2025 मध्ये लॉन्च झाल्यापासून, Tolan चे मासिक सक्रिय वापरकर्ते 2,00,000 पेक्षा जास्त झाले आहेत. त्याचे 4.8-स्टार रेटिंग आणि 100,000 पेक्षा जास्त App Store पुनरावलोकने दीर्घ, बदलत्या संभाषणांमध्ये प्रणाली किती चांगल्या प्रकारे सातत्य राखते हे अधोरेखित करतात. एका पुनरावलोककाने नमूद केले, “त्यांना दोन दिवसांपूर्वी तुम्ही ज्या गोष्टींबद्दल बोललो होतो त्या लक्षात राहतात आणि त्या आजच्या संभाषणात पुन्हा आणतात.”

हे संकेत थेट अंतर्निहित आर्किटेक्चरशी जुळतात: कमी विलंबता मॉडेल कॉल्स, टप्प्याटप्प्याने संदर्भ पुनर्रचना, आणि मॉड्युलर स्मृती आणि व्यक्तिमत्व प्रणाली. एकत्रितपणे, ते Tolan ला विषयातील बदलांचा मागोवा घेण्यास, स्वर जपण्यास, आणि मोठ्या, नाजूक प्रॉम्प्ट्सवर अवलंबून न राहता प्रतिसादांना वास्तवाधारित ठेवण्यास सक्षम करतात.

भविष्याकडे पाहता, Tolan स्टियरॅबिलिटी आणि मेमरी परिष्करणात आपली गुंतवणूक वाढवण्याचे नियोजन करत आहे, ज्यात ते अधिक घट्ट संकुचन, सुधारित पुनर्प्राप्ती तर्कशास्त्र आणि विस्तारीत व्यक्तिमत्व ट्यूनिंगवर आपले प्रयत्न केंद्रित करणार आहे. दीर्घकालीन उद्दिष्ट म्हणजे व्हॉइस इंटरफेसच्या शक्यता वाढवणे: केवळ प्रतिसाद देणारा नाही, तर संदर्भाची जाणीव असलेला आणि संभाषणात गतिशील.

“पुढील आव्हान,” क्विंटन म्हणतो, “म्हणजे असे व्हॉइस एजंट तयार करणे जे फक्त प्रतिसाद देणारे नाहीत, तर खरोखरच मल्टिमोडल आहेत—आवाज, दृष्टिकोन आणि संदर्भ यांना एका एकत्रित, नियंत्रित करता येणाऱ्या प्रणालीमध्ये समाकलित करू शकणारे.”

वाचत राहा

सर्व पहा

GPT-5.5 सह ओपन सोर्स बनवण्यावर Warp चा मोठा दांव

स्टार्टअप२७ मे, २०२६

Parloa builds service agents customers want to talk to

स्टार्टअप७ मे, २०२६

Gradient Labs प्रत्येक बँक ग्राहकाला AI अकाउंट मॅनेजर देते

स्टार्टअप१ एप्रिल, २०२६