स्किप करके मेन कंटेंट पर जाऍं
OpenAI

7 जनवरी 2026

स्टार्टअप

Tolan GPT‑5.1 के साथ वॉइस-फर्स्ट AI कैसे बनाता है

GPT‑5.1 के साथ, Tolan ने कम लेटेंसी, सटीक संदर्भ, और बातचीत के विकसित होने के साथ स्थिर व्यक्तित्वों के लिए अनुकूलित एक वॉइस ऐप बनाया.

Tolan logo on orange jigsaw puzzle background
लोड किया जा रहा है...

Tolan(एक नई विंडो में खुलेगा) एक वॉइस-फर्स्ट AI साथी है, जहां लोग एक व्यक्तिगत, एनिमेटेड किरदार के साथ बातचीत करते हैं, जो समय के साथ बातचीत से सीखता है. 

Portola द्वारा निर्मित, जो पहले से एक सफल टीम है, यह ऐप त्वरित प्रॉम्प्ट्स और उत्तरों के बजाय सतत और खुले अंत वाले संवाद के लिए डिज़ाइन किया गया है. “हमने ChatGPT का उभार देखा और समझ लिया कि आवाज़ अगला मोर्चा है,” Portola के सह-संस्थापक और CEO Quinten Farmer कहते हैं. “लेकिन आवाज़ कठिन है. "तुम सिर्फ़ टाइप किए गए प्रॉम्प्ट का जवाब नहीं दे रहे हो; तुम एक जीवंत, भटकती हुई बातचीत कर रहे हो.”

वॉइस AI लेटेंसी और संदर्भ प्रबंधन के स्तर को ऊँचा कर देता है, लेकिन यह टेक्स्ट की तुलना में अधिक खुला और खोजपूर्ण इंटरैक्शन भी सक्षम बनाता है. 

फाउंडेशन मॉडल के तेज़, सस्ते और अधिक सक्षम होते जाने के साथ, टीम ने अपने प्रयासों को दो मुख्य बिंदुओं पर केंद्रित किया: मेमोरी और किरदार डिज़ाइन. Portola ने एक किरदार-ड्रिवन यूनिवर्स बनाया है, जिसे अवॉर्ड जीतने वाले एनिमेटर्स और एक साइंस फिक्शन राइटर ने मिलकर बनाया है। इसमें एक रियल-टाइम कॉन्टेक्स्ट मैनेजमेंट सिस्टम का इस्तेमाल किया गया है ताकि बातचीत आगे बढ़ने पर पर्सनैलिटी और मेमोरी एक जैसी बनी रहे.

GPT‑5.1 मॉडल्स की रिलीज़ ने एक महत्वपूर्ण मोड़ को चिह्नित किया, जिससे steerability और latency में बड़े सुधार हुए, जो इन तत्वों को एक साथ लाकर एक अधिक प्रतिक्रियाशील और आकर्षक वॉइस अनुभव को अनलॉक करता है.

“GPT-5.1 ने हमें वह नियंत्रण क्षमता दी, जिससे हम आखिरकार उन किरदारों को व्यक्त कर पाए जिनकी हमने कल्पना की थी. यह केवल अधिक स्मार्ट नहीं था—यह उस टोन और व्यक्तित्व के प्रति अधिक वफादार था जिसे हम बनाना चाहते थे.
—Quinten Farmer, Portola के CEO

प्राकृतिक आवाज़ इंटरैक्शन के लिए डिज़ाइन करना

Tolan की वास्तुकला को आवाज़ की आवश्यकताओं ने आकार दिया है. वॉइस उपयोगकर्ता तुरंत और स्वाभाविक प्रतिक्रियाओं की उम्मीद करते हैं, भले ही बातचीत बीच में ही बदल जाए. टोलन को तेजी से प्रतिक्रिया देनी थी, बदलते विषयों को ट्रैक करना था, और बिना किसी देरी या टोन में बदलाव के एक स्थिर व्यक्तित्व बनाए रखना था.

स्वाभाविक महसूस करने के लिए, बातचीतों में लगभग तुरंत प्रतिक्रिया समय की आवश्यकता थी. OpenAI GPT‑5.1 और Responses API पेश कर रहे हैं, जिससे स्पीच शुरू होने का समय 0.7 सेकंड से भी अधिक कम हो गया है—यह बातचीत के प्रवाह में स्पष्ट रूप से सुधार लाने के लिए पर्याप्त है.

उतना ही महत्वपूर्ण यह था कि सिस्टम ने संदर्भ को कैसे संभाला. कई एजेंट्स के विपरीत, जो कई टर्न्स में प्रॉम्प्ट्स को कैश करते हैं, Tolan हर टर्न में अपनी संदर्भ विंडो को शुरू से फिर से बनाता है. हर कॉन्टेक्स्ट रिकंस्ट्रक्शन हाल के मैसेजों का एक सारांश, एक पर्सोना कार्ड, वेक्टर-रिट्रीव्ड मेमोरीज़, टोन गाइडेंस, और रीयल-टाइम ऐप सिग्नल्स को शामिल करता है. यह आर्किटेक्चर Tolan को अचानक होने वाले विषय परिवर्तन के अनुसार वास्तविक समय में अनुकूलित करने की अनुमति देता है, जो प्राकृतिक आवाज़-आधारित बातचीत के लिए एक आवश्यक आवश्यकता है.

“हमें जल्दी ही एहसास हुआ कि कैश किए गए प्रॉम्प्ट पर्याप्त नहीं थे,” क्विंटन कहते हैं. “उपयोगकर्ता हमेशा विषय बदलते रहते हैं. "बिना किसी रुकावट के अनुभव के लिए, सिस्टम को बीच में ही अनुकूलित होना पड़ा.”

यह रियल-टाइम पुनर्निर्माण दृष्टिकोण तकनीकी रूप से गहन है और Tolan की सफलता के लिए बुनियादी है.

टोलन के संवादात्मक लूप को दर्शाने वाला फ्लो चार्ट. एक “पर्सोना को फिर से कंप्यूट करें” चरण चार इनपुट लेता है: चैट सारांश और हाल के कच्चे संदेश, उपयोगकर्ता और Tolan पर्सोना और अन्य संदर्भ, स्मृति, और स्वर. ये इनपुट्स मिलकर एक Tolan प्रतिक्रिया उत्पन्न करते हैं, जो एक उपयोगकर्ता प्रतिक्रिया की ओर ले जाती है. फिर उपयोगकर्ता की प्रतिक्रिया दो समानांतर प्रक्रियाओं को संचालित करती है: एक अपडेटेड टोन तैयार करना और यादें निकालना. निकाली गई यादें मेमोरी को अपडेट करती हैं, अपडेट किया गया टोन फिर से टोन में समाहित होता है, और बातचीत का इतिहास समय-समय पर फिर से संक्षेपित और संपीड़ित किया जाता है, जो अगले चरण के लिए चैट सारांश में वापस लूप करता है.

समय के साथ स्थिर रहने वाली स्मृति और व्यक्तित्व का निर्माण करना

संदर्भ प्रबंधन महत्वपूर्ण है, लेकिन समय के साथ बातचीत को सुसंगत बनाए रखने के लिए यह पर्याप्त नहीं था. लंबी, गैर-रेखीय बातचीतों का समर्थन करने के लिए, Tolan ने एक मेमोरी सिस्टम बनाया जो न केवल तथ्य और प्राथमिकताएँ, बल्कि भावनात्मक “वाइब” संकेत भी बनाए रखता है—ऐसे संकेत जो यह दिशा देने में मदद करते हैं कि Tolan को कैसे प्रतिक्रिया देनी चाहिए.

मेमोरीज़ को OpenAI text-embedding-3-large मॉडल का उपयोग करके एम्बेड किया जाता है और Turbopuffer में स्टोर किया जाता है, जो एक हाई-स्पीड वेक्टर डेटाबेस है जो 50 मिलीसेकंड से कम समय में लुकअप सक्षम करता है. यह गति वास्तविक समय की वॉइस इंटरैक्शन के लिए आवश्यक है. हर टर्न में, Tolan यूज़र के नवीनतम संदेश और सिस्टम-निर्मित प्रश्नों (जैसे, “यूज़र की शादी किससे हुई है?”) का उपयोग मेमोरी रिकॉल को ट्रिगर करने के लिए करता है. मेमोरी की गुणवत्ता को उच्च बनाए रखने के लिए, Tolan हर रात एक संपीड़न कार्य चलाता है जो कम-मूल्य या अनावश्यक प्रविष्टियों को हटा देता है (उदा. “उपयोगकर्ता ने आज कॉफी पी”) और विरोधाभासों को हल करता है.

व्यक्तित्व भी उतनी ही सावधानी से प्रबंधित किया जाता है. प्रत्येक Tolan को एक विशिष्ट किरदार ढांचे के साथ तैयार किया जाता है, जिसे टीम के इन-हाउस विज्ञान कथा लेखक द्वारा लिखा गया है और एक व्यवहार शोधकर्ता द्वारा परिष्कृत किया गया है. ये बीज Tolans को स्थिरता देते हैं, लेकिन समय के साथ उपयोगकर्ता के साथ-साथ विकसित होते हुए, अनुकूलन की लचीलापन भी प्रदान करते हैं. 

एक पैरेलल सिस्टम बातचीत के इमोशनल टोन को मॉनिटर करता है और टोलन की डिलीवरी को डायनामिक रूप से एडजस्ट करता है. यह Tolan को उपयोगकर्ता संकेतों के आधार पर, अपनी मूल व्यक्तित्व खोए बिना, चंचल से गंभीर रूप में सहजता से बदलने की अनुमति देता है. 

GPT‑5.1 में परिवर्तन एक महत्वपूर्ण मोड़ था. अचानक, लेयर्ड प्रॉम्प्ट निर्देश—टोन स्कैफोल्ड्स, मेमोरी इंजेक्शन्स, किरदार के गुण—को अधिक निष्ठा से पालन किया गया. वे प्रॉम्प्ट जो पहले वर्कअराउंड की आवश्यकता रखते थे, अब अपेक्षित रूप से कार्य करने लगे हैं. 

“पहली बार, हमारे आंतरिक विशेषज्ञों को ऐसा लगा कि मॉडल वास्तव में सुन रहा था,” क्विंटन कहते हैं. “लंबी बातचीत के दौरान निर्देश बरकरार रहे, व्यक्तित्व के गुणों का सम्मान किया गया, और हमने बहुत कम विचलन देखा.”

उन परिवर्तनों ने मिलकर एक अधिक सुसंगत और विश्वसनीय व्यक्तित्व का निर्माण किया, जिसने एक अधिक आकर्षक उपयोगकर्ता अनुभव को जन्म दिया. Tolan टीम ने स्पष्ट, मापने योग्य सुधार देखे: मेमोरी रिकॉल मिस 30% कम हुए (इन-प्रोडक्ट फ्रस्ट्रेशन सिग्नल्स के आधार पर), और GPT‑5.1–powered पर्सोना लाइव हो गए.

बातचीत के दौरान Tolan कैसे मेमोरीज़ को पुनः प्राप्त करता है और उन्हें परिष्कृत करता है, यह दर्शाने वाला फ्लो चार्ट. एक यूज़र संदेश (“मैं इस वीकेंड अपनी यात्रा के लिए बहुत उत्साहित हूँ”) एक चरण को ट्रिगर करता है जो फॉलो-अप प्रश्नों को संश्लेषित करता है, जैसे आगामी यात्राएँ, किसी विशेष सप्ताह के लिए योजनाएँ, और उपयोगकर्ता की प्राथमिकताएँ. ये प्रश्न एम्बेड किए जाते हैं और मेमोरी वेक्टर डेटाबेस को क्वेरी करने के लिए उपयोग होते हैं, और परिणामों को मीन रेसिप्रोकल रैंक का उपयोग करके जोड़ा जाता है. प्राप्त किया गया संदर्भ Tolan के जवाब (“Yosemite में Steven के साथ कैंपिंग”) को सूचित करता है. आइसलैंड की भविष्य की यात्रा के बारे में बाद में आने वाला उपयोगकर्ता संदेश एक नई मेमोरी के रूप में संग्रहीत किया जाता है, फिर उस पर विचार किया जाता है, और embedding-based k-nearest neighbors का उपयोग करके संबंधित मेमोरीज़ के साथ क्लस्टर किया जाता है. इसके बाद, प्रत्येक क्लस्टर के भीतर मेमोरीज़ को मिलाकर, संपादित करके, और परिष्कृत करके संपीड़ित किया जाता है.

नेचुरल वॉइस एजेंट्स के निर्माण के लिए Tolan के मुख्य सिद्धांत 

जैसे-जैसे Tolan विकसित हुआ, कुछ सिद्धांत उभरे जो अब टीम के वॉइस आर्किटेक्चर के निर्माण और विकास का मार्गदर्शन करते हैं:

  • संवादी अस्थिरता के लिए डिज़ाइन करें: वॉइस कन्वर्सेशन्स बीच वाक्य में बदल जाती हैं. सिस्टम्स को भी उतनी ही तेजी से बदलाव करने की आवश्यकता है ताकि वे स्वाभाविक लगें.
  • लैटेंसी को उत्पाद अनुभव का हिस्सा मानें: सब-सेकंड प्रतिक्रिया यह निर्धारित करती है कि कोई वॉइस एजेंट बातचीत जैसा लगता है या यांत्रिक.
  • मेमोरी को ट्रांसक्रिप्ट के बजाय रिट्रीवल सिस्टम के रूप में बनाओ: उच्च गुणवत्ता वाली कंप्रेशन और तेज़ वेक्टर खोज, ओवरसाइज़्ड कॉन्टेक्स्ट विंडो की तुलना में अधिक स्थिर व्यक्तित्व प्रदान करती हैं.
  • हर टर्न में कॉन्टेक्स्ट फिर से बनाएं: बड़े प्रॉम्प्ट्स के साथ ड्रिफ्ट से न लड़ें. हर टर्न पर संदर्भ को फिर से उत्पन्न करने से, बातचीत के भटकने पर भी एजेंट स्थिर रहते हैं.

मिलकर, ये सबक Tolan के नवाचार के अगले चरण की नींव रखते हैं और यह दिशा तय करते हैं कि वॉइस AI आगे किस ओर जा रहा है.

वॉइस AI के साथ संभावनाओं का विस्तार करना

फरवरी 2025 में लॉन्च के बाद से, Tolan के मासिक सक्रिय उपयोगकर्ता 200,000 से अधिक हो गए हैं. इसकी 4.8-स्टार रेटिंग और 100,000 से अधिक ऐप स्टोर समीक्षाएं इस बात को उजागर करती हैं कि सिस्टम लंबी, बदलती बातचीतों में कितनी अच्छी तरह से स्थिरता बनाए रखता है. एक समीक्षक ने कहा, “उन्हें दो दिन पहले जिन बातों पर हमने चर्चा की थी, वे याद रहती हैं और वे उसे आज की बातचीत में फिर से शामिल कर लेते हैं.”

ये संकेत सीधे अंतर्निहित आर्किटेक्चर से मैप होते हैं: कम-विलंबता मॉडल कॉल्स, टर्न-बाय-टर्न संदर्भ पुनर्निर्माण, और मॉड्यूलर मेमोरी और पर्सोना सिस्टम. साथ मिलकर, ये Tolan को टॉपिक में बदलाव को ट्रैक करने, टोन बनाए रखने और बड़े, नाज़ुक प्रॉम्प्ट पर निर्भर हुए बिना जवाबों को सही रखने में मदद करते हैं।

भविष्य की ओर देखते हुए, Tolan अपने निवेश को steerability और मेमोरी रिफाइनमेंट में और गहरा करने की योजना बना रहा है, अपने प्रयासों को अधिक कड़े कंप्रेशन, बेहतर रिट्रीवल लॉजिक, और विस्तारित पर्सोना ट्यूनिंग पर केंद्रित कर रहा है. दीर्घकालिक लक्ष्य यह है कि वॉइस इंटरफ़ेस की संभावनाओं का विस्तार किया जाए: यह केवल प्रतिक्रियाशील न हो, बल्कि संदर्भ-सचेत और संवादात्मक रूप से गतिशील हो.

“अगला फ्रंटियर,” Quinten कहते हैं, “ऐसे वॉइस एजेंट्स बनाना है जो केवल प्रतिक्रियाशील न हों, बल्कि वास्तव में मल्टीमोडल हों, जो आवाज़, दृष्टि, और संदर्भ को एक ही, नियंत्रित करने योग्य प्रणाली में एकीकृत कर सकें.”