Tolan GPT‑5.1 के साथ वॉइस-फर्स्ट AI कैसे बनाता है
GPT‑5.1 के साथ, Tolan ने कम लेटेंसी, सटीक संदर्भ, और बातचीत के विकसित होने के साथ स्थिर व्यक्तित्वों के लिए अनुकूलित एक वॉइस ऐप बनाया.

Tolan(एक नई विंडो में खुलेगा) एक वॉइस-फर्स्ट AI साथी है, जहां लोग एक व्यक्तिगत, एनिमेटेड किरदार के साथ बातचीत करते हैं, जो समय के साथ बातचीत से सीखता है.
Portola द्वारा निर्मित, जो पहले से एक सफल टीम है, यह ऐप त्वरित प्रॉम्प्ट्स और उत्तरों के बजाय सतत और खुले अंत वाले संवाद के लिए डिज़ाइन किया गया है. “हमने ChatGPT का उभार देखा और समझ लिया कि आवाज़ अगला मोर्चा है,” Portola के सह-संस्थापक और CEO Quinten Farmer कहते हैं. “लेकिन आवाज़ कठिन है. "तुम सिर्फ़ टाइप किए गए प्रॉम्प्ट का जवाब नहीं दे रहे हो; तुम एक जीवंत, भटकती हुई बातचीत कर रहे हो.”
वॉइस AI लेटेंसी और संदर्भ प्रबंधन के स्तर को ऊँचा कर देता है, लेकिन यह टेक्स्ट की तुलना में अधिक खुला और खोजपूर्ण इंटरैक्शन भी सक्षम बनाता है.
फाउंडेशन मॉडल के तेज़, सस्ते और अधिक सक्षम होते जाने के साथ, टीम ने अपने प्रयासों को दो मुख्य बिंदुओं पर केंद्रित किया: मेमोरी और किरदार डिज़ाइन. Portola ने एक किरदार-ड्रिवन यूनिवर्स बनाया है, जिसे अवॉर्ड जीतने वाले एनिमेटर्स और एक साइंस फिक्शन राइटर ने मिलकर बनाया है। इसमें एक रियल-टाइम कॉन्टेक्स्ट मैनेजमेंट सिस्टम का इस्तेमाल किया गया है ताकि बातचीत आगे बढ़ने पर पर्सनैलिटी और मेमोरी एक जैसी बनी रहे.
GPT‑5.1 मॉडल्स की रिलीज़ ने एक महत्वपूर्ण मोड़ को चिह्नित किया, जिससे steerability और latency में बड़े सुधार हुए, जो इन तत्वों को एक साथ लाकर एक अधिक प्रतिक्रियाशील और आकर्षक वॉइस अनुभव को अनलॉक करता है.
“GPT-5.1 ने हमें वह नियंत्रण क्षमता दी, जिससे हम आखिरकार उन किरदारों को व्यक्त कर पाए जिनकी हमने कल्पना की थी. यह केवल अधिक स्मार्ट नहीं था—यह उस टोन और व्यक्तित्व के प्रति अधिक वफादार था जिसे हम बनाना चाहते थे.
Tolan की वास्तुकला को आवाज़ की आवश्यकताओं ने आकार दिया है. वॉइस उपयोगकर्ता तुरंत और स्वाभाविक प्रतिक्रियाओं की उम्मीद करते हैं, भले ही बातचीत बीच में ही बदल जाए. टोलन को तेजी से प्रतिक्रिया देनी थी, बदलते विषयों को ट्रैक करना था, और बिना किसी देरी या टोन में बदलाव के एक स्थिर व्यक्तित्व बनाए रखना था.
स्वाभाविक महसूस करने के लिए, बातचीतों में लगभग तुरंत प्रतिक्रिया समय की आवश्यकता थी. OpenAI GPT‑5.1 और Responses API पेश कर रहे हैं, जिससे स्पीच शुरू होने का समय 0.7 सेकंड से भी अधिक कम हो गया है—यह बातचीत के प्रवाह में स्पष्ट रूप से सुधार लाने के लिए पर्याप्त है.
उतना ही महत्वपूर्ण यह था कि सिस्टम ने संदर्भ को कैसे संभाला. कई एजेंट्स के विपरीत, जो कई टर्न्स में प्रॉम्प्ट्स को कैश करते हैं, Tolan हर टर्न में अपनी संदर्भ विंडो को शुरू से फिर से बनाता है. हर कॉन्टेक्स्ट रिकंस्ट्रक्शन हाल के मैसेजों का एक सारांश, एक पर्सोना कार्ड, वेक्टर-रिट्रीव्ड मेमोरीज़, टोन गाइडेंस, और रीयल-टाइम ऐप सिग्नल्स को शामिल करता है. यह आर्किटेक्चर Tolan को अचानक होने वाले विषय परिवर्तन के अनुसार वास्तविक समय में अनुकूलित करने की अनुमति देता है, जो प्राकृतिक आवाज़-आधारित बातचीत के लिए एक आवश्यक आवश्यकता है.
“हमें जल्दी ही एहसास हुआ कि कैश किए गए प्रॉम्प्ट पर्याप्त नहीं थे,” क्विंटन कहते हैं. “उपयोगकर्ता हमेशा विषय बदलते रहते हैं. "बिना किसी रुकावट के अनुभव के लिए, सिस्टम को बीच में ही अनुकूलित होना पड़ा.”
यह रियल-टाइम पुनर्निर्माण दृष्टिकोण तकनीकी रूप से गहन है और Tolan की सफलता के लिए बुनियादी है.

संदर्भ प्रबंधन महत्वपूर्ण है, लेकिन समय के साथ बातचीत को सुसंगत बनाए रखने के लिए यह पर्याप्त नहीं था. लंबी, गैर-रेखीय बातचीतों का समर्थन करने के लिए, Tolan ने एक मेमोरी सिस्टम बनाया जो न केवल तथ्य और प्राथमिकताएँ, बल्कि भावनात्मक “वाइब” संकेत भी बनाए रखता है—ऐसे संकेत जो यह दिशा देने में मदद करते हैं कि Tolan को कैसे प्रतिक्रिया देनी चाहिए.
मेमोरीज़ को OpenAI text-embedding-3-large मॉडल का उपयोग करके एम्बेड किया जाता है और Turbopuffer में स्टोर किया जाता है, जो एक हाई-स्पीड वेक्टर डेटाबेस है जो 50 मिलीसेकंड से कम समय में लुकअप सक्षम करता है. यह गति वास्तविक समय की वॉइस इंटरैक्शन के लिए आवश्यक है. हर टर्न में, Tolan यूज़र के नवीनतम संदेश और सिस्टम-निर्मित प्रश्नों (जैसे, “यूज़र की शादी किससे हुई है?”) का उपयोग मेमोरी रिकॉल को ट्रिगर करने के लिए करता है. मेमोरी की गुणवत्ता को उच्च बनाए रखने के लिए, Tolan हर रात एक संपीड़न कार्य चलाता है जो कम-मूल्य या अनावश्यक प्रविष्टियों को हटा देता है (उदा. “उपयोगकर्ता ने आज कॉफी पी”) और विरोधाभासों को हल करता है.
व्यक्तित्व भी उतनी ही सावधानी से प्रबंधित किया जाता है. प्रत्येक Tolan को एक विशिष्ट किरदार ढांचे के साथ तैयार किया जाता है, जिसे टीम के इन-हाउस विज्ञान कथा लेखक द्वारा लिखा गया है और एक व्यवहार शोधकर्ता द्वारा परिष्कृत किया गया है. ये बीज Tolans को स्थिरता देते हैं, लेकिन समय के साथ उपयोगकर्ता के साथ-साथ विकसित होते हुए, अनुकूलन की लचीलापन भी प्रदान करते हैं.
एक पैरेलल सिस्टम बातचीत के इमोशनल टोन को मॉनिटर करता है और टोलन की डिलीवरी को डायनामिक रूप से एडजस्ट करता है. यह Tolan को उपयोगकर्ता संकेतों के आधार पर, अपनी मूल व्यक्तित्व खोए बिना, चंचल से गंभीर रूप में सहजता से बदलने की अनुमति देता है.
GPT‑5.1 में परिवर्तन एक महत्वपूर्ण मोड़ था. अचानक, लेयर्ड प्रॉम्प्ट निर्देश—टोन स्कैफोल्ड्स, मेमोरी इंजेक्शन्स, किरदार के गुण—को अधिक निष्ठा से पालन किया गया. वे प्रॉम्प्ट जो पहले वर्कअराउंड की आवश्यकता रखते थे, अब अपेक्षित रूप से कार्य करने लगे हैं.
“पहली बार, हमारे आंतरिक विशेषज्ञों को ऐसा लगा कि मॉडल वास्तव में सुन रहा था,” क्विंटन कहते हैं. “लंबी बातचीत के दौरान निर्देश बरकरार रहे, व्यक्तित्व के गुणों का सम्मान किया गया, और हमने बहुत कम विचलन देखा.”
उन परिवर्तनों ने मिलकर एक अधिक सुसंगत और विश्वसनीय व्यक्तित्व का निर्माण किया, जिसने एक अधिक आकर्षक उपयोगकर्ता अनुभव को जन्म दिया. Tolan टीम ने स्पष्ट, मापने योग्य सुधार देखे: मेमोरी रिकॉल मिस 30% कम हुए (इन-प्रोडक्ट फ्रस्ट्रेशन सिग्नल्स के आधार पर), और GPT‑5.1–powered पर्सोना लाइव हो गए.

जैसे-जैसे Tolan विकसित हुआ, कुछ सिद्धांत उभरे जो अब टीम के वॉइस आर्किटेक्चर के निर्माण और विकास का मार्गदर्शन करते हैं:
- संवादी अस्थिरता के लिए डिज़ाइन करें: वॉइस कन्वर्सेशन्स बीच वाक्य में बदल जाती हैं. सिस्टम्स को भी उतनी ही तेजी से बदलाव करने की आवश्यकता है ताकि वे स्वाभाविक लगें.
- लैटेंसी को उत्पाद अनुभव का हिस्सा मानें: सब-सेकंड प्रतिक्रिया यह निर्धारित करती है कि कोई वॉइस एजेंट बातचीत जैसा लगता है या यांत्रिक.
- मेमोरी को ट्रांसक्रिप्ट के बजाय रिट्रीवल सिस्टम के रूप में बनाओ: उच्च गुणवत्ता वाली कंप्रेशन और तेज़ वेक्टर खोज, ओवरसाइज़्ड कॉन्टेक्स्ट विंडो की तुलना में अधिक स्थिर व्यक्तित्व प्रदान करती हैं.
- हर टर्न में कॉन्टेक्स्ट फिर से बनाएं: बड़े प्रॉम्प्ट्स के साथ ड्रिफ्ट से न लड़ें. हर टर्न पर संदर्भ को फिर से उत्पन्न करने से, बातचीत के भटकने पर भी एजेंट स्थिर रहते हैं.
मिलकर, ये सबक Tolan के नवाचार के अगले चरण की नींव रखते हैं और यह दिशा तय करते हैं कि वॉइस AI आगे किस ओर जा रहा है.
फरवरी 2025 में लॉन्च के बाद से, Tolan के मासिक सक्रिय उपयोगकर्ता 200,000 से अधिक हो गए हैं. इसकी 4.8-स्टार रेटिंग और 100,000 से अधिक ऐप स्टोर समीक्षाएं इस बात को उजागर करती हैं कि सिस्टम लंबी, बदलती बातचीतों में कितनी अच्छी तरह से स्थिरता बनाए रखता है. एक समीक्षक ने कहा, “उन्हें दो दिन पहले जिन बातों पर हमने चर्चा की थी, वे याद रहती हैं और वे उसे आज की बातचीत में फिर से शामिल कर लेते हैं.”
ये संकेत सीधे अंतर्निहित आर्किटेक्चर से मैप होते हैं: कम-विलंबता मॉडल कॉल्स, टर्न-बाय-टर्न संदर्भ पुनर्निर्माण, और मॉड्यूलर मेमोरी और पर्सोना सिस्टम. साथ मिलकर, ये Tolan को टॉपिक में बदलाव को ट्रैक करने, टोन बनाए रखने और बड़े, नाज़ुक प्रॉम्प्ट पर निर्भर हुए बिना जवाबों को सही रखने में मदद करते हैं।
भविष्य की ओर देखते हुए, Tolan अपने निवेश को steerability और मेमोरी रिफाइनमेंट में और गहरा करने की योजना बना रहा है, अपने प्रयासों को अधिक कड़े कंप्रेशन, बेहतर रिट्रीवल लॉजिक, और विस्तारित पर्सोना ट्यूनिंग पर केंद्रित कर रहा है. दीर्घकालिक लक्ष्य यह है कि वॉइस इंटरफ़ेस की संभावनाओं का विस्तार किया जाए: यह केवल प्रतिक्रियाशील न हो, बल्कि संदर्भ-सचेत और संवादात्मक रूप से गतिशील हो.
“अगला फ्रंटियर,” Quinten कहते हैं, “ऐसे वॉइस एजेंट्स बनाना है जो केवल प्रतिक्रियाशील न हों, बल्कि वास्तव में मल्टीमोडल हों, जो आवाज़, दृष्टि, और संदर्भ को एक ही, नियंत्रित करने योग्य प्रणाली में एकीकृत कर सकें.”


