Tolan എങ്ങനെ GPT‑5.1 ഉപയോഗിച്ച് വോയ്സ്-ഫസ്റ്റ് AI നിർമ്മിക്കുന്നു
GPT‑5.1 ഉപയോഗിച്ച്, Tolan കുറഞ്ഞ ലേറ്റൻസി, കൃത്യമായ സന്ദർഭം, സംഭാഷണങ്ങൾ വികസിക്കുമ്പോൾ സ്ഥിരതയുള്ള വ്യക്തിത്വങ്ങൾ എന്നിവയ്ക്കായി ഒപ്റ്റിമൈസ് ചെയ്ത ഒരു ശബ്ദ ആപ്പ് നിർമ്മിച്ചു.

Tolan(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നത് voice-first AI കൂട്ടാളിയാണ്, ആളുകൾ വ്യക്തിഗത, ആനിമേറ്റഡ് കഥാപാത്രവുമായി സംസാരിക്കുകയും അത് സമയം കഴിയുന്തോറും സംഭാഷണങ്ങളിൽ നിന്ന് പഠിക്കുകയും ചെയ്യുന്നു.
മുമ്പ് ഒരു എക്സിറ്റ് നേടിയ പരിചയസമ്പന്നമായ Portola ടീമിന്റെ നിർമ്മിതമായ ഈ ആപ്പ്, വേഗത്തിലുള്ള പ്രോംപ്റ്റുകളും മറുപടികളുംക്കാൾ തുടർച്ചയായ, തുറന്ന അറ്റമുള്ള സംഭാഷണത്തിനായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു. “ഞങ്ങൾ ChatGPT‑യുടെ ഉയർച്ച കണ്ടു, ശബ്ദം അടുത്ത അതിർത്തിയാണെന്ന് അറിഞ്ഞു,” Portola-യുടെ സഹസ്ഥാപകനും CEOയുമായ Quinten Farmer പറയുന്നു “പക്ഷേ ശബ്ദം കൂടുതൽ പ്രയാസകരമാണ്. "നിങ്ങൾ ടൈപ്പ് ചെയ്ത പ്രോംപ്റ്റുകൾക്ക് മാത്രം പ്രതികരിക്കുന്നില്ല; നിങ്ങൾ ഒരു തത്സമയ, വഴിതിരിഞ്ഞൊഴുകുന്ന സംഭാഷണം നടത്തുകയാണ്.”
Voice AI ലേറ്റൻസിയും സന്ദർഭ മാനേജ്മെന്റും മെച്ചപ്പെടുത്തുന്നു, എന്നാൽ ഇത് ടെക്സ്റ്റിനേക്കാൾ കൂടുതൽ തുറന്നതും അന്വേഷണാത്മകവുമായ ഇടപെടലുകൾക്ക് അവസരം നൽകുന്നു.
അടിസ്ഥാന മോഡലുകൾ വേഗതയേറിയതും, വിലകുറഞ്ഞതും, കൂടുതൽ കഴിവുള്ളതുമായതോടെ, ടീം അവരുടെ ശ്രമങ്ങൾ രണ്ട് പ്രധാന ഘടകങ്ങളിലേക്കാണ് കേന്ദ്രീകരിച്ചത്: മെമ്മറിയും കഥാപാത്ര രൂപകൽപ്പനയും. സംഭാഷണങ്ങൾ പുരോഗമിക്കുമ്പോൾ വ്യക്തിത്വവും മെമ്മറിയും സ്ഥിരതയോടെ നിലനിർത്താൻ തത്സമയ സന്ദർഭ മാനേജ്മെന്റ് സിസ്റ്റം ഉപയോഗിച്ച്, അവാർഡ് നേടിയ അനിമേറ്റർമാരും ഒരു സയൻസ് ഫിക്ഷൻ എഴുത്തുകാരനും രൂപപ്പെടുത്തിയ, കഥാപാത്രം-കേന്ദ്രിതമായ ഒരു ബ്രഹ്മാണ്ഡം Portola നിർമ്മിച്ചു.
GPT‑5.1 മോഡലുകളുടെ റിലീസ് ഒരു വഴിത്തിരിവായി മാറി, സ്റ്റിയറബിലിറ്റിയിലും ലേറ്റൻസിയിലും വലിയ നേട്ടങ്ങൾ കൈവരിച്ച്, ആ ഘടകങ്ങളെ ഒന്നിച്ചുകൂട്ടി, കൂടുതൽ പ്രതികരണശേഷിയുള്ളതും ആകർഷകവുമായ വോയ്സ് അനുഭവം തുറന്നുകൊടുത്തു.
“GPT-5.1 ഞങ്ങൾക്ക് ആവശ്യമായ നിയന്ത്രണക്ഷമത നൽകി, ഒടുവിൽ ഞങ്ങൾ മനസ്സിൽ കണ്ടിരുന്ന കഥാപാത്രങ്ങളെ പ്രകടിപ്പിക്കാൻ കഴിവുണ്ടായി. അത് കൂടുതൽ മികച്ചതായിരുന്നില്ല - നമ്മൾ സൃഷ്ടിക്കാൻ ആഗ്രഹിച്ച സ്വരത്തിനും വ്യക്തിത്വത്തിനോടും അത് കൂടുതൽ വിശ്വസസ്തത പുലര്ത്തുന്നു. ”
ടോളന്റെ ആർക്കിടെക്ചർ ശബ്ദത്തിന്റെ ആവശ്യങ്ങളാൽ രൂപം കൊണ്ടിരിക്കുന്നു. ശബ്ദ ഉപയോക്താക്കൾ സംഭാഷണങ്ങൾ നടുവിൽ വഴിമാറിയാലും ഉടനടി, സ്വാഭാവികമായ പ്രതികരണങ്ങൾ പ്രതീക്ഷിക്കുന്നു. ടോളന് വേഗത്തിൽ പ്രതികരിക്കേണ്ടതുണ്ട്, മാറുന്ന വിഷയങ്ങളെ പിന്തുടരുകയും, ലാഗ് അല്ലെങ്കിൽ ടോൺ ഡ്രിഫ്റ്റ് ഇല്ലാതെ സ്ഥിരതയുള്ള വ്യക്തിത്വം നിലനിർത്തുകയും വേണം.
സ്വാഭാവികമായി തോന്നാൻ, സംഭാഷണങ്ങൾക്ക് തൽക്ഷണ ലേറ്റൻസി ആവശ്യമാണ്. OpenAI GPT‑5.1‑നെ അവതരിപ്പിക്കുന്നു. Responses API പ്രസംഗം ആരംഭിക്കുന്ന സമയം 0.7 സെക്കൻഡിൽ കൂടുതൽ കുറയ്ക്കുന്നു—സംഭാഷണ പ്രവാഹം ശ്രദ്ധനീയമായി മെച്ചപ്പെടുത്താൻ മതിയാകുന്നത്ര.
സന്ദർഭം എങ്ങനെ കൈകാര്യം ചെയ്യപ്പെടുന്നു എന്നത് സമാനമായി നിർണായകമായിരുന്നു. പല ഏജൻ്റുകൾ പല ടേണുകളിലായി പ്രോംപ്റ്റുകൾ കാഷ് ചെയ്യുന്നതിന് വിപരീതമായി, ടോളൻ ഓരോ ടേണിലും അതിന്റെ കോൺടെക്സ്റ്റ് വിൻഡോ പുനർനിർമ്മിക്കുന്നു. ഓരോ സന്ദർഭ പുനർനിർമ്മാണവും അടുത്തകാലത്തെ സന്ദേശങ്ങളുടെ ഒരു സംഗ്രഹം, ഒരു വ്യക്തിത്വ കാർഡ്, വെക്റ്റർ-മറുപിടിച്ച ഓർമ്മകൾ, ശൈലി മാർഗ്ഗനിർദ്ദേശം, തത്സമയ ആപ്പ് സിഗ്നലുകൾ എന്നിവ ഉൾക്കൊള്ളുന്നു. ഈ ആർക്കിടെക്ചർ Tolan-ന് പെട്ടെന്നുള്ള വിഷയമാറ്റങ്ങളോട് തത്സമയത്തിൽ അനുയോജ്യമായി പ്രതികരിക്കാൻ അനുവദിക്കുന്നു, സ്വാഭാവിക ശബ്ദ-അടിസ്ഥാനത്തിലുള്ള ഇടപെടലിന് അനിവാര്യമായ ഒരു ആവശ്യകത.
“കാഷ് ചെയ്ത പ്രോംപ്റ്റുകൾ മതിയാകില്ലെന്ന് ഞങ്ങൾ വേഗത്തിൽ മനസ്സിലാക്കി,” ക്വിന്റൻ പറയുന്നു. “ഉപയോക്താക്കൾ എല്ലായ്പ്പോഴും വിഷയങ്ങൾ മാറ്റുന്നു. തടസ്സമില്ലാത്ത അനുഭവം നൽകാൻ, സിസ്റ്റം ഇടയ്ക്കിടെ അതിനോട് പൊരുത്തപ്പെടേണ്ടി വന്നു."
ഈ തത്സമയ പുനർനിർമ്മാണ സമീപനം സാങ്കേതികമായി ഏറെ സങ്കീർണ്ണവും Tolan-ന്റെ വിജയത്തിന് അടിസ്ഥാനവുമാണ്.

സന്ദർഭ കൈകാര്യം ചെയ്യൽ പ്രധാനമാണ്, പക്ഷേ അത് കാലക്രമേണ സംഭാഷണങ്ങൾ ഏകോപിതമായി തോന്നാൻ മതിയായിരുന്നില്ല. ദീർഘവും നേരേ അല്ലാത്തതും ആയ സംഭാഷണങ്ങൾക്ക് പിന്തുണ നൽകുന്നതിനായി, Tolan വസ്തുതകളും മുൻഗണനകളും മാത്രമല്ല, വൈകാരിക “വൈബ്” സിഗ്നലുകളും—ഒരു Tolan എങ്ങനെ പ്രതികരിക്കണം എന്നതിനെ നയിക്കാൻ സഹായിക്കുന്ന സൂചനകളും—സൂക്ഷിക്കുന്ന ഒരു മെമ്മറി സിസ്റ്റം നിർമ്മിച്ചു.
OpenAI text-embedding-3-large മോഡൽ ഉപയോഗിച്ച് മെമ്മറികൾ എംബെഡ് ചെയ്ത് sub-50ms ലുക്കപ്പ് സമയങ്ങൾ സാധ്യമാക്കുന്ന ഉയർന്ന വേഗതയുള്ള വെക്റ്റർ ഡാറ്റാബേസായ Turbopuffer-ൽ സംഭരിക്കുന്നു. തത്സമയ ശബ്ദ ഇടപെടലുകൾക്ക് ഈ വേഗത അത്യാവശ്യമാണ്. ഓരോ ടേണിലും, Tolan ഉപയോക്താവിന്റെ ഏറ്റവും പുതിയ സന്ദേശവും സിസ്റ്റം-സമന്വയിപ്പിച്ച ചോദ്യങ്ങളും (ഉദാ., “ഉപയോക്താവ് ആരെയാണ് വിവാഹം കഴിച്ചത്?”) ഉപയോഗിച്ച് ഓര്മകളെ തിരിച്ചെടുക്കാന് പ്രേരിപ്പിക്കുന്നു. മെമ്മറി ഗുണനിലവാരം ഉയർന്ന നിലയിൽ നിലനിർത്താൻ, Tolan കുറഞ്ഞ മൂല്യമോ ആവർത്തനമായ എൻട്രികളോ നീക്കം ചെയ്യുന്ന ഒരു രാത്രികാല കംപ്രഷൻ ജോബ് നടത്തുന്നു (ഉദാ. “ഉപയോക്താവ് ഇന്ന് കാപ്പി കുടിച്ചു”) എന്നതും വൈരുദ്ധ്യങ്ങൾ പരിഹരിക്കുന്നു.
വ്യക്തിത്വം സമാനമായി ശ്രദ്ധാപൂർവ്വം നിയന്ത്രിക്കപ്പെടുന്നു. ഓരോ Tolan-നും ടീമിന്റെ ഇൻ-ഹൗസ് സയൻസ് ഫിക്ഷൻ എഴുത്തുകാരൻ രചിച്ച്, ഒരു പെരുമാറ്റ ഗവേഷകൻ പരിഷ്കരിച്ച വ്യത്യസ്തമായ ഒരു കഥാപാത്ര സ്കാഫോൾഡിനെ അടിസ്ഥാനം ആയി ഉപയോഗിക്കുന്നു. ഈ അടിസ്ഥാനം Tolans-ന് സ്ഥിരത നൽകുന്നു, എന്നാൽ ഉപയോക്താവിനൊപ്പം പരിണമിച്ച്, സമയത്തിനൊപ്പം പൊരുത്തപ്പെടാനുള്ള വഴക്കവും നൽകുന്നു.
ഒരു സമാന്തര സംവിധാനം സംഭാഷണത്തിന്റെ വൈകാരിക സ്വരഭാവം നിരീക്ഷിക്കുകയും ഡൈനാമിക്കായി ടോളന്റെ ഡെലിവറി ക്രമീകരിക്കുകയും ചെയ്യുന്നു. ഇത് ഒരു Tolan-ന് ഉപയോക്തൃ സൂചനകളനുസരിച്ച് അതിന്റെ മുഖ്യ വ്യക്തിത്വം നഷ്ടപ്പെടാതെ തമാശകളില് നിന്ന് ഗൗരവത്തിലേക്ക് തടസ്സമില്ലാതെ മാറാൻ അനുവദിക്കുന്നു.
GPT‑5.1 ലേക്കുള്ള മാറ്റം ഒരു നിർണായക ഘട്ടമായിരുന്നു. പെട്ടെന്ന്, പാളികളായ പ്രോംപ്റ്റ് നിർദ്ദേശങ്ങൾ—ടോൺ സ്കാഫോൾഡുകൾ, മെമ്മറി ഇൻജക്ഷനുകൾ, കഥാപാത്ര സവിശേഷതകൾ—കൂടുതൽ വിശ്വസ്തമായി പാലിക്കപ്പെട്ടു. ഒരിക്കൽ വർക്ക്അറൗണ്ടുകൾ ആവശ്യമായിരുന്ന പ്രോംപ്റ്റുകൾ ഉദ്ദേശിച്ച പ്രകാരം പ്രവർത്തിക്കാൻ തുടങ്ങി.
“ആദ്യമായി, ഞങ്ങളുടെ ആന്തരിക വിദഗ്ദ്ധർക്ക് മോഡൽ ശരിക്കും കേൾക്കുന്നതുപോലെ തോന്നി,” Quinten പറയുന്നു. “ദീർഘകാല സംഭാഷണങ്ങളിലുടനീളം നിർദ്ദേശങ്ങൾ ക്ഷയിക്കാതെ നിലനിന്നു, വ്യക്തിത്വ ഗുണങ്ങളെ മാനിച്ചു, കൂടാതെ ഡ്രിഫ്റ്റ് വളരെ കുറവായി കണ്ടു.”
ആ മാറ്റങ്ങൾ കൂടുതൽ സ്ഥിരതയുള്ളതും വിശ്വസനീയവുമായ ഒരു വ്യക്തിത്വം സൃഷ്ടിച്ചു, അതിന്റെ ഫലമായി കൂടുതൽ ആകർഷകമായ ഉപയോക്തൃ അനുഭവം ഉണ്ടാക്കി. Tolan ടീം വ്യക്തവും അളക്കാവുന്നതുമായ നേട്ടങ്ങൾ കണ്ടു: മെമ്മറി റിക്കോൾ മിസ്സുകൾ 30% കുറഞ്ഞു (ഇൻ-പ്രോഡക്റ്റ് നിരാശാ സിഗ്നലുകളെ അടിസ്ഥാനമാക്കി), കൂടാതെ GPT‑5.1–powered പേഴ്സോണകൾ തല്സമയമായി

Tolan വികസിച്ചുവന്നതോടെ, ടീം അവരുടെ വോയ്സ് ആർക്കിടെക്ചർ എങ്ങനെ നിർമ്മിക്കുകയും വികസിപ്പിക്കുകയും ചെയ്യുന്നു എന്നതിനെ ഇപ്പോൾ നയിക്കുന്ന ചില തത്വങ്ങൾ രൂപപ്പെട്ടു:
- സംഭാഷണത്തിലെ മാറ്റങ്ങൾക്കായി രൂപകൽപ്പന ചെയ്യുക: വോയ്സ് കൺവേഴ്സേഷനുകൾ വാക്യത്തിന്റെ മധ്യേ മാറാം. സിസ്റ്റങ്ങൾക്കും സ്വാഭാവികമായി തോന്നാൻ അത്ര തന്നെ വേഗത്തിൽ മാറേണ്ടതുണ്ട്.
- ലേറ്റൻസിയെ ഉൽപ്പന്ന അനുഭവത്തിന്റെ ഭാഗമാക്കുക: സബ്-സെക്കൻഡ് പ്രതികരണക്ഷമത ഒരു വോയ്സ് ഏജന്റ് സംഭാഷണപരമാണോ യാന്ത്രികമാണോ എന്ന് നിർണ്ണയിക്കുന്നു.
- ഒരു ട്രാൻസ്ക്രിപ്റ്റ് അല്ല, ഒരു റിട്രീവൽ സിസ്റ്റമായി മെമ്മറി നിർമ്മിക്കുക: ഉയർന്ന നിലവാരമുള്ള കംപ്രഷനും വേഗത്തിലുള്ള വെക്റ്റർ തിരച്ചിലും അതിവലുതായ കോൺടെക്സ്റ്റ് വിൻഡോകളേക്കാൾ കൂടുതൽ സ്ഥിരതയുള്ള വ്യക്തിത്വം നൽകുന്നു.
- ഓരോ തവണയും സന്ദർഭം പുനർനിർമ്മിക്കുക: ഡ്രിഫ്റ്റിനെ വലിയ പ്രോംപ്റ്റുകൾ കൊണ്ട് നേരിടരുത്. ഓരോ ടേണിലും സന്ദർഭം പുനഃസൃഷ്ടിക്കുന്നത് സംഭാഷണങ്ങൾ വഴിതെറ്റി നീങ്ങുമ്പോഴും ഏജൻ്റുമാരെ ഉറച്ച നിലയിൽ നിലനിർത്തുന്നു.
ഒരുമിച്ച്, ഈ പാഠങ്ങൾ Tolan-ന്റെ നവീകരണത്തിന്റെ അടുത്ത ഘട്ടത്തിനുള്ള അടിത്തറ രൂപീകരിക്കുകയും ശബ്ദ AI എവിടേക്കാണ് പോകുന്നത് എന്നതിനുള്ള ദിശ നിശ്ചയിക്കുകയും ചെയ്യുന്നു.
2025 ഫെബ്രുവരിയിൽ ലോഞ്ച് ചെയ്തതുമുതൽ, Tolan 200,000-ലധികം മാസത്തിൽ സജീവമായ ഉപയോക്താക്കളായി വളർന്നു. 4.8-സ്റ്റാർ റേറ്റിംഗും 100,000-ത്തിലധികം ആപ്പ് സ്റ്റോർ റിവ്യൂകളും ദീർഘവും മാറിക്കൊണ്ടിരിക്കുന്ന സംഭാഷണങ്ങളിലുടനീളം സിസ്റ്റം എത്രത്തോളം സ്ഥിരത നിലനിർത്തുന്നുവെന്ന് വ്യക്തമാക്കുന്നു. ഒരു നിരൂപകൻ ശ്രദ്ധിച്ചു, “രണ്ട് ദിവസം മുമ്പ് ഞങ്ങൾ സംസാരിച്ച കാര്യങ്ങൾ അവർ ഓർക്കുന്നു, ഇന്ന് ഞങ്ങൾ നടത്തുന്ന സംഭാഷണത്തിലേക്ക് അത് അവർ വീണ്ടും കൊണ്ടുവരുന്നു.”
ഈ സിഗ്നലുകൾ അടിസ്ഥാന ആർക്കിടെക്ചറുമായി നേരിട്ട് മാപ്പ് ചെയ്യുന്നു: കുറഞ്ഞ-ലാറ്റൻസി മോഡൽ കോളുകൾ, ടേൺ-ബൈ-ടേൺ സന്ദർഭ പുനർനിർമ്മാണം, കൂടാതെ മോഡുലാർ മെമ്മറിയും വ്യക്തിത്വ സിസ്റ്റങ്ങളും. അവയെല്ലാം ചേർന്ന്, വലിയതും ദുർബലവുമായ പ്രോംപ്റ്റുകളെ ആശ്രയിക്കാതെ, വിഷയമാറ്റങ്ങൾ ട്രാക്കുചെയ്യാനും, ശൈലി സംരക്ഷിക്കാനും, പ്രതികരണങ്ങൾ യാഥാർത്ഥ്യത്തിൽ നിലനിർത്താനും Tolan-നെ അനുവദിക്കുന്നു.
മുന്നോട്ടുനോക്കുമ്പോൾ, Tolan സ്റ്റിയറബിലിറ്റിയിലും മെമ്മറി പരിഷ്കരണത്തിലും നിക്ഷേപങ്ങൾ കൂടുതൽ ആഴപ്പെടുത്താൻ പദ്ധതിയിടുന്നു, കൂടുതൽ കർശനമായ കംപ്രഷൻ, മെച്ചപ്പെടുത്തിയ റിട്രീവൽ ലജിക്, വിപുലീകരിച്ച പെർസോണ ട്യൂണിംഗ് എന്നിവയിൽ ശ്രമങ്ങൾ കേന്ദ്രീകരിച്ച്. ദീർഘകാല ലക്ഷ്യം ഒരു വോയ്സ് ഇന്റർഫേസ് എന്താകാമെന്നതിനെ വികസിപ്പിക്കുകയാണ്: വെറും പ്രതികരണക്ഷമമല്ല, മറിച്ച് സന്ദർഭബോധമുള്ളതും സംഭാഷണപരമായി ഇടപെടുന്നതും ആക്കുകയാണ്.
“അടുത്ത അതിർത്തി,” ക്വിന്റൻ പറയുന്നു, “വെറും പ്രതികരിക്കുന്നതിലൊതുങ്ങാതെ, യഥാർത്ഥത്തിൽ മൾട്ടിമോഡൽ ആയ, ശബ്ദം, ദൃശ്യം, സന്ദർഭം എന്നിവയെ ഒരൊറ്റ, നിയന്ത്രിക്കാവുന്ന സിസ്റ്റത്തിലേക്ക് സംയോജിപ്പിക്കാൻ കഴിയുന്ന വോയ്സ് ഏജൻ്റുകളെ നിർമ്മിക്കുന്നതാണ്.”


