Tolan എങ്ങനെ GPT‑5.1 ഉപയോഗിച്ച് വോയ്സ്-ഫസ്റ്റ് AI നിർമ്മിക്കുന്നു

GPT‑5.1 ഉപയോഗിച്ച്, Tolan കുറഞ്ഞ ലേറ്റൻസി, കൃത്യമായ സന്ദർഭം, സംഭാഷണങ്ങൾ വികസിക്കുമ്പോൾ സ്ഥിരതയുള്ള വ്യക്തിത്വങ്ങൾ എന്നിവയ്ക്കായി ഒപ്റ്റിമൈസ് ചെയ്ത ഒരു ശബ്ദ ആപ്പ് നിർമ്മിച്ചു.

ലോഡിംഗ്…

Tolan⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നത് voice-first AI കൂട്ടാളിയാണ്, ആളുകൾ വ്യക്തിഗത, ആനിമേറ്റഡ് കഥാപാത്രവുമായി സംസാരിക്കുകയും അത് സമയം കഴിയുന്തോറും സംഭാഷണങ്ങളിൽ നിന്ന് പഠിക്കുകയും ചെയ്യുന്നു.

മുമ്പ് ഒരു എക്സിറ്റ് നേടിയ പരിചയസമ്പന്നമായ Portola ടീമിന്റെ നിർമ്മിതമായ ഈ ആപ്പ്, വേഗത്തിലുള്ള പ്രോംപ്റ്റുകളും മറുപടികളുംക്കാൾ തുടർച്ചയായ, തുറന്ന അറ്റമുള്ള സംഭാഷണത്തിനായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു. “ഞങ്ങൾ ChatGPT‑യുടെ ഉയർച്ച കണ്ടു, ശബ്ദം അടുത്ത അതിർത്തിയാണെന്ന് അറിഞ്ഞു,” Portola-യുടെ സഹസ്ഥാപകനും CEOയുമായ Quinten Farmer പറയുന്നു “പക്ഷേ ശബ്ദം കൂടുതൽ പ്രയാസകരമാണ്. "നിങ്ങൾ ടൈപ്പ് ചെയ്ത പ്രോംപ്റ്റുകൾക്ക് മാത്രം പ്രതികരിക്കുന്നില്ല; നിങ്ങൾ ഒരു തത്സമയ, വഴിതിരിഞ്ഞൊഴുകുന്ന സംഭാഷണം നടത്തുകയാണ്.”

Voice AI ലേറ്റൻസിയും സന്ദർഭ മാനേജ്മെന്റും മെച്ചപ്പെടുത്തുന്നു, എന്നാൽ ഇത് ടെക്സ്റ്റിനേക്കാൾ കൂടുതൽ തുറന്നതും അന്വേഷണാത്മകവുമായ ഇടപെടലുകൾക്ക് അവസരം നൽകുന്നു.

അടിസ്ഥാന മോഡലുകൾ വേഗതയേറിയതും, വിലകുറഞ്ഞതും, കൂടുതൽ കഴിവുള്ളതുമായതോടെ, ടീം അവരുടെ ശ്രമങ്ങൾ രണ്ട് പ്രധാന ഘടകങ്ങളിലേക്കാണ് കേന്ദ്രീകരിച്ചത്: മെമ്മറിയും കഥാപാത്ര രൂപകൽപ്പനയും. സംഭാഷണങ്ങൾ പുരോഗമിക്കുമ്പോൾ വ്യക്തിത്വവും മെമ്മറിയും സ്ഥിരതയോടെ നിലനിർത്താൻ തത്സമയ സന്ദർഭ മാനേജ്മെന്റ് സിസ്റ്റം ഉപയോഗിച്ച്, അവാർഡ് നേടിയ അനിമേറ്റർമാരും ഒരു സയൻസ് ഫിക്ഷൻ എഴുത്തുകാരനും രൂപപ്പെടുത്തിയ, കഥാപാത്രം-കേന്ദ്രിതമായ ഒരു ബ്രഹ്മാണ്ഡം Portola നിർമ്മിച്ചു.

GPT‑5.1 മോഡലുകളുടെ റിലീസ് ഒരു വഴിത്തിരിവായി മാറി, സ്റ്റിയറബിലിറ്റിയിലും ലേറ്റൻസിയിലും വലിയ നേട്ടങ്ങൾ കൈവരിച്ച്, ആ ഘടകങ്ങളെ ഒന്നിച്ചുകൂട്ടി, കൂടുതൽ പ്രതികരണശേഷിയുള്ളതും ആകർഷകവുമായ വോയ്സ് അനുഭവം തുറന്നുകൊടുത്തു.

“GPT-5.1 ഞങ്ങൾക്ക് ആവശ്യമായ നിയന്ത്രണക്ഷമത നൽകി, ഒടുവിൽ ഞങ്ങൾ മനസ്സിൽ കണ്ടിരുന്ന കഥാപാത്രങ്ങളെ പ്രകടിപ്പിക്കാൻ കഴിവുണ്ടായി. അത് കൂടുതൽ മികച്ചതായിരുന്നില്ല - നമ്മൾ സൃഷ്ടിക്കാൻ ആഗ്രഹിച്ച സ്വരത്തിനും വ്യക്തിത്വത്തിനോടും അത് കൂടുതൽ വിശ്വസസ്തത പുലര്‍ത്തുന്നു. ”

—ക്വിന്റൻ ഫാർമർ, CEO, പോർട്ടോള

സ്വാഭാവിക ശബ്ദ ഇടപെടലുകൾക്കായി രൂപകൽപ്പന ചെയ്യൽ

ടോളന്റെ ആർക്കിടെക്ചർ ശബ്ദത്തിന്റെ ആവശ്യങ്ങളാൽ രൂപം കൊണ്ടിരിക്കുന്നു. ശബ്ദ ഉപയോക്താക്കൾ സംഭാഷണങ്ങൾ നടുവിൽ വഴിമാറിയാലും ഉടനടി, സ്വാഭാവികമായ പ്രതികരണങ്ങൾ പ്രതീക്ഷിക്കുന്നു. ടോളന് വേഗത്തിൽ പ്രതികരിക്കേണ്ടതുണ്ട്, മാറുന്ന വിഷയങ്ങളെ പിന്തുടരുകയും, ലാഗ് അല്ലെങ്കിൽ ടോൺ ഡ്രിഫ്റ്റ് ഇല്ലാതെ സ്ഥിരതയുള്ള വ്യക്തിത്വം നിലനിർത്തുകയും വേണം.

സ്വാഭാവികമായി തോന്നാൻ, സംഭാഷണങ്ങൾക്ക് തൽക്ഷണ ലേറ്റൻസി ആവശ്യമാണ്. OpenAI GPT‑5.1‑നെ അവതരിപ്പിക്കുന്നു. Responses API പ്രസംഗം ആരംഭിക്കുന്ന സമയം 0.7 സെക്കൻഡിൽ കൂടുതൽ കുറയ്ക്കുന്നു—സംഭാഷണ പ്രവാഹം ശ്രദ്ധനീയമായി മെച്ചപ്പെടുത്താൻ മതിയാകുന്നത്ര.

സന്ദർഭം എങ്ങനെ കൈകാര്യം ചെയ്യപ്പെടുന്നു എന്നത് സമാനമായി നിർണായകമായിരുന്നു. പല ഏജൻ്റുകൾ പല ടേണുകളിലായി പ്രോംപ്റ്റുകൾ കാഷ് ചെയ്യുന്നതിന് വിപരീതമായി, ടോളൻ ഓരോ ടേണിലും അതിന്റെ കോൺടെക്സ്റ്റ് വിൻഡോ പുനർനിർമ്മിക്കുന്നു. ഓരോ സന്ദർഭ പുനർനിർമ്മാണവും അടുത്തകാലത്തെ സന്ദേശങ്ങളുടെ ഒരു സംഗ്രഹം, ഒരു വ്യക്തിത്വ കാർഡ്, വെക്റ്റർ-മറുപിടിച്ച ഓർമ്മകൾ, ശൈലി മാർഗ്ഗനിർദ്ദേശം, തത്സമയ ആപ്പ് സിഗ്നലുകൾ എന്നിവ ഉൾക്കൊള്ളുന്നു. ഈ ആർക്കിടെക്ചർ Tolan-ന് പെട്ടെന്നുള്ള വിഷയമാറ്റങ്ങളോട് തത്സമയത്തിൽ അനുയോജ്യമായി പ്രതികരിക്കാൻ അനുവദിക്കുന്നു, സ്വാഭാവിക ശബ്‌ദ-അടിസ്ഥാനത്തിലുള്ള ഇടപെടലിന് അനിവാര്യമായ ഒരു ആവശ്യകത.

“കാഷ് ചെയ്ത പ്രോംപ്റ്റുകൾ മതിയാകില്ലെന്ന് ഞങ്ങൾ വേഗത്തിൽ മനസ്സിലാക്കി,” ക്വിന്റൻ പറയുന്നു. “ഉപയോക്താക്കൾ എല്ലായ്പ്പോഴും വിഷയങ്ങൾ മാറ്റുന്നു. തടസ്സമില്ലാത്ത അനുഭവം നൽകാൻ, സിസ്റ്റം ഇടയ്ക്കിടെ അതിനോട് പൊരുത്തപ്പെടേണ്ടി വന്നു."

ഈ തത്സമയ പുനർനിർമ്മാണ സമീപനം സാങ്കേതികമായി ഏറെ സങ്കീർണ്ണവും Tolan-ന്റെ വിജയത്തിന് അടിസ്ഥാനവുമാണ്.

ടോളന്റെ സംഭാഷണ ലൂപ്പ് കാണിക്കുന്ന ഫ്ലോ ഡയഗ്രാം. ഒരു “Recompute persona” ഘട്ടം നാല് ഇൻപുട്ടുകൾ നൽകുന്നു: ചാറ്റ് സംഗ്രഹവും അടുത്തകാലത്തെ അസംസ്കൃത സന്ദേശങ്ങളും, ഉപയോക്താവിന്റെയും Tolan-ന്റെയും പെർസോണകളും മറ്റ് സന്ദർഭവും, മെമ്മറിയും ടോണും. ഈ ഇൻപുട്ടുകൾ ചേർന്ന് ഒരു Tolan പ്രതികരണം സൃഷ്ടിക്കുന്നു, അത് ഉപയോക്താവിന്റെ പ്രതികരണത്തിലേക്ക് നയിക്കുന്നു. ഉപയോക്താവിന്റെ പ്രതികരണം തുടർന്ന് രണ്ട് സമാന്തര പ്രക്രിയകളെ നയിക്കുന്നു: പുതുക്കിയ ടോൺ നിർണ്ണയിക്കുകയും ഓർമ്മകൾ വേർതിരിച്ചെടുക്കുകയും ചെയ്യുന്നു. എക്സ്ട്രാക്റ്റ് ചെയ്ത ഓർമ്മകൾ സ്വയം പുതുക്കുന്നു, പുതുക്കിയ ടോൺ ടോണിലേക്ക് തിരിച്ചും ഫീഡ് ചെയ്യുന്നു, കൂടാതെ സംഭാഷണ ചരിത്രം ഇടയ്ക്കിടെ വീണ്ടും സംഗ്രഹിച്ച് കംപ്രസ് ചെയ്യപ്പെടുന്നു, അടുത്ത ടേണിനായി ചാറ്റ് സംഗ്രഹത്തിലേക്ക് ലൂപ്പ് ചെയ്ത് മടങ്ങുന്നു.

കാലക്രമേണ ഒരുമിച്ച് നിലനിൽക്കുന്ന മെമ്മറിയും വ്യക്തിത്വവും സൃഷ്ടിക്കുക

സന്ദർഭ കൈകാര്യം ചെയ്യൽ പ്രധാനമാണ്, പക്ഷേ അത് കാലക്രമേണ സംഭാഷണങ്ങൾ ഏകോപിതമായി തോന്നാൻ മതിയായിരുന്നില്ല. ദീർഘവും നേരേ അല്ലാത്തതും ആയ സംഭാഷണങ്ങൾക്ക് പിന്തുണ നൽകുന്നതിനായി, Tolan വസ്തുതകളും മുൻഗണനകളും മാത്രമല്ല, വൈകാരിക “വൈബ്” സിഗ്നലുകളും—ഒരു Tolan എങ്ങനെ പ്രതികരിക്കണം എന്നതിനെ നയിക്കാൻ സഹായിക്കുന്ന സൂചനകളും—സൂക്ഷിക്കുന്ന ഒരു മെമ്മറി സിസ്റ്റം നിർമ്മിച്ചു.

OpenAI text-embedding-3-large മോഡൽ ഉപയോഗിച്ച് മെമ്മറികൾ എംബെഡ് ചെയ്ത് sub-50ms ലുക്കപ്പ് സമയങ്ങൾ സാധ്യമാക്കുന്ന ഉയർന്ന വേഗതയുള്ള വെക്റ്റർ ഡാറ്റാബേസായ Turbopuffer-ൽ സംഭരിക്കുന്നു. തത്സമയ ശബ്ദ ഇടപെടലുകൾക്ക് ഈ വേഗത അത്യാവശ്യമാണ്. ഓരോ ടേണിലും, Tolan ഉപയോക്താവിന്റെ ഏറ്റവും പുതിയ സന്ദേശവും സിസ്റ്റം-സമന്വയിപ്പിച്ച ചോദ്യങ്ങളും (ഉദാ., “ഉപയോക്താവ് ആരെയാണ് വിവാഹം കഴിച്ചത്?”) ഉപയോഗിച്ച് ഓര്‍മകളെ തിരിച്ചെടുക്കാന്‍ പ്രേരിപ്പിക്കുന്നു. മെമ്മറി ഗുണനിലവാരം ഉയർന്ന നിലയിൽ നിലനിർത്താൻ, Tolan കുറഞ്ഞ മൂല്യമോ ആവർത്തനമായ എൻട്രികളോ നീക്കം ചെയ്യുന്ന ഒരു രാത്രികാല കംപ്രഷൻ ജോബ് നടത്തുന്നു (ഉദാ. “ഉപയോക്താവ് ഇന്ന് കാപ്പി കുടിച്ചു”) എന്നതും വൈരുദ്ധ്യങ്ങൾ പരിഹരിക്കുന്നു.

വ്യക്തിത്വം സമാനമായി ശ്രദ്ധാപൂർവ്വം നിയന്ത്രിക്കപ്പെടുന്നു. ഓരോ Tolan-നും ടീമിന്റെ ഇൻ-ഹൗസ് സയൻസ് ഫിക്ഷൻ എഴുത്തുകാരൻ രചിച്ച്, ഒരു പെരുമാറ്റ ഗവേഷകൻ പരിഷ്കരിച്ച വ്യത്യസ്തമായ ഒരു കഥാപാത്ര സ്കാഫോൾഡിനെ അടിസ്ഥാനം ആയി ഉപയോഗിക്കുന്നു. ഈ അടിസ്ഥാനം Tolans-ന് സ്ഥിരത നൽകുന്നു, എന്നാൽ ഉപയോക്താവിനൊപ്പം പരിണമിച്ച്, സമയത്തിനൊപ്പം പൊരുത്തപ്പെടാനുള്ള വഴക്കവും നൽകുന്നു.

ഒരു സമാന്തര സംവിധാനം സംഭാഷണത്തിന്റെ വൈകാരിക സ്വരഭാവം നിരീക്ഷിക്കുകയും ഡൈനാമിക്കായി ടോളന്റെ ഡെലിവറി ക്രമീകരിക്കുകയും ചെയ്യുന്നു. ഇത് ഒരു Tolan-ന് ഉപയോക്തൃ സൂചനകളനുസരിച്ച് അതിന്റെ മുഖ്യ വ്യക്തിത്വം നഷ്ടപ്പെടാതെ തമാശകളില്‍ നിന്ന് ഗൗരവത്തിലേക്ക് തടസ്സമില്ലാതെ മാറാൻ അനുവദിക്കുന്നു.

GPT‑5.1 ലേക്കുള്ള മാറ്റം ഒരു നിർണായക ഘട്ടമായിരുന്നു. പെട്ടെന്ന്, പാളികളായ പ്രോംപ്റ്റ് നിർദ്ദേശങ്ങൾ—ടോൺ സ്കാഫോൾഡുകൾ, മെമ്മറി ഇൻജക്ഷനുകൾ, കഥാപാത്ര സവിശേഷതകൾ—കൂടുതൽ വിശ്വസ്തമായി പാലിക്കപ്പെട്ടു. ഒരിക്കൽ വർക്ക്അറൗണ്ടുകൾ ആവശ്യമായിരുന്ന പ്രോംപ്റ്റുകൾ ഉദ്ദേശിച്ച പ്രകാരം പ്രവർത്തിക്കാൻ തുടങ്ങി.

“ആദ്യമായി, ഞങ്ങളുടെ ആന്തരിക വിദഗ്ദ്ധർക്ക് മോഡൽ ശരിക്കും കേൾക്കുന്നതുപോലെ തോന്നി,” Quinten പറയുന്നു. “ദീർഘകാല സംഭാഷണങ്ങളിലുടനീളം നിർദ്ദേശങ്ങൾ ക്ഷയിക്കാതെ നിലനിന്നു, വ്യക്തിത്വ ഗുണങ്ങളെ മാനിച്ചു, കൂടാതെ ഡ്രിഫ്റ്റ് വളരെ കുറവായി കണ്ടു.”

ആ മാറ്റങ്ങൾ കൂടുതൽ സ്ഥിരതയുള്ളതും വിശ്വസനീയവുമായ ഒരു വ്യക്തിത്വം സൃഷ്ടിച്ചു, അതിന്റെ ഫലമായി കൂടുതൽ ആകർഷകമായ ഉപയോക്തൃ അനുഭവം ഉണ്ടാക്കി. Tolan ടീം വ്യക്തവും അളക്കാവുന്നതുമായ നേട്ടങ്ങൾ കണ്ടു: മെമ്മറി റിക്കോൾ മിസ്സുകൾ 30% കുറഞ്ഞു (ഇൻ-പ്രോഡക്റ്റ് നിരാശാ സിഗ്നലുകളെ അടിസ്ഥാനമാക്കി), കൂടാതെ GPT‑5.1–powered പേഴ്സോണകൾ തല്‍സമയമായി

Tolan സംഭാഷണത്തിനിടെ എങ്ങനെ ഓർമ്മകൾ വീണ്ടെടുക്കുകയും മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു എന്നത് ചിത്രീകരിക്കുന്ന ഫ്ലോ ഡയഗ്രാം. ഒരു ഉപയോക്താവിന്റെ സന്ദേശം (“I’m so excited for my trip this weekend”) വരാനിരിക്കുന്ന യാത്രകൾ, ഒരു പ്രത്യേക ആഴ്ചയ്ക്കുള്ള പദ്ധതികൾ, ഉപയോക്തൃ മുൻഗണനകൾ എന്നിവയെക്കുറിച്ചുള്ള ഫോളോ-അപ്പ് ചോദ്യങ്ങൾ സംശ്ലേഷണം ചെയ്യുന്ന ഒരു ഘട്ടം ഉണർത്തുന്നു. ഈ ചോദ്യങ്ങൾ സംയോജിപ്പിച്ച് ഒരു മെമ്മറി വെക്റ്റർ ഡാറ്റാബേസ് ക്വറി ചെയ്യാൻ ഉപയോഗിക്കുന്നു, ഫലങ്ങൾ ശരാശരി പ്രത്യയനിർവർത്തന റാങ്ക് ഉപയോഗിച്ച് ലയിപ്പിക്കുന്നു. വീണ്ടെടുത്ത സന്ദർഭം Tolan-ന്റെ പ്രതികരണത്തെ അറിയിക്കുന്നു (“Steven-നൊപ്പം Yosemite-ൽ ക്യാമ്പിംഗ്”). ഐസ്‌ലാൻഡിലേക്കുള്ള ഭാവിയിലെ ഒരു യാത്രയെക്കുറിച്ചുള്ള ഉപയോക്തൃ സന്ദേശം പിന്നീട് ഒരു പുതിയ ഓർമ്മയായി സംഭരിക്കപ്പെടുന്നു, തുടർന്ന് അതിനെക്കുറിച്ച് ആലോചിക്കുകയും, embedding-based k-nearest neighbors ഉപയോഗിച്ച് ബന്ധപ്പെട്ട ഓർമ്മകളുമായി കൂട്ടിച്ചേർക്കുകയും, ഓരോ കൂട്ടത്തിനുള്ളിലെ ഓർമ്മകളെ സംയോജിപ്പിച്ച്, തിരുത്തി, മെരുക്കി ചുരുക്കുകയും ചെയ്യുന്നു.

സ്വാഭാവിക ശബ്ദ ഏജൻ്റുകൾ നിർമ്മിക്കുന്നതിനുള്ള Tolan ന്റെ അടിസ്ഥാന തത്വങ്ങൾ

Tolan വികസിച്ചുവന്നതോടെ, ടീം അവരുടെ വോയ്സ് ആർക്കിടെക്ചർ എങ്ങനെ നിർമ്മിക്കുകയും വികസിപ്പിക്കുകയും ചെയ്യുന്നു എന്നതിനെ ഇപ്പോൾ നയിക്കുന്ന ചില തത്വങ്ങൾ രൂപപ്പെട്ടു:

സംഭാഷണത്തിലെ മാറ്റങ്ങൾക്കായി രൂപകൽപ്പന ചെയ്യുക: വോയ്സ് കൺവേഴ്സേഷനുകൾ വാക്യത്തിന്റെ മധ്യേ മാറാം. സിസ്റ്റങ്ങൾക്കും സ്വാഭാവികമായി തോന്നാൻ അത്ര തന്നെ വേഗത്തിൽ മാറേണ്ടതുണ്ട്.
ലേറ്റൻസിയെ ഉൽപ്പന്ന അനുഭവത്തിന്റെ ഭാഗമാക്കുക: സബ്-സെക്കൻഡ് പ്രതികരണക്ഷമത ഒരു വോയ്‌സ് ഏജന്റ് സംഭാഷണപരമാണോ യാന്ത്രികമാണോ എന്ന് നിർണ്ണയിക്കുന്നു.
ഒരു ട്രാൻസ്ക്രിപ്റ്റ് അല്ല, ഒരു റിട്രീവൽ സിസ്റ്റമായി മെമ്മറി നിർമ്മിക്കുക: ഉയർന്ന നിലവാരമുള്ള കംപ്രഷനും വേഗത്തിലുള്ള വെക്റ്റർ തിരച്ചിലും അതിവലുതായ കോൺടെക്സ്റ്റ് വിൻഡോകളേക്കാൾ കൂടുതൽ സ്ഥിരതയുള്ള വ്യക്തിത്വം നൽകുന്നു.
ഓരോ തവണയും സന്ദർഭം പുനർനിർമ്മിക്കുക: ഡ്രിഫ്റ്റിനെ വലിയ പ്രോംപ്റ്റുകൾ കൊണ്ട് നേരിടരുത്. ഓരോ ടേണിലും സന്ദർഭം പുനഃസൃഷ്ടിക്കുന്നത് സംഭാഷണങ്ങൾ വഴിതെറ്റി നീങ്ങുമ്പോഴും ഏജൻ്റുമാരെ ഉറച്ച നിലയിൽ നിലനിർത്തുന്നു.

ഒരുമിച്ച്, ഈ പാഠങ്ങൾ Tolan-ന്റെ നവീകരണത്തിന്റെ അടുത്ത ഘട്ടത്തിനുള്ള അടിത്തറ രൂപീകരിക്കുകയും ശബ്ദ AI എവിടേക്കാണ് പോകുന്നത് എന്നതിനുള്ള ദിശ നിശ്ചയിക്കുകയും ചെയ്യുന്നു.

വോയ്‌സ് AI ഉപയോഗിച്ച് സാധ്യതകൾ വിപുലീകരിക്കുന്നു

2025 ഫെബ്രുവരിയിൽ ലോഞ്ച് ചെയ്തതുമുതൽ, Tolan 200,000-ലധികം മാസത്തിൽ സജീവമായ ഉപയോക്താക്കളായി വളർന്നു. 4.8-സ്റ്റാർ റേറ്റിംഗും 100,000-ത്തിലധികം ആപ്പ് സ്റ്റോർ റിവ്യൂകളും ദീർഘവും മാറിക്കൊണ്ടിരിക്കുന്ന സംഭാഷണങ്ങളിലുടനീളം സിസ്റ്റം എത്രത്തോളം സ്ഥിരത നിലനിർത്തുന്നുവെന്ന് വ്യക്തമാക്കുന്നു. ഒരു നിരൂപകൻ ശ്രദ്ധിച്ചു, “രണ്ട് ദിവസം മുമ്പ് ഞങ്ങൾ സംസാരിച്ച കാര്യങ്ങൾ അവർ ഓർക്കുന്നു, ഇന്ന് ഞങ്ങൾ നടത്തുന്ന സംഭാഷണത്തിലേക്ക് അത് അവർ വീണ്ടും കൊണ്ടുവരുന്നു.”

ഈ സിഗ്നലുകൾ അടിസ്ഥാന ആർക്കിടെക്ചറുമായി നേരിട്ട് മാപ്പ് ചെയ്യുന്നു: കുറഞ്ഞ-ലാറ്റൻസി മോഡൽ കോളുകൾ, ടേൺ-ബൈ-ടേൺ സന്ദർഭ പുനർനിർമ്മാണം, കൂടാതെ മോഡുലാർ മെമ്മറിയും വ്യക്തിത്വ സിസ്റ്റങ്ങളും. അവയെല്ലാം ചേർന്ന്, വലിയതും ദുർബലവുമായ പ്രോംപ്റ്റുകളെ ആശ്രയിക്കാതെ, വിഷയമാറ്റങ്ങൾ ട്രാക്കുചെയ്യാനും, ശൈലി സംരക്ഷിക്കാനും, പ്രതികരണങ്ങൾ യാഥാർത്ഥ്യത്തിൽ നിലനിർത്താനും Tolan-നെ അനുവദിക്കുന്നു.

മുന്നോട്ടുനോക്കുമ്പോൾ, Tolan സ്റ്റിയറബിലിറ്റിയിലും മെമ്മറി പരിഷ്കരണത്തിലും നിക്ഷേപങ്ങൾ കൂടുതൽ ആഴപ്പെടുത്താൻ പദ്ധതിയിടുന്നു, കൂടുതൽ കർശനമായ കംപ്രഷൻ, മെച്ചപ്പെടുത്തിയ റിട്രീവൽ ലജിക്, വിപുലീകരിച്ച പെർസോണ ട്യൂണിംഗ് എന്നിവയിൽ ശ്രമങ്ങൾ കേന്ദ്രീകരിച്ച്. ദീർഘകാല ലക്ഷ്യം ഒരു വോയ്സ് ഇന്റർഫേസ് എന്താകാമെന്നതിനെ വികസിപ്പിക്കുകയാണ്: വെറും പ്രതികരണക്ഷമമല്ല, മറിച്ച് സന്ദർഭബോധമുള്ളതും സംഭാഷണപരമായി ഇടപെടുന്നതും ആക്കുകയാണ്.

“അടുത്ത അതിർത്തി,” ക്വിന്റൻ പറയുന്നു, “വെറും പ്രതികരിക്കുന്നതിലൊതുങ്ങാതെ, യഥാർത്ഥത്തിൽ മൾട്ടിമോഡൽ ആയ, ശബ്ദം, ദൃശ്യം, സന്ദർഭം എന്നിവയെ ഒരൊറ്റ, നിയന്ത്രിക്കാവുന്ന സിസ്റ്റത്തിലേക്ക് സംയോജിപ്പിക്കാൻ കഴിയുന്ന വോയ്‌സ് ഏജൻ്റുകളെ നിർമ്മിക്കുന്നതാണ്.”

വായന തുടരുക

എല്ലാം കാണുക

GPT-5.5-ലൂടെ ഓപ്പൺ സോഴ്സ് വികസിപ്പിക്കാൻ Warp-ന്റെ ചുവടുവെപ്പ്

സ്റ്റാർട്ടപ്പ്2026 മേയ് 27

Parloa builds service agents customers want to talk to

സ്റ്റാർട്ടപ്പ്2026 മേയ് 7

Gradient Labs gives every bank customer an AI account manager

സ്റ്റാർട്ടപ്പ്2026 ഏപ്രിൽ 1