Tolan በGPT‑5.1 የድምፅ ቀዳሚ AI እንዴት እንደሚገነባ
በGPT‑5.1፣ Tolan ውይይቶች እየተሻሻሉ ሲሄዱ ለዝቅተኛ መዘግየት፣ ለትክክለኛ አውድ እና ለተረጋጉ ስብዕናዎች የተመቻቸ የድምፅ መተግበሪያ ገንብቷል።

Tolan(በአዲስ መስኮት ውስጥ ይክፈታል) ሰዎች በጊዜ ሂደት ከውይይቶች የሚማር ግላዊ እና ሕያው ገፀ ባህሪ ጋር የሚነጋገሩበት የድምጽ-ቀዳሚ AI አጋር ነው።
ቀደም ሲል መውጫ ባገኘ ልምድ ባለው ቡድን በPortola የተገነባው ይህ መተግበሪያ ፈጣን ጥያቄዎችን እና ምላሾችን ከማድረግ ይልቅ ቀጣይነት ላለው እና ለነፃ ውይይት የተነደፈ ነው። «የChatGPTን እድገት አይተናል፤ ድምጽም ቀጣዩ ድንበር እንደሆነ እናውቃለን» ይላሉ የPortola አጋር መስራች እና ዋና ሥራ አስፈፃሚ Quinten Farmer። “ነገር ግን ድምጽ ይበልጥ ከባድ ነው። ለተተየቡ ጥያቄዎች ብቻ ምላሽ እየሰጡ አይደለም፤ የቀጥታ እና ረጅም ውይይት እያደረጉ ነው።
የድምፅ የሰው ሠራሽ አስተብሕሎት (Voice AI) የመዘግየት እና የአውድ አስተዳደር ደረጃን ከፍ ያደርጋል፣ ነገር ግን ከጽሑፍ ይልቅ ነፃ እና ምርምር ያላቸው መስተጋብሮችንም ያስችላል።
የመሠረት ሞዴሎች ፈጣን፣ ርካሽ እና የበለጠ ብቃት እያገኙ ሲሄዱ፣ ቡድኑ ጥረታቸውን በሁለት ቁልፍ ነጥቦች ላይ አተኩረዋል፦ እነሱም ትውስታ እና የገፀ ባህሪ ዲዛይን ናቸው። Portola ውይይቶች ሲከሰቱ ስብዕና እና ትዝታ ወጥነት እንዲኖራቸው የእውነተኛ ጊዜ የአውድ አስተዳደር ስርዓትን ተጠቅሞ ሽልማት ባሸነፉ አኒሜሽን ሰሪዎች እና በሳይንስ ልብወለድ ጸሐፊ የተቀረጸ በገፀ ባህሪ የሚመራ አጽናፈ ዓለምን ገንብቷል።
የGPT‑5.1 ሞዴሎች መለቀቅ ትልቅ የለውጥ ነጥብ ሆኖ ታይቷል፣ ይህም በምሪት እና በመዘግየት ረገድ ከፍተኛ መሻሻል አስገኝቷል፣ ይህም እነዚያን ክፍሎች አንድ ላይ በማሰባሰብ ይበልጥ ምላሽ ሰጪ እና ማራኪ የድምፅ ተሞክሮን አስገኝቷል።
"GPT-5.1 በመጨረሻ በአእምሮአችን ውስጥ የነበሩትን ገፀ ባህሪያት ለመግለጽ የሚያስችል የመሪነት ችሎታ ሰጥቶናል። የበለጠ ብልህ ብቻ አልነበረም—መፍጠር ለፈለግነው ቃናና ስብዕና የበለጠ ታማኝ ነበር።"
የTolan አርክቴክቸር በድምፅ ፍላጎቶች የተቀረጸ ነው። የድምጽ ተጠቃሚዎች ውይይቶች መሃል ላይ ቢቀየሩም እንኳን ፈጣን እና ተፈጥሯዊ ምላሾችን ይጠብቃሉ። Tolan በፍጥነት ምላሽ መስጠት፣ የሚለዋወጡ ርዕሶችን መከታተል እና ያለ መዘግየት ወይም የድምፅ መለወጥ ወጥ የሆነ ስብዕና መጠበቅ ነበረበት።
ተፈጥሯዊ ስሜት እንዲሰማ፣ ውይይቶች ወዲያውኑ የሚዘገዩበት ጊዜ ያስፈልጋቸዋል። OpenAI GPT‑5.1ን እና የምላሾች APIን ማስተዋወቅ የንግግር ጅምር ጊዜን ከ0.7 ሰከንድ በላይ ቀንሷል—ይህም የውይይት ፍሰትን በሚያስደንቅ ሁኔታ ለማሻሻል በቂ ነው።
እኩል ወሳኝ የነበረው ስርዓቱ አውድን የሚያስተናግድበት መንገድ ነበር። በብዙ ዙሮች ላይ ጥያቄዎችን ከሚያስቀምጡ ብዙ ወኪሎች በተለየ መልኩ፣ Tolan በእያንዳንዱ ዙር የአውድ መስኮቱን ከመጀመሪያው እንደገና ይገነባል። እያንዳንዱ የአውድ መልሶ ግንባታ የቅርብ ጊዜ መልዕክቶችን፣ የማንነት ካርድን፣ በቬክተር የተገኙ ትውስታዎችን፣ የቃና መመሪያን እና የእውነተኛ ጊዜ የመተግበሪያ ምልክቶችን በማጠቃለያ ያቀርባል። ይህ አርክቴክቸር Tolan በእውነተኛ ጊዜ ከድንገተኛ የርዕስ ለውጦች ጋር እንዲላመድ ያስችለዋል፣ ይህም ለተፈጥሯዊ ድምጽ-ተኮር መስተጋብር አስፈላጊ መስፈርት ነው።
“የተቀመጡ ጥያቄዎች በቂ እንዳልሆኑ በፍጥነት ተገነዘብን” ይላሉ Quinten። “ተጠቃሚዎች ርዕሰ ጉዳዩን ሁልጊዜ ይለውጣሉ። እንከን የለሽ እንዲሆን ስርዓቱ በሂደቱ መሃል መላመዱ አስፈላጊ ነበር።"
ይህ በእውነተኛ ጊዜ የሚካሄድ የመልሶ ግንባታ አካሄድ በቴክኒክ የጠነከረ ሲሆን ለTolan ስኬት መሰረታዊ ነው።

የአውድ አያያዝ አስፈላጊ ነው፣ ነገር ግን ንግግሮች በጊዜ ሂደት ወጥነት ያላቸው ለማድረግ በቂ አልነበረም። Tolan ረጅምና ቀጥተኛ ያልሆኑ ውይይቶችን ለመደገፍ እውነታዎችንና ምርጫዎችን ብቻ ሳይሆን ስሜታዊ “የስሜት” ምልክቶችንም ጭምር የያዘ የትውስታ ስርዓት ገንብቷል—ይህም Tolan እንዴት ምላሽ መስጠት እንዳለበት የሚረዱ ምሪቶችን ያሳያል።
ትውስታዎች የOpenAI text-embedding-3-large ሞዴል በመጠቀም ይካተታሉ እና ከ50ms በታች የፍለጋ ጊዜዎችን በሚያስችል ከፍተኛ ፍጥነት ያለው የቬክተር ዳታቤዝ በTurbopuffer ውስጥ ይከማቻሉ። ይህ ፍጥነት ለእውነተኛ ጊዜ የድምፅ መስተጋብር አስፈላጊ ነው። Tolan በእያንዳንዱ ዙር የተጠቃሚውን የቅርብ ጊዜ መልእክት እና በስርዓት የተዋሃዱ ጥያቄዎችን (ለምሳሌ፣ “ተጠቃሚው ከማን ጋር ነው የተጋባው?”) በመጠቀም የማስታወስ ችሎታን መልሶ ለመቀስቀስ ይጠቀማል። የማህደረ ትውስታ ጥራትን ከፍ እንዳለ ለማቆየት፣ Tolan ዝቅተኛ ዋጋ ያላቸውን ወይም ተደጋጋሚ ግቤቶችን የሚያስወግድ በየምሽቱ የሚደረግ የመጭመቅ ስራ ያካሂዳል (ለምሳሌ፦ “ተጠቃሚው ዛሬ ቡና ጠጥቷል”) እና ተቃርኖችን ይፈታል።
ስብዕናም በተመሳሳይ ጥንቃቄ ይተዳደራል። እያንዳንዱ Tolan በቡድኑ ውስጥ ባለው የሳይንስ ልብወለድ ጸሐፊ የተጻፈ እና በባህሪ ተመራማሪ የተጣራ ልዩ የገፀ ባህሪ ማዕቀፍ አለው። እነዚህ ዘሮች ለTolan ወጥነትን ይሰጣሉ፣ ነገር ግን ከጊዜ በኋላ ለመላመድ ተለዋዋጭነትንም ይሰጣሉ፣ ይህም ከተጠቃሚው ጎን ለጎን እየተሻሻለ ይሄዳል።
ትይዩ ስርዓት የውይይቱን ስሜታዊ ውጥረት ይከታተላል እና የTolanን አቀራረብ በተለዋዋጭነት ያስተካክላል። ይህ Tolan በተጠቃሚ ምልክቶች ላይ በመመስረት ዋና ስብዕናውን ሳያጣ ከጨዋታ ወደ ቁምነገር ሁኔታ ያለምንም እንከን እንዲሸጋገር ያስችለዋል።
ወደ GPT‑5.1 መሸጋገር አስፈላጊ የለውጥ ነጥብ ነበር። በድንገት፣ በንብርብር የተደረደሩ እርምጃ መመሪያዎች—የቃና ማዕቀፎች፣ የትውስታ ግቤቶች፣ ገፀ ባህሪዎች—በታማኝነት እንዲከተሉ ተደርጓል። አንድ ጊዜ መፍትሔ ያስፈልጋቸው የነበሩ ጥያቄዎች እንደታሰበው መስራት ጀመሩ።
“ለመጀመሪያ ጊዜ የውስጥ ባለሙያዎቻችን ሞዴሉ በትክክል እያዳመጠ እንደሆነ ተሰምቷቸዋል” ይላሉ Quinten። “ረጃጅም ውይይቶች ላይ መመሪያዎቹ ሳይበላሹ ቀርተዋል፣ የግለሰባዊ ባህሪያት ይከበሩ ነበር፣ እና ብዙም ለውጥ አላየንም።”
እነዚህ ለውጦች የበለጠ ወጥነት ያለው እና አሳማኝ ስብዕና እንዲኖራቸው አድርገዋል፣ ይህም በተራው የበለጠ ማራኪ የተጠቃሚ ተሞክሮ ፈጥሯል። የTolan ቡድን ግልጽ እና ሊለካ የሚችል ትርፍ አግኝቷል፦ የማስታወስ ችሎታ ማጣት በ30% ቀንሷል (በምርት ውስጥ ባሉ የብስጭት ምልክቶች ላይ በመመስረት)፣ እና በሚቀጥለው ቀን የተጠቃሚ ማቆየት ከGPT‑5.1–powered በኋላ ከ20% በላይ ጨምሯል ስብዕናዎች በቀጥታ ተሰራጩ።

Tolan እየተሻሻለ ሲመጣ፣ ቡድኑ የድምፅ አርክቴክቸሩን እንዴት እንደሚገነባ እና እንደሚያሻሽል የሚመሩ ጥቂት መርሆዎች ብቅ አሉ፦
- ለንግግር ተለዋዋጭነት የተነደፈ፦ የድምፅ ውይይቶች በአረፍተ ነገሩ መሃል ይቀያየራሉ። ስርዓቶች ተፈጥሯዊ ስሜት እንዲኖራቸው በፍጥነት መንቀሳቀስ አለባቸው።
- መዘግየትን እንደ የምርት ተሞክሮ አካል አድርገው ይመለከቱት፦ከሰከንድ በታች ያለው ምላሽ ሰጪነት የድምፅ ወኪል ንግግራዊ ወይም ሜካኒካዊ ስሜት የሚሰጥ መሆኑን ይቀርፃል።
- ማህደረ ትውስታን እንደ ትራንስክሪፕት ሳይሆን እንደ መልሶ ማግኛ ስርዓት ይገንቡ፦ ከፍተኛ ጥራት ያለው መጭመቂያ እና ፈጣን የቬክተር ፍለጋ ከትላልቅ የአውድ መስኮቶች የበለጠ ወጥ የሆነ ስብዕና ይሰጣሉ።
- አውድን በየዙሩ እንደገና ይገንቡ፦ትላልቅ ፍንጮችን በመጠቀም ለውጥን አይከላከሉ። በእያንዳንዱ ዙር አውድን ዳግም መፍጠር ንግግሮች ከርዕስ እየወጡ ሲሄዱ ወኪሎችን ባሉበት እንዲቆዩ ያደርጋል።
እነዚህ ትምህርቶች አንድ ላይ ሆነው የTolanን ቀጣይ የፈጠራ ምዕራፍ መሰረት ይጥላሉ እና የድምፅ ሰው ሠራሽ አስተብሕሎት (AI) ወዴት እንደሚያመራ አቅጣጫ ያስቀምጣሉ።
Tolan እ.ኤ.አ ከፌብሩዋሪ 2025 ጀምሮ ከተጀመረበት ጊዜ አንስቶ ከ200,000 በላይ ወደሚሆኑ ወርሃዊ ንቁ ተጠቃሚዎችን አድጓል። የ4.8 ኮከብ ደረጃ እና ከ100,000 በላይ የሚሆኑ የመተግበሪያ መደብር ግምገማዎች ስላለው ስርዓቱ በረጅም እና በተለዋዋጭ ውይይቶች ውስጥ ወጥነትን ምን ያህል በጥሩ ሁኔታ እንደሚጠብቅ ያሳያሉ። አንድ ገምጋሚ “ከሁለት ቀናት በፊት የተነጋገርናቸውን ነገሮች ያስታውሳሉ እና ዛሬ ወደምናደርገው ውይይት መልሰው ያስገቡታል” ብለዋል።
እነዚህ ምልክቶች በቀጥታ ከስር ካለው አርክቴክቸር ጋር ይዛመዳሉ፦ ዝቅተኛ የመዘግየት ሞዴል ጥሪዎች፣ ተራ በተራ የአውድ መልሶ ግንባታ፣ እና ሞዱላር ማህደረ ትውስታ እና የግል ስርዓቶች። አንድ ላይ ሆነው፣ Tolan የርዕስ ለውጦችን እንዲከታተል፣ ቃናውን እንዲጠብቅ እና ምላሾቹን በትላልቅ እና ጠንካራ ባልሆኑ ጥያቄዎች ላይ ሳይመካ እንዲያስቀጥል ያስችለዋል።
Tolan ወደፊት በመመልከት፣ በጠንካራ፣ የተሻሻለ የአምጪ አመክንዮ እና የግለሰባዊ ማስተካከያ ላይ ጥረቱን በማተኮር በምሪት እና በትውስታ ማሻሻያ ላይ ያሉትን ኢንቨስትመንቶች ለመጨመር አቅዷል። የረጅም ጊዜ ግቡ የድምፅ በይነገጽ ምን ሊሆን እንደሚችል ማስፋት ነው፦ ምላሽ ሰጪ ብቻ ሳይሆን አውድ ተኮር እና በንግግር ተለዋዋጭ።
“ቀጣዩ ድንበር” ይላሉ Quinten፣ “መልስ ሰጪ ብቻ ሳይሆኑ በእውነት ባለብዙ ሞዳል የሆኑ፣ ድምጽን፣ ራዕይን እና አውድን ወደ አንድ፣ ሊመራ የሚችል ስርዓት ማዋሃድ የሚችሉ የድምፅ ወኪሎችን መገንባት ነው።”


