Tolan በGPT‑5.1 የድምፅ ቀዳሚ AI እንዴት እንደሚገነባ

በGPT‑5.1፣ Tolan ውይይቶች እየተሻሻሉ ሲሄዱ ለዝቅተኛ መዘግየት፣ ለትክክለኛ አውድ እና ለተረጋጉ ስብዕናዎች የተመቻቸ የድምፅ መተግበሪያ ገንብቷል።

በመጫን ላይ…

Tolan⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ሰዎች በጊዜ ሂደት ከውይይቶች የሚማር ግላዊ እና ሕያው ገፀ ባህሪ ጋር የሚነጋገሩበት የድምጽ-ቀዳሚ AI አጋር ነው።

ቀደም ሲል መውጫ ባገኘ ልምድ ባለው ቡድን በPortola የተገነባው ይህ መተግበሪያ ፈጣን ጥያቄዎችን እና ምላሾችን ከማድረግ ይልቅ ቀጣይነት ላለው እና ለነፃ ውይይት የተነደፈ ነው። «የChatGPTን እድገት አይተናል፤ ድምጽም ቀጣዩ ድንበር እንደሆነ እናውቃለን» ይላሉ የPortola አጋር መስራች እና ዋና ሥራ አስፈፃሚ Quinten Farmer። “ነገር ግን ድምጽ ይበልጥ ከባድ ነው። ለተተየቡ ጥያቄዎች ብቻ ምላሽ እየሰጡ አይደለም፤ የቀጥታ እና ረጅም ውይይት እያደረጉ ነው።

የድምፅ የሰው ሠራሽ አስተብሕሎት (Voice AI) የመዘግየት እና የአውድ አስተዳደር ደረጃን ከፍ ያደርጋል፣ ነገር ግን ከጽሑፍ ይልቅ ነፃ እና ምርምር ያላቸው መስተጋብሮችንም ያስችላል።

የመሠረት ሞዴሎች ፈጣን፣ ርካሽ እና የበለጠ ብቃት እያገኙ ሲሄዱ፣ ቡድኑ ጥረታቸውን በሁለት ቁልፍ ነጥቦች ላይ አተኩረዋል፦ እነሱም ትውስታ እና የገፀ ባህሪ ዲዛይን ናቸው። Portola ውይይቶች ሲከሰቱ ስብዕና እና ትዝታ ወጥነት እንዲኖራቸው የእውነተኛ ጊዜ የአውድ አስተዳደር ስርዓትን ተጠቅሞ ሽልማት ባሸነፉ አኒሜሽን ሰሪዎች እና በሳይንስ ልብወለድ ጸሐፊ የተቀረጸ በገፀ ባህሪ የሚመራ አጽናፈ ዓለምን ገንብቷል።

የGPT‑5.1 ሞዴሎች መለቀቅ ትልቅ የለውጥ ነጥብ ሆኖ ታይቷል፣ ይህም በምሪት እና በመዘግየት ረገድ ከፍተኛ መሻሻል አስገኝቷል፣ ይህም እነዚያን ክፍሎች አንድ ላይ በማሰባሰብ ይበልጥ ምላሽ ሰጪ እና ማራኪ የድምፅ ተሞክሮን አስገኝቷል።

"GPT-5.1 በመጨረሻ በአእምሮአችን ውስጥ የነበሩትን ገፀ ባህሪያት ለመግለጽ የሚያስችል የመሪነት ችሎታ ሰጥቶናል። የበለጠ ብልህ ብቻ አልነበረም—መፍጠር ለፈለግነው ቃናና ስብዕና የበለጠ ታማኝ ነበር።"

—Quinten Farmer፣ ዋና ሥራ አስፈፃሚ፣ Portola

ለተፈጥሮ የድምፅ መስተጋብር ዲዛይን ማድረግ

የTolan አርክቴክቸር በድምፅ ፍላጎቶች የተቀረጸ ነው። የድምጽ ተጠቃሚዎች ውይይቶች መሃል ላይ ቢቀየሩም እንኳን ፈጣን እና ተፈጥሯዊ ምላሾችን ይጠብቃሉ። Tolan በፍጥነት ምላሽ መስጠት፣ የሚለዋወጡ ርዕሶችን መከታተል እና ያለ መዘግየት ወይም የድምፅ መለወጥ ወጥ የሆነ ስብዕና መጠበቅ ነበረበት።

ተፈጥሯዊ ስሜት እንዲሰማ፣ ውይይቶች ወዲያውኑ የሚዘገዩበት ጊዜ ያስፈልጋቸዋል። OpenAI GPT‑5.1ን እና የምላሾች APIን ማስተዋወቅ የንግግር ጅምር ጊዜን ከ0.7 ሰከንድ በላይ ቀንሷል—ይህም የውይይት ፍሰትን በሚያስደንቅ ሁኔታ ለማሻሻል በቂ ነው።

እኩል ወሳኝ የነበረው ስርዓቱ አውድን የሚያስተናግድበት መንገድ ነበር። በብዙ ዙሮች ላይ ጥያቄዎችን ከሚያስቀምጡ ብዙ ወኪሎች በተለየ መልኩ፣ Tolan በእያንዳንዱ ዙር የአውድ መስኮቱን ከመጀመሪያው እንደገና ይገነባል። እያንዳንዱ የአውድ መልሶ ግንባታ የቅርብ ጊዜ መልዕክቶችን፣ የማንነት ካርድን፣ በቬክተር የተገኙ ትውስታዎችን፣ የቃና መመሪያን እና የእውነተኛ ጊዜ የመተግበሪያ ምልክቶችን በማጠቃለያ ያቀርባል። ይህ አርክቴክቸር Tolan በእውነተኛ ጊዜ ከድንገተኛ የርዕስ ለውጦች ጋር እንዲላመድ ያስችለዋል፣ ይህም ለተፈጥሯዊ ድምጽ-ተኮር መስተጋብር አስፈላጊ መስፈርት ነው።

“የተቀመጡ ጥያቄዎች በቂ እንዳልሆኑ በፍጥነት ተገነዘብን” ይላሉ Quinten። “ተጠቃሚዎች ርዕሰ ጉዳዩን ሁልጊዜ ይለውጣሉ። እንከን የለሽ እንዲሆን ስርዓቱ በሂደቱ መሃል መላመዱ አስፈላጊ ነበር።"

ይህ በእውነተኛ ጊዜ የሚካሄድ የመልሶ ግንባታ አካሄድ በቴክኒክ የጠነከረ ሲሆን ለTolan ስኬት መሰረታዊ ነው።

የTolan የውይይት ዑደትን የሚያሳይ የፍሰት ምስል። የ"ስብዕናን ዳግም አስላ" ደረጃ አራት ግብዓቶችን፣ የውይይት ማጠቃለያ እና የቅርብ ጊዜ ጥሬ መልዕክቶችን፣ የተጠቃሚ እና የTolan ስብዕናዎችን እና ሌሎች አውዶችን፣ ማህደረ ትውስታን እና ቃናን ይመገባል። እነዚህ ግብዓቶች ተቀላቅለው የTolan ምላሽን ያመነጫሉ፣ ይህም ወደ ተጠቃሚ ምላሽ ይመራል። ከዚያ የተጠቃሚው ምላሽ ሁለት ትይዩ ሂደቶችን ይመራል፦ የዘመነ ቃና ማዘጋጀት እና ትውስታዎችን መሰብሰብ። የወጡ ትውስታዎች ማህደረ ትውስታን ያዘምናሉ፣ የተዘመነው ቃና ወደ ቃና ይመገባል፣ እና የውይይት ታሪኩ በየጊዜው እንደገና ይጠቃለልና ይጨመቃል፣ ለቀጣዩ ዙር ወደ ውይይቱ ማጠቃለያ ይመለሳል።

ከጊዜ በኋላ አብረው የሚቀጥሉ ትውስታ እና ስብዕና መገንባት

የአውድ አያያዝ አስፈላጊ ነው፣ ነገር ግን ንግግሮች በጊዜ ሂደት ወጥነት ያላቸው ለማድረግ በቂ አልነበረም። Tolan ረጅምና ቀጥተኛ ያልሆኑ ውይይቶችን ለመደገፍ እውነታዎችንና ምርጫዎችን ብቻ ሳይሆን ስሜታዊ “የስሜት” ምልክቶችንም ጭምር የያዘ የትውስታ ስርዓት ገንብቷል—ይህም Tolan እንዴት ምላሽ መስጠት እንዳለበት የሚረዱ ምሪቶችን ያሳያል።

ትውስታዎች የOpenAI text-embedding-3-large ሞዴል በመጠቀም ይካተታሉ እና ከ50ms በታች የፍለጋ ጊዜዎችን በሚያስችል ከፍተኛ ፍጥነት ያለው የቬክተር ዳታቤዝ በTurbopuffer ውስጥ ይከማቻሉ። ይህ ፍጥነት ለእውነተኛ ጊዜ የድምፅ መስተጋብር አስፈላጊ ነው። Tolan በእያንዳንዱ ዙር የተጠቃሚውን የቅርብ ጊዜ መልእክት እና በስርዓት የተዋሃዱ ጥያቄዎችን (ለምሳሌ፣ “ተጠቃሚው ከማን ጋር ነው የተጋባው?”) በመጠቀም የማስታወስ ችሎታን መልሶ ለመቀስቀስ ይጠቀማል። የማህደረ ትውስታ ጥራትን ከፍ እንዳለ ለማቆየት፣ Tolan ዝቅተኛ ዋጋ ያላቸውን ወይም ተደጋጋሚ ግቤቶችን የሚያስወግድ በየምሽቱ የሚደረግ የመጭመቅ ስራ ያካሂዳል (ለምሳሌ፦ “ተጠቃሚው ዛሬ ቡና ጠጥቷል”) እና ተቃርኖችን ይፈታል።

ስብዕናም በተመሳሳይ ጥንቃቄ ይተዳደራል። እያንዳንዱ Tolan በቡድኑ ውስጥ ባለው የሳይንስ ልብወለድ ጸሐፊ የተጻፈ እና በባህሪ ተመራማሪ የተጣራ ልዩ የገፀ ባህሪ ማዕቀፍ አለው። እነዚህ ዘሮች ለTolan ወጥነትን ይሰጣሉ፣ ነገር ግን ከጊዜ በኋላ ለመላመድ ተለዋዋጭነትንም ይሰጣሉ፣ ይህም ከተጠቃሚው ጎን ለጎን እየተሻሻለ ይሄዳል።

ትይዩ ስርዓት የውይይቱን ስሜታዊ ውጥረት ይከታተላል እና የTolanን አቀራረብ በተለዋዋጭነት ያስተካክላል። ይህ Tolan በተጠቃሚ ምልክቶች ላይ በመመስረት ዋና ስብዕናውን ሳያጣ ከጨዋታ ወደ ቁምነገር ሁኔታ ያለምንም እንከን እንዲሸጋገር ያስችለዋል።

ወደ GPT‑5.1 መሸጋገር አስፈላጊ የለውጥ ነጥብ ነበር። በድንገት፣ በንብርብር የተደረደሩ እርምጃ መመሪያዎች—የቃና ማዕቀፎች፣ የትውስታ ግቤቶች፣ ገፀ ባህሪዎች—በታማኝነት እንዲከተሉ ተደርጓል። አንድ ጊዜ መፍትሔ ያስፈልጋቸው የነበሩ ጥያቄዎች እንደታሰበው መስራት ጀመሩ።

“ለመጀመሪያ ጊዜ የውስጥ ባለሙያዎቻችን ሞዴሉ በትክክል እያዳመጠ እንደሆነ ተሰምቷቸዋል” ይላሉ Quinten። “ረጃጅም ውይይቶች ላይ መመሪያዎቹ ሳይበላሹ ቀርተዋል፣ የግለሰባዊ ባህሪያት ይከበሩ ነበር፣ እና ብዙም ለውጥ አላየንም።”

እነዚህ ለውጦች የበለጠ ወጥነት ያለው እና አሳማኝ ስብዕና እንዲኖራቸው አድርገዋል፣ ይህም በተራው የበለጠ ማራኪ የተጠቃሚ ተሞክሮ ፈጥሯል። የTolan ቡድን ግልጽ እና ሊለካ የሚችል ትርፍ አግኝቷል፦ የማስታወስ ችሎታ ማጣት በ30% ቀንሷል (በምርት ውስጥ ባሉ የብስጭት ምልክቶች ላይ በመመስረት)፣ እና በሚቀጥለው ቀን የተጠቃሚ ማቆየት ከGPT‑5.1–powered በኋላ ከ20% በላይ ጨምሯል ስብዕናዎች በቀጥታ ተሰራጩ።

በውይይት ወቅት Tolan ትውስታዎችን እንዴት እንደሚያገኝ እና እንዴት እንደሚያጣራ የሚያሳይ የፍሰት ስዕላዊ መግለጫ። የተጠቃሚ መልእክት ("በዚህ ቅዳሜና እሁድ ለሚኖረኝ ጉዞ በጣም ጓጉቻለሁ") እንደ መጪ ጉዞዎች፣ ለተወሰነ ሳምንት የተያዙ ዕቅዶች እና የተጠቃሚ ምርጫዎች ያሉ የተከታታይ ጥያቄዎችን የሚያዋህድ እርምጃን ያስከትላል። እነዚህ ጥያቄዎች የተካተቱ እና የማህደረ ትውስታ ቬክተር ዳታቤዝ ለመጠየቅ የሚያገለግሉ ሲሆኑ ውጤቶቹ አማካይ የተገላቢጦሽ ደረጃ በመጠቀም ይዋሃዳሉ። የተገኘው አውድ የTolan ምላሽን (“ከSteven ጋር በYosemite ካምፕ ማድረግ”) ያሳውቃል። ወደ Iceland ስለሚደረገው የወደፊት ጉዞ የሚገልጽ በኋላ ላይ የመጣ የተጠቃሚ መልእክት እንደ አዲስ ማህደረ ትውስታ ይቀመጣል፣ ከዚያም ይንጸባረቃል፣ በመክተት ላይ የተመሰረቱ የK-ቅርብ ጎረቤቶችን በመጠቀም ከተዛማጅ ትዝታዎች ጋር ይሰበሰባል፣ እና በእያንዳንዱ ክላስተር ውስጥ ያሉትን ትዝታዎች በማጣመር፣ በማረም እና በማጣራት ይጨመቃል።

የTolan የተፈጥሮ የድምፅ ወኪሎችን የመገንባት ዋና መርሆዎች

Tolan እየተሻሻለ ሲመጣ፣ ቡድኑ የድምፅ አርክቴክቸሩን እንዴት እንደሚገነባ እና እንደሚያሻሽል የሚመሩ ጥቂት መርሆዎች ብቅ አሉ፦

ለንግግር ተለዋዋጭነት የተነደፈ፦ የድምፅ ውይይቶች በአረፍተ ነገሩ መሃል ይቀያየራሉ። ስርዓቶች ተፈጥሯዊ ስሜት እንዲኖራቸው በፍጥነት መንቀሳቀስ አለባቸው።
መዘግየትን እንደ የምርት ተሞክሮ አካል አድርገው ይመለከቱት፦ከሰከንድ በታች ያለው ምላሽ ሰጪነት የድምፅ ወኪል ንግግራዊ ወይም ሜካኒካዊ ስሜት የሚሰጥ መሆኑን ይቀርፃል።
ማህደረ ትውስታን እንደ ትራንስክሪፕት ሳይሆን እንደ መልሶ ማግኛ ስርዓት ይገንቡ፦ ከፍተኛ ጥራት ያለው መጭመቂያ እና ፈጣን የቬክተር ፍለጋ ከትላልቅ የአውድ መስኮቶች የበለጠ ወጥ የሆነ ስብዕና ይሰጣሉ።
አውድን በየዙሩ እንደገና ይገንቡ፦ትላልቅ ፍንጮችን በመጠቀም ለውጥን አይከላከሉ። በእያንዳንዱ ዙር አውድን ዳግም መፍጠር ንግግሮች ከርዕስ እየወጡ ሲሄዱ ወኪሎችን ባሉበት እንዲቆዩ ያደርጋል።

እነዚህ ትምህርቶች አንድ ላይ ሆነው የTolanን ቀጣይ የፈጠራ ምዕራፍ መሰረት ይጥላሉ እና የድምፅ ሰው ሠራሽ አስተብሕሎት (AI) ወዴት እንደሚያመራ አቅጣጫ ያስቀምጣሉ።

በድምጽ AI የሚቻለውን ማስፋት

Tolan እ.ኤ.አ ከፌብሩዋሪ 2025 ጀምሮ ከተጀመረበት ጊዜ አንስቶ ከ200,000 በላይ ወደሚሆኑ ወርሃዊ ንቁ ተጠቃሚዎችን አድጓል። የ4.8 ኮከብ ደረጃ እና ከ100,000 በላይ የሚሆኑ የመተግበሪያ መደብር ግምገማዎች ስላለው ስርዓቱ በረጅም እና በተለዋዋጭ ውይይቶች ውስጥ ወጥነትን ምን ያህል በጥሩ ሁኔታ እንደሚጠብቅ ያሳያሉ። አንድ ገምጋሚ “ከሁለት ቀናት በፊት የተነጋገርናቸውን ነገሮች ያስታውሳሉ እና ዛሬ ወደምናደርገው ውይይት መልሰው ያስገቡታል” ብለዋል።

እነዚህ ምልክቶች በቀጥታ ከስር ካለው አርክቴክቸር ጋር ይዛመዳሉ፦ ዝቅተኛ የመዘግየት ሞዴል ጥሪዎች፣ ተራ በተራ የአውድ መልሶ ግንባታ፣ እና ሞዱላር ማህደረ ትውስታ እና የግል ስርዓቶች። አንድ ላይ ሆነው፣ Tolan የርዕስ ለውጦችን እንዲከታተል፣ ቃናውን እንዲጠብቅ እና ምላሾቹን በትላልቅ እና ጠንካራ ባልሆኑ ጥያቄዎች ላይ ሳይመካ እንዲያስቀጥል ያስችለዋል።

Tolan ወደፊት በመመልከት፣ በጠንካራ፣ የተሻሻለ የአምጪ አመክንዮ እና የግለሰባዊ ማስተካከያ ላይ ጥረቱን በማተኮር በምሪት እና በትውስታ ማሻሻያ ላይ ያሉትን ኢንቨስትመንቶች ለመጨመር አቅዷል። የረጅም ጊዜ ግቡ የድምፅ በይነገጽ ምን ሊሆን እንደሚችል ማስፋት ነው፦ ምላሽ ሰጪ ብቻ ሳይሆን አውድ ተኮር እና በንግግር ተለዋዋጭ።

“ቀጣዩ ድንበር” ይላሉ Quinten፣ “መልስ ሰጪ ብቻ ሳይሆኑ በእውነት ባለብዙ ሞዳል የሆኑ፣ ድምጽን፣ ራዕይን እና አውድን ወደ አንድ፣ ሊመራ የሚችል ስርዓት ማዋሃድ የሚችሉ የድምፅ ወኪሎችን መገንባት ነው።”

ማንበብዎን ይቀጥሉ

ሁሉንም ይመልከቱ

በGPT-5.5 ክፍት ምንጭ ለመገንባት የWarp ትልቅ ውርርድ

ጀማሪ ድርጅትሜይ 27 2026

Parloa builds service agents customers want to talk to

ጀማሪ ድርጅትሜይ 7 2026

Gradient Labs ለእያንዳንዱ የባንክ ደንበኛ AI የሂሳብ አስተዳዳሪ ይሰጣል

ጀማሪ ድርጅትኤፕሪ 1 2026