Tolan GPT‑5.1తో వాయిస్-ఫస్ట్ AIని ఎలా నిర్మిస్తుంది

GPT‑5.1తో, టోలన్ తక్కువ లేటెన్సీ, ఖచ్చితమైన సందర్భం, మరియు సంభాషణలు అభివృద్ధి చెందుతున్నప్పుడు స్థిరమైన వ్యక్తిత్వాల కోసం ఆప్టిమైజ్ చేసిన వాయిస్ యాప్‌ను రూపొందించింది.

లోడ్ అవుతోంది…

టోలన్⁠(కొత్త విండోలో తెరుచుకుంటుంది) వాయిస్-ఫస్ట్ AI కంపానియన్, ఇక్కడ ప్రజలు కాలక్రమేణా సంభాషణల నుండి నేర్చుకునే వ్యక్తిగతీకరించిన, యానిమేటెడ్ పాత్రతో మాట్లాడతారు.

ఇంతకు ముందు విజయవంతమైన ప్రాజెక్ట్‌ను పూర్తి చేసిన అనుభవజ్ఞులైన Portola బృందం రూపొందించిన ఈ యాప్, త్వరిత ప్రాంప్ట్‌లు మరియు సమాధానాల కంటే నిరంతర, ఓపెన్-ఎండెడ్ సంభాషణ కోసం రూపొందించబడింది. “మేం ChatGPT ఎదుగుదలను చూశాం మరియు వాయిస్ తదుపరి ఫ్రంటియర్ అని తెలుసుకున్నాం,” అని Portola సహ-స్థాపకుడు మరియు CEO క్వింటెన్ ఫార్మర్ అన్నారు. “కానీ వాయిస్ మరింత కష్టం. "మీరు టైప్ చేసిన ప్రాంప్ట్‌లకు కేవలం స్పందించడం మాత్రమే కాదు; మీరు ప్రత్యక్షంగా, మారుతూ సాగే సంభాషణను కొనసాగిస్తారు.”

వాయిస్ AI లేటెన్సీ మరియు సందర్భ నిర్వహణలో ప్రమాణాలను పెంచుతుంది, అయితే ఇది టెక్ట్స్ కంటే ఎక్కువ ఓపెన్-ఎండెడ్, అన్వేషణాత్మక ఇంటరాక్షన్‌లను సులభతరం చేస్తుంది.

ఫౌండేషన్ మోడల్స్ వేగవంతంగా, తక్కువ ఖర్చుతో, ఇంకా సామర్థ్యవంతంగా మారుతున్నప్పుడు, జట్టు తమ ప్రయత్నాలను రెండు ముఖ్యమైన అంశాలుి: మెమరీ మరియు పాత్ర రూపకల్పనపై కేంద్రీకరించింది. పోర్టోలా అవార్డు గెలుచుకున్న యానిమేటర్‌లు మరియు ఒక సైన్స్ ఫిక్షన్ రచయిత ద్వారా పాత్ర-ఆధారిత విశ్వాన్ని నిర్మించబడింది, ఇది సంభాషణలు కొనసాగుతున్నప్పుడు వ్యక్తిత్వం మరియు జ్ఞాపకశక్తిని స్థిరంగా ఉంచడానికి రియల్-టైమ్ సందర్భోచిత మేనేజ్‌మెంట్ సిస్టమ్‌ను ఉపయోగిస్తుంది.

GPT‑5.1 మోడల్స్ విడుదల ఒక మలుపుగా నిలిచింది, స్టీరబిలిటీ మరియు లేటెన్సీలో ముఖ్యమైన మెరుగుదలలు అందించి ఆ అంశాలను కలిపి, మరింత ప్రతిస్పందనాత్మక మరియు ఆకర్షణీయమైన వాయిస్ అనుభవాన్ని అందించింది.

“GPT-5.1 మన మనస్సులో ఉన్న పాత్రలను చివరకు వ్యక్తీకరించడానికి మాకు మార్గదర్శకత్వాన్ని ఇచ్చింది. "ఇది కేవలం తెలివైనదే కాదు—మేం సృష్టించాలని అనుకున్న టోన్ మరియు వ్యక్తిత్వానికి మరింత నమ్మకంగా ఉంది.”

-క్వింటెన్ ఫార్మర్, CEO, పోర్టోలా

సహజ వాయిస్ ఇంటరాక్షన్‌ల కోసం డిజైన్ చేయడం

టోలన్ ఆర్కిటెక్చర్ వాయిస్ అవసరాల ద్వారా రూపొందించబడింది. వాయిస్ వినియోగదారులు సంభాషణలు మధ్యలో మారినా కూడా తక్షణ, సహజమైన ప్రతిస్పందనలను ఆశిస్తున్నారు. టోలన్ త్వరగా స్పందించి, మారుతున్న విషయాలను ట్రాక్ చేసి, ల్యాగ్ లేకుండా లేదా టోన్ మార్పు లేకుండా స్థిరమైన వ్యక్తిత్వాన్ని కొనసాగించాలి.

సహజంగా అనిపించాలంటే, సంభాషణలకు దాదాపు తక్షణ లేటెన్సీ అవసరం. OpenAI GPT‑5.1ను పరిచయం చేస్తున్నాం మరియు ప్రతిస్పందనల API స్పీచ్ ప్రారంభ సమయాన్ని 0.7 సెకన్లకు పైగా తగ్గిస్తుంది—ఇది సంభాషణ ప్రవాహాన్ని గణనీయంగా మెరుగుపరచడానికి సరిపోతుంది.

సిస్టమ్ సందర్భాన్ని ఎలా నిర్వహించిందనేది కూడా అంతే క్లిష్టమైనది. చాలా ఏజెంట్‌లు అనేక టర్న్‌లలో ప్రాంప్ట్‌లను క్యాష్ చేసే విధానానికి భిన్నంగా, టోలన్ ప్రతి టర్న్‌లో తన సందర్భ విండోను మొదటి నుంచే తిరిగి నిర్మిస్తుంది. ప్రతి సందర్భ పునర్నిర్మాణం ఇటీవలి సందేశాల సారాంశం, వ్యక్తిత్వ కార్డు, వెక్టర్ ద్వారా పొందిన జ్ఞాపకాలు, స్వర మార్గదర్శనం, మరియు తక్షణ యాప్ సంకేతాలు ఉంటాయి. ఈ నిర్మాణం టోలన్‌ను అకస్మాత్తుగా జరిగే అంశ మార్పులకు అనుగుణంగా తక్షణం మారేందుకు అనుమతిస్తుంది, ఇది సహజ వాయిస్-ఆధారిత పరస్పర చర్యకు అవసరమైన ముఖ్యమైన అవసరం.

“క్యాష్ చేసిన ప్రాంప్ట్‌లు సరిపోవని మేము త్వరగా గ్రహించాం,” క్వింటెన్ అంటున్నారు. “వినియోగదారులు ఎప్పుడూ విషయాలను మార్చుతుంటారు. అంతరాయం లేకుండా అనిపించాలంటే, సిస్టమ్ మధ్యలోనే మార్పులకు అనుగుణంగా ఉండాలి.

ఈ రియల్-టైమ్ పునర్నిర్మాణ విధానం సాంకేతికంగా ఎంతో కఠినమైనది, అలాగే టోలాన్ విజయానికి పునాది వేసేదిగా ఉంది.

టోలాన్ సంభాషణ లూప్‌ను చూపించే ఫ్లో డయాగ్రామ్. ఒక “రీకంప్యూట్ పర్సోనా” దశ నాలుగు ఇన్‌పుట్‌లను అందిస్తుంది: చాట్ సారాంశం మరియు ఇటీవలి ముడి సందేశాలు, యూజర్ మరియు టోలాన్ వ్యక్తిత్వాలు మరియు ఇతర సందర్భం, జ్ఞాపకం, మరియు స్వరాన్ని. ఈ ఇన్‌పుట్‌లు కలిసి ఒక టోలన్ ప్రతిస్పందనను సృష్టిస్తాయి, ఇది యూజర్ ప్రతిస్పందనకు దారితీస్తుంది. వినియోగదారు ప్రతిస్పందన తర్వాత రెండు సమాంతర ప్రక్రియలను నడిపిస్తుంది: నవీకరించిన టోన్‌ను ఉత్పత్తి చేయడం మరియు జ్ఞాపకాలను తీసుకోవడం. ఎక్స్‌ట్రాక్ట్ చేసిన జ్ఞాపకాలు మెమరీని అప్‌డేట్ చేస్తాయి, అప్‌డేట్ అయిన టోన్ తిరిగి టోన్‌లోకి ఫీడ్‌బ్యాక్ అవుతుంది, అలాగే సంభాషణ హిస్టరీని కాలానుగుణంగా మళ్లీ సంగ్రహం చేసి కుదిస్తారు, తదుపరి టర్న్ కోసం చాట్ సారాంశంలోనికి తిరిగి లూప్ అవుతుంది.

కాలక్రమేణా కలిసి ఉండే జ్ఞాపకశక్తి మరియు వ్యక్తిత్వం నిర్మించడం

సందర్భ నిర్వహణ ముఖ్యమైనది, అయితే కాలక్రమేణా సంభాషణలను పొందికగా ఉండేందుకు అది సరిపోదు. సుదీర్ఘమైన, నాన్ లీనియర్ సంభాషణలకు మద్దతు ఇవ్వడానికి, టోలన్ ఒక మెమరీ వ్యవస్థను నిర్మించారు, ఇది వాస్తవాలు మరియు ప్రాధాన్యతలను మాత్రమే కాకుండా, భావోద్వేగ "వైబ్" సంకేతాలను కూడా నిలుపుకుంటుంది - టోలన్ ఎలా స్పందించాలనేది నడిపించడంలో సహాయపడే ఆధారాలు.

మెమరీలు OpenAI టెక్ట్స్-ఎంబెడెడ్-3-లార్జ్ మోడల్‌ని ఉపయోగించి పొందుపరచబడతాయి మరియు టర్బోపఫర్‌లో నిల్వ చేయబడతాయి, ఇది హై-స్పీడ్ వెక్టర్ డేటాబేస్, ఇది సబ్-50ms లుకప్ సమయాలను అనుమతిస్తుంది. రియల్-టైమ్ వాయిస్ ఇంటరాక్షన్‌ల కోసం ఈ వేగం అవసరం. ప్రతి టర్న్‌లో, Tolan యూజర్ యొక్క తాజా సందేశం మరియు సిస్టమ్-సింథసైజ్ చేసిన ప్రశ్నలను (ఉదా., “యూజర్ ఎవరికీ వివాహం చేసుకున్నారు?”) ఉపయోగించి జ్ఞాపకశక్తిని మళ్లీ గుర్తు చేస్తుంది. మెమరీ నాణ్యతను అత్యున్నతంగా ఉంచడానికి, టోలన్ తక్కువ విలువ గల లేదా పునరావృత ఎంట్రీలను తొలగించే రాత్రిపూట కంప్రెషన్ పనిని రన్ చేస్తుంది (ఉదా: “యూజర్ ఈ రోజు కాఫీ తాగాడు”) మరియు వైరుధ్యతలను పరిష్కరిస్తుంది

పర్సనాలిటీ కూడా అంతే జాగ్రత్తగా నిర్వహించబడుతుంది. ప్రతి టోలన్ ఒక ప్రత్యేకమైన పాత్ర స్కాఫోల్డ్‌తో నింపబడుతుంది, ఇది టీమ్ ఇన్-హౌస్ సైన్స్ ఫిక్షన్ రచయిత ద్వారా రూపొందించబడింది, ప్రవర్తనా పరిశోధకుడు ద్వారా మెరుగుపరచబడింది. ఈ సీడ్‌లు టోలన్‌కు స్థిరత్వాన్ని ఇస్తాయి, అయితే సమయానుగుణంగా అనుకూలంగా మారడానికి సౌలభ్యాన్ని కూడా ఇస్తాయి, వినియోగదారుని వెంటనే అభివృద్ధి చెందుతాయి.

ఒక సమాంతర వ్యవస్థ సంభాషణ భావోద్వేగ స్వరాన్ని పర్యవేక్షించి, టోలాన్ డెలివరీని డైనమిక్‌గా సర్దుబాటు చేస్తుంది. ఇది టోలన్ దాని ప్రధాన వ్యక్తిత్వాన్ని కోల్పోకుండా, వినియోగదారు సూచనలను బట్టి ఉల్లాసభరితమైన నుండి గ్రౌండెడ్‌కు సజావుగా మారడానికి అనుమతిస్తుంది.

GPT‑5.1కి పరివర్తన ఒక కీలక మలుపు. అకస్మాత్తుగా, పొరలుగా ఉన్న ప్రాంప్ట్ సూచనలు—టోన్ స్కాఫోల్డ్స్, మెమరీ ఇంజెక్షన్లు, పాత్ర లక్షణాలు—మరింత విశ్వసనీయంగా అనుసరించబడ్డాయి. వర్క్‌అరౌండ్‌లు అవసరమైన ప్రాంప్ట్‌లు ఇప్పుడు అనుకున్న విధంగా పనిచేయడం ప్రారంభించాయి.

"మొదటిసారిగా, మా అంతర్గత నిపుణులు మోడల్ నిజంగా వింటున్నట్లు భావించారు" అని క్వింటెన్ చెప్పారు. "సుదీర్ఘ సంభాషణలలో సూచనలు చెక్కుచెదరకుండా ఉన్నాయి, వ్యక్తిత్వ లక్షణాలు గౌరవించబడ్డాయి మరియు మేం చాలా తక్కువ డ్రిఫ్ట్‌ను చూశాం."

ఆ మార్పులు కలిపి మరింత స్థిరమైన, నమ్మదగిన వ్యక్తిత్వాన్ని సృష్టించాయి, దాంతో మరింత ఆకర్షణీయమైన వినియోగదారు అనుభవం ఏర్పడింది. టోలన్ టీమ్ స్పష్టమైన, కొలిచగలిగే మెరుగుదలలను చూసింది: మెమరీ రీకాల్ మిస్‌లు 30% తగ్గాయి (ఉత్పత్తిలో ఫ్రస్టేషన్ సిగ్నల్స్ ఆధారంగా), మరియు GPT‑5.1 శక్తితో, తర్వాతి రోజు వినియోగదారుల నిలుపుదల 20% కంటే ఎక్కువగా పెరిగింది. పర్సోనాలు లైవ్‌లోనికి వచ్చాయి.

సంభాషణ సమయంలో టోలన్ మెమరీలను ఎలా తిరిగి పొందుతుంది మరియు మెరుగుపరుస్తుందో వివరించే ఫ్లో డయాగ్రమ్. ఒక యూజర్ సందేశం (“I’m so excited for my trip this weekend”) రాబోయే ప్రయాణాలు, ఒక నిర్దిష్ట వారానికి ప్రణాళికలు, మరియు యూజర్ అభిరుచులు వంటి అనుసరణ ప్రశ్నలను సింథసైజ్ చేసే ఒక దశను ప్రారంభిస్తుంది. ఈ ప్రశ్నలు ఎంబెడ్ చేయబడి, మెమరీ వెక్టర్ డేటాబేస్‌ను ప్రశ్నించడానికి ఉపయోగిస్తారు, మరియు ఫలితాలు మీన్ రిసిప్రోకల్ ర్యాంక్ ద్వారా విలీనం చేయబడతాయి. తిరిగి పొందిన సందర్భం Tolan యొక్క ప్రతిస్పందనను (“Yosemiteలో Stevenతో క్యాంపింగ్”) తెలియజేస్తుంది. ఐస్లాండ్‌కు భవిష్యత్ ప్రయాణం గురించి తరువాతి వినియోగదారు సందేశం కొత్త జ్ఞాపకంగా నిల్వ చేయబడుతుంది, తరువాత దానిపై ఆలోచించబడుతుంది, embedding ఆధారిత k-నికటమైన పొరుగు పద్ధతిని ఉపయోగించి సంబంధిత జ్ఞాపకాలతో సమూహీకరించబడుతుంది, మరియు ప్రతి సమూహంలో జ్ఞాపకాలను కలిపి, సవరించి, మెరుగుపరచడం ద్వారా సంక్షిప్తం చేయబడుతుంది.

సహజ వాయిస్ ఏజెంట్‌లను నిర్మించడానికి టోలాన్ ప్రధాన సూత్రాలు

టోలన్ అభివృద్ధి చెందుతున్నప్పుడు, జట్టు దాని వాయిస్ ఆర్కిటెక్చర్‌ను ఎలా నిర్మిస్తుంది మరియు అభివృద్ధి చెందుతుంది అనే దానికి మార్గనిర్దేశం చేసే కొన్ని సూత్రాలు ఇప్పుడు ఉద్భవించాయి:

సంభాషణల అస్థిరత కోసం డిజైన్ చేయడం: వాయిస్ సంభాషణలు వాక్యం మధ్యలోనే మారతాయి. సహజంగా అనిపించాలంటే సిస్టమ్‌లు కూడా అంతే వేగంగా దిశ మార్చుకోవాలి.
లేటెన్సీని ఉత్పత్తి అనుభవంలో భాగంగా పరిగణించడం: సబ్-సెకండ్ స్పందన వాయిస్ ఏజెంట్ సంభాషణాత్మకంగా లేదా యాంత్రికంగా అనిపించడానికి ప్రభావం చూపుతుంది.
ట్రాన్స్‌క్రిప్ట్‌గా కాకుండా, రిట్రీవల్ సిస్టమ్‌గా మెమరీని నిర్మించడం: అధిక-నాణ్యత కంప్రెషన్ మరియు వేగవంతమైన వెక్టర్ శోధన, అతిపెద్ద సందర్భ విండోల కంటే మరింత స్థిరమైన వ్యక్తిత్వాన్ని అందిస్తాయి.
ప్రతి టర్న్‌లో కాంటెక్ట్స్‌ను మళ్లీ నిర్మించడం: డ్రిఫ్ట్‌ను పెద్ద ప్రాంప్ట్‌లతో ఎదుర్కొనవద్దు. ప్రతి టర్న్‌లో కాంటెక్ట్స్ పునరుద్ధరించడం వలన సంభాషణలు దారి తప్పినప్పుడు కూడా ఏజెంట్లు స్థిరంగా ఉంటాయి.

ఈ పాఠాలు కలిసి టోలన్ ఆవిష్కరణలో తరువాత దశకు పునాదిని ఏర్పరుస్తాయి, voice AI ఎటు దిశగా వెళ్తుందో దానికి మార్గదర్శకత్వం ఇస్తాయి.

వాయిస్ AI తో సాధ్యమైన అవకాశాలను విస్తరించడం

ఫిబ్రవరి 2025లో ప్రారంభించినప్పటి నుండి, టోలన్ నెలవారీ క్రియాశీల వినియోగదారుల సంఖ్య 200,000 కంటే ఎక్కువ పెరిగింది. దీని 4.8-స్టార్ రేటింగ్ మరియు 100,000 కంటే ఎక్కువ యాప్ స్టోర్ సమీక్షలు, ఈ సిస్టమ్ సుదీర్ఘమైన, మారుతున్న సంభాషణల్లో స్థిరత్వాన్ని ఎంత బాగా నిర్వహిస్తుందనేది హైలైట్ చేస్తుంది. ఒక సమీక్షకుడు ఇలా అన్నాడు, "రెండు రోజుల క్రితం మనం మాట్లాడుకున్న విషయాలను వారు గుర్తుంచుకుంటారు, ఇవాళ మనం చేస్తున్న సంభాషణలోకి వాటిని తిరిగి తీసుకువస్తారు."

ఈ సంకేతాలు అంతర్లీన నిర్మాణానికి నేరుగా మ్యాప్ చేస్తాయి: తక్కువ-జాప్యం మోడల్ కాల్స్, టర్న్-బై-టర్న్ కాంటెక్ట్స్ పునర్నిర్మాణం మరియు మాడ్యులర్ మెమరీ మరియు పర్సోనా సిస్టమ్‌లు. ఇవన్నీ కలిసి, అవి టోలన్‌కు అంశ మార్పులను ట్రాక్ చేయడానికి, టోన్‌ను కాపాడడానికి, మరియు పెద్ద, సున్నితమైన ప్రాంప్ట్‌లపై ఆధారపడకుండా ప్రతిస్పందనలను వాస్తవాలపై నిలిపి ఉంచడానికి అనుమతిస్తాయి.

భవిష్యత్తులో, టోలన్ స్టీరబిలిటీ మరియు మెమరీ శుద్ధిలో తన పెట్టుబడులను మరింత లోతుగా చేయాలని యోచిస్తోంది, కఠినమైన కంప్రెషన్‌, మెరుగైన పునరుద్ధరణ తర్కం మరియు విస్తరించిన వ్యక్తిత్వ ట్యూనింగ్‌పై దాని ప్రయత్నాలను కేంద్రీకరించింది. వాయిస్ ఇంటర్‌ఫేస్ ఎలా ఉంటుందనేది విస్తరించడమే దీర్ఘకాలిక లక్ష్యం: కేవలం ప్రతిస్పందనాత్మకంగా మాత్రమే కాకుండా, సందర్భోచితంగా మరియు సంభాషణాత్మకంగా డైనమిక్‌గా ఉంటుంది.

“తరువాత ఫ్రంటియర్‌,” అని క్వింటెన్ అంటున్నారు, “కేవలం ప్రతిస్పందించేలా కాకుండా, నిజంగా మల్టిమోడల్‌గా ఉండే వాయిస్ ఏజెంట్‌లను నిర్మించడం, వాయిస్, విజన్, మరియు సందర్భాన్ని ఒకే నియంత్రించగల సిస్టమ్‌లో ఏకీకృతం చేయగలిగే సామర్థ్యం ఉంటుంది.”

చదవడం కొనసాగించండి

అన్నీ చూడండి

GPT-5.5తో ఓపెన్ సోర్స్ నిర్మాణంపై Warp పెద్ద పందెం

స్టార్ట్‌అప్27 మే, 2026

Parloa builds service agents customers want to talk to

స్టార్ట్‌అప్7 మే, 2026

Gradient Labs gives every bank customer an AI account manager

స్టార్ట్‌అప్1 ఏప్రిల్, 2026