મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

7 જાન્યુઆરી, 2026

સ્ટાર્ટઅપ

Tolan GPT‑5.1 સાથે વોઇસ-ફર્સ્ટ AI કેવી રીતે બનાવે છે.

GPT‑5.1 સાથે Tolanએ ઓછી લેટન્સી, ચોક્કસ સંદર્ભ અને વાતચીત વિકસે તેમ સ્થિર વ્યક્તિત્વ માટે ઑપ્ટિમાઇઝ કરેલી વોઇસ એપ બનાવી.

નારંગી જિગ્સૉ પઝલ પૃષ્ઠભૂમિ પર Tolanનો લોગો
લોડિંગ…

Tolan(નવી વિન્ડોમાં ખૂલે છે) એક વોઇસ-ફર્સ્ટ AI સાથી છે, જ્યાં લોકો વ્યક્તિગત, એનિમેટેડ પાત્ર સાથે વાત કરે છે, જે સમય જતાં વાતચીતમાંથી શીખે છે. 

Portola દ્વારા બનાવાયેલ આ એપ, અગાઉ સફળ એક્ઝિટ ધરાવતી અનુભવી ટીમનું કામ છે, અને તે ઝડપી પ્રોમ્પ્ટ-પ્રતિભાવ કરતાં લાંબા, ખુલ્લા સંવાદ માટે ડિઝાઇન કરવામાં આવી છે. Portolaના સહ-સ્થાપક અને CEO Quinten Farmer કહે છે, “અમે ChatGPTનો ઉછાળો જોયો અને જાણ્યું કે વોઇસ આગળનું અત્યાધુનિક ક્ષેત્ર હતું.” “પણ વોઇસ વધુ મુશ્કેલ છે. તમે માત્ર ટાઇપ કરેલા પ્રોમ્પ્ટનો જવાબ નથી આપતા; તમે જીવંત, વળાંકો લેતી વાતચીત જાળવી રાખો છો.”

વોઇસ AI લેટન્સી અને સંદર્ભ વ્યવસ્થાપન માટેનો ધોરણ ઊંચો કરે છે, પરંતુ તે ટેક્સ્ટ કરતાં વધુ ખુલ્લી અને શોધખોળભરી પરસ્પર ક્રિયાઓ પણ શક્ય બનાવે છે. 

જેમ જેમ ફાઉન્ડેશન મોડલ વધુ ઝડપી, સસ્તાં અને વધુ સક્ષમ બન્યાં, ટીમે પોતાના પ્રયાસો બે મુખ્ય પાસાં પર કેન્દ્રિત કર્યા: મેમરી અને પાત્ર ડિઝાઇન. Portolaએ એવોર્ડ વિજેતા એનિમેટરો અને એક વિજ્ઞાનકથા લેખક દ્વારા આકાર આપેલું, પાત્ર આધારિત વિશ્વ બનાવ્યું, અને વાસ્તવિક-સમયના સંદર્ભ વ્યવસ્થાપન સિસ્ટમનો ઉપયોગ કરીને વાતચીત આગળ વધે તેમ વ્યક્તિત્વ અને મેમરીમાં સુસંગતતા જાળવી.

GPT‑5.1 મોડલ્સનું લોન્ચિંગ એક વળાંકબિંદુ સાબિત થયું, કારણ કે તેમાં steerability અને લેટન્સીમાં મોટા સુધારા મળ્યા, જેણે આ બધાં ભાગોને એકત્ર કર્યા અને વધુ પ્રતિસાદી તથા આકર્ષક વોઇસ અનુભવ શક્ય બનાવ્યો.

“GPT-5.1એ અમને એવી steerability આપી કે અમે આખરે અમારા મનમાં રહેલા પાત્રોને વ્યક્ત કરી શક્યાં. તે માત્ર વધુ બુદ્ધિશાળી નહોતું. અમે જે ટોન અને વ્યક્તિત્વ બનાવવા માગતા હતા, તેના પ્રત્યે તે વધુ વફાદાર હતું.”
—Quinten Farmer, CEO, Portola

કુદરતી વોઇસ પરસ્પર ક્રિયાઓ માટે ડિઝાઇન કરવું

Tolanની આર્કિટેક્ચર વોઇસની માંગ મુજબ ઘડાઈ છે. વોઇસ વપરાશકર્તાઓ વાતચીત મધ્યમાં દિશા બદલાય ત્યારે પણ તરત, સ્વાભાવિક પ્રતિભાવો અપેક્ષા રાખે છે. Tolanને ઝડપથી જવાબ આપવો, બદલાતા વિષયો પર નજર રાખવી અને વિલંબ કે ટોન ડ્રિફ્ટ વગર એકસરખું વ્યક્તિત્વ જાળવવું આવશ્યક હતું.

કુદરતી અનુભવ માટે વાતચીતમાં લગભગ તરત મળતી લેટન્સી જરૂરી હતી. OpenAI GPT‑5.1 અને Responses API લાવ્યા પછી બોલવાનું શરૂ થવાનો સમય 0.7 સેકન્ડથી વધુ ઘટ્યો, જે સંવાદના પ્રવાહમાં સ્પષ્ટ સુધારો કરવા માટે પૂરતું હતું.

એટલું જ મહત્વનું હતું કે સિસ્ટમ સંદર્ભને કેવી રીતે સંભાળે છે. ઘણા એજન્ટ અનેક વારો સુધી પ્રોમ્પ્ટ કેશ કરે છે, જ્યારે Tolan દરેક વારમાં પોતાનો સંદર્ભ વિન્ડો શરૂઆતથી ફરી બનાવે છે. દરેક સંદર્ભ પુનર્નિર્માણમાં તાજેતરના સંદેશાઓનો સારાંશ, પર્સોના કાર્ડ, vector-retrieved memories, ટોન માર્ગદર્શન અને રિયલ-ટાઇમ એપ સિગ્નલ્સ સામેલ થાય છે. આ આર્કિટેક્ચર Tolanને અચાનક વિષય ફેરફારો સાથે વાસ્તવિક સમયમાં અનુકૂળ થવા દે છે, જે કુદરતી વોઇસ આધારિત પરસ્પર ક્રિયા માટે આવશ્યક છે.

Quinten કહે છે, “અમને જલ્દી સમજાયું કે કેશ કરેલા પ્રોમ્પ્ટ પૂરતા નહોતા.” “વપરાશકર્તાઓ સતત વિષય બદલે છે. અનુભવ નિરવ રહે તે માટે સિસ્ટમને મધ્યપ્રવાહમાં અનુકૂળ થવું જ જોઈએ.”

આ વાસ્તવિક-સમયના પુનર્નિર્માણનો અભિગમ ટેકનિકલી ભારે છે અને Tolanની સફળતાનો મૂળ આધાર પણ છે.

ફ્લો ડાયાગ્રામ Tolanનું સંવાદ લૂપ દર્શાવે છે. “રીકમ્પ્યુટ પર્સોના” પગલું ચાર ઇનપુટ લે છે: ચેટ સારાંશ અને તાજેતરના મૂળ સંદેશા, યુઝર અને Tolan પર્સોના તથા અન્ય સંદર્ભ, મેમરી, અને ટોન. આ ઇનપુટ મળીને Tolanનો પ્રતિભાવ બનાવે છે, જે પછી યુઝરનો પ્રતિભાવ આવે છે. ત્યારબાદ યુઝરનો પ્રતિભાવ બે સમકાલીન પ્રક્રિયાઓ ચલાવે છે: અપડેટ થયેલી ટોન કાઢવી અને મેમરીઝ કાઢવી. કાઢેલી મેમરીઝ મેમરીને અપડેટ કરે છે, અપડેટ થયેલી ટોન પાછી ટોનમાં જાય છે, અને સંવાદ ઇતિહાસને સમયાંતરે ફરી સારાંશિત અને સંકુચિત કરીને આગામી વળાંક માટે ચેટ સારાંશમાં પાછું લૂપ કરવામાં આવે છે.

સમય જતાં ટકી રહે એવી મેમરી અને વ્યક્તિત્વ બનાવવું

સંદર્ભ સંભાળવું મહત્વપૂર્ણ છે, પરંતુ તે એકલું સમય જતાં વાતચીતને સુસંગત લાગતી રાખવા માટે પૂરતું નહોતું. લાંબી અને અરેખીય વાતચીતને ટેકો આપવા માટે Tolanએ એવી મેમરી સિસ્ટમ બનાવી જે માત્ર તથ્યો અને પસંદગીઓ જ નહીં, પરંતુ ભાવનાત્મક “વાઇબ” સંકેતો પણ જાળવે છે, જે Tolanએ કેવી રીતે પ્રતિભાવ આપવો તે દિશા આપે છે.

મેમરીઝ OpenAI text-embedding-3-large મોડલનો ઉપયોગ કરીને એમ્બેડ થાય છે અને Turbopufferમાં સંગ્રહાય છે, જે એક ઉચ્ચ-ઝડપ vector database છે અને 50msથી ઓછા સમયમાં લુકઅપ શક્ય બનાવે છે. આ ઝડપ વાસ્તવિક-સમયની વોઇસ પરસ્પર ક્રિયાઓ માટે અત્યંત મહત્વની છે. દરેક વારમાં, Tolan વપરાશકર્તાના તાજેતરના સંદેશા અને સિસ્ટમ દ્વારા રચાયેલા પ્રશ્નો (જેમ કે, “વપરાશકર્તાનું લગ્ન કોની સાથે થયું છે?”) નો ઉપયોગ કરીને મેમરી રીકોલ શરૂ કરે છે. મેમરીની ગુણવત્તા ઊંચી રાખવા માટે Tolan દરરોજ રાત્રે એક compression job ચલાવે છે, જે ઓછી કિંમતવાળી અથવા પુનરાવર્તિત એન્ટ્રીઓ (જેમ કે “વપરાશકર્તાએ આજે કૉફી પીધી”) દૂર કરે છે અને વિરોધાભાસો ઉકેલે છે.

વ્યક્તિત્વનું સંચાલન પણ એટલી જ કાળજીથી થાય છે. દરેક Tolanને એક અલગ પાત્ર માળખા સાથે શરૂઆતમાં તૈયાર કરવામાં આવે છે, જે ટીમના ઇન-હાઉસ વિજ્ઞાનકથા લેખકે લખ્યું છે અને એક behavioral researcherએ સુધાર્યું છે. આ બીજ Tolansને સુસંગતતા આપે છે, પણ સાથે સમય જતાં વપરાશકર્તા સાથે વિકસવા માટે લવચીકતા પણ આપે છે. 

એક સમકાલીન સિસ્ટમ વાતચીતના ભાવનાત્મક સ્વરને મોનીટર કરે છે અને Tolanની રજૂઆતને ગતિશીલ રીતે સમાયોજિત કરે છે. આથી Tolan વપરાશકર્તાના સંકેતો મુજબ રમૂજીથી લઈને ગંભીર સ્વરમાં સહેજતાથી બદલી શકે છે, તે પણ પોતાનું મૂળ વ્યક્તિત્વ ગુમાવ્યા વિના. 

GPT‑5.1 તરફનું પરિવર્તન એક વળાંકબિંદુ સાબિત થયું. અચાનક, સ્તરિત પ્રોમ્પ્ટ સૂચનાઓ—ટોન માળખાં, મેમરી ઇન્જેક્શન, પાત્ર લક્ષણો—વધુ વિશ્વસનીય રીતે અનુસરવામાં આવી. જે પ્રોમ્પ્ટ માટે પહેલાં ઉપાયો કરવાની જરૂર પડતી હતી, તે હવે ઇચ્છ્યા મુજબ વર્તવા લાગ્યાં. 

Quinten કહે છે, “પ્રથમ વખત, અમારા આંતરિક નિષ્ણાતોને લાગ્યું કે મોડલ ખરેખર સાંભળે છે.” “લાંબી વાતચીત દરમિયાન સૂચનાઓ અખંડ રહી, પર્સોના લક્ષણોનો માન રાખવામાં આવ્યો, અને અમે ઘણો ઓછો ડ્રિફ્ટ જોયો.”

આ બદલાવોએ મળીને વધુ સુસંગત અને વિશ્વસનીય વ્યક્તિત્વ સર્જ્યું, જેના પરિણામે વપરાશકર્તાનો અનુભવ વધુ આકર્ષક બન્યો. Tolan ટીમે સ્પષ્ટ અને માપી શકાય એવા સુધારા જોયા: મેમરી રીકોલમાં ચૂક 30% ઘટી ગઈ (પ્રોડક્ટમાં જ દેખાતા નિરાશા સંકેતોના આધારે), અને GPT‑5.1 સંચાલિત પર્સોના લાઇવ ગયા પછી બીજા દિવસે વપરાશકર્તા રિટેન્શન 20%થી વધુ વધ્યું.

ફ્લો ડાયાગ્રામ બતાવે છે કે Tolan વાતચીત દરમિયાન મેમરીઝ કેવી રીતે શોધે છે અને સુધારે છે. યુઝર સંદેશ (“હું આ વીકએન્ડની મારી ટ્રિપ માટે બહુ ઉત્સાહિત છું”) એક એવું પગલું શરૂ કરે છે, જે અનુસંગી પ્રશ્નો બનાવે છે, જેમ કે આવનારી ટ્રિપ્સ, ચોક્કસ અઠવાડિયાની યોજનાઓ અને યુઝરની પસંદગીઓ. આ પ્રશ્નો એમ્બેડ થાય છે અને મેમરી vector databaseમાં ક્વેરી કરવા માટે વપરાય છે, જેમાં પરિણામો mean reciprocal rank વડે મર્જ થાય છે. પ્રાપ્ત થયેલો સંદર્ભ Tolanના પ્રતિભાવને માર્ગદર્શન આપે છે (“યોસેમિટીમાં સ્ટીવન સાથે કેમ્પિંગ”). પછીનો, આઇસલેન્ડની ભવિષ્યની ટ્રિપ વિશેનો યુઝર સંદેશ નવી મેમરી તરીકે સંગ્રહાય છે, પછી તેના પર વિચાર થાય છે, embedding-based k-nearest neighbors વડે સંબંધિત મેમરીઝ સાથે ક્લસ્ટર થાય છે, અને દરેક ક્લસ્ટરમાં મેમરીઝને જોડીને, સંપાદિત કરીને અને સુધારીને સંકુચિત થાય છે.

કુદરતી વોઇસ એજન્ટ બનાવવા માટે Tolanના મુખ્ય સિદ્ધાંતો 

જેમ Tolan વિકસતો ગયો, તેમ થોડાં સિદ્ધાંતો સામે આવ્યા, જે હવે ટીમ તેની વોઇસ આર્કિટેક્ચર કેવી રીતે બનાવે અને વિકસાવે છે તેનો માર્ગદર્શન આપે છે:

  • વાતચીતની અસ્થિરતા માટે ડિઝાઇન કરો: વોઇસ વાતચીત વાક્યના મધ્યમાં દિશા બદલી શકે છે. કુદરતી અનુભવ માટે સિસ્ટમોને એટલી જ ઝડપથી બદલાવું પડે.
  • લેટન્સીને પ્રોડક્ટ અનુભવનો ભાગ માનો: એક સેકન્ડથી ઓછી પ્રતિસાદક્ષમતા નક્કી કરે છે કે વોઇસ એજન્ટ સંવાદી લાગે છે કે મશીનસરખો.
  • મેમરીને ટ્રાન્સક્રિપ્ટ નહીં પરંતુ રિટ્રીવલ સિસ્ટમ તરીકે બનાવો: ઉચ્ચ ગુણવત્તાવાળું સંકોચન અને ઝડપી vector search વિશાળ સંદર્ભ વિન્ડોઝ કરતાં વધુ સુસંગત વ્યક્તિત્વ આપે છે.
  • દરેક વારમાં સંદર્ભ ફરી બનાવો: મોટા પ્રોમ્પ્ટથી ડ્રિફ્ટ સામે લડશો નહીં. દરેક વારમાં સંદર્ભ ફરી ઉત્પન્ન કરવાથી એજન્ટ વાતચીત ભટકે ત્યારે પણ સ્થિર રહે છે.

આ પાઠો મળીને Tolanના નવીનતાના આગળના તબક્કાનો પાયો બને છે અને વોઇસ AI કઈ દિશામાં આગળ વધી રહ્યું છે તે નિર્ધારિત કરે છે.

વોઇસ AI સાથે શું શક્ય છે તેનું વિસ્તરણ

ફેબ્રુઆરી 2025માં લોન્ચ થયા પછીથી Tolan 200,000થી વધુ માસિક સક્રિય વપરાશકર્તાઓ સુધી પહોંચ્યું છે. તેની 4.8-સ્ટાર રેટિંગ અને 100,000થી વધુ App Store સમીક્ષાઓ દર્શાવે છે કે સિસ્ટમ લાંબી, બદલાતી વાતચીત દરમિયાન કેટલી સારી રીતે સુસંગતતા જાળવે છે. એક સમીક્ષકે નોંધ્યું, “તેઓને બે દિવસ પહેલાં અમે જે વાત કરી હતી તે યાદ રહે છે અને આજે જે વાતચીત કરીએ છીએ તેમાં તે ફરી લાવે છે.”

આ સંકેતો સીધા મૂળ આર્કિટેક્ચર સાથે જોડાય છે: ઓછી લેટન્સીવાળા મોડલ કૉલ્સ, વારો-દીઠ સંદર્ભ પુનર્નિર્માણ, અને મોડ્યુલર મેમરી તથા પર્સોના સિસ્ટમો. મળીને, તેઓ Tolanને મોટા અને નાજુક પ્રોમ્પ્ટ પર નિર્ભર થયા વગર વિષય પરિવર્તન ટ્રેક કરવા, ટોન જાળવવા અને પ્રતિભાવો આધારિત રાખવા સક્ષમ બનાવે છે.

આગળ જોતા,  Tolan steerability અને મેમરી refinementમાં પોતાનું રોકાણ વધુ ઊંડું કરવાની યોજના ધરાવે છે, જેમાં વધુ સઘન compression, સુધારેલી retrieval logic અને વિસ્તૃત persona tuning પર ધ્યાન કેન્દ્રિત કરાશે. લાંબા ગાળાનો હેતુ વોઇસ ઇન્ટરફેસ શું હોઈ શકે તેનો વિસ્તાર કરવાનો છે: માત્ર પ્રતિસાદી નહીં, પણ સંદર્ભ-જાગૃત અને સંવાદમાં ગતિશીલ.

Quinten કહે છે, “આગલું અત્યાધુનિક ક્ષેત્ર એ છે કે એવા વોઇસ એજન્ટ બનાવવાના, જે માત્ર પ્રતિસાદી જ નહીં પરંતુ ખરેખર મલ્ટીમોડલ હોય, અને વોઇસ, વિઝન અને સંદર્ભને એક જ steerable સિસ્ટમમાં એકત્ર કરી શકે.”