Kalo te përmbajtja kryesore
OpenAI

7 janar 2026

Startup

Si e ndërton Tolan AI me prioritet zëri me GPT‑5.1

Me GPT‑5.1, Tolan ndërtoi një aplikacion zanor të optimizuar për vonesë të ulët, kontekst të saktë dhe personalitete të qëndrueshme ndërsa bisedat zhvillohen.

Tolan logo on orange jigsaw puzzle background
Duke ngarkuar…

Tolan(hapet në një dritare të re) është një shoqërues AI që përdor zërin si parësor, ku njerëzit bisedojnë me një personazh të personalizuar dhe të animuar, i cili mëson nga bisedat me kalimin e kohës. 

I ndërtuar nga Portola, një ekip me përvojë që ka pasur një dalje të mëparshme, aplikacioni është projektuar për dialog të vazhdueshëm dhe të hapur, në vend të kërkesave dhe përgjigjeve të shpejta. “Pamë rritjen e ChatGPT dhe e dinim se zëri ishte kufiri i ardhshëm,” thotë Quinten Farmer, bashkëthemelues dhe CEO i Portola. “Por zëri është më i vështirë. "Ti nuk po u përgjigjesh vetëm kërkesave të shkruara; po zhvillon një bisedë të gjallë dhe të lirshme.”

Voice AI rrit standardet për vonesën dhe menaxhimin e kontekstit, por gjithashtu mundëson ndërveprime më të hapura dhe eksploruese sesa teksti. 

Meqenëse modelet themelore po bëhen më të shpejta, më të lira dhe më të afta, ekipi përqendroi përpjekjet e veta në dy drejtime kryesore: memorien dhe dizajnin e karakterit. Portola krijoi një univers të bazuar në personazhe, i formësuar nga animatorë të vlerësuar me çmime dhe një shkrimtar i fantashkencës, duke përdorur një sistem menaxhimi të kontekstit në kohë reale për të ruajtur qëndrueshmërinë e personalitetit dhe kujtesës gjatë zhvillimit të bisedave.

Publikimi i modeleve GPT‑5.1 shënoi një pikë kthese, duke sjellë përfitime të mëdha në drejtueshmëri dhe latencë që i bashkuan ato elemente, duke mundësuar një përvojë zanore më të përgjegjshme dhe më tërheqëse.

“GPT-5.1 na dha mundësinë për të shprehur më në fund personazhet që kishim në mendje. "Nuk ishte thjesht më inteligjent — ishte më besnik ndaj tonit dhe personalitetit që dëshironim të krijonim.”
—Quinten Farmer, drejtor i përgjithshëm, Portola

Projektimi për ndërveprime të zërit natyral

Arkitektura e Tolan formësohet nga kërkesat e zërit. Përdoruesit e zërit presin përgjigje të menjëhershme dhe natyrale, edhe kur bisedat ndryshojnë drejtim në mes. Tolan duhej të përgjigjej shpejt, të ndiqte temat që ndryshonin dhe të ruante një personalitet të qëndrueshëm pa vonesë ose devijim të tonit.

Që të duken natyrale, bisedat kërkonin vonesë pothuajse të menjëhershme. Prezantimi i OpenAI GPT‑5.1 dhe API-së së Përgjigjeve shkurton kohën e nisjes së të folurit me mbi 0,7 sekonda — mjaftueshëm për të përmirësuar dukshëm rrjedhën e bisedës.

Po aq kritike ishte mënyra se si sistemi trajtonte kontekstin. Ndryshe nga shumë agjentë që ruajnë kërkesat nëpër disa kthesa, Tolan e rindërton dritaren e kontekstit nga e para në çdo kthesë. Çdo rindërtim i kontekstit përfshin një përmbledhje të mesazheve të fundit, një kartë personazhi, kujtime të rikuperuara me vektorë, udhëzime për tonin dhe sinjale të aplikacionit në kohë reale. Kjo arkitekturë i mundëson Tolan të përshtatet në kohë reale me ndryshime të papritura të temave, një kërkesë thelbësore për ndërveprim natyror të bazuar në zë.

“E kuptuam shpejt se kërkesat e memorizuara thjesht nuk ishin të mjaftueshme,” thotë Quinten. “Përdoruesit ndryshojnë tema vazhdimisht. "Që të dukej pa ndërprerje, sistemi duhej të përshtatej gjatë procesit.”

Kjo qasje e rindërtimit në kohë reale është si teknikisht intensive ashtu edhe themelore për suksesin e Tolan.

Grafik që tregon ciklin bisedor të Tolan. Një hap “Recompute persona” furnizon katër hyrje: përmbledhjen e bisedës, mesazhet e fundit të papërpunuara, personat e përdoruesit dhe të Tolan, si dhe kontekst tjetër, kujtesën dhe tonin. Këto inpute kombinohen për të gjeneruar një përgjigje Tolan, që çon në një përgjigje përdoruesi. Përgjigjja e përdoruesit më pas nxit dy procese paralele: përftimin e një toni të përditësuar dhe nxjerrjen e kujtimeve. Kujtimet e nxjerra përditësojnë kujtesën, toni i përditësuar kthehet te toni, dhe historia e bisedës ripërmblidhet dhe kompresohet periodikisht, duke u rikthyer te përmbledhja e bisedës për radhën tjetër.

Ndërtimi i kujtesës dhe personalitetit që mbeten të bashkuara me kalimin e kohës

Menaxhimi i kontekstit është i rëndësishëm, por nuk ishte i mjaftueshëm për të ruajtur koherencën e bisedave me kalimin e kohës. Për të mbështetur bisedat e gjata dhe jolineare, Tolan ndërtoi një sistem kujtese që ruan jo vetëm faktet dhe preferencat, por edhe sinjalet emocionale “vibe” — të dhëna që ndihmojnë në drejtimin e mënyrës se si një Tolan duhet të përgjigjet.

Kujtimet integrohen duke përdorur modelin OpenAI text-embedding-3-large dhe ruhen në Turbopuffer, një bazë të dhënash vektoriale me shpejtësi të lartë që mundëson kohë kërkimi nën 50 ms. Kjo shpejtësi është thelbësore për ndërveprime zanore në kohë reale. Në çdo radhë, Tolan përdor mesazhin më të fundit të përdoruesit dhe pyetjet e sintetizuara nga sistemi (p.sh., “Me kë është i martuar përdoruesi?”) për të nxitur rikujtimin. Për të mbajtur cilësinë e memories të lartë, Tolan ekzekuton çdo natë një proces kompresimi që heq hyrjet me vlerë të ulët ose të tepërta (p.sh. “përdoruesi piu kafe sot”) dhe zgjidh kundërshtitë.

Personaliteti menaxhohet me po aq kujdes. Çdo Tolan është i pajisur me një skelet të veçantë karakteri, i krijuar nga shkrimtari i brendshëm i ekipit për fantashkencë dhe i rafinuar nga një studiues i sjelljes. Këto mundësi u japin Tolan qëndrueshmëri, por edhe fleksibilitet për t'u përshtatur me kalimin e kohës, duke evoluar së bashku me përdoruesin. 

Një sistem paralel monitoron tonin emocional të bisedës dhe rregullon dinamikisht mënyrën e të shprehurit të Tolan. Kjo i mundëson një Tolan të kalojë pa probleme nga lozonjar në i përmbajtur, në varësi të sinjaleve të përdoruesit, pa humbur personalitetin e tij thelbësor. 

Kalimi në GPT‑5.1 ishte një pikë kthimi. Papritur, udhëzimet e shtresëzuara të kërkesës — strukturat e tonit, injeksionet e kujtesës, tiparet e karakterit — u ndoqën më me përpikëri. Kërkesat që dikur kërkonin zgjidhje të përkohshme filluan të funksionojnë siç ishte parashikuar. 

“Për herë të parë, ekspertët tanë të brendshëm ndiheshin sikur modeli po dëgjonte me të vërtetë,” thotë Quinten. “Udhëzimet mbetën të paprekura gjatë bisedave të gjata, tiparet e personazhit u respektuan dhe pamë shumë më pak devijime.”

Këto ndryshime çuan në një personalitet më të qëndrueshëm dhe më të besueshëm, që nga ana e tij krijoi një përvojë përdoruesi më tërheqëse. Ekipi i Tolan pa përmirësime të qarta dhe të matshme: dështimet në rikujtimin e memories ranë me 30% (bazuar në sinjalet e frustrimit brenda produktit), dhe mbajtja e përdoruesve ditën pasuese u rrit me më shumë se 20% pas përdorimit të personaliteteve të mbështetura nga GPT‑5.1.

Diagrami i rrjedhës që ilustron se si Tolan rikuperon dhe përpunon kujtimet gjatë bisedës. Një mesazh i përdoruesit (“I’m so excited for my trip this weekend”) nxit një hap që krijon pyetje pasuese, si për shembull udhëtime të ardhshme, plane për një javë të caktuar dhe preferencat e përdoruesit. Këto pyetje janë të integruara dhe përdoren për të kërkuar në një bazë të dhënash vektoriale të kujtesës, me rezultatet e bashkuara duke përdorur renditjen mesatare reciproke. Konteksti i rikthyer informon përgjigjen e Tolan (“camping with Steven in Yosemite”). Një mesazh i mëvonshëm i përdoruesit për një udhëtim të ardhshëm në Islandë ruhet si një kujtesë e re, pastaj reflektohet mbi të, grumbullohet me kujtesa të lidhura duke përdorur fqinjët më të afërt të bazuar në embedding, dhe kompresohet duke kombinuar, redaktuar dhe përmirësuar kujtesat brenda çdo grupi.

Parimet thelbësore të Tolan për ndërtimin e agjentëve me zë natyral 

Ndërsa Tolan evoluoi, disa parime dolën në pah që tani udhëheqin mënyrën se si ekipi ndërton dhe zhvillon arkitekturën e zërit të tij:

  • Dizajn për paqëndrueshmërinë e bisedave: Biseda me zë ndryshojnë në mes të fjalisë. Sistemet duhet të përshtaten po aq shpejt që të duken natyrshëm.
  • Trajto vonesën si pjesë të përvojës së produktit: Reagimi nën një sekondë përcakton nëse një agjent zanor ndihet bisedor apo mekanik.
  • Ndërto kujtesën si një sistem rikujtimi, jo si një transkript: Kompresimi cilësor dhe kërkimi i shpejtë vektorial ofrojnë një personalitet më të qëndrueshëm sesa dritaret e kontekstit të mëdha.
  • Rindërto kontekstin çdo herë: Mos lufto devijimin me kërkesa më të mëdha. Rigjenerimi i kontekstit në çdo hap i mban agjentët të përqendruar ndërsa bisedat lëvizin.

Së bashku, këto mësime përbëjnë bazën për fazën e ardhshme të inovacionit të Tolan dhe përcaktojnë drejtimin për të ardhmen e AI të zërit.

Zgjerimi i asaj që është e mundur me AI zanore

Që nga qarkullimi në shkurt 2025, Tolan është rritur në më shumë se 200 000 përdorues aktivë mujorë. Vlerësimi i tij prej 4,8 yjesh dhe më shumë se 100 000 vlerësime në App Store theksojnë se sa mirë sistemi ruan konsistencën përgjatë bisedave të gjata dhe të ndryshueshme. Një recensues vuri në dukje, “Mban gjërat për të cilat folëm dy ditë më parë dhe i sjell përsëri në bisedën që po bëjmë sot.”

Këto sinjale lidhen drejtpërdrejt me arkitekturën themelore: thirrje modele me vonesë të ulët, rindërtim konteksti hap pas hapi dhe sisteme modulare të kujtesës dhe personës. Së bashku, ato i mundësojnë Tolan të ndjekë ndryshimet e temave, të ruajë tonin dhe të mbajë përgjigjet të bazuara pa u mbështetur në kërkesa të mëdha dhe të brishta.

Duke parë drejt së ardhmes, Tolan planifikon të thellojë investimet në drejtueshmëri dhe rafinim të kujtesës, duke përqendruar përpjekjet në kompresim më të ngushtë, logjikë të përmirësuar të rikthimit dhe rregullim të zgjeruar të personalitetit. Qëllimi afatgjatë është të zgjerohet ajo që mund të jetë një ndërfaqe zanore: jo vetëm reaguese, por edhe e vetëdijshme për kontekstin dhe dinamike në biseda.

“Kufiri i ardhshëm,” thotë Quinten, “është krijimi i agjentëve zanorë që nuk janë vetëm reagues, por vërtet multimodalë, të aftë të integrojnë zërin, vizionin dhe kontekstin në një sistem të vetëm, të kontrollueshëm.”