Pāriet uz galveno saturu
OpenAI

2026. gada 7. janvāris

Jaunuzņēmums

Kā Tolan veido balss vadītu mākslīgo intelektu ar GPT‑5.1

Izmantojot GPT‑5.1, Tolan izveidoja balss lietotni, kas optimizēta zemam latentumam, precīzam kontekstam un stabilām personībām sarunu gaitā.

Tolan logo on orange jigsaw puzzle background
Notiek ielāde…

Tolan(atveras jaunā logā) ir balss vadīts MI sabiedrotais, kur cilvēki sarunājas ar personalizētu, animētu tēlu, kas laika gaitā mācās no sarunām. 

Šo pakalpojumu izveidoja Portola, pieredzējusi komanda, kas jau iepriekš ir guvusi panākumus, un tas ir paredzēts pastāvīgam, atklātam dialogam, nevis ātrām uzvednēm un atbildēm. “Mēs redzējām ChatGPT izaugsmi un zinājām, ka balss ir nākamā robeža,” saka Portola līdzdibinātājs un izpilddirektors Kvintens Fārmers “Bet balss ir sarežģītāka. Tu ne tikai atbildi uz rakstītām uzvednēm; tu piedalies dzīvā, līkumainā sarunā.”

Balss MI paaugstina latiņu latentuma un konteksta pārvaldības jomās, taču tas arī nodrošina atvērtākas un brīvākas mijiedarbības nekā teksts. 

Tā kā pamatu modeļi kļūst arvien ātrāki, lētāki un jaudīgāki, komanda koncentrēja savus centienus uz divām galvenajām svirām: atmiņu un tēlu veidošanu. Portola izveidoja uz tēliem balstītu visumu, ko veidojuši godalgoti animatori un zinātniskās fantastikas rakstnieks, izmantojot reāllaika konteksta pārvaldības sistēmu, lai saglabātu personības un atmiņas konsekvenci sarunu gaitā.

GPT‑5.1 modeļu iznākšana iezīmēja pagrieziena punktu, nodrošinot būtiskus uzlabojumus vadāmības un latentuma ziņā, apvienojot visus šos elementus un radot atsaucīgāku un saistošāku balss pieredzi.

“GPT-5.1 deva mums nepieciešamo vadāmību, lai beidzot izpaustu tādus tēlus, kādus bijām iecerējuši. "Tas nebija tikai gudrāks – tas bija uzticīgāks tonim un personībai, kuru mēs vēlējāmies izveidot.”
—Quinten Farmer, izpilddirektors, Portola

Veidošana dabiskām balss mijiedarbībām

Tolana arhitektūru nosaka balss prasības. Balss lietotāji gaida tūlītējas, dabiskas atbildes, pat ja sarunas tēma pēkšņi mainās. Tolan bija jāreaģē ātri, jāseko līdzi mainīgām tēmām un jāsaglabā konsekventa personība bez aizkavēšanās vai toņa novirzēm.

Lai sarunas šķistu dabiskas, atbildēm jābūt gandrīz tūlītējām. Ieviešot OpenAI GPT‑5.1 un Responses API, runas uzsākšanas laiks samazinājās par vairāk nekā 0,7 sekundēm – pietiekami, lai ievērojami uzlabotu sarunu plūsmu.

Tikpat svarīgi bija tas, kā sistēma apstrādāja kontekstu. Atšķirībā no daudziem aģentiem, kas kešatmiņā saglabā uzvednes vairākos soļos, Tolan katrā solī no jauna izveido savu konteksta logu. Katra konteksta rekonstrukcija ietver neseno ziņojumu kopsavilkumu, personas kartīti, ar vektoru izgūtās atmiņas, toņa vadlīnijas un lietotnes reāllaika signālus. Šī arhitektūra ļauj Tolan reāllaikā pielāgoties pēkšņām temata maiņām, kas ir būtiska prasība dabiskai balss mijiedarbībai.

“Mēs ātri sapratām, ka kešatmiņā saglabātās uzvednes vienkārši neder,” saka Kvintens. “Lietotāji bieži maina tēmas. Lai saruna šķistu plūstoša, sistēmai ir jāspēj pielāgoties tās vidū.”

Šī reāllaika rekonstrukcijas pieeja ir gan tehniski intensīva, gan arī ir Tolan panākumu pamatā.

Plūsmas diagramma, kurā attēlota Tolan sarunu cilpa. Solis "Pārrēķināt personu" nodrošina četrus ievades datus, tērzēšanas kopsavilkumu un nesenos neapstrādātos ziņojumus, lietotāja un Tolan personas un citu kontekstu, atmiņu un toni. Šie ievades dati kopā veido Tolan reakciju, kas noved pie lietotāja reakcijas. Lietotāja atbilde pēc tam virza divus paralēlus procesus: atjaunināta toņa iegūšanu un atmiņu izgūšanu. Izgūtās atmiņas atjaunina atmiņu, atjauninātais tonis atgriezeniski ietekmē toni, un sarunu vēsture periodiski tiek atkārtoti apkopota un saspiesta, atgriežoties pie tērzēšanas kopsavilkuma nākamajai kārtai.

Veidojot atmiņu un personību, kas saglabājas laika gaitā

Konteksta apstrāde ir svarīga, taču ar to nepietika, lai sarunas laika gaitā saglabātu saskaņotību. Lai atbalstītu garas, nelineāras sarunas, Tolan izveidoja atmiņas sistēmu, kas saglabā ne tikai faktus un preferences, bet arī emocionālos “noskaņas” signālus – norādes, kas palīdz noteikt, kā Tolan būtu jāreaģē.

Atmiņas tiek iegultas, izmantojot OpenAI text-embedding-3-large modeli, un glabātas Turbopuffer, ātrdarbīgā vektoru datubāzē, kas nodrošina meklēšanas laikus, kas ir mazāki par 50 ms. Šis ātrums ir ļoti būtisks reāllaika balss mijiedarbībām. Katrā solī Tolan izmanto lietotāja jaunāko ziņojumu un sistēmas sintezētus jautājumus (piemēram, “Ar ko lietotājs ir precējies?”), lai izraisītu atmiņas atsaukšanu. Lai saglabātu augstu atmiņas kvalitāti, Tolan katru nakti veic saspiešanas uzdevumu, kas noņem mazvērtīgus vai liekus ierakstus (piemēram, “lietotājs šodien dzēra kafiju”) un atrisina pretrunas.

Personība tiek pārvaldīta tikpat rūpīgi. Katram Tolan ir izveidota atšķirīga tēla struktūra, kuras autors ir komandas iekšējais zinātniskās fantastikas rakstnieks un kuru pilnveido uzvedības pētnieks. Šī struktūra piešķir Tolan konsekvenci, bet arī elastību pielāgoties laika gaitā, attīstoties līdz ar lietotāju. 

Paralēla sistēma uzrauga sarunas emocionālo toni un dinamiski pielāgo Tolan izteiksmi. Tas ļauj Tolan atkarībā no lietotāja norādēm plūstoši pāriet no rotaļīga toņa uz piezemētu, nezaudējot savas personības būtību. 

Pāreja uz GPT‑5.1 bija pagrieziena punkts. Pēkšņi daudzslāņainas uzvedņu instrukcijas – tostarp toņa struktūras, atmiņas injekcijas, rakstura iezīmes – tika ievērotas daudz uzticamāk. Uzvednes, kurām iepriekš bija nepieciešami improvizēti risinājumi, sāka darboties, kā paredzēts. 

“Pirmo reizi mūsu iekšējie eksperti jutās tā, it kā modelis patiešām klausītos,” saka Kvintens. “Instrukcijas palika spēkā arī ilgstošās sarunās, personības iezīmes tika ievērotas, un mēs novērojām daudz mazāku novirzi.”

Šīs izmaiņas veidoja konsekventāku un ticamāku personību, kas savukārt radīja saistošāku lietotāja pieredzi. Tolan komanda saskatīja skaidrus, izmērāmus uzlabojumus: atmiņas atsaukšanas kļūdu skaits samazinājās par 30% (pamatojoties uz produktā fiksētajiem neapmierinātības signāliem), un nākamās dienas lietotāju noturēšana pieauga par vairāk nekā 20% pēc GPT‑5.1 nodrošināto personību aktivizēšanas.

Plūsmas diagramma, kas ilustrē, kā Tolan sarunas laikā izgūst un precizē atmiņas. Lietotāja ziņojums (“Nevaru vien sagaidīt savu ceļojumu nedēļas nogalē”) izraisa darbību, kas ģenerē papildu jautājumus, piemēram, par gaidāmajiem ceļojumiem, plāniem konkrētai nedēļai un lietotāja vēlmēm. Šie jautājumi tiek iegulti un izmantoti, lai veiktu vaicājumus atmiņas vektoru datubāzē, un rezultāti tiek apvienoti, izmantojot vidējo savstarpējo rangu. Izgūtais konteksts informē Tolan atbildi (“kempings ar Stīvenu Josemitā”). Vēlāka lietotāja ziņa par gaidāmo ceļojumu uz Islandi tiek saglabāta kā jauna atmiņa, pēc tam pārdomāts, sagrupēts kopā ar saistītajām atmiņām, izmantojot uz iestrādi balstītu k-tuvāko kaimiņu sistēmu, un saspiests, apvienojot, rediģējot un uzlabojot atmiņas katrā klasterī.

Tolan pamatprincipi dabisku balss aģentu veidošanai 

Tolan attīstoties, izveidojās daži principi, pēc kuriem komanda tagad vadās, veidojot un attīstot savu balss arhitektūru:

  • Projektēt, ņemot vērā sarunu mainīgo dabu: Balss sarunās temats var mainīties teikuma vidū. Sistēmām ir jāspēj tikpat ātri pielāgoties, lai tās šķistu dabiskas.
  • Uzskatīt latentumu par daļu no produkta pieredzes: Reakcijas laiks, kas ir mazāks par sekundi, nosaka, vai saruna ar balss aģentu nešķiet mehāniska.
  • Veidot atmiņu kā izgūšanas sistēmu, nevis transkripciju: Kvalitatīva saspiešana un ātra vektoru meklēšana nodrošina konsekventāku personību nekā pārlieku lieli konteksta logi.
  • Atjaunot kontekstu katrā solī: Necīnieties ar novirzēm, izmantojot garākas uzvednes. Konteksta atjaunošana katrā solī palīdz aģentiem saglabāt orientāciju, sarunām plūstot dažādos virzienos.

Kopā šīs mācības veido pamatu Tolan nākamajam inovāciju posmam un nosaka balss mākslīgā intelekta attīstības virzienu.

Balss mākslīgā intelekta iespēju paplašināšana

Kopš palaišanas 2025. gada februārī Tolan ir izaudzis līdz vairāk nekā 200 000 ikmēneša aktīvajiem lietotājiem. Tā 4,8 zvaigžņu vērtējums un vairāk nekā 100 000 App Store atsauksmju izceļ, cik labi sistēma uztur konsekvenci garās, mainīgās sarunās. Viens atsauksmes autors atzīmēja: “Viņi atceras lietas, par kurām runājām pirms divām dienām, un tās atkal iekļauj šodienas sarunā.”

Šie signāli tieši atbilst pamatā esošajai arhitektūrai: zema latentuma modeļu izsaukumi, konteksta rekonstrukcija katrā solī un modulāras atmiņas un personības sistēmas. Kopā tie ļauj Tolan izsekot tēmu izmaiņām, saglabāt toni un nodrošināt, ka atbildes ir pamatotas, nepaļaujoties uz lielām, trauslām uzvednēm.

Raugoties nākotnē, Tolan plāno padziļināt ieguldījumus vadāmībā un atmiņas precizēšanā, koncentrējot savus centienus uz ciešāku saspiešanu, uzlabotu izgūšanas loģiku un paplašinātu personības pielāgošanu. Ilgtermiņa mērķis ir paplašināt to, kas vispār var būt balss saskarne: ne tikai atsaucīga, bet arī kontekstu apzinoša un sarunvalodā dinamiska.

“Nākamā robeža,” saka Kvintens, “ir veidot balss aģentus, kas nav tikai atsaucīgi, bet patiesi multimodāli, spējīgi integrēt balsi, redzi un kontekstu vienotā, vadāmā sistēmā.”