გადადით მთავარ შინაარსზე
OpenAI

7 იანვარი, 2026

სტარტაპი

როგორ ქმნის Tolan ხმის პრიორიტეტულ AI-ს GPT‑5.1‑ით

GPT‑5.1‑ის დახმარებით Tolan-მა შექმნა ხმოვანი აპი, ოპტიმიზებული დაბალი დაყოვნებისთვის, ზუსტი კონტექსტისა და საუბრის განვითარებასთან ერთად სტაბილური პერსონაჟებისთვის.

Tolan-ის ლოგო ნარინჯისფერ ჯიგსოს ფაზლის ფონზე
იტვირთება…

Tolan(იხსნება ახალ ფანჯარაში) არის ხმაზე ორიენტირებული AI კომპანიონი, სადაც ადამიანები ესაუბრებიან პერსონალიზებულ, ანიმირებულ პერსონაჟს, რომელიც დროთა განმავლობაში საუბრებიდან სწავლობს. 

Portola-ს მიერ შექმნილი, გამოცდილი გუნდისგან, რომელსაც წარსულში წარმატებული exit ჰქონდა, აპი გათვლილია უწყვეტ, ღია დიალოგზე და არა მოკლე მოთხოვნებსა და პასუხებზე. „ვიხილეთ ChatGPT‑ის აღმასვლა და მივხვდით, რომ შემდეგი მოწინავე მიმართულება ხმა იყო,“ ამბობს Quinten Farmer, Portola-ს თანადამფუძნებელი და CEO. „მაგრამ ხმა უფრო რთულია. თქვენ უბრალოდ აკრეფილ მოთხოვნებზე არ პასუხობთ; ცოცხალ, ხვეულ საუბარს მართავთ.“

ხმოვანი AI ზრდის მოთხოვნებს დაყოვნებასა და კონტექსტის მართვაზე, მაგრამ ტექსტთან შედარებით უფრო ღია და საძიებო ინტერაქციების საშუალებასაც იძლევა. 

რადგან საბაზისო მოდელები უფრო სწრაფი, იაფი და შესაძლებლობებით მდიდარი გახდა, გუნდმა ძალისხმევა ორ მთავარ ბერკეტზე მიმართა: მეხსიერებასა და პერსონაჟის დიზაინზე. Portola-მ შექმნა პერსონაჟებზე დაფუძნებული სამყარო, რომელსაც აყალიბებდნენ ჯილდოს მფლობელი ანიმატორები და სამეცნიერო ფანტასტიკის მწერალი, და გამოიყენა რეალურ დროში კონტექსტის მართვის სისტემა, რათა საუბრის მიმდინარეობისას პიროვნება და მეხსიერება თანმიმდევრული დარჩენილიყო.

GPT‑5.1 მოდელების გამოშვება გარდამტეხი მომენტი აღმოჩნდა: მნიშვნელოვნად გაუმჯობესდა მართვადობა და დაყოვნება, რამაც ეს ნაწილები გააერთიანა და უფრო სწრაფი და ჩამთრევი ხმოვანი გამოცდილება გახსნა.

„GPT-5.1-მა მოგვცა ის მართვადობა, რომ საბოლოოდ გამოგვეხატა ის პერსონაჟები, რომლებიც გვქონდა ჩაფიქრებული. ის უბრალოდ უფრო ჭკვიანი არ იყო — უფრო ერთგულად გადასცემდა იმ ტონსა და პიროვნებას, რომლის შექმნაც გვინდოდა.“
—Quinten Farmer, CEO, Portola

ბუნებრივი ხმოვანი ინტერაქციების დაპროექტება

Tolan-ის არქიტექტურა ხმის მოთხოვნებით არის ჩამოყალიბებული. ხმოვანი მომხმარებლები მყისიერ, ბუნებრივ პასუხებს ელიან, მაშინაც კი, როცა საუბარი პროცესში მიმართულებას იცვლის. Tolan-ს სჭირდებოდა სწრაფი პასუხი, ცვლადი თემების თვალყურის დევნება და თანმიმდევრული პიროვნების შენარჩუნება დაყოვნებისა და ტონის ცდომის გარეშე.

ბუნებრივად აღსაქმელად, საუბარს თითქმის მყისიერი დაყოვნება სჭირდებოდა. OpenAI GPT‑5.1‑ისა და Responses API-ის დანერგვამ საუბრის დაწყების დრო 0.7 წამზე მეტით შეამცირა — საკმარისად, რომ დიალოგის დინება შესამჩნევად გაუმჯობესებულიყო.

არანაკლებ მნიშვნელოვანი იყო ისიც, როგორ ამუშავებდა სისტემა კონტექსტს. ბევრი აგენტისგან განსხვავებით, რომლებიც მოთხოვნებს მრავალ ჯერზე ქეშავენ, Tolan ყოველი ჯერისთვის კონტექსტის ფანჯარას თავიდან აწყობს. ყოველი ასეთი რეკონსტრუქცია მოიცავს ბოლო შეტყობინებების შეჯამებას, პერსონის ბარათს, ვექტორული მოძიებით ამოღებულ მეხსიერებებს, ტონის მითითებებს და აპის რეალურ დროში სიგნალებს. ეს არქიტექტურა Tolan-ს საშუალებას აძლევს, რეალურ დროში მოერგოს თემის მოულოდნელ ცვლილებებს — მოთხოვნას, რომელიც ბუნებრივი ხმოვანი ინტერაქციისთვის არსებითია.

„სწრაფად მივხვდით, რომ დაკეშილი მოთხოვნები უბრალოდ საკმარისი არ იყო,“ ამბობს Quinten. „მომხმარებლები მუდმივად ცვლიან თემებს. რომ ყველაფერი შეუფერხებლად იგრძნობოდეს, სისტემას პროცესშივე უნდა მოეხდინა ადაპტაცია.“

რეალურ დროში რეკონსტრუქციის ეს მიდგომა ტექნიკურადაც რთულია და Tolan-ის წარმატებისთვისაც ფუნდამენტური.

ნაკადის დიაგრამა, რომელიც აჩვენებს Tolan-ის საუბრის ციკლს. „პერსონის ხელახლა გამოთვლის“ ეტაპი იღებს ოთხ შეყვანას: ჩატის შეჯამებას და ბოლო დაუმუშავებელ შეტყობინებებს, მომხმარებლისა და Tolan-ის პერსონებს და სხვა კონტექსტს, მეხსიერებას და ტონს. ეს შეყვანები ერთიანდება Tolan-ის პასუხის შესაქმნელად, რასაც მოსდევს მომხმარებლის პასუხი. შემდეგ მომხმარებლის პასუხი მართავს ორ პარალელურ პროცესს: განახლებული ტონის გამოყვანას და მოგონებების ამოღებას. ამოღებული მოგონებები აახლებს მეხსიერებას, განახლებული ტონი ბრუნდება ტონში, ხოლო საუბრის ისტორია პერიოდულად ხელახლა ჯამდება და იკუმშება, რათა შემდეგ სვლაზე ისევ ჩატის შეჯამებაში დაბრუნდეს.

მეხსიერებისა და პიროვნების შექმნა, რომელიც დროში ინარჩუნებს ერთიანობას

კონტექსტის მართვა მნიშვნელოვანია, მაგრამ ეს არ კმაროდა, რომ საუბრები დროთა განმავლობაში თანმიმდევრულად აღქმულიყო. ხანგრძლივი, არაწრფივი საუბრების მხარდასაჭერად, Tolan-მა შექმნა მეხსიერების სისტემა, რომელიც ინახავს არა მხოლოდ ფაქტებსა და პრეფერენციებს, არამედ ემოციურ „ვაიბ“ სიგნალებსაც — მინიშნებებს, რომლებიც ეხმარება იმაში, როგორ უნდა უპასუხოს Tolan-მა.

მეხსიერებები ემბედდება OpenAI-ის text-embedding-3-large მოდელით და ინახება Turbopuffer-ში — მაღალსიჩქარიან ვექტორულ მონაცემთა ბაზაში, რომელიც 50 მწმ-ზე ნაკლებ დროში ძიებას უზრუნველყოფს. ეს სიჩქარე აუცილებელია რეალურ დროში ხმოვანი ინტერაქციებისთვის. ყოველ ჯერზე Tolan იყენებს მომხმარებლის უახლეს შეტყობინებასა და სისტემის მიერ სინთეზირებულ კითხვებს (მაგ., „ვინ არის მომხმარებლის მეუღლე?“), რათა მეხსიერების ამოღება გააქტიურდეს. მეხსიერების ხარისხის შესანარჩუნებლად Tolan ყოველ ღამე ასრულებს შეკუმშვის ამოცანას, რომელიც დაბალი ღირებულების ან დუბლირებულ ჩანაწერებს (მაგ. „მომხმარებელმა დღეს ყავა დალია“) შლის და წინააღმდეგობებს აგვარებს.

პიროვნებაც ისეთივე ყურადღებით იმართება. ყოველი Tolan იწყებს განსხვავებული პერსონაჟის კარკასით, რომელსაც გუნდის შიდა სამეცნიერო ფანტასტიკის მწერალი ქმნის და ქცევის მკვლევარი ხვეწს. ეს საწყისი სტრუქტურები Tolans-ს თანმიმდევრულობას აძლევს, მაგრამ ასევე აძლევს მოქნილობას დროთა განმავლობაში მოერგოს და მომხმარებელთან ერთად განვითარდეს. 

პარალელური სისტემა აკვირდება საუბრის ემოციურ ტონს და დინამიკურად არეგულირებს Tolan-ის გადმოცემის სტილს. ეს Tolan-ს საშუალებას აძლევს, მომხმარებლის სიგნალების მიხედვით შეუფერხებლად გადავიდეს მხიარულიდან უფრო დამიწებულ ტონზე, ისე რომ საკუთარი ძირითადი პიროვნება არ დაკარგოს. 

GPT‑5.1‑ზე გადასვლა გარდამტეხი მომენტი იყო. უცებ მრავალშრიანი მოთხოვნების ინსტრუქციები — ტონის ჩარჩოები, მეხსიერების ჩანართები, პერსონაჟის ნიშნები — ბევრად უფრო ერთგულად სრულდებოდა. მოთხოვნები, რომლებსაც ადრე შემოვლითი გზები სჭირდებოდა, ახლა ისე იქცეოდა, როგორც იყო ჩაფიქრებული. 

„პირველად ჩვენი შიდა ექსპერტები გრძნობდნენ, რომ მოდელი მართლაც გვისმენდა,“ ამბობს Quinten. „ინსტრუქციები ხანგრძლივ საუბრებშიც უცვლელი რჩებოდა, პერსონის თვისებები დაცული იყო და გადახრაც ბევრად ნაკლები ვნახეთ.“

ამ ცვლილებებმა ჯამში შექმნა უფრო თანმიმდევრული და დამაჯერებელი პიროვნება, რამაც თავის მხრივ უფრო ჩამთრევი მომხმარებლის გამოცდილება შექმნა. Tolan-ის გუნდმა მკაფიო, გაზომვადი გაუმჯობესებებიც დაინახა: მეხსიერების გახსენების გამორჩენები 30%-ით შემცირდა (პროდუქტში დაფიქსირებული იმედგაცრუების სიგნალებზე დაყრდნობით), ხოლო მეორე დღის მომხმარებლის შენარჩუნება GPT‑5.1‑ზე დაფუძნებული პერსონების გაშვების შემდეგ 20%-ზე მეტით გაიზარდა.

ნაკადის დიაგრამა, რომელიც აჩვენებს, როგორ იღებს და აუმჯობესებს Tolan მოგონებებს საუბრისას. მომხმარებლის შეტყობინება („ამ შაბათ-კვირის მოგზაურობისთვის ძალიან აღფრთოვანებული ვარ“) ააქტიურებს ეტაპს, რომელიც შემდგომ კითხვებს აყალიბებს, მაგალითად მომავალი მოგზაურობების, კონკრეტული კვირის გეგმებისა და მომხმარებლის პრეფერენციების შესახებ. ეს კითხვები იემბედება და გამოიყენება მეხსიერების ვექტორული მონაცემთა ბაზის გამოსაკითხად, ხოლო შედეგები mean reciprocal rank-ის გამოყენებით ერთიანდება. მიღებული კონტექსტი აყალიბებს Tolan-ის პასუხს („სტივენთან ერთად კემპინგი იოსემიტში“). მოგვიანებით, მომხმარებლის შეტყობინება ისლანდიაში მომავალ მოგზაურობაზე ინახება როგორც ახალი მოგონება, შემდეგ გააზრდება, დაჯგუფდება მონათესავე მოგონებებთან embedding-based k-nearest neighbors-ის გამოყენებით და შეიკუმშება თითოეულ კლასტერში მოგონებების გაერთიანებით, რედაქტირებითა და დახვეწით.

Tolan-ის ძირითადი პრინციპები ბუნებრივი ხმოვანი აგენტების შესაქმნელად 

Tolan-ის განვითარებასთან ერთად გამოიკვეთა რამდენიმე პრინციპი, რომლებიც ახლა გუნდის ხმოვანი არქიტექტურის შექმნასა და განვითარებას წარმართავს:

  • დააპროექტეთ სასაუბრო ცვალებადობისთვის: ხმოვანი საუბრები წინადადების შუაშიც იცვლება. ბუნებრივად რომ იგრძნობოდეს, სისტემამაც ასეთივე სისწრაფით უნდა შეიცვალოს მიმართულება.
  • დაყოვნება პროდუქტის გამოცდილების ნაწილად აღიქვით: წამზე ნაკლები რეაგირება განსაზღვრავს, ხმოვანი აგენტი სასაუბროდ აღიქმება თუ მექანიკურად.
  • მეხსიერება მოძიების სისტემად ააგეთ და არა ტრანსკრიპტად: მაღალი ხარისხის შეკუმშვა და სწრაფი ვექტორული ძიება უფრო თანმიმდევრულ პიროვნებას იძლევა, ვიდრე ზედმეტად დიდი კონტექსტის ფანჯრები.
  • ყოველ ჯერზე თავიდან ააგეთ კონტექსტი: გადახრას უფრო დიდი მოთხოვნებით ნუ შეებრძოლებით. ყოველ ჯერზე კონტექსტის თავიდან გენერირება აგენტებს საუბრის გადახვევისასაც ამყარებს.

ერთად ეს გაკვეთილები Tolan-ის ინოვაციის მომდევნო ეტაპის საფუძველს ქმნის და აჩვენებს, საით მიემართება ხმოვანი AI.

ხმოვანი AI-ით შესაძლებლის გაფართოება

2025 წლის თებერვალში გაშვების შემდეგ Tolan 200,000-ზე მეტ ყოველთვიურ აქტიურ მომხმარებლამდე გაიზარდა. მისი 4.8-ვარსკვლავიანი შეფასება და App Store-ში 100,000-ზე მეტი მიმოხილვა აჩვენებს, რამდენად კარგად ინარჩუნებს სისტემა თანმიმდევრულობას ხანგრძლივ და ცვალებად საუბრებში. ერთმა რეცენზენტმა აღნიშნა: „მათ ახსოვთ ის, რაზეც ორი დღის წინ ვილაპარაკეთ, და ეს ისევ შემოაქვთ იმ საუბარში, რომელსაც დღეს ვმართავთ.“

ეს სიგნალები პირდაპირ უკავშირდება საბაზისო არქიტექტურას: დაბალდაყოვნებიან მოდელის გამოძახებებს, ჯერიდან ჯერზე კონტექსტის რეკონსტრუქციას და მოდულურ მეხსიერებისა და პერსონის სისტემებს. ერთად ისინი Tolan-ს საშუალებას აძლევს, თემის ცვლილებებს მიადევნოს თვალი, ტონი შეინარჩუნოს და პასუხები მყარად კონტექსტზე დააფუძნოს დიდი და მყიფე მოთხოვნების იმედად ყოფნის გარეშე.

მომავალში  Tolan გეგმავს, უფრო მეტად ჩადოს რესურსი მართვადობასა და მეხსიერების დახვეწაში, ყურადღება გაამახვილოს უფრო მჭიდრო შეკუმშვაზე, გაუმჯობესებულ მოძიების ლოგიკაზე და პერსონის ტუნინგის გაფართოებაზე. გრძელვადიანი მიზანია გააფართოოს ის, თუ რა შეიძლება იყოს ხმოვანი ინტერფეისი: არა უბრალოდ რეაგირებადი, არამედ კონტექსტის მცოდნე და საუბარში დინამიკური.

„შემდეგი მოწინავე ეტაპი,“ ამბობს Quinten, „არის ისეთი ხმოვანი აგენტების შექმნა, რომლებიც მხოლოდ რეაგირებადი კი არ არიან, არამედ რეალურად მულტიმოდალურებიც არიან და შეუძლიათ ხმა, ხედვა და კონტექსტი ერთ მართვად სისტემაში გააერთიანონ.“