Πώς αναπτύσσει η Tolan ΤΝ επικεντρωμένη στη φωνή, με το GPT‑5.1
Με το GPT‑5.1, η Tolan ανέπτυξε μια φωνητική εφαρμογή βελτιστοποιημένη για χαμηλή καθυστέρηση, ακριβές θεματικό πλαίσιο και σταθερές προσωπικότητες καθώς οι συνομιλίες εξελίσσονται.

Η εφαρμογή Tolan(ανοίγει σε νέο παράθυρο) είναι ένας φωνητικός βοηθός ΤΝ που επιτρέπει στους χρήστες να μιλούν με έναν εξατομικευμένο, κινούμενο χαρακτήρα που μαθαίνει από τις συνομιλίες με την πάροδο του χρόνου.
Η εφαρμογή έχει φτιαχτεί από την Portola, μια έμπειρη ομάδα με ιστορικό επιχειρηματικής επιτυχίας, και έχει σχεδιαστεί για συνεχή διάλογο ανοιχτού τύπου και όχι για γρήγορες προτροπές και απαντήσεις. «Είδαμε την επιτυχία του ChatGPT και καταλάβαμε αμέσως ότι η φωνή ήταν το επόμενο βήμα», δηλώνει ο Quinten Farmer, συνιδρυτής και εκτελεστικής διευθυντής της Portola. «Αλλά η φωνή είναι πιο δύσκολη. Δεν απαντάει απλώς σε πληκτρολογημένες προτροπές, αλλά κάνει ζωντανή συζήτηση που μπορεί να πάει οπουδήποτε.
Η φωνητική ΤΝ ανεβάζει τον πήχη στις απαιτήσεις καθυστέρησης απαντήσεων και τη διαχείριση του θεματικού πλαισίου, αλλά επιτρέπει επίσης πιο ανοιχτές, διερευνητικές αλληλεπιδράσεις σε σχέση με το κείμενο.
Καθώς τα βασικά μοντέλα γίνονται ταχύτερα, φθηνότερα και πιο ικανά, η ομάδα επικέντρωσε τις προσπάθειές της σε δύο βασικούς μοχλούς: τη μνήμη και τον σχεδιασμό χαρακτήρων. Η Portola δημιούργησε ένα σύμπαν με επίκεντρο τους χαρακτήρες, διαμορφωμένο από βραβευμένους επαγγελματίες animation και έναν συγγραφέα επιστημονικής φαντασίας, χρησιμοποιώντας ένα σύστημα διαχείρισης θεματικού πλαισίου σε πραγματικό χρόνο για να διατηρεί συνεπή την προσωπικότητα και τη μνήμη καθώς εξελίσσονται οι συζητήσεις.
Η κυκλοφορία των μοντέλων GPT‑5.1 σηματοδότησε ένα σημείο καμπής, προσφέροντας σημαντικά οφέλη στην καθοδηγησιμότητα και στη μείωση της χρονικής καθυστέρησης, ξεκλειδώνοντας έτσι μια πιο άμεση και ελκυστική φωνητική εμπειρία.
«Το GPT-5.1 μάς έδωσε τη δυνατότητα να εκφράσουμε επιτέλους τους χαρακτήρες που είχαμε φανταστεί. Δεν ήταν απλώς πιο έξυπνο, ήταν πιο πιστό στο ύφος και την προσωπικότητα που θέλαμε να δημιουργήσουμε.»
Η αρχιτεκτονική της εφαρμογής Tolan διαμορφώνεται από τις απαιτήσεις της φωνής. Οι χρήστες φωνής αναμένουν άμεσες, φυσικές απαντήσεις, ακόμη και όταν οι συνομιλίες αλλάζουν ξαφνικά κατεύθυνση. Η εφαρμογή Tolan έπρεπε να ανταποκρίνεται γρήγορα, να παρακολουθεί τις αλλαγές στα θέματα και να διατηρεί μια συνεπή προσωπικότητα χωρίς καθυστερήσεις ή αλλαγή ύφους.
Για να είναι φυσικές, οι συνομιλίες απαιτούσαν σχεδόν στιγμιαία απόκριση με μηδενική καθυστέρηση. Η εφαρμογή του OpenAI GPT‑5.1 και του Responses API μειώνει τον χρόνο έναρξης ομιλίας κατά πάνω από 0,7 δευτερόλεπτα — αρκετά μεγάλο διάστημα για να βελτιώσει αισθητά τη ροή της συνομιλίας.
Εξίσου σημαντικός ήταν ο τρόπος που χειριζόταν το σύστημα το θεματικό πλαίσιο. Σε αντίθεση με πολλούς πράκτορες που αποθηκεύουν προσωρινά προτροπές για πολλές αλληλεπιδράσεις, η εφαρμογή Tolan αναδομεί το πλαίσιο εφαρμογής του από την αρχή σε κάθε αλληλεπίδραση. Κάθε ανακατασκευή του πλαισίου εφαρμογής αντλεί μια σύνοψη πρόσφατων μηνυμάτων, μια κάρτα προσωπικότητας, αναμνήσεις που ανακτώνται μέσω διανυσματικής αναζήτησης, καθοδήγηση ύφους και σήματα εφαρμογής σε πραγματικό χρόνο. Αυτή η αρχιτεκτονική επιτρέπει στην εφαρμογή Tolan να προσαρμόζεται σε πραγματικό χρόνο σε απότομες αλλαγές θέματος, μια βασική απαίτηση για φυσική φωνητική αλληλεπίδραση.
«Συνειδητοποιήσαμε γρήγορα ότι η προσωρινή αποθήκευση προτροπών δεν ήταν αρκετή» λέει ο Quinten. «Οι χρήστες αλλάζουν θέματα συνεχώς. Για να είναι απρόσκοπτη η συζήτηση, το σύστημα έπρεπε να προσαρμόζεται εν μέσω της διαδικασίας».
Αυτή η προσέγγιση ανακατασκευής σε πραγματικό χρόνο είναι τεχνικά απαιτητική αλλά και απαραίτητη για την επιτυχία της εφαρμογής Tolan.

Η διαχείριση του πλαισίου εφαρμογής είναι σημαντική, αλλά δεν ήταν αρκετή για να διατηρήσει τις συνομιλίες συνεκτικές, με την πάροδο του χρόνου. Για να υποστηρίξει μακροσκελείς, μη γραμμικές συνομιλίες, η εφαρμογή Tolan δημιούργησε ένα σύστημα μνήμης που διατηρεί όχι μόνο γεγονότα και προτιμήσεις, αλλά και συναισθηματικά σήματα «vibe» — ενδείξεις που συμβάλλουν στην καθοδήγηση των απαντήσεων ενός χαρακτήρα Tolan.
Οι αναμνήσεις ενσωματώνονται χρησιμοποιώντας το μοντέλο OpenAI text-embedding-3-large και αποθηκεύονται στο Turbopuffer, μια διανυσματική βάση δεδομένων υψηλής ταχύτητας που επιτρέπει χρόνους αναζήτησης κάτω από 50 ms. Αυτή η ταχύτητα είναι απαραίτητη για αλληλεπιδράσεις φωνής σε πραγματικό χρόνο. Σε κάθε αλληλεπίδραση, η εφαρμογή Tolan χρησιμοποιεί το πιο πρόσφατο μήνυμα του χρήστη και ερωτήσεις που συντίθενται από το σύστημα (π.χ. «Με ποιον είναι παντρεμένος ο χρήστης;») για να ενεργοποιήσει την ανάκληση αναμνήσεων. Για να διατηρείται υψηλή η ποιότητα της μνήμης, το Tolan εκτελεί μια νυχτερινή εργασία συμπίεσης που αφαιρεί καταχωρίσεις χαμηλής αξίας ή πλεονάζουσες καταχωρίσεις (π.χ. «ο χρήστης ήπιε καφέ σήμερα») και επιλύει αντιφάσεις.
Η διαχείριση της προσωπικότητας πραγματοποιείται με την ίδια προσοχή. Κάθε χαρακτήρας Tolan είναι εφοδιασμένος με ένα ξεχωριστό υπόβαθρο, που έχει δημιουργηθεί από τον εσωτερικό συγγραφέα επιστημονικής φαντασίας της ομάδας και έχει βελτιωθεί από έναν ερευνητή συμπεριφοράς. Αυτοί οι σπόροι προσφέρουν στους χαρακτήρες Tolan συνέπεια, αλλά και την ευελιξία να προσαρμόζονται και να εξελίσσονται μαζί με τον χρήστη, με την πάροδο του χρόνου.
Ένα παράλληλο σύστημα παρακολουθεί τον συναισθηματικό τόνο της συνομιλίας και προσαρμόζει δυναμικά τη φωνή του χαρακτήρα Tolan. Αυτό επιτρέπει σε έναν χαρακτήρα Tolan να μεταβαίνει απρόσκοπτα από παιχνιδιάρικο σε προσγειωμένο ύφος, ανάλογα με τις ενδείξεις του χρήστη, χωρίς να χάνει την κύρια προσωπικότητά του.
Η μετάβαση στο GPT‑5.1 ήταν καθοριστική. Ξαφνικά, οι πολυεπίπεδες οδηγίες προτροπής —σκελετοί ύφος, εγχύσεις αναμνήσεων, χαρακτηριστικά χαρακτήρα— ακολουθούνταν πιο πιστά. Προτροπές που κάποτε απαιτούσαν παρακάμψεις άρχισαν να λειτουργούν όπως προβλεπόταν.
«Για πρώτη φορά, οι εσωτερικοί μας ειδικοί ένιωσαν ότι το μοντέλο άκουγε πραγματικά» λέει ο Quinten. «Οι οδηγίες διατηρήθηκαν ανέπαφες σε μακροσκελείς συζητήσεις, τα χαρακτηριστικά της προσωπικότητας έγιναν σεβαστά και παρατηρήσαμε πολύ λιγότερη απόκλιση».
Αυτές οι αλλαγές οδήγησαν σε μια πιο συνεπή και πειστική προσωπικότητα, η οποία με τη σειρά της δημιούργησε μια πιο ενδιαφέρουσα εμπειρία χρήσης. Η ομάδα της Tolan παρατήρησε σαφή, μετρήσιμα οφέλη: οι αστοχίες στην ανάκληση μνήμης μειώθηκαν κατά 30% (με βάση σήματα απογοήτευσης εντός του προϊόντος) και η διατήρηση χρηστών την επόμενη ημέρα αυξήθηκε πάνω από 20% μετά την κυκλοφορία των προσωπικοτήτων που αξιοποιούν GPT‑5.1 .

Καθώς εξελίχθηκε η εφαρμογή Tolan, αναδύθηκαν ορισμένες αρχές που πλέον καθοδηγούν τον τρόπο με τον οποίο δημιουργεί και εξελίσσει η ομάδα την αρχιτεκτονική φωνής που εφαρμόζει:
- Σχεδιασμός για αστάθεια στις συνομιλίες: Οι φωνητικές συζητήσεις μπορεί να αλλάξουν τροπή στη μέση των προτάσεων. Τα συστήματα πρέπει να μπορούν να αντιδρούν εξίσου γρήγορα, για να δίνουν φυσική αίσθηση.
- Αντιμετωπίστε τη μείωση της καθυστέρηση ως μέρος της εμπειρίας του προϊόντος: Η απόκριση σε λιγότερο από ένα δευτερόλεπτο καθορίζει αν ένας φωνητικός πράκτορας δίνει αίσθηση συνομιλητή ή μηχανής.
- Χτίστε τη μνήμη ως σύστημα ανάκτησης, όχι ως απομαγνητοφώνηση: Η υψηλής ποιότητας συμπίεση και η ταχεία διανυσματική αναζήτηση προσφέρουν πιο συνεπή προσωπικότητα από τα υπερμεγέθη παράθυρα θεματικού πλαισίου.
- Αναδημιουργήστε το πλαίσιο κάθε φορά: Μην αντιμετωπίζετε την απόκλιση με μεγαλύτερες προτροπές. Η αναδημιουργία του πλαισίου σε κάθε αλληλεπίδραση διατηρεί τους πράκτορες προσγειωμένους καθώς οι συζητήσεις ξεφεύγουν από τα αρχικά πλαίσια.
Μαζί, αυτά τα μαθήματα αποτελούν το θεμέλιο για την επόμενη φάση καινοτομίας της εφαρμογής Tolan και καθορίζουν την κατεύθυνση προς την οποία οδεύει η φωνητική τεχνητή νοημοσύνη.
Από την κυκλοφορία της τον Φεβρουάριο του 2025, η εφαρμογή Tolan έχει αποκτήσει περισσότερους από 200.000 μηνιαίους ενεργούς χρήστες. Η αξιολόγηση 4,8 αστέρων και οι περισσότερες από 100.000 κριτικές στο App Store αναδεικνύουν πόσο καλά το σύστημα διατηρεί τη συνέπεια σε μακροσκελείς, μεταβαλλόμενες συζητήσεις. Ένας αξιολογητής σημείωσε: «Οι χαρακτήρες θυμούνται πράγματα που συζητήσαμε πριν από δύο ημέρες και αναφέρονται σε αυτά στη σημερινή μας συζήτηση».
Αυτά τα σήματα αντιστοιχούν άμεσα στην υποκείμενη αρχιτεκτονική: κλήσεις μοντέλου με χαμηλή καθυστέρηση, ανακατασκευή θεματικού πλαισίου ανά αλληλεπίδραση και αρθρωτά συστήματα μνήμης και προσωπικότητας. Μαζί, επιτρέπουν στην εφαρμογή Tolan να παρακολουθεί τις αλλαγές θεμάτων, να διατηρεί το ύφος και να διατηρεί τις απαντήσεις τεκμηριωμένες, χωρίς να βασίζεται σε μεγάλες, εύθραυστες προτροπές.
Για το μέλλον, η εφαρμογή Tolan σχεδιάζει να εμβαθύνει τις επενδύσεις της στην κατευθυνσιμότητα και τη βελτίωση της μνήμης, εστιάζοντας τις προσπάθειές της σε αυστηρότερη συμπίεση, βελτιωμένη λογική ανάκτησης και διευρυμένη ρύθμιση προσωπικότητας. Ο μακροπρόθεσμος στόχος είναι να επεκτείνουμε το τι μπορεί να είναι μια φωνητική διεπαφή: όχι μόνο να ανταποκρίνεται, αλλά να είναι ευαισθητοποιημένη στο θεματικό πλαίσιο και τη δυναμική της συνομιλίας.
«Το επόμενο βήμα», λέει ο Quinten, «είναι να δημιουργήσουμε φωνητικούς πράκτορες που δεν ανταποκρίνονται απλως, αλλά είναι πραγματικά πολυτροπικοί, δηλαδή ικανοί να ενσωματώνουν φωνή, όραση και θεματικό πλαίσιο σε ένα ενιαίο, κατευθυνόμενο σύστημα»


