Παρουσίαση του gpt-realtime και των ενημερώσεων Realtime API για πράκτορες παραγωγής φωνητικής συνομιλίας
Κυκλοφορούμε ένα πιο προηγμένο μοντέλο μετατροπής ομιλίας σε ομιλία και νέες δυνατότητες API, όπως μεταξύ άλλων υποστήριξη διακομιστή MCP, εισαγωγή εικόνας καθώς και υποστήριξη κλήσεων μέσω τηλεφώνου μέσω SIP.

Σήμερα καθιστούμε το Realtime API γενικά διαθέσιμο με νέα χαρακτηριστικά που παρέχουν στους προγραμματιστές και τις επιχειρήσεις τη δυνατότητα να δημιουργούν αξιόπιστους, έτοιμους για παραγωγή φωνητικούς πράκτορες. Το API τώρα υποστηρίζει απομακρυσμένους διακομιστές MCP, εισαγωγές εικόνων και τηλεφωνικές κλήσεις μέσω του Πρωτοκόλλου Έναρξης Περιόδου Λειτουργίας (SIP), καθιστώντας τους φωνητικούς πράκτορες πιο ικανούς μέσω της πρόσβασης σε επιπλέον εργαλεία και θεματικό πλαίσιο.
Κυκλοφορούμε επίσης το πιο προηγμένο μοντέλο μετατροπής ομιλίας σε ομιλία μέχρι σήμερα—το gpt-realtime. Το νέο μοντέλο δείχνει βελτιώσεις στην εκτέλεση σύνθετων οδηγιών, στην ακριβή χρήση εργαλείων και στην παραγωγή ομιλίας που ακούγεται πιο φυσική και εκφραστική. Είναι καλύτερο στην ερμηνεία των μηνυμάτων του συστήματος και των προτροπών των προγραμματιστών—είτε πρόκειται για ανάγνωση σεναρίων αποποίησης ευθυνών λέξη προς λέξη σε μια κλήση υποστήριξης, επαληθευτική επανάληψη αλφαριθμητικών στοιχείων ή απρόσκοπτη εναλλαγή μεταξύ γλωσσών στη μέση της πρότασης. Κυκλοφορούμε επίσης δύο νέες φωνές, τον Cedar και τη Marin, που είναι διαθέσιμες αποκλειστικά στο Realtime API από σήμερα.
Από τότε που παρουσιάσαμε για πρώτη φορά το Realtime API σε δημόσια έκδοση beta τον περασμένο Οκτώβριο, χιλιάδες προγραμματιστές έχουν δημιουργήσει με το API και έχουν συμβάλει στη διαμόρφωση των βελτιώσεων που κυκλοφορούμε σήμερα—με βελτιστοποίηση για αξιοπιστία, χαμηλή λανθάνουσα καθυστέρηση και υψηλή ποιότητα για την επιτυχή ανάπτυξη φωνητικών πρακτόρων στην παραγωγή. Σε αντίθεση με τις παραδοσιακές ροές που δημιουργούν μια αλυσίδα πολλαπλών μοντέλων για μετατροπή ομιλίας σε κείμενο και μετατροπή κειμένου σε ομιλία, το Realtime API επεξεργάζεται και δημιουργεί ήχο απευθείας μέσω ενός μόνο μοντέλου και API. Αυτό μειώνει τη λανθάνουσα καθυστέρηση, διατηρεί τις αποχρώσεις στην ομιλία και παράγει πιο φυσικές, εκφραστικές απαντήσεις.
«Το νέο μοντέλο μετατροπής ομιλίας σε ομιλία στο Realtime API της OpenAI παρουσιάζει ισχυρότερο συλλογισμό και πιο φυσική ομιλία—και αυτό του επιτρέπει να διαχειρίζεται σύνθετα αιτήματα πολλαπλών βημάτων, όπως η περιορισμένη αναζήτηση καταχωρίσεων με βάση τις ανάγκες του τρόπου ζωής ή η καθοδήγηση συζητήσεων για την προσιτότητα με εργαλεία όπως η βαθμολογία του BuyAbility». Αυτό θα μπορούσε να κάνει την αναζήτηση για σπίτι στο Zillow ή την εξέταση επιλογών χρηματοδότησης να φαίνονται τόσο φυσικές όσο η συζήτηση με έναν φίλο, και αυτό θα βοηθούσε να απλοποιηθούν αποφάσεις όπως η αγορά, η πώληση και η ενοικίαση ενός σπιτιού.
- Josh Weisberg, Επικεφαλής Τεχνητής Νοημοσύνης στη Zillow
Το νέο μοντέλο μετατροπής ομιλίας σε ομιλία—το gpt-realtime—είναι το πιο προηγμένο, έτοιμο για παραγωγή φωνητικό μοντέλο μας. Εκπαιδεύσαμε το μοντέλο σε στενή συνεργασία με τους πελάτες, ώστε να διαπρέπει σε πραγματικές εργασίες όπως η υποστήριξη πελατών, η προσωπική βοήθεια και η εκπαίδευση—ευθυγραμμίζοντας το μοντέλο με τον τρόπο που οι προγραμματιστές δημιουργούν και αναπτύσσουν φωνητικούς πράκτορες. Το μοντέλο δείχνει βελτιώσεις στην ποιότητα ήχου, τη νοημοσύνη, την εκτέλεση οδηγιών και την κλήση λειτουργιών.
Η συζήτηση με φυσική ροή είναι καίριας σημασίας για την ανάπτυξη φωνητικών πρακτόρων στον πραγματικό κόσμο. Τα μοντέλα πρέπει να μιλούν με την τονικότητα, το συναίσθημα και το ρυθμό ενός ανθρώπου για να δημιουργούν μια ευχάριστη εμπειρία και να ενθαρρύνουν τη συνεχή συζήτηση με τους χρήστες. Εκπαιδεύσαμε το gpt-realtime να παράγει ομιλία υψηλότερης ποιότητας που ακούγεται πιο φυσική και μπορεί να ακολουθεί λεπτομερείς οδηγίες, όπως «μίλα γρήγορα και επαγγελματικά» ή «μίλα με ενσυναίσθηση με γαλλική προφορά».
Κυκλοφορούμε δύο νέες φωνές στο API, τη Marin και τον Cedar, με τις πιο σημαντικές βελτιώσεις στην ομιλία φυσικής ροής. Ενημερώνουμε επίσης τις υπάρχουσες οκτώ φωνές μας για να επωφεληθούν από αυτές τις βελτιώσεις.
Το gpt-realtime επιδεικνύει υψηλότερη νοημοσύνη και μπορεί να κατανοεί τον φυσικό ήχο με μεγαλύτερη ακρίβεια. Το μοντέλο μπορεί να καταγράφει μη λεκτικές υποδείξεις (όπως γέλια), να αλλάζει γλώσσα στη μέση της πρότασης και να προσαρμόζει τον τόνο («γρήγορο και επαγγελματικό» έναντι «ευγενικού και ενσυναισθητικού»). Σύμφωνα με εσωτερικές αξιολογήσεις, το μοντέλο δείχνει επίσης ακριβέστερη απόδοση στην ανίχνευση αλφαριθμητικών ακολουθιών (όπως αριθμοί τηλεφώνου, VIN κ.λπ.) σε άλλες γλώσσες, όπως τα ισπανικά, τα κινεζικά, τα ιαπωνικά και τα γαλλικά. Στην αξιολόγηση Big Bench Audio που μετρά τις ικανότητες συλλογισμού, το gpt-realtime επιτυγχάνει ακρίβεια 82,8%—ξεπερνώντας το προηγούμενο μοντέλο μας από τον Δεκέμβριο του 2024, το οποίο επιτυγχάνει 65,6%.
Η δοκιμή αξιολόγησης Big Bench Audio(ανοίγει σε νέο παράθυρο) είναι ένα σύνολο δεδομένων αξιολόγησης για την εκτίμηση των ικανοτήτων συλλογισμού των γλωσσικών μοντέλων που υποστηρίζουν την εισαγωγή ήχου. Αυτό το σύνολο δεδομένων προσαρμόζει ερωτήσεις από το Big Bench Hard—που επιλέχτηκε για τον αυστηρό έλεγχο του σύνθετου συλλογισμού—στον τομέα του ήχου.
Όταν δημιουργούν μια εφαρμογή μετατροπής ομιλίας σε ομιλία, οι προγραμματιστές παρέχουν ένα σύνολο οδηγιών στο μοντέλο για το πώς να συμπεριφέρεται, συμπεριλαμβανομένου του τρόπου ομιλίας, τι να πει σε μια συγκεκριμένη περίσταση και τι να κάνει ή να μην κάνει. Έχουμε επικεντρώσει τις βελτιώσεις μας στην τήρηση αυτών των οδηγιών, ώστε ακόμη και οι μικρές οδηγίες να μεταφέρουν περισσότερο σήμα στο μοντέλο. Στη δοκιμή αξιολόγησης ήχου MultiChallenge που μετρά την ακρίβεια στην εκτέλεση οδηγιών, το gpt-realtime σημειώνει 30,5%, μια σημαντική βελτίωση σε σχέση με το προηγούμενο μοντέλο μας από τον Δεκέμβριο του 2024, το οποίο σημειώνει 20,6%.
Το MultiChallenge(ανοίγει σε νέο παράθυρο) αξιολογεί πόσο καλά τα LLM χειρίζονται συζητήσεις πολλαπλών αλληλεπιδράσεων με ανθρώπους. Εστιάζει σε τέσσερις κατηγορίες ρεαλιστικών προκλήσεων με τις οποίες δυσκολεύονται τα τρέχοντα πρωτοποριακά μοντέλα. Αυτές οι προκλήσεις απαιτούν από τα μοντέλα να συνδυάζουν ταυτόχρονα την εκτέλεση οδηγιών, τη διαχείριση του θεματικού πλαισίου και τον συλλογισμό εντός θεματικού πλαισίου. Μετατρέψαμε ένα φιλικό για ήχο υποσύνολο των ερωτήσεων δοκιμής από κείμενο σε ομιλία για να δημιουργήσουμε μια ηχητική εκδοχή αυτής της αξιολόγησης.
Για να φτιάξεις έναν ικανό φωνητικό πράκτορα με ένα μοντέλο μετατροπής ομιλίας σε ομιλία, το μοντέλο πρέπει να μπορεί να καλεί τα σωστά εργαλεία την κατάλληλη στιγμή για να είναι χρήσιμο στην παραγωγή. Έχουμε βελτιώσει την κλήση λειτουργιών σε τρεις άξονες: κλήση συναφών λειτουργιών, κλήση λειτουργιών την κατάλληλη στιγμή και κλήση λειτουργιών με κατάλληλα ορίσματα (με αποτέλεσμα μεγαλύτερη ακρίβεια). Στην αξιολόγηση ήχου ComplexFuncBench που μετρά την απόδοση κλήσης λειτουργιών, το gpt-realtime σημειώνει 66,5%, ενώ το προηγούμενο μοντέλο μας από τον Δεκέμβριο του 2024 σημειώνει 49,7%.
Έχουμε επίσης κάνει βελτιώσεις στην ασύγχρονη κλήση λειτουργιών(ανοίγει σε νέο παράθυρο). Οι μεγάλης διάρκειας κλήσεις λειτουργιών δεν θα διακόπτουν πλέον τη ροή μιας περιόδου λειτουργίας—το μοντέλο μπορεί να συνεχίσει μια ομαλή συζήτηση ενώ αναμένει τα αποτελέσματα. Αυτή η δυνατότητα είναι διαθέσιμη εγγενώς στο gpt-realtime, οπότε οι προγραμματιστές δεν χρειάζεται να ενημερώσουν τον κώδικά τους.
Το ComplexFuncBench(ανοίγει σε νέο παράθυρο) μετράει πόσο καλά χειρίζονται τα μοντέλα τις δύσκολες εργασίες κλήσης λειτουργιών. Αξιολογεί την απόδοση σε σενάρια όπως κλήσεις πολλαπλών βημάτων, συλλογισμό σχετικά με περιορισμούς ή σιωπηρές παραμέτρους, και χειρισμό πολύ μεγάλων εισαγωγών. Μετατρέψαμε τις αρχικές προτροπές κειμένου σε ομιλία για να δημιουργήσουμε αυτή την αξιολόγηση για το μοντέλο μας.
Μπορείς να ενεργοποιήσεις την υποστήριξη MCP σε μια περίοδο λειτουργίας Realtime API περνώντας τη διεύθυνση URL ενός απομακρυσμένου διακομιστή MCP στη διαμόρφωση της περιόδου λειτουργίας. Μόλις συνδεθείς, το API χειρίζεται αυτόματα τις κλήσεις εργαλείων για σένα, οπότε δεν χρειάζεται να συνδέσεις τις ενσωματώσεις χειροκίνητα.
Αυτή η ρύθμιση διευκολύνει την επέκταση του πράκτορά σου με νέες δυνατότητες—απλώς κατευθύνεις την περίοδο λειτουργίας σε διαφορετικό διακομιστή MCP και αυτά τα εργαλεία γίνονται διαθέσιμα αμέσως. Για να μάθεις περισσότερα σχετικά με τη διαμόρφωση του MCP με το Realtime, δες αυτόν τον οδηγό(ανοίγει σε νέο παράθυρο).
Με την υποστήριξη πλέον των εισαγωγών εικόνων στο gpt-realtime, μπορείς να προσθέσεις εικόνες, φωτογραφίες και στιγμιότυπα οθόνης μαζί με ήχο ή κείμενο σε μια περίοδο λειτουργίας Realtime API. Τώρα το μοντέλο μπορεί να εδραιώσει τη συζήτηση σε αυτό που βλέπει πραγματικά ο χρήστης, επιτρέποντας στους χρήστες να κάνουν ερωτήσεις όπως «τι βλέπεις;» ή «διάβασε το κείμενο σε αυτό το στιγμιότυπο οθόνης».
Αντί να αντιμετωπίζει μια εικόνα σαν ζωντανή ροή βίντεο, το σύστημα την αντιμετωπίζει περισσότερο σαν να προσθέτει μια φωτογραφία στη συζήτηση. Η εφαρμογή σου μπορεί να αποφασίσει ποιες εικόνες να μοιραστεί με το μοντέλο και πότε να τις μοιραστεί. Με αυτόν τον τρόπο, κρατάς τον έλεγχο του τι βλέπει το μοντέλο και πότε αποκρίνεται.
Ρίξε μια ματιά στα έγγραφα(ανοίγει σε νέο παράθυρο) μας για να ξεκινήσεις με την εισαγωγή εικόνας.
Έχουμε προσθέσει αρκετές άλλες δυνατότητες για να κάνουμε το Realtime API πιο εύκολο στην ενσωμάτωση και πιο ευέλικτο για χρήση στην παραγωγή.
- Υποστήριξη Πρωτοκόλλου Έναρξης Περιόδου Λειτουργίας (SIP): Σύνδεσε τις εφαρμογές σου στο δημόσιο τηλεφωνικό δίκτυο, σε συστήματα τηλεφωνικών κέντρων (PBX), σε σταθερά τηλέφωνα και σε άλλα τελικά σημεία SIP με άμεση υποστήριξη στο Realtime API. Διάβασε σχετικά στα έγγραφα.(ανοίγει σε νέο παράθυρο)
- Επαναχρησιμοποιήσιμες προτροπές: Μπορείς τώρα να αποθηκεύεις και να επαναχρησιμοποιείς προτροπές—που αποτελούνται από μηνύματα προγραμματιστή, εργαλεία, μεταβλητές και παραδείγματα μηνυμάτων χρήστη/βοηθού—σε περιόδους λειτουργίας Realtime API, όπως στο Responses API. Μάθε περισσότερα στα έγγραφα.(ανοίγει σε νέο παράθυρο)
Το Realtime API ενσωματώνει πολλαπλά επίπεδα δικλείδων ασφαλείας και μέτρων μετριασμού για να βοηθήσει στην αποτροπή της κακής χρήσης. Μπορείς να μάθεις περισσότερα για την προσέγγισή μας σε θέματα ασφάλειας και τις λεπτομέρειες της κάρτας συστήματος στο ιστολόγιο ανακοίνωσης έκδοσης beta. Χρησιμοποιούμε ενεργούς ταξινομητές κατά τη διάρκεια των περιόδων λειτουργίας Realtime API, που σημαίνει ότι ορισμένες συζητήσεις μπορούν να διακοπούν εάν διαπιστωθεί ότι παραβιάζουν τις κατευθυντήριες γραμμές μας για επιβλαβές περιεχόμενο. Οι προγραμματιστές μπορούν επίσης εύκολα να προσθέσουν τις δικές τους πρόσθετες δικλείδες ασφαλείας χρησιμοποιώντας το Agents SDK(ανοίγει σε νέο παράθυρο).
Οι πολιτικές χρήσης μας απαγορεύουν την επαναχρησιμοποίηση ή διανομή των αποτελεσμάτων από τις υπηρεσίες μας για spam, παραπλάνηση ή άλλους επιβλαβείς σκοπούς. Οι προγραμματιστές πρέπει επίσης να καθιστούν σαφές στους τελικούς χρήστες πότε αλληλεπιδρούν με την ΤΝ, εκτός εάν είναι ήδη προφανές από το θεματικό πλαίσιο. Το Realtime API χρησιμοποιεί προκαθορισμένες φωνές για να αποτρέπει τη μίμηση άλλων ατόμων από κακόβουλους χρήστες.
Το Realtime API υποστηρίζει πλήρως τη διαμονή δεδομένων στην ΕΕ(ανοίγει σε νέο παράθυρο) για εφαρμογές που βασίζονται στην ΕΕ και καλύπτεται από τις δεσμεύσεις μας για την προστασία της ιδιωτικότητας των επιχειρήσεων.
Το γενικά διαθέσιμο Realtime API και το νέο μοντέλο gpt-realtime είναι διαθέσιμα σε όλους τους προγραμματιστές από σήμερα. Μειώνουμε τις τιμές για το gpt-realtime κατά 20% σε σύγκριση με το gpt-4o-realtime-preview—32 $ / 1 εκατ. διακριτικά εισαγωγής ήχου (0,40 $ για διακριτικά εισαγωγής στο cache) και 64 $ / 1 εκατ. διακριτικά αποτελέσματος ήχου (δες αναλυτική τιμολόγηση(ανοίγει σε νέο παράθυρο)). Προσθέσαμε επίσης λεπτομερή έλεγχο για το θεματικό πλαίσιο της συζήτησης, ώστε οι προγραμματιστές να μπορούν να ορίσουν έξυπνα όρια token και να περικόπτουν πολλαπλές αλληλεπιδράσεις ταυτόχρονα, μειώνοντας σημαντικά το κόστος για μεγάλες περιόδους λειτουργίας.
Για να ξεκινήσεις, επισκέψου την τεκμηρίωση του Realtime API(ανοίγει σε νέο παράθυρο), δοκίμασε το νέο μοντέλο στο Playground(ανοίγει σε νέο παράθυρο) και δες τον οδηγό μας για τα μηνύματα προτροπής Realtime API(ανοίγει σε νέο παράθυρο).


