Μετάβαση στο κύριο περιεχόμενο
OpenAI

25 Σεπτεμβρίου 2023

Προϊόν

Το ChatGPT μπορεί πια να βλέπει, να ακούει και να μιλάει

Το ChatGPT μπορεί πλέον να βλέπει, να ακούει και να μιλάει

Ξεκινάμε να διαθέτουμε νέες δυνατότητες φωνητικής λειτουργίας και εικόνων στο ChatGPT. Αυτές οι δυνατότητες προσφέρουν ένα νέο, πιο διαισθητικό τύπο περιβάλλοντος εργασίας, επιτρέποντάς σας να έχετε μια φωνητική συνομιλία ή να δείξετε στο ChatGPT για τι μιλάτε.

Η φωνή και η εικόνα σάς επιτρέπουν να χρησιμοποιείτε με περισσότερους τρόπους το ChatGPT στη ζωή σας, Τραβήξτε φωτογραφία ένα αξιοθέατο ενώ ταξιδεύετε και συζητήσετε ζωντανά ποια στοιχεία του βρίσκετε ενδιαφέροντα. Όταν είστε σπίτι, τραβήξτε φωτογραφίες το ψυγείο και το ντουλάπι σας για να αποφασίσετε τι θα μαγειρέψετε για δείπνο (και κάντε επιπλέον ερωτήσεις για να δείτε μια συνταγή βήμα βήμα). Μετά το δείπνο, μπορείτε να βοηθήσετε το παιδί σας με ένα πρόβλημα στα μαθηματικά βγάζοντας μια φωτογραφία, κυκλώνοντας το πρόβλημα. Έτσι θα λάβετε και οι δυο συμβουλές που θα σας βοηθήσουν να το λύσετε.

Θα διαθέσουμε φωνή και εικόνες σε χρήστες Plus και Enterprise μέσα στις επόμενες δύο εβδομάδες. Η φωνητική λειτουργία έρχεται σε iOS και Android (δηλώστε συμμετοχή στις ρυθμίσεις σας) και οι εικόνες θα είναι διαθέσιμες σε όλες τις πλατφόρμες.

Μιλήστε με το ChatGPT και βάλτε το να σας απαντήσει και αυτό με ομιλία

Τώρα μπορείτε να χρησιμοποιήσετε τη φωνητική λειτουργία για να συμμετάσχετε σε μια αμφίδρομη συνομιλία με τον βοηθό σας. Μιλήστε μαζί του εν κινήσει, ζητήστε μια ιστορία για να πείτε στα παιδιά όταν πάνε για ύπνο ή βρείτε την απάντηση για μια απορία που προκύπτει όταν συζητάτε.

Χρησιμοποιήστε τη φωνητική λειτουργία για να συμμετάσχετε σε μια αμφίδρομη συνομιλία με τον βοηθό σας.

Για να ξεκινήσετε με τη φωνητική λειτουργία, μεταβείτε στις Ρυθμίσεις → Νέες λειτουργίες, στην εφαρμογή για κινητά, και επιλέξτε να συμμετάσχετε σε φωνητικές συνομιλίες. Στη συνέχεια, πατήστε το κουμπί των ακουστικών που βρίσκεται στην επάνω δεξιά γωνία της αρχικής οθόνης και επιλέξτε τη φωνή που προτιμάτε ανάμεσα σε πέντε διαφορετικές φωνές.

Η νέα δυνατότητα φωνής παρέχεται από ένα νέο μοντέλο μετατροπής κειμένου σε ομιλία, το οποίο είναι ικανό να δημιουργεί ήχο που μοιάζει με ανθρώπινη ομιλία από απλό κείμενο και μερικά δευτερόλεπτα δείγματος ομιλίας. Συνεργαστήκαμε με επαγγελματίες ηθοποιούς φωνής για να δημιουργήσουμε κάθε μία από τις φωνές. Χρησιμοποιούμε επίσης το Whisper, το σύστημα αναγνώρισης ομιλίας ανοιχτού κώδικα, για να μεταγράψουμε τα λόγια σας σε κείμενο.

Φόρτωση...

Συνομιλία για εικόνες

Μπορείτε πλέον να δείξετε στο ChatGPT μία ή περισσότερες εικόνες. Βρείτε λύση για την ψησταριά σας που δεν λειτουργεί, εξερευνήστε τα περιεχόμενα του ψυγείου σας για να μαγειρέψετε ένα γεύμα ή αναλύστε ένα σύνθετο γράφημα με δεδομένα που σχετίζονται με τη δουλειά σας. Για να εστιάσετε σε ένα συγκεκριμένο μέρος της εικόνας, μπορείτε να χρησιμοποιήσετε το εργαλείο σχεδίασης στην εφαρμογή μας για κινητά.

Δείξτε στο ChatGPT μία ή περισσότερες εικόνες.

Για να ξεκινήσετε, πατήστε το κουμπί της φωτογραφικής μηχανής, για να τραβήξετε ή να επιλέξετε μια εικόνα. Αν χρησιμοποιείτε iOS ή Android, πατήστε πρώτα το κουμπί συν. Μπορείτε επίσης να συζητήσετε για πολλαπλές εικόνες ή να χρησιμοποιήσετε το εργαλείο σχεδίασης για να καθοδηγήσετε τον βοηθό σας.

Η κατανόηση εικόνων παρέχεται από τα πολυτροπικά GPT‑3.5 και GPT‑4. Αυτά τα μοντέλα εφαρμόζουν τις δεξιότητες γλωσσικού συλλογισμού τους σε ένα ευρύ φάσμα εικόνων, όπως φωτογραφίες, στιγμιότυπα οθόνης και έγγραφα που περιέχουν κείμενο και εικόνες.

Αναπτύσσουμε σταδιακά τις δυνατότητες εικόνας και φωνής.

Ο στόχος της OpenAI είναι να δημιουργήσει AGI που είναι ασφαλές και ευεργετικό. Πιστεύουμε στη σταδιακή διάθεση των εργαλείων μας, κάτι που μας επιτρέπει να κάνουμε βελτιώσεις και να τελειοποιούμε τις στρατηγικές μείωσης κινδύνου με την πάροδο του χρόνου, ενώ παράλληλα προετοιμάζουμε όλους για πιο ισχυρά συστήματα στο μέλλον. Αυτή η στρατηγική γίνεται ακόμη πιο σημαντική με προηγμένα μοντέλα που περιλαμβάνουν φωνητική λειτουργία και όραση.

Φωνητική λειτουργία

Η νέα τεχνολογία φωνής —ικανή να δημιουργεί ρεαλιστικές συνθετικές φωνές από μόλις λίγα δευτερόλεπτα πραγματικής ομιλίας— καθιστά δυνατές πολλές δημιουργικές εφαρμογές και εφαρμογές που επικεντρώνονται στην προσβασιμότητα. Ωστόσο, αυτές οι δυνατότητες παρουσιάζουν επίσης νέους κινδύνους, όπως η πιθανότητα να πλαστοπροσωπήσουν ορισμένοι κακόβουλοι παράγοντες δημόσια πρόσωπα ή να διαπράξουν απάτη.

Αυτός είναι ο λόγος που χρησιμοποιούμε αυτήν την τεχνολογία για να υποστηρίξουμε μια συγκεκριμένη περίπτωση χρήσης — τη φωνητική συνομιλία. Η φωνητική συνομιλία δημιουργήθηκε με ηθοποιούς φωνής με τους οποίους έχουμε συνεργαστεί απευθείας. Συνεργαζόμαστε επίσης με παρόμοιο τρόπο με άλλους. Για παράδειγμα, το Spotify χρησιμοποιεί τη δύναμη αυτής της τεχνολογίας για την πιλοτική εφαρμογή της λειτουργίας Voice Translation(ανοίγει σε νέο παράθυρο) (μετάφραση φωνής), η οποία βοηθά τους podcaster να επεκτείνουν την εμβέλεια του περιεχόμενου τους, μεταφράζοντας τα podcast σε επιπλέον γλώσσες με τις δικές τους φωνές.

Εισαγωγή εικόνας

Τα μοντέλα που βασίζονται στην όραση παρουσιάζουν επίσης νέες προκλήσεις, που ποικίλουν από παραισθήσεις σχετικά με ανθρώπους έως την εξάρτηση από την ερμηνεία εικόνων που εκτελεί το μοντέλο σε τομείς με υψηλό διακύβευμα. Πριν να διατεθεί ευρέως το μοντέλο, το δοκιμάσαμε με ομάδες αντιπαραθετικού ελέγχου κυβερονασφάλειας (red teaming) για να αξιολογήσουμε κινδύνους σε τομείς όπως ο εξτρεμισμός και η επιστημονική επάρκεια, καθώς και με ένα ποικιλόμορφο σύνολο δοκιμαστών έκδοσης alpha. Η έρευνά μας μας επέτρεψε να ευθυγραμμιστούμε όσον αφορά μερικές βασικές λεπτομέρειες, προκειμένου να γίνεται υπεύθυνη χρήση του μοντέλου.

Κάνοντας την εικόνα τόσο χρήσιμη όσο και ασφαλή

Όπως και άλλες δυνατότητες του ChatGPT, η όραση αφορά την υποστήριξή σας στην καθημερινή σου ζωή. Το κάνει καλύτερα όταν μπορεί να βλέπει αυτό που βλέπετε. 

Αυτή η προσέγγιση έχει διαμορφωθεί άμεσα από τη συνεργασία μας με το Be My Eyes, μια δωρεάν εφαρμογή για κινητά για τυφλούς ανθρώπους και άτομα με χαμηλή όραση, ώστε να κατανοήσουμε τις χρήσεις και τους περιορισμούς. Οι χρήστες μας είπαν ότι είναι πολύ χρήσιμο να συζητάνε γενικά για εικόνες που τυχαίνει να περιέχουν ανθρώπους στο φόντο, όπως όταν κάποιος εμφανίζεται στην τηλεόραση ενώ προσπαθούν να ρυθμίσουν τις ρυθμίσεις του τηλεχειριστηρίου τους.

Έχουμε επίσης λάβει τεχνικά μέτρα για να περιορίσουμε σημαντικά την ικανότητα του ChatGPT να αναλύει και να κάνει άμεσες δηλώσεις για άτομα, καθώς το ChatGPT δεν είναι πάντα ακριβές και αυτά τα συστήματα πρέπει να σέβονται την ιδιωτικότητα των ατόμων.

Η πραγματική χρήση και τα σχόλια θα μας βοηθήσουν να βελτιώσουμε ακόμη περισσότερο αυτές τις δικλείδες ασφαλείας, διατηρώντας το εργαλείο χρήσιμο.

Διαφάνεια σχετικά με τους περιορισμούς των μοντέλων

Οι χρήστες μπορεί να βασίζονται στο ChatGPT για εξειδικευμένα θέματα, για παράδειγμα σε τομείς όπως η έρευνα. Είμαστε διαφανείς σχετικά με τους περιορισμούς του μοντέλου και αποθαρρύνουμε τη χρήση σε περιπτώσεις υψηλού κινδύνου χωρίς την κατάλληλη επαλήθευση. Επιπλέον, το μοντέλο είναι ικανό στη μεταγραφή αγγλικού κειμένου, αλλά αποδίδει άσχημα με κάποιες άλλες γλώσσες, ειδικά εκείνες με μη λατινικό αλφάβητο. Συμβουλεύουμε τους μη αγγλόφωνους χρήστες μας να μην χρησιμοποιούν το ChatGPT για αυτόν τον σκοπό.

Μπορείτε να διαβάσετε περισσότερα για την προσέγγισή μας προς την ασφάλεια και τη συνεργασία μας με την Be My Eyes στην κάρτα συστήματος για την εισαγωγή εικόνας.

Θα επεκτείνουμε την πρόσβαση

Οι χρήστες Plus και Enterprise θα έχουν την ευκαιρία να δοκιμάσουν φωνή και εικόνες μέσα στις επόμενες δύο εβδομάδες. Είμαστε ενθουσιασμένοι που θα παρουσιάσουμε αυτές τις δυνατότητες και σε άλλες ομάδες χρηστών, συμπεριλαμβανομένων των προγραμματιστών, λίγο αργότερα.

Συντάκτης

OpenAI

Ευχαριστίες

Βασική έρευνα για τη φωνητική λειτουργία

Alec Radford, Tao Xu, Jong Wook Kim

Έρευνα ανάπτυξης βασικού οράματος

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Προβολή τεχνικής εργασίας και συγγραφέων του GPT-4V(ision)