29 Μαρτίου 2024

Πλοήγηση στις προκλήσεις και τις ευκαιρίες των συνθετικών φωνών

Μοιραζόμαστε διδάγματα από μια προεπισκόπηση μικρής κλίμακας του Voice Engine, ενός μοντέλου για τη δημιουργία προσαρμοσμένων φωνών.

Φόρτωση…

Η OpenAI δεσμεύεται για την ανάπτυξη ασφαλούς και ευρέως ωφέλιμης ΤΝ⁠. Σήμερα μοιραζόμαστε προκαταρκτικές πληροφορίες και αποτελέσματα από μια μικρής κλίμακας προεπισκόπηση ενός μοντέλου που ονομάζεται Voice Engine, το οποίο χρησιμοποιεί εισαγωγή κειμένου και ένα μόνο δείγμα ήχου 15 δευτερολέπτων για να δημιουργήσει ομιλία με φυσικό ήχο που μοιάζει πολύ με τον αρχικό ομιλητή. Αξίζει να σημειωθεί ότι ένα μικρό μοντέλο με ένα μόνο δείγμα 15 δευτερολέπτων μπορεί να δημιουργήσει εκφραστικές και ρεαλιστικές φωνές.

Αναπτύξαμε αρχικά το Voice Engine στα τέλη του 2022 και το χρησιμοποιήσαμε για να υποστηρίξουμε τις προκαθορισμένες φωνές που είναι διαθέσιμες στο API μετατροπής κειμένου σε ομιλία⁠(ανοίγει σε νέο παράθυρο), καθώς και τη Φωνητική λειτουργία ChatGPT και την Εκφώνηση⁠. Ταυτόχρονα, ακολουθούμε μια προσεκτική και τεκμηριωμένη προσέγγιση για μια ευρύτερη κυκλοφορία λόγω της πιθανότητας κακής χρήσης της συνθετικής φωνής. Ελπίζουμε να ξεκινήσουμε έναν διάλογο σχετικά με την υπεύθυνη ανάπτυξη των συνθετικών φωνών και το πώς μπορεί η κοινωνία να προσαρμοστεί σε αυτές τις νέες δυνατότητες. Με βάση αυτές τις συζητήσεις και τα αποτελέσματα αυτών των δοκιμών μικρής κλίμακας, θα λάβουμε μια πιο τεκμηριωμένη απόφαση σχετικά με το αν και πώς θα αναπτύξουμε αυτήν την τεχνολογία σε κλίμακα.

Πρώιμες εφαρμογές του Voice Engine

Για να κατανοήσουμε καλύτερα τις πιθανές χρήσεις αυτής της τεχνολογίας, στα τέλη του περασμένου έτους ξεκινήσαμε να τη δοκιμάζουμε ιδιωτικά με μια μικρή ομάδα αξιόπιστων εταίρων. Μας έχουν εντυπωσιάσει οι εφαρμογές που έχει αναπτύξει αυτή η ομάδα. Αυτές οι αναπτύξεις μικρής κλίμακας μας βοηθούν να διαμορφώσουμε την προσέγγιση, τις δικλίδες ασφαλείας και τον τρόπο σκέψης μας σχετικά με το πώς θα μπορούσε να χρησιμοποιηθεί το Voice Engine για καλό σκοπό σε διάφορους κλάδους. Μερικά πρώιμα παραδείγματα περιλαμβάνουν:

Παροχή βοήθειας ανάγνωσης σε άτομα που δεν μπορούν να διαβάσουν και σε παιδιά μέσω φυσικών, εκφραστικών φωνών που αντιπροσωπεύουν ένα ευρύτερο φάσμα ομιλητών από αυτό που είναι δυνατό με τις προκαθορισμένες φωνές. Η Age of Learning⁠(ανοίγει σε νέο παράθυρο), μια εταιρεία εκπαιδευτικής τεχνολογίας αφιερωμένη στην ακαδημαϊκή επιτυχία των παιδιών, το χρησιμοποιεί για να δημιουργεί προ-σεναριοποιημένο περιεχόμενο αφήγησης. Χρησιμοποιούν επίσης το Voice Engine και το GPT‑4 για να δημιουργούν σε πραγματικό χρόνο, εξατομικευμένες αποκρίσεις για να αλληλεπιδρούν με τους μαθητές. Με αυτή την τεχνολογία, η Age of Learning μπόρεσε να δημιουργήσει περισσότερο περιεχόμενο για ένα ευρύτερο κοινό.

Μετάφραση περιεχομένου, όπως βίντεο και podcast, ώστε οι δημιουργοί και οι επιχειρήσεις να μπορούν να προσεγγίσουν περισσότερους ανθρώπους σε όλο τον κόσμο, με άνεση και με τις δικές τους φωνές. Ένας από τους πρώτους χρήστες που το υιοθέτησαν είναι η HeyGen⁠(ανοίγει σε νέο παράθυρο), μια πλατφόρμα οπτικής αφήγησης με ΤΝ που συνεργάζεται με τους εταιρικούς πελάτες της για να δημιουργεί προσαρμοσμένα, ανθρωπόμορφα avatar για ποικίλο περιεχόμενο, από μάρκετινγκ προϊόντων έως παρουσιάσεις πωλήσεων. Χρησιμοποιούν το Voice Engine για μετάφραση βίντεο, ώστε να μπορούν να μεταφράζουν τη φωνή ενός ομιλητή σε πολλές γλώσσες και να προσεγγίζουν ένα παγκόσμιο κοινό. Όταν χρησιμοποιείται για μετάφραση, το Voice Engine διατηρεί τη φυσική προφορά του αρχικού ομιλητή: για παράδειγμα, η δημιουργία αγγλικών με ένα δείγμα ήχου από έναν γαλλόφωνο ομιλητή θα παρήγαγε ομιλία με γαλλική προφορά.

Φόρτωση...

Προσέγγιση παγκόσμιων κοινοτήτων, βελτιώνοντας την παροχή βασικών υπηρεσιών σε απομακρυσμένα περιβάλλοντα. Η Dimagi⁠(ανοίγει σε νέο παράθυρο) αναπτύσσει εργαλεία για εργαζόμενους υγείας σε κοινότητες, ώστε να παρέχουν μια ποικιλία βασικών υπηρεσιών, όπως συμβουλευτική για μητέρες που θηλάζουν. Για να βοηθήσει αυτούς τους εργαζόμενους να αναπτύξουν τις δεξιότητές τους, η Dimagi χρησιμοποιεί το Voice Engine και το GPT‑4 για να παρέχει διαδραστική ανατροφοδότηση στην κύρια γλώσσα κάθε εργαζόμενου, συμπεριλαμβανομένων των Σουαχίλι ή πιο ανεπίσημων γλωσσών όπως τα Sheng, μια γλώσσα με μείξη κωδίκων που είναι δημοφιλής στην Κένυα.

Φόρτωση...

Υποστήριξη ατόμων που δεν είναι λεκτικά, όπως θεραπευτικές εφαρμογές για άτομα με παθήσεις που επηρεάζουν την ομιλία και εκπαιδευτικές βελτιώσεις για όσα άτομα έχουν μαθησιακές ανάγκες. Livox⁠(ανοίγει σε νέο παράθυρο), μια εφαρμογή εναλλακτικής επικοινωνίας με τεχνητή νοημοσύνη, υποστηρίζει συσκευές Επαυξητικής & Εναλλακτικής Επικοινωνίας (AAC) που επιτρέπουν σε άτομα με αναπηρίες να επικοινωνούν. Χρησιμοποιώντας το Voice Engine, μπορούν να προσφέρουν σε μη λεκτικά άτομα μοναδικές και μη ρομποτικές φωνές σε πολλές γλώσσες. Οι χρήστες μπορούν να επιλέξουν την ομιλία που τους αντιπροσωπεύει καλύτερα και, για τους πολύγλωσσους χρήστες, να διατηρούν μια σταθερή φωνή σε κάθε γλώσσα που μιλούν.

Φόρτωση...

Παροχή βοήθειας σε ασθενείς για να ανακτήσουν τη φωνή τους, για όσους υποφέρουν από αιφνίδιες ή εκφυλιστικές διαταραχές ομιλίας. Το Ινστιτούτο Νευροεπιστημών Norman Prince στο Lifespan⁠(ανοίγει σε νέο παράθυρο), ένα μη κερδοσκοπικό σύστημα υγείας που λειτουργεί ως ο κύριος εκπαιδευτικός εταίρος της ιατρικής σχολής του Πανεπιστημίου Brown, διερευνά χρήσεις της τεχνητής νοημοσύνης σε κλινικά πλαίσια. Δοκιμάζουν πιλοτικά ένα πρόγραμμα που προσφέρει το Voice Engine σε άτομα με ογκολογικής ή νευρολογικής αιτιολογίας διαταραχές ομιλίας. Δεδομένου ότι το Voice Engine απαιτεί ένα τόσο σύντομο δείγμα ήχου, οι γιατροί Fatima Mirza, Rohaid Ali και Konstantina Svokos μπόρεσαν να αποκαταστήσουν τη φωνή μιας νεαρής ασθενούς που έχασε την άνετη ομιλία της λόγω αγγειακού όγκου στον εγκέφαλο, χρησιμοποιώντας ήχο από ένα βίντεο που είχε καταγραφεί για μια σχολική εργασία.

Φόρτωση...

Δημιουργία του Voice Engine με ασφάλεια

Αναγνωρίζουμε ότι η δημιουργία ομιλίας που μοιάζει με τις φωνές των ανθρώπων ενέχει σοβαρούς κινδύνους, οι οποίοι είναι ιδιαίτερα επίκαιροι σε μια χρονιά διεξαγωγής εκλογών. Συνεργαζόμαστε με εταίρους στις ΗΠΑ και άλλα κράτη από όλο το φάσμα της κυβέρνησης, των ΜΜΕ, της ψυχαγωγίας, της εκπαίδευσης, της κοινωνίας των πολιτών και πέρα από αυτά, ώστε να διασφαλίσουμε ότι ενσωματώνουμε τα σχόλιά τους καθώς αναπτύσσουμε. Οι εταίροι που δοκιμάζουν σήμερα το Voice Engine έχουν συμφωνήσει με τις πολιτικές χρήσης⁠ μας, οι οποίες απαγορεύουν την πλαστοπροσωπία άλλου ατόμου ή οργανισμού χωρίς συναίνεση ή νόμιμο δικαίωμα. Επιπλέον, οι όροι μας με αυτούς τους εταίρους απαιτούν ρητή και εν επιγνώσει συναίνεση από τον αρχικό ομιλητή και δεν επιτρέπουμε στους προγραμματιστές να δημιουργούν τρόπους ώστε μεμονωμένοι χρήστες να δημιουργούν τις δικές τους φωνές. Οι εταίροι πρέπει επίσης να γνωστοποιούν με σαφήνεια στο κοινό τους ότι οι φωνές που ακούνε παράγονται με χρήση ΤΝ. Τέλος, έχουμε εφαρμόσει ένα σύνολο μέτρων ασφαλείας, συμπεριλαμβανομένης της υδατογράφησης για την ιχνηλάτηση της προέλευσης οποιουδήποτε ήχου δημιουργείται από το Voice Engine, καθώς και της προληπτικής παρακολούθησης του τρόπου με τον οποίο χρησιμοποιείται. Πιστεύουμε ότι κάθε ευρεία ανάπτυξη τεχνολογίας συνθετικής φωνής θα πρέπει να συνοδεύεται από εμπειρίες ελέγχου ταυτότητας φωνής που επαληθεύουν ότι ο αρχικός ομιλητής προσθέτει εν γνώσει του τη φωνή του στην υπηρεσία, καθώς και από μια λίστα φωνών «απαγορευμένων» που εντοπίζει και αποτρέπει τη δημιουργία φωνών που είναι υπερβολικά παρόμοιες με αυτές από εξέχουσες προσωπικότητες.

Μελλοντικά σχέδια

Το Voice Engine αποτελεί συνέχεια της δέσμευσής μας να κατανοούμε το κορυφαίο τεχνικό όριο και να μοιραζόμαστε ανοιχτά ό,τι καθίσταται δυνατό με την ΤΝ. Σύμφωνα με την προσέγγισή μας προς την ασφάλεια της τεχνητής νοημοσύνης⁠ και τις οικειοθελείς δεσμεύσεις⁠ μας, επιλέγουμε προς το παρόν να παρουσιάσουμε σε προεπισκόπηση, αλλά να μην κυκλοφορήσουμε ευρέως αυτή την τεχνολογία. Ελπίζουμε ότι αυτή η προεπισκόπηση του Voice Engine τόσο υπογραμμίζει τις δυνατότητές του όσο και ενισχύει την ανάγκη να ενδυναμώσουμε την κοινωνική ανθεκτικότητα απέναντι στις προκλήσεις που φέρνουν τα ολοένα και πιο πειστικά παραγωγικά μοντέλα. Συγκεκριμένα, προτείνουμε βήματα όπως:

Σταδιακή κατάργηση του ελέγχου ταυτότητας βάσει φωνητικής λειτουργίας ως μέτρο ασφαλείας για την πρόσβαση σε τραπεζικούς λογαριασμούς και άλλες ευαίσθητες πληροφορίες
Διερεύνηση πολιτικών για την προστασία της χρήσης των φωνών των ατόμων στην τεχνητή νοημοσύνη
Επιμόρφωση του κοινού για να κατανοήσει τις δυνατότητες και τους περιορισμούς των τεχνολογιών τεχνητής νοημοσύνης, καθώς και της πιθανότητας παραπλανητικού περιεχομένου τεχνητής νοημοσύνης
Επιτάχυνση της ανάπτυξης και της υιοθέτησης τεχνικών για την παρακολούθηση της προέλευσης οπτικοακουστικού περιεχομένου, ώστε να είναι πάντα σαφές πότε αλληλεπιδράτε με ένα πραγματικό άτομο ή με την ΤΝ

Είναι σημαντικό οι άνθρωποι σε όλον τον κόσμο να κατανοούν προς τα πού κατευθύνεται αυτή η τεχνολογία, είτε τελικά την αναπτύξουμε ευρέως εμείς οι ίδιοι είτε όχι. Ανυπομονούμε να συνεχίσουμε να συμμετέχουμε σε συζητήσεις σχετικά με τις προκλήσεις και τις ευκαιρίες των συνθετικών φωνών με υπεύθυνους χάραξης πολιτικής, ερευνητές, προγραμματιστές και δημιουργούς.

Σχετικά άρθρα

Εμφάνιση όλων

Video generation models as world simulators

Δημοσίευση15 Φεβ 2024

Building an early warning system for LLM-aided biological threat creation

Δημοσίευση31 Ιαν 2024

Weak-to-strong generalization

Ασφάλεια14 Δεκ 2023