სინთეზური ხმების გამოწვევებსა და შესაძლებლობებში ორიენტირება
ვაზიარებთ გაკვეთილებს Voice Engine-ის მცირე მასშტაბის წინასწარი ჩვენებიდან — ეს არის მოდელი ინდივიდუალური ხმების შესაქმნელად.
OpenAI ერთგულია უსაფრთხო და ფართოდ სასარგებლო AI-ის განვითარებისადმი. დღეს ვაზიარებთ წინასწარ დაკვირვებებსა და შედეგებს მოდელის — Voice Engine-ის — მცირე მასშტაბის წინასწარი ჩვენებიდან; ეს მოდელი ტექსტურ შეყვანასა და ერთ 15-წამიან აუდიონიმუშს იყენებს ბუნებრივად ჟღერადი მეტყველების შესაქმნელად, რომელიც ძალიან ჰგავს თავდაპირველ სპიკერს. აღსანიშნავია, რომ მცირე მოდელს, მხოლოდ ერთი 15-წამიანი ნიმუშით, ემოციური და რეალისტური ხმების შექმნა შეუძლია.
Voice Engine პირველად 2022 წლის ბოლოს შევქმენით და მას ვიყენებდით როგორც text-to-speech API(იხსნება ახალ ფანჯარაში)-ში ხელმისაწვდომი წინასწარ განსაზღვრული ხმების, ისე ChatGPT Voice and Read Aloud-ის გასამართად. ამავე დროს, სინთეზური ხმის ბოროტად გამოყენების პოტენციალის გამო, უფრო ფართო გამოშვებასთან მიმართებით ფრთხილ და ინფორმირებულ მიდგომას მივყვებით. ვიმედოვნებთ, რომ დავიწყებთ დიალოგს სინთეზური ხმების პასუხისმგებლიან დანერგვაზე და იმაზე, თუ როგორ შეუძლია საზოგადოებას ამ ახალ შესაძლებლობებთან ადაპტირება. ამ საუბრებისა და ამ მცირე მასშტაბის ტესტების შედეგებზე დაყრდნობით, უფრო ინფორმირებულ გადაწყვეტილებას მივიღებთ იმის შესახებ, უნდა და როგორ უნდა განვათავსოთ ეს ტექნოლოგია მასშტაბურად.
ამ ტექნოლოგიის პოტენციური გამოყენებების უკეთ გასაგებად, გასული წლის ბოლოს მისი კერძო ტესტირება დავიწყეთ სანდო პარტნიორების მცირე ჯგუფთან ერთად. შთაბეჭდილება მოახდინა იმ აპლიკაციებმა, რომლებიც ამ ჯგუფმა შექმნა. ეს მცირე მასშტაბის დანერგვები გვეხმარება ჩამოვაყალიბოთ ჩვენი მიდგომა, დამცავი ზომები და ხედვა იმაზე, თუ როგორ შეიძლება Voice Engine სხვადასხვა ინდუსტრიაში სასიკეთოდ იქნეს გამოყენებული. რამდენიმე ადრეული მაგალითი მოიცავს:
- კითხვის დახმარების მიწოდება არამკითხველებისა და ბავშვებისთვის ბუნებრივად ჟღერადი, ემოციური ხმებით, რომლებიც სპიკერების უფრო ფართო დიაპაზონს წარმოადგენენ, ვიდრე ეს წინასწარ განსაზღვრული ხმებით არის შესაძლებელი. Age of Learning(იხსნება ახალ ფანჯარაში), საგანმანათლებლო ტექნოლოგიური კომპანია, რომელიც ბავშვების აკადემიურ წარმატებაზეა ორიენტირებული, ამას იყენებს წინასწარ დაწერილი ხმოვანი კონტენტის შესაქმნელად. ისინი ასევე Voice Engine-სა და GPT‑4‑ს იყენებენ სტუდენტებთან ინტერაქციისთვის რეალურ დროში პერსონალიზებული პასუხების შესაქმნელად. ამ ტექნოლოგიით Age of Learning-მა შეძლო მეტი კონტენტის შექმნა უფრო ფართო აუდიტორიისთვის.
- კონტენტის თარგმნა, როგორიცაა ვიდეოები და პოდკასტები, რათა შემქმნელებმა და ბიზნესებმა მსოფლიოს მასშტაბით უფრო მეტ ადამიანამდე მიაღწიონ — გამართულად და საკუთარი ხმებით. ამის ერთ-ერთი ადრეული მიმღებია HeyGen(იხსნება ახალ ფანჯარაში), AI ვიზუალური სთორითელინგის პლატფორმა, რომელიც კორპორატიულ კლიენტებთან მუშაობს სხვადასხვა ტიპის კონტენტისთვის — პროდუქტის მარკეტინგიდან გაყიდვების დემოებამდე — ინდივიდუალური, ადამიანისმაგვარი ავატარების შესაქმნელად. ისინი ვიდეოთარგმნისთვის Voice Engine-ს იყენებენ, რათა სპიკერის ხმა მრავალ ენაზე თარგმნან და გლობალურ აუდიტორიამდე მიაღწიონ. თარგმნისთვის გამოყენებისას Voice Engine თავდაპირველი სპიკერის ბუნებრივ აქცენტს ინარჩუნებს: მაგალითად, ფრანგი სპიკერის აუდიონიმუშით ინგლისურის გენერირება ფრანგული აქცენტით მეტყველებას შექმნიდა.
- გლობალურ საზოგადოებებამდე მიღწევა, დისტანციურ გარემოებში აუცილებელი სერვისების მიწოდების გაუმჯობესებით. Dimagi(იხსნება ახალ ფანჯარაში) ქმნის ინსტრუმენტებს საზოგადოებრივი ჯანდაცვის მუშაკებისთვის, რათა მათ სხვადასხვა აუცილებელი სერვისი უზრუნველყონ, მაგალითად, ძუძუთი კვების შესახებ კონსულტაცია დედებისთვის. ამ მუშაკების უნარების გასავითარებლად Dimagi Voice Engine-სა და GPT‑4‑ს იყენებს, რათა თითოეული მუშაკის ძირითად ენაზე მისცეს ინტერაქტიული უკუკავშირი, მათ შორის სუაჰილიზე ან უფრო არაფორმალურ ენებზე, როგორიცაა Sheng — კენიაში პოპულარული შერეული კოდი-ენა.
- არავერბალური ადამიანების მხარდაჭერა, მაგალითად თერაპიული გამოყენებით იმ პირებისთვის, რომლებსაც მეტყველებაზე მოქმედი მდგომარეობები აქვთ, და საგანმანათლებლო გაუმჯობესებით მათთვის, ვისაც სასწავლო საჭიროებები აქვს. Livox(იხსნება ახალ ფანჯარაში), AI-ზე დაფუძნებული ალტერნატიული კომუნიკაციის აპი, ამუშავებს დამატებითი და ალტერნატიული კომუნიკაციის (AAC) მოწყობილობებს, რომლებიც შეზღუდული შესაძლებლობების მქონე ადამიანებს კომუნიკაციაში ეხმარება. Voice Engine-ის გამოყენებით, მათ შეუძლიათ არავერბალურ ადამიანებს მრავალ ენაზე შესთავაზონ უნიკალური და არარობოტული ხმები. მომხმარებლებს შეუძლიათ აირჩიონ მეტყველება, რომელიც მათ საუკეთესოდ გამოხატავს, ხოლო მრავალენოვან მომხმარებლებს შეუძლიათ შეინარჩუნონ თანმიმდევრული ხმა თითოეულ სასაუბრო ენაზე.
- პაციენტებისთვის ხმის აღდგენაში დახმარება, მათთვის, ვისაც მეტყველების უეცარი ან დეგენერაციული მდგომარეობები აწუხებს. Lifespan(იხსნება ახალ ფანჯარაში)-ის Norman Prince Neurosciences Institute, არაკომერციული ჯანდაცვის სისტემა, რომელიც Brown University-ის სამედიცინო სკოლის მთავარი სასწავლო პარტნიორია, კლინიკურ კონტექსტებში AI-ის გამოყენებას იკვლევს. მათ პილოტურად გაუშვეს პროგრამა, რომელიც Voice Engine-ს სთავაზობს იმ ადამიანებს, რომლებსაც მეტყველების დარღვევა ონკოლოგიური ან ნევროლოგიური ეტიოლოგიების გამო აქვთ. რადგან Voice Engine-ს ასეთი მოკლე აუდიონიმუში სჭირდება, ექიმებმა Fatima Mirza-მ, Rohaid Ali-მ და Konstantina Svokos-მა შეძლეს აღედგინათ ახალგაზრდა პაციენტის ხმა, რომელმაც ტვინის სისხლძარღვოვანი სიმსივნის გამო გამართული მეტყველება დაკარგა, სკოლის პროექტისთვის ჩაწერილი ვიდეოს აუდიოს გამოყენებით.
გვესმის, რომ ისეთი მეტყველების გენერირება, რომელიც ადამიანების ხმებს ჰგავს, სერიოზულ რისკებს შეიცავს, განსაკუთრებით კი საარჩევნო წელს. მშენებლობის პროცესში მათი უკუკავშირის გასათვალისწინებლად ვთანამშრომლობთ აშშ-ისა და საერთაშორისო პარტნიორებთან ხელისუფლების, მედიის, გართობის, განათლების, სამოქალაქო საზოგადოების და სხვა სფეროებიდან. პარტნიორები, რომლებიც დღეს Voice Engine-ს ტესტავენ, დათანხმდნენ ჩვენს გამოყენების პოლიტიკას, რომელიც კრძალავს სხვა პირის ან ორგანიზაციის იმიტაციას თანხმობის ან კანონიერი უფლების გარეშე. გარდა ამისა, ამ პარტნიორებთან ჩვენი პირობები თავდაპირველი სპიკერისგან მკაფიო და ინფორმირებული თანხმობის მიღებას მოითხოვს და დეველოპერებს არ ვაძლევთ უფლებას შექმნან ისეთი გზები, რომლითაც ინდივიდუალურ მომხმარებლებს საკუთარი ხმების შექმნა შეეძლებათ. პარტნიორებმა ასევე თავიანთ აუდიტორიას მკაფიოდ უნდა აცნობონ, რომ ხმები, რომლებსაც ისინი ისმენენ, AI-ის მიერაა გენერირებული. ბოლოს, დავნერგეთ უსაფრთხოების ზომების ნაკრები, მათ შორის წყლის ნიშნები Voice Engine-ის მიერ გენერირებული ნებისმიერი აუდიოს წარმოშობის მისაკვლევად, ასევე პროაქტიული მონიტორინგი იმისა, თუ როგორ გამოიყენება ის. გვჯერა, რომ სინთეზური ხმის ტექნოლოგიის ნებისმიერი ფართო დანერგვა თან უნდა ახლდეს ხმის ავთენტიკაციის გამოცდილებებს, რომლებიც ამოწმებს, რომ თავდაპირველი სპიკერი გაცნობიერებულად ამატებს თავის ხმას სერვისს, და აკრძალული ხმების სიას, რომელიც ამოიცნობს და აღკვეთს ისეთი ხმების შექმნას, რომლებიც მეტისმეტად ჰგავს ცნობილ ფიგურებს.
Voice Engine წარმოადგენს ჩვენი ვალდებულების გაგრძელებას — გავიგოთ ტექნოლოგიური მოწინავე ზღვარი და ღიად გავაზიაროთ, რა ხდება AI-ის საშუალებით შესაძლებელი. ჩვენი AI-ის უსაფრთხოებისადმი მიდგომის და ჩვენი ნებაყოფლობითი ვალდებულებების შესაბამისად, ამ ეტაპზე ვირჩევთ ამ ტექნოლოგიის წინასწარ ჩვენებას, მაგრამ არა მის ფართოდ გამოშვებას. ვიმედოვნებთ, რომ Voice Engine-ის ეს წინასწარი ჩვენება ერთდროულად გაუსვამს ხაზს მის პოტენციალს და ასევე გააძლიერებს მოტივაციას, რომ საზოგადოებრივი მდგრადობა გავამყაროთ იმ გამოწვევების მიმართ, რომლებიც სულ უფრო დამაჯერებელ გენერაციულ მოდელებს მოაქვს. კერძოდ, მოვუწოდებთ ისეთ ნაბიჯებს, როგორიცაა:
- ხმაზე დაფუძნებული ავთენტიკაციის ეტაპობრივი გაუქმება, როგორც ბანკის ანგარიშებსა და სხვა სენსიტიურ ინფორმაციაზე წვდომის უსაფრთხოების ზომის
- პოლიტიკის შესწავლა, რათა AI-ში ადამიანების ხმების გამოყენება იყოს დაცული
- საზოგადოების განათლება AI ტექნოლოგიების შესაძლებლობებისა და შეზღუდვების უკეთ გასაგებად, მათ შორის მატყუარა AI-კონტენტის შესაძლებლობის შესახებ
- აუდიოვიზუალური კონტენტის წარმოშობის კვალდაკვრის ტექნიკების განვითარებისა და დანერგვის დაჩქარება, რათა ყოველთვის ცხადი იყოს, რეალურ ადამიანთან გაქვთ ურთიერთობა თუ AI-თან
მნიშვნელოვანია, რომ მთელ მსოფლიოში ადამიანებს ესმოდეთ, საით მიემართება ეს ტექნოლოგია — მიუხედავად იმისა, საბოლოოდ თავად განვათავსებთ მას ფართოდ თუ არა. მოუთმენლად ველით, რომ გავაგრძელებთ პოლიტიკის შემმუშავებლებთან, მკვლევრებთან, დეველოპერებთან და შემოქმედებით სფეროს წარმომადგენლებთან საუბარს სინთეზური ხმების გამოწვევებსა და შესაძლებლობებზე.


