7 ივნისი, 2024

დამატებით იმის შესახებ, როგორ მუშაობს Voice Engine და ჩვენი უსაფრთხოების კვლევა

ჩვენი ტექსტიდან მეტყველებაში გარდამქმნელი მოდელის ტექნოლოგიის მიმოხილვა.

აბსტრაქტული ნახატი პასტელური ფერების ნაზავით, მათ შორის ვარდისფერი, ნარინჯისფერი, იისფერი და მწვანე, რომელიც ცოცხალ პეიზაჟს ჰგავს.

იტვირთება…

Voice Engine-ის მუშაობასა და ჩვენს უსაფრთხოების კვლევაზე მეტ ინფორმაციას ვაზიარებთ, რათა ყველამ იცოდეს ჩვენი პროგრესის შესახებ. Voice Engine არის მოდელი, რომელსაც მორგებული ხმების შექმნა შეუძლია.

მნიშვნელოვანია, რომ მსოფლიოს ხალხს ესმოდეს, საით მიდის ეს ტექნოლოგია, მიუხედავად იმისა, საბოლოოდ თავად გავუშვებთ მას ფართოდ თუ არა. სწორედ ამიტომ გვინდა ავხსნათ, როგორ მუშაობს მოდელი, როგორ ვიყენებთ მას კვლევისა და განათლებისთვის და როგორ ვნერგავთ მის გარშემო უსაფრთხოების ზომებს. Voice Engine ჯერ ფართოდ ხელმისაწვდომი არ არის.

როგორ მუშაობს Voice Engine

ხმის შესაძლებლობას ამუშავებს ტექსტიდან მეტყველებაში გარდამქმნელი (TTS) მოდელი, რომელსაც მხოლოდ ტექსტისა და 15-წამიანი მეტყველების ნიმუშის საფუძველზე ადამიანისმაგვარი აუდიოს გენერირება შეუძლია.

TTS სისტემა ვითარდება იმით, რომ მოდელს ეხმარება მეტყველების ნიუანსების გაგებაში ერთმანეთთან შეწყვილებული აუდიოსა და ტრანსკრიფციების საფუძველზე. მოდელი სწავლობს იწინასწარმეტყველოს, თუ მოცემული ტექსტური ტრანსკრიპტისათვის რომელი ბგერები იქნება ყველაზე სავარაუდო, სხვადასხვა ხმის, აქცენტისა და საუბრის სტილის გათვალისწინებით. ამის შემდეგ, მოდელს შეუძლია შექმნას არა მხოლოდ ტექსტის გახმოვანებული ვერსიები, არამედ ისეთი გამონათქვამებიც, რომლებიც ასახავს, თუ როგორ იტყოდნენ მათ სხვადასხვა ტიპის მომხსენებლები.

შემდეგ ეტაპზე, TTS მოდელით აუდიოს გენერირებისთვის საჭიროა მხოლოდ მომხსენებლის 15-წამიანი ნიმუში და შესაბამისი ტექსტი. მოდელი არცერთი კონკრეტული მომხსენებლისთვის არ არის fine-tuned; აქ მოდელის მორგება არ ხდება. ამის ნაცვლად, იგი იყენებს დიფუზიის პროცესს: იწყებს შემთხვევითი ხმაურით და ეტაპობრივად აშორებს მას, რათა მაქსიმალურად დაემთხვეს იმას, როგორ წარმოთქვამდა ტექსტს 15-წამიანი აუდიო ნიმუშის მომხსენებელი.

მოდელს ერთ წელზე მეტია ვავითარებთ

Voice Engine პირველად 2022 წლის ბოლოს შევიმუშავეთ. თავიდანვე, ჩვენი Voice Engine მოდელის შესაძლებლობებისა და შეზღუდვების შესაფასებლად, მას შიდა ტესტირებაში ვიყენებდით საჯარო და კერძო ხმის ნიმუშების ნაზავით. ეს შიდა პროტოტიპი მნიშვნელოვანი იყო ჩვენი გასწორებისა და უსაფრთხოების კვლევისთვის, ხელს უწყობდა ჩვენი დამცავი ზომების ჩამოყალიბებას და წარმოადგენს ტექნოლოგიური მოწინავე საზღვრის გააზრებისადმი ჩვენი ვალდებულების გაგრძელებას.

მნიშვნელოვანია, რომ ეს შედეგები მხოლოდ შიდა ტესტირებისთვის იყო განკუთვნილი და არა იმ მოდელების გასაწვრთნელად, რომლებიც ჩვენს პროდუქტებს ამუშავებს.

ჩვენი განმეორებითი დანერგვის ჩარჩოს ფარგლებში, ამ ადრეულმა პროტოტიპმა ასევე მნიშვნელოვანი როლი შეასრულა იმაში, რომ პოლიტიკის შემმუშავებლებს სინთეზური ხმის მოდელების შესაძლებლობები უკეთ გაეგოთ. მაგალითად, გასული ზაფხულიდან დავიწყეთ უმაღლეს დონეზე გლობალური პოლიტიკის შემმუშავებლებისთვის ტექნოლოგიის პოტენციალის ჩვენება და მათთან დაკავშირებული რისკების განხილვა.

2023 წლის სექტემბერში⁠, Voice Engine გამოვიყენეთ ChatGPT‑ის ხმოვანი რეჟიმი ფუნქციის გასაძლიერებლად. რადგან ამ შესაძლებლობებს ახალი რისკებიც ახლდა, ის მხოლოდ ამ კონკრეტული გამოყენების შემთხვევისთვის გავუშვით. ხმოვანი რეჟიმი შეიქმნა მხოლოდ რეალური ხმების საფუძველზე, რომლებიც ფრთხილად შეირჩა⁠ დეტალური პროცესის გზით, რომელიც 2023 წლის მაისში დაიწყო და მოიცავდა პროფესიონალ ხმოვან მსახიობებს, ტალანტების სააგენტოებს, ქასტინგის დირექტორებსა და ინდუსტრიის მრჩევლებს.

2023 წლის ნოემბერში⁠, გამოვუშვით მარტივი TTS API⁠(იხსნება ახალ ფანჯარაში), რომელიც ასევე Voice Engine-ზე მუშაობდა. ისევ შეზღუდული გამოშვება ავირჩიეთ და პროფესიონალ ხმოვან მსახიობებთან ვიმუშავეთ, რათა API-ში არსებული ექვსი წინასწარ განსაზღვრული ხმისთვის 15-წამიანი აუდიო ნიმუშები შეგვექმნა. დეველოპერებს შეუძლიათ, მაგალითად, ეს საკუთარ ვებსაიტებში ჩააშენონ, რათა ბლოგპოსტები ხმამაღლა წაიკითხოს.

ამ წლის მარტში⁠, Voice Engine-ის მორგებული ხმების შექმნის შესაძლებლობა სანდო პარტნიორების მცირე ჯგუფთან ერთად წინასწარ ვაჩვენეთ. ამ ინიციატივის მიზანი იყო სინთეზური ხმების შესაძლებლობების შესახებ ცნობიერების ამაღლება და შემდეგი მიზნების მხარდაჭერა:

ხმაზე დაფუძნებული ავთენტიკაციის, როგორც უსაფრთხოების ზომის, ეტაპობრივად გაუქმება საბანკო ანგარიშებსა და სხვა მგრძნობიარე ინფორმაციაზე წვდომისთვის
პოლიტიკების შესწავლა, რომლებიც დაიცავს ინდივიდების ხმების გამოყენებას AI-ში
საზოგადოების განათლება AI ტექნოლოგიების შესაძლებლობებისა და შეზღუდვების გასაგებად, მათ შორის მოტყუებითი AI კონტენტის შესაძლებლობის შესახებ
აუდიოვიზუალური კონტენტის წარმომავლობის თვალთვალის ტექნიკების განვითარებისა და დანერგვის დაჩქარება, რათა ყოველთვის ნათელი იყოს, რეალურ ადამიანთან ურთიერთობთ თუ AI-სთან

ეს მცირე მასშტაბის დანერგვებიც გვეხმარება ჩამოვაყალიბოთ ჩვენი მიდგომა, დამცავი ზომები და ხედვა იმაზე, თუ როგორ შეიძლება Voice Engine სხვადასხვა ინდუსტრიაში სასიკეთოდ იქნას გამოყენებული.

Voice Engine-ის უსაფრთხოდ შექმნა ჩვენი უმთავრესი პრიორიტეტია

ვაგრძელებთ აშშ-ისა და საერთაშორისო პარტნიორებთან თანამშრომლობას მთავრობის, მედიის, გართობის, განათლების, სამოქალაქო საზოგადოების და სხვა სფეროებიდან, რათა შექმნის პროცესში მათი უკუკავშირი გავითვალისწინოთ.

პარტნიორები, რომლებიც Voice Engine-ს ტესტავენ, დაეთანხმნენ გამოყენების პოლიტიკებს, რომლებიც კრძალავს თანხმობის გარეშე იმიტაციას, მოითხოვს ორიგინალი მომხსენებლის მკაფიო თანხმობას და ასევე ავალდებულებს, რომ AI-ის მიერ გენერირებული ხმები მსმენელებისთვის შესაბამისი სახით იყოს გამჟღავნებული. გარდა ამისა, უსაფრთხოების ზომები, როგორიცაა watermarking და პროაქტიული მონიტორინგი⁠, უკვე მოქმედებს, რათა ტექნოლოგიის გამოყენება იყოს მიკვლევადი და ზედამხედველობადი.

სინთეზური ხმის მომავალი უსაფრთხოება

ომნიმოდელები, როგორიცაა GPT‑4o, ჩაშენებული აუდიო შესაძლებლობებით, შესაძლებელს ხდის ახალ ინტერაქციებს, რომლებიც წინა მოდელებს, მაგალითად Voice Engine-ს, არ შეეძლოთ. ასევე ვაცნობიერებთ, რომ GPT‑4o‑ს აუდიო მოდალობას რამდენიმე ახალი რისკი მოაქვს, განსაკუთრებით ხმის გენერირებაში. ჩვენ აქტიურად ვუკეთებთ GPT‑4o‑ს red-teaming-ს, რათა გამოვავლინოთ და აღმოვფხვრათ როგორც ცნობილი, ისე მოულოდნელი რისკები სხვადასხვა სფეროში, როგორიცაა სოციალური ფსიქოლოგია, მიკერძოება და სამართლიანობა, და დეზინფორმაცია. ვამატებთ შემარბილებელი ზომების მრავალ ფენას, როგორიცაა მოდელის ქცევის დახვეწა, არსებული ტექსტზე დაფუძნებული სისტემების მორგება GPT‑4o‑ს არქიტექტურაზე და ახალი კლასიფიკატორების შექმნა.

Voice Engine-ის გამოშვებისადმი ჩვენი ფრთხილი მიდგომის შესაბამისად, ფართო გამოშვებისთვის GPT‑4o‑ს აუდიო გამოსავლებს შევზღუდავთ წინასწარ შერჩეული ხმების ნაკრებით. ეს ხმები პროფესიონალი ხმოვანი მსახიობებისგან იქნა მიღებული, რომლებიც ყურადღებით გააზრებული ქასტინგის პროცესით შეირჩნენ. აუდიოსთან დაკავშირებული რისკებისა და შემარბილებელი ზომების შესახებ დამატებით ინფორმაციას გავაზიარებთ GPT‑4o‑ის მომავალ სისტემურ ბარათში.

ავტორი

OpenAI