29 Mart 2024

Sentetik Seslerin Zorlukları ile Fırsatları Arasında Yön Bulmak

Özel sesler oluşturmak için kullanılan bir model olan Ses Motorunun kuçük ölçekli ön izlemesinden edindiğimiz dersleri paylaşıyoruz.

Yükleniyor...

OpenAI, güvenli ve geniş ölçekte fayda sağlayan yapay zeka geliştirmeye⁠ kendini adamış konumdadır. Bugün, metin girdisi ve tek bir 15 saniyelik ses örneği kullanarak orijinal konuşmacıya çok benzeyen, doğal tınılı konuşma üreten Ses Motoru adlı modelin küçük ölçekli bir ön izlemesinden elde edilen ön bulguları ve sonuçları paylaşıyoruz. Küçük bir modelin 15 saniyelik bir örnekle duygulu ve gerçekçi sesler oluşturabilmesi dikkat çekicidir.

Ses Motorunu ilk olarak 2022'nin sonlarında geliştirdik ve bunu metni konuşmaya dönüştürme API'sinde⁠(yeni bir pencerede açılır) sunulan önceden tanımlı sesleri desteklemek amacıyla ve ayrıca ChatGPT Sesli Sohbet ve Sesli Okuma⁠ için kullandık. Aynı zamanda, sentetik sesin kötüye kullanılma potansiyeli nedeniyle daha geniş bir sürüm için temkinli ve bilinçli bir yaklaşım sergiliyoruz. Sentetik seslerin sorumlu bir şekilde kullanıma sunulması ve toplumun bu yeni yeteneklere nasıl uyum sağlayabileceği konusunda bir diyalog başlatmayı umuyoruz. Bu görüşmelere ve bu küçük ölçekli testlerin sonuçlarına dayanarak, bu teknolojiyi geniş ölçekte kullanmaya ve nasıl kullanacağımıza ilişkin daha bilinçli bir karar vereceğiz.

Ses Motorunun erken uygulamaları

Bu teknolojinin olası kullanım alanlarını daha iyi anlamak için geçen yılın sonlarına doğru, güvenilir iş ortaklarımızdan oluşan sınırlı bir grupla bunu özel olarak test etmeye başladık. Bu grubun geliştirdiği uygulamalardan etkilendik. Bu küçük ölçekli kullanıma sokma çalışmaları, Ses Motorunun çeşitli sektörlerde iyilik için nasıl kullanılabileceğine ilişkin yaklaşımımızı, güvenlik önlemlerimizi ve düşüncelerimizi şekillendirmemize yardımcı oluyor. Birkaç örnek vermek gerekirse:

Okuma desteği sağlama önceden tanımlı seslerle mümkün olandan daha geniş bir konuşmacı yelpazesini temsil eden, kulağa doğal gelen, duygulu sesler aracılığıyla okuma bilmeyenlere ve çocuklara. Age of Learning⁠(yeni bir pencerede açılır), çocukların akademik başarısına adanmış bir eğitim teknolojisi şirketi olarak, önceden yazılmış seslendirme içeriği oluşturmak için bunu kullanıyor. Ayrıca öğrencilerle etkileşim kurmak için gerçek zamanlı, kişiselleştirilmiş yanıtlar oluşturmak üzere Ses Motoru ve GPT‑4 kullanıyorlar. Bu teknoloji sayesinde Age of Learning, daha geniş bir kitle için daha fazla içerik oluşturabildi.

İçerikleri çevirmek, videolar ve podcast'ler gibi, içerik üreticilerinin ve işletmelerin dünya genelinde daha fazla insana akıcı bir şekilde ve kendi ses tonlarıyla ulaşmasını sağlıyor. Bunu erken benimseyenlerden biri HeyGen⁠(yeni bir pencerede açılır). HeyGen, kurumsal müşterileriyle çalışarak ürün pazarlamasından satış demolarına kadar çeşitli içerikler için özel, insana benzer avatarlar oluşturan bir yapay zeka görsel hikaye anlatım platformudur. Video çevirisi için Ses Motorunu kullanıyorlar. Bu sayede bir konuşmacının sesi birden çok dile çevrilerek küresel bir kitleye ulaşabiliyor. Çeviri için kullanıldığında, Ses Motoru orijinal konuşmacının aksanını korur: Örneğin, Fransız bir konuşmacıdan alınan bir ses örneğiyle İngilizce konuşulduğunda Fransız aksanlı bir konuşma oluşturulur.

Yükleniyor...

Küresel topluluklara ulaşmak, uzak bölgelerde temel hizmet sunumunu iyileştirerek. Dimagi⁠(yeni bir pencerede açılır), emziren annelere danışmanlık gibi çeşitli temel hizmetler sunmaları için toplum sağlığı çalışanlarına yönelik araçlar geliştiriyor. Bu çalışanların becerilerini geliştirmelerine yardımcı olmak için Dimagi, Swahili gibi dillerde ve Kenya’da popüler, kod-karışımlı bir dil olan Sheng gibi daha resmî olmayan dillerde etkileşimli geri bildirim sağlamak üzere Ses Motorunu ve GPT‑4'ü kullanıyor.

Yükleniyor...

Sözlü iletişim kuramayan kişileri destekleme, örneğin konuşmayı etkileyen rahatsızlıkları olan bireyler için terapötik uygulamalar ve öğrenme ihtiyaçları olanlar için eğitimsel iyileştirmeler. Livox⁠(yeni bir pencerede açılır), yapay zeka destekli alternatif bir iletişim uygulaması olarak, engelli bireylerin iletişim kurmasını sağlayan Artırıcı ve Alternatif İletişim (AAC) cihazlarını destekler. Ses Motorunu kullanarak, konuşamayan kişilere birçok dilde benzersiz ve robotik olmayan sesler sunabiliyorlar. Kullanıcılar kendilerini en iyi temsil eden konuşma tarzını seçebilir ve çok dilli kullanıcılar için her konuşma dilinde tutarlı bir ses tonu sağlayabilir.

Yükleniyor...

Ani veya dejeneratif konuşma rahatsızlığı yaşayan hastaların seslerini yeniden kazanmalarına yardımcı oluyoruz. Brown Üniversitesi'nin tıp fakültesinin birincil eğitim ortağı olarak hizmet veren, kâr amacı gütmeyen bir sağlık sistemi olan Lifespan⁠(yeni bir pencerede açılır) bünyesindeki Norman Prince Nörobilimler Enstitüsü, klinik bağlamlarda yapay zekanın kullanım alanlarını araştırıyor. Konuşma bozukluğunun onkolojik veya nörolojik etiyolojilerine sahip bireylere Ses Motoru sunan bir pilot program yürütüyorlar. Ses Motoru çok kısa bir ses örneği gerektirdiğinden, doktorlar Fatima Mirza, Rohaid Ali ve Konstantina Svokos, okul projesi için kaydedilen bir videodan alınan sesi kullanarak, damar kaynaklı bir beyin tümörü nedeniyle akıcı konuşmasını kaybeden genç bir hastanın sesini geri kazandırabildi.

Yükleniyor...

Ses Motorunu güvenli bir şekilde oluşturmak

İnsanların seslerine benzeyen konuşmalar üretmenin, özellikle bir seçim yılında akılda ilk sırada yer alan ciddi riskler taşıdığının farkındayız. Geliştirme sürecimizde aldığımız geri bildirimleri dahil ettiğimizden emin olmak için hükümet, medya, eğlence, eğitim, sivil toplum ve daha pek çok alandan Amerikan ve uluslararası ortaklarla iş birliği yapıyoruz. Bugün Ses Motorunu test eden iş ortakları, rıza veya yasal hak olmaksızın başka bir kişinin veya kuruluşun kimliğine bürünmeyi yasaklayan kullanım politikalarımızı⁠ kabul etmiştir. Ayrıca bu iş ortaklarıyla yaptığımız şartlar, asıl konuşmacının açık ve bilgilendirilmiş rızasını gerektirir ve geliştiricilerin bireysel kullanıcıların kendi seslerini oluşturmalarına yönelik yollar geliştirmesine izin vermiyoruz. İş ortakları, dinleyicilerine duydukları seslerin yapay zeka tarafından oluşturulan sesler olduğunu da açıkça belirtmelidir. Son olarak, Voice Engine tarafından üretilen herhangi bir sesin kaynağını izlemek için filigran ekleme de dahil olmak üzere bir dizi güvenlik önlemi uyguladık; ayrıca nasıl kullanıldığını proaktif olarak izliyoruz. Sentetik ses teknolojisinin geniş çapta kullanıma sunulmasının, asıl konuşmacının sesini bilerek hizmete eklediğini doğrulayan ses kimlik doğrulama deneyimleri ve tanınmış kişilere fazla benzeyen seslerin oluşturulmasını tespit edip engelleyen bir yasaklı ses listesiyle birlikte sunulması gerektiğine inanıyoruz.

Geleceğe bakış

Ses Motoru, teknik açıdan en üst seviyeyi anlamaya ve yapay zeka ile mümkün olanları açıkça paylaşmaya dair kararlılığımızın bir devamı niteliğindedir. Yapay zeka güvenliğine olan yaklaşımımız⁠ ve gönüllü taahhütlerimiz⁠ doğrultusunda, şu anda bu teknolojiyi genel kullanıma sunmak yerine ön izleme aşamasında tutmayı tercih ediyoruz. Ses Motorunun bu ön izlemesinin hem potansiyelini vurguladığını hem de giderek daha ikna edici hale gelen üretken modellerin getirdiği zorluklara karşı toplumsal dayanıklılığı güçlendirme ihtiyacını ortaya koymasını umuyoruz. Özellikle, aşağıdaki adımları destekliyoruz:

Banka hesaplarına ve diğer hassas bilgilere erişimde bir güvenlik önlemi olarak ses tabanlı kimlik doğrulamanın kademeli olarak kaldırmak
Yapay zekada bireylerin ses kullanımını korumak için politikaları araştırmak
Halkı, aldatıcı AI içeriği olasılığı da dahil olmak üzere AI teknolojilerinin yeteneklerini ve sınırlarını anlamaları konusunda eğitmek
Görsel-işitsel içeriğin kaynağını izlemeye yönelik tekniklerin geliştirilmesini ve benimsenmesini hızlandırarak, gerçek bir kişiyle mi yoksa bir yapay zekayla mı etkileşimde olduğunuzun her zaman net olmasını sağlamak

Bu teknolojinin nereye doğru gittiğini, nihayetinde onu kendimiz yaygın biçimde kullanıp kullanmayacağımızdan bağımsız olarak, dünyanın dört bir yanındaki insanların anlaması önemlidir. Sentetik seslerin getirdiği zorluklar ve fırsatlar hakkında politika yapıcılar, araştırmacılar, geliştiriciler ve yaratıcılarla görüşmelerimizi sürdürmeyi sabırsızlıkla bekliyoruz.

İlgili makaleler

Tümünü görüntüle

Video generation models as world simulators

Yayın15 Şub 2024

Building an early warning system for LLM-aided biological threat creation

Yayın31 Oca 2024

Weak-to-strong generalization

Güvenlik14 Ara 2023