پیمایش چالشها و فرصتهای صداهای مصنوعی
ما در حال بهاشتراکگذاری آموختهها از پیشنمایش Voice Engine در مقیاس کوچک هستیم، مدلی برای ایجاد صداهای سفارشی.
OpenAI خود را متعهد به توسعه ایمن و با فایده گسترده هوش مصنوعی میداند. امروز ما بینشها و نتایج اولیه را از یک پیشنمایش در مقیاس کوچک از مدلی به نام Voice Engine به اشتراک میگذاریم که از ورودی متن و یک نمونهی صوتی ۱۵ ثانیهای برای تولید گفتاری با صدای طبیعی استفاده میکند که شباهت نزدیکی به گویندهی اصلی دارد. قابل توجه است که یک مدل کوچک با یک نمونه ۱۵ ثانیهای میتواند صداهایی احساسی و واقعگرایانه ایجاد کند.
ما نخست Voice Engine را در اواخر سال ۲۰۲۲ توسعه دادیم و از آن برای پشتیبانی از صداهای از پیش تعیینشدهای که در API تبدیل متن به گفتار(در یک پنجره جدید باز میشود) و همچنین ChatGPT سخنگو و بلند خوان در دسترس هستند، استفاده کردهایم. در عین حال، بهدلیل احتمال سوء استفاده از صدای مصنوعی، رویکردی محتاطانه و آگاهانه برای انتشار گستردهتر در پیش گرفتهایم. امیدواریم گفتوگویی دربارهٔ بهکارگیری مسئولانهٔ صداهای مصنوعی آغاز کنیم و بررسی کنیم که جامعه چگونه میتواند با این قابلیتهای جدید سازگار شود. بر اساس این گفتگوها و نتایج این آزمونهای کوچکمقیاس، تصمیم آگاهانهتری درباره اینکه آیا و چگونه این فناوری را در مقیاس بزرگ پیادهسازی کنیم، خواهیم گرفت.
برای درک بهتر کاربردهای بالقوهٔ این فناوری، اواخر سال گذشته آزمایش آن را بهصورت خصوصی با گروه کوچکی از شرکای مورد اعتماد آغاز کردیم. ما تحت تأثیر کاربردهایی که این گروه توسعه داده است قرار گرفتهایم. این استقرارهای کوچکمقیاس به ما کمک میکنند تا رویکرد، تدابیر حفاظتی و شیوه فکر کردنمان درباره نحوه استفاده مطلوب از Voice Engine در صنایع مختلف را شکل دهیم. چند نمونه اولیه عبارتاند از:
- ارائه کمک برای خواندن به افراد غیرخوانا و کودکان از طریق صداهایی با طنین طبیعی و احساسی که طیف گستردهتری از گویندگان را نسبت به آنچه با صداهای از پیش تعیینشده ممکن است، نمایندگی میکنند. Age of Learning(در یک پنجره جدید باز میشود)، یک شرکت فناوری آموزشی که به موفقیت تحصیلی کودکان اختصاص دارد، از این برای تولید محتوای گویندگیِ از پیش نوشتهشده استفاده کرده است. آنها همچنین از Voice Engine و GPT‑4 برای ایجاد پاسخهای شخصیسازیشده در زمان واقعی برای تعامل با دانشآموزان استفاده میکنند. با این فناوری، Age of Learning توانسته است محتوای بیشتری برای مخاطبان گستردهتری ایجاد کند.
- ترجمهی محتوا، مانند ویدیوها و پادکستها، تا سازندگان و کسبوکارها بتوانند در سراسر جهان، روان و با صدای خودشان، به افراد بیشتری دسترسی پیدا کنند. یکی از پذیرندگان اولیه این، HeyGen(در یک پنجره جدید باز میشود) است؛ یک پلتفرم داستانگویی بصری مبتنی بر هوش مصنوعی که با مشتریان سازمانی خود همکاری میکند تا آواتارهای سفارشی و شبه انسان برای انواع محتوا، از بازاریابی محصول تا دموهای فروش، ایجاد کند. آنها از Voice Engine برای ترجمه ویدئو استفاده میکنند، بنابراین میتوانند صدای یک گوینده را به چندین زبان ترجمه کنند و به مخاطبان جهانی دست پیدا کنند. وقتی برای ترجمه استفاده میشود، Voice Engine لهجه بومی گوینده اصلی را حفظ میکند: برای مثال، تولید انگلیسی با یک نمونه صوتی از یک گوینده فرانسوی، گفتاری با لهجه فرانسوی تولید میکند.
- دسترسی به جوامع جهانی، با بهبود ارائه خدمات ضروری در محیطهای دورافتاده. Dimagi(در یک پنجره جدید باز میشود) در حال ساخت ابزارهایی برای کارکنان سلامت جامعه است تا مجموعهای از خدمات ضروری را ارائه دهند، مانند مشاوره برای مادران شیرده. برای کمک به این کارکنان در توسعه مهارتهایشان، Dimagi از Voice Engine و GPT‑4 استفاده میکند تا در زبان اصلی هر کارگر، از جمله سواحیلی یا زبانهای غیررسمیتر مانند شِنگ، یک زبان آمیخته از کدها که در کنیا محبوب است، بازخورد تعاملی ارائه دهد.
- حمایت از افرادی که نمیتوانند صحبت کنند، مانند کاربردهای درمانی برای افرادی که دچار شرایطی هستند که بر گفتار تأثیر میگذارد و همچنین بهبودهای آموزشی برای کسانی که نیازهای یادگیری دارند. Livox(در یک پنجره جدید باز میشود)، یک اپلیکیشن ارتباطی جایگزین مبتنی بر هوش مصنوعی، دستگاههای ارتباط افزوده و جایگزین (AAC) را پشتیبانی میکند که به افراد دارای معلولیت امکان میدهد ارتباط برقرار کنند. آنها میتوانند با استفاده از Voice Engine، صداهایی منحصربهفرد و غیررباتیک را به زبانهای متعدد به افرادی که قادر به صحبت کردن نیستند ارائه دهند. کاربران آنها میتوانند گفتاری را انتخاب کنند که بهترین بازنمایی از آنها باشد و کاربران چندزبانه نیز میتوانند در همهٔ زبانهایی که صحبت میکنند، صدایی یکسان و ثابت داشته باشند.
- کمک به بیماران برای بازیابی صدای خود، برای کسانی که از اختلالات ناگهانی یا پیشرونده گفتار رنج میبرند. مؤسسه علوم اعصاب نورمن پرینس در Lifespan(در یک پنجره جدید باز میشود)، یک نظام سلامت غیرانتفاعی که بهعنوان وابسته آموزشی اصلی دانشکده پزشکی دانشگاه براون فعالیت میکند، در حال بررسی کاربردهای هوش مصنوعی در زمینههای بالینی است. آنها در حال اجرای آزمایشی برنامهای بودهاند که Voice Engine را به افرادی با علل انکولوژیک یا نورولوژیکِ اختلال گفتار ارائه میدهد. از آنجا که Voice Engine به یک نمونه صوتی بسیار کوتاه نیاز دارد، پزشکان Fatima Mirza، Rohaid Ali و Konstantina Svokos توانستند با استفاده از صدای یک ویدئو که برای یک پروژه مدرسه ضبط شده بود، صدای یک بیمار جوان را که بهدلیل یک تومور عروقی مغز، گفتار روان خود را از دست داده بود، بازیابی کنند.
ما درک میکنیم که تولید گفتاری که شبیه صدای افراد باشد، ریسکهای جدی دارد که بهویژه در سال انتخابات بیش از پیش مورد توجه است. ما با شرکای ایالات متحده و بینالمللی از جمله دولت، رسانه، سرگرمی، آموزش، جامعهٔ مدنی و فراتر از آن همکاری میکنیم تا مطمئن شویم بازخوردهای آنها را هنگام ساخت درنظر میگیریم. شرکایی که امروز در حال آزمایش Voice Engine هستند با سیاستهای کاربری ما موافقت کردهاند؛ سیاستهایی که جعل هویت فرد یا سازمان دیگری را بدون رضایت یا حق قانونی ممنوع میکند. علاوه بر این، شرایط ما با این شرکا مستلزم رضایت صریح و آگاهانه از سوی گوینده اصلی است و ما به توسعهدهندگان اجازه نمیدهیم راههایی بسازند که کاربران فردی بتوانند صداهای خودشان را ایجاد کنند. شرکا همچنین باید بهطور شفاف به مخاطبان خود اعلام کنند که صداهایی که میشنوند توسط هوش مصنوعی تولید شدهاند. در نهایت، ما مجموعهای از اقدامات ایمنی را پیاده کردهایم، از جمله واترمارکگذاری برای ردیابی منشأ هر صوتی که توسط Voice Engine تولید میشود و همچنین پایش پیشدستانه نحوه استفاده از آن. ما معتقدیم هرگونه بهکارگیری گستردهٔ فناوری صدای مصنوعی باید با سازوکارهای احراز هویت صدا همراه باشد تا اطمینان حاصل شود که گویندهٔ اصلی آگاهانه صدای خود را در اختیار این سرویس قرار میدهد. همچنین لازم است فهرستی از «صداهای ممنوع» وجود داشته باشد تا از ایجاد صداهایی که شباهت بسیار زیادی به چهرههای سرشناس دارند جلوگیری شود.
Voice Engine به منزله استمرار تعهد ما برای درک مرز پیشرو فنی و بهاشتراکگذاری آن چیزی است که با هوش مصنوعی در حال ممکن شدن است. در راستای رویکرد ما به ایمنی هوش مصنوعی و تعهدات داوطلبانهمان، در حال حاضر تصمیم گرفتهایم این فناوری را پیشنمایش کنیم اما آن را بهطور گسترده منتشر نکنیم. امیدواریم این پیشنمایش از Voice Engine هم پتانسیل آن را نشان دهد و هم ضرورت تقویت تابآوری اجتماعی در برابر چالشهایی را که مدلهای مولدِ هرچه متقاعدکنندهتر ایجاد میکنند، برجسته سازد. بهطور مشخص، گامهایی مانند موارد زیر را توصیه میکنیم:
- حذف تدریجی احراز هویت مبتنی بر صدا بهعنوان یک اقدام امنیتی برای دسترسی به حسابهای بانکی و سایر اطلاعات حساس
- کاوش سیاستها برای محافظت از استفاده از صدای افراد در هوش مصنوعی
- آموزش عمومی برای درک قابلیتها و محدودیتهای فناوریهای هوش مصنوعی، از جمله امکان وجود محتوای فریبندهی هوش مصنوعی
- تسریع در توسعه و پذیرش تکنیکهایی برای ردیابی منشأ محتوای دیداریشنیداری، تا همیشه مشخص باشد که آیا با یک فرد واقعی تعامل دارید یا با یک هوش مصنوعی
مهم است که مردم در سراسر جهان درک کنند این فناوری به کجا میرود، چه در نهایت خودمان آن را بهطور گسترده مستقر کنیم و چه نکنیم. ما مشتاقانه منتظر ادامه مشارکت در گفتوگوها درباره چالشها و فرصتهای صداهای مصنوعی با سیاستگذاران، پژوهشگران، توسعهدهندگان و افراد خلاق هستیم.


