۱۰ فروردین ۱۴۰۳

پیمایش چالش‌ها و فرصت‌های صداهای مصنوعی

ما در حال به‌اشتراک‌گذاری آموخته‌ها از پیش‌نمایش Voice Engine در مقیاس کوچک هستیم، مدلی برای ایجاد صداهای سفارشی.

در حال بارگذاری…

OpenAI خود را متعهد به توسعه ایمن و با فایده گسترده هوش مصنوعی می‌داند⁠. امروز ما بینش‌ها و نتایج اولیه را از یک پیش‌نمایش در مقیاس کوچک از مدلی به نام Voice Engine به اشتراک می‌گذاریم که از ورودی متن و یک نمونه‌ی صوتی ۱۵ ثانیه‌ای برای تولید گفتاری با صدای طبیعی استفاده می‌کند که شباهت نزدیکی به گوینده‌ی اصلی دارد. قابل توجه است که یک مدل کوچک با یک نمونه ۱۵ ثانیه‌ای می‌تواند صداهایی احساسی و واقع‌گرایانه ایجاد کند.

ما نخست Voice Engine را در اواخر سال ۲۰۲۲ توسعه دادیم و از آن برای پشتیبانی از صداهای از پیش تعیین‌شده‌ای که در API تبدیل متن به گفتار⁠(در یک پنجره جدید باز می‌شود) و همچنین ChatGPT سخنگو و بلند خوان⁠ در دسترس هستند، استفاده کرده‌ایم. در عین حال، به‌دلیل احتمال سوء استفاده از صدای مصنوعی، رویکردی محتاطانه و آگاهانه برای انتشار گسترده‌تر در پیش گرفته‌ایم. امیدواریم گفت‌وگویی دربارهٔ به‌کارگیری مسئولانهٔ صداهای مصنوعی آغاز کنیم و بررسی کنیم که جامعه چگونه می‌تواند با این قابلیت‌های جدید سازگار شود. بر اساس این گفتگوها و نتایج این آزمون‌های کوچک‌مقیاس، تصمیم آگاهانه‌تری درباره اینکه آیا و چگونه این فناوری را در مقیاس بزرگ پیاده‌سازی کنیم، خواهیم گرفت.

کاربردهای اولیه Voice Engine

برای درک بهتر کاربردهای بالقوهٔ این فناوری، اواخر سال گذشته آزمایش آن را به‌صورت خصوصی با گروه کوچکی از شرکای مورد اعتماد آغاز کردیم. ما تحت تأثیر کاربردهایی که این گروه توسعه داده است قرار گرفته‌ایم. این استقرارهای کوچک‌مقیاس به ما کمک می‌کنند تا رویکرد، تدابیر حفاظتی و شیوه فکر کردن‌مان درباره نحوه استفاده مطلوب از Voice Engine در صنایع مختلف را شکل دهیم. چند نمونه اولیه عبارت‌اند از:

ارائه کمک برای خواندن به افراد غیرخوانا و کودکان از طریق صداهایی با طنین طبیعی و احساسی که طیف گسترده‌تری از گویندگان را نسبت به آنچه با صداهای از پیش تعیین‌شده ممکن است، نمایندگی می‌کنند. Age of Learning⁠(در یک پنجره جدید باز می‌شود)، یک شرکت فناوری آموزشی که به موفقیت تحصیلی کودکان اختصاص دارد، از این برای تولید محتوای گویندگیِ از پیش نوشته‌شده استفاده کرده است. آن‌ها همچنین از Voice Engine و GPT‑4 برای ایجاد پاسخ‌های شخصی‌سازی‌شده در زمان واقعی برای تعامل با دانش‌آموزان استفاده می‌کنند. با این فناوری، Age of Learning توانسته است محتوای بیشتری برای مخاطبان گسترده‌تری ایجاد کند.

ترجمه‌ی محتوا، مانند ویدیوها و پادکست‌ها، تا سازندگان و کسب‌وکارها بتوانند در سراسر جهان، روان و با صدای خودشان، به افراد بیشتری دسترسی پیدا کنند. یکی از پذیرندگان اولیه این، HeyGen⁠(در یک پنجره جدید باز می‌شود) است؛ یک پلتفرم داستان‌گویی بصری مبتنی بر هوش مصنوعی که با مشتریان سازمانی خود همکاری می‌کند تا آواتارهای سفارشی و شبه انسان برای انواع محتوا، از بازاریابی محصول تا دموهای فروش، ایجاد کند. آن‌ها از Voice Engine برای ترجمه ویدئو استفاده می‌کنند، بنابراین می‌توانند صدای یک گوینده را به چندین زبان ترجمه کنند و به مخاطبان جهانی دست پیدا کنند. وقتی برای ترجمه استفاده می‌شود، Voice Engine لهجه بومی گوینده اصلی را حفظ می‌کند: برای مثال، تولید انگلیسی با یک نمونه صوتی از یک گوینده فرانسوی، گفتاری با لهجه فرانسوی تولید می‌کند.

در حال بارگذاری...

دسترسی به جوامع جهانی، با بهبود ارائه خدمات ضروری در محیط‌های دورافتاده. Dimagi⁠(در یک پنجره جدید باز می‌شود) در حال ساخت ابزارهایی برای کارکنان سلامت جامعه است تا مجموعه‌ای از خدمات ضروری را ارائه دهند، مانند مشاوره برای مادران شیرده. برای کمک به این کارکنان در توسعه مهارت‌هایشان، Dimagi از Voice Engine و GPT‑4 استفاده می‌کند تا در زبان اصلی هر کارگر، از جمله سواحیلی یا زبان‌های غیررسمی‌تر مانند شِنگ، یک زبان آمیخته از کدها که در کنیا محبوب است، بازخورد تعاملی ارائه دهد.

در حال بارگذاری...

حمایت از افرادی که نمی‌توانند صحبت کنند، مانند کاربردهای درمانی برای افرادی که دچار شرایطی هستند که بر گفتار تأثیر می‌گذارد و همچنین بهبودهای آموزشی برای کسانی که نیازهای یادگیری دارند. Livox⁠(در یک پنجره جدید باز می‌شود)، یک اپلیکیشن ارتباطی جایگزین مبتنی بر هوش مصنوعی، دستگاه‌های ارتباط افزوده و جایگزین (AAC) را پشتیبانی می‌کند که به افراد دارای معلولیت امکان می‌دهد ارتباط برقرار کنند. آن‌ها می‌توانند با استفاده از Voice Engine، صداهایی منحصربه‌فرد و غیررباتیک را به زبان‌های متعدد به افرادی که قادر به صحبت کردن نیستند ارائه دهند. کاربران آن‌ها می‌توانند گفتاری را انتخاب کنند که بهترین بازنمایی از آن‌ها باشد و کاربران چندزبانه نیز می‌توانند در همهٔ زبان‌هایی که صحبت می‌کنند، صدایی یکسان و ثابت داشته باشند.

در حال بارگذاری...

کمک به بیماران برای بازیابی صدای خود، برای کسانی که از اختلالات ناگهانی یا پیشرونده گفتار رنج می‌برند. مؤسسه علوم اعصاب نورمن پرینس در Lifespan⁠(در یک پنجره جدید باز می‌شود)، یک نظام سلامت غیرانتفاعی که به‌عنوان وابسته آموزشی اصلی دانشکده پزشکی دانشگاه براون فعالیت می‌کند، در حال بررسی کاربردهای هوش مصنوعی در زمینه‌های بالینی است. آن‌ها در حال اجرای آزمایشی برنامه‌ای بوده‌اند که Voice Engine را به افرادی با علل انکولوژیک یا نورولوژیکِ اختلال گفتار ارائه می‌دهد. از آن‌جا که Voice Engine به یک نمونه صوتی بسیار کوتاه نیاز دارد، پزشکان Fatima Mirza، Rohaid Ali و Konstantina Svokos توانستند با استفاده از صدای یک ویدئو که برای یک پروژه مدرسه ضبط شده بود، صدای یک بیمار جوان را که به‌دلیل یک تومور عروقی مغز، گفتار روان خود را از دست داده بود، بازیابی کنند.

در حال بارگذاری...

ساخت ایمن Voice Engine

ما درک می‌کنیم که تولید گفتاری که شبیه صدای افراد باشد، ریسک‌های جدی دارد که به‌ویژه در سال انتخابات بیش از پیش مورد توجه است. ما با شرکای ایالات متحده و بین‌المللی از جمله دولت، رسانه، سرگرمی، آموزش، جامعهٔ مدنی و فراتر از آن همکاری می‌کنیم تا مطمئن شویم بازخوردهای آن‌ها را هنگام ساخت درنظر می‌گیریم. شرکایی که امروز در حال آزمایش Voice Engine هستند با سیاست‌های کاربری⁠ ما موافقت کرده‌اند؛ سیاست‌هایی که جعل هویت فرد یا سازمان دیگری را بدون رضایت یا حق قانونی ممنوع می‌کند. علاوه بر این، شرایط ما با این شرکا مستلزم رضایت صریح و آگاهانه از سوی گوینده اصلی است و ما به توسعه‌دهندگان اجازه نمی‌دهیم راه‌هایی بسازند که کاربران فردی بتوانند صداهای خودشان را ایجاد کنند. شرکا همچنین باید به‌طور شفاف به مخاطبان خود اعلام کنند که صداهایی که می‌شنوند توسط هوش مصنوعی تولید شده‌اند. در نهایت، ما مجموعه‌ای از اقدامات ایمنی را پیاده کرده‌ایم، از جمله واترمارک‌گذاری برای ردیابی منشأ هر صوتی که توسط Voice Engine تولید می‌شود و همچنین پایش پیش‌دستانه نحوه استفاده از آن. ما معتقدیم هرگونه به‌کارگیری گستردهٔ فناوری صدای مصنوعی باید با سازوکارهای احراز هویت صدا همراه باشد تا اطمینان حاصل شود که گویندهٔ اصلی آگاهانه صدای خود را در اختیار این سرویس قرار می‌دهد. همچنین لازم است فهرستی از «صداهای ممنوع» وجود داشته باشد تا از ایجاد صداهایی که شباهت بسیار زیادی به چهره‌های سرشناس دارند جلوگیری شود.

با نگاهی به آینده

Voice Engine به منزله استمرار تعهد ما برای درک مرز پیشرو فنی و به‌اشتراک‌گذاری آن چیزی است که با هوش مصنوعی در حال ممکن شدن است. در راستای رویکرد ما به ایمنی هوش مصنوعی⁠ و تعهدات داوطلبانه‌مان⁠، در حال حاضر تصمیم گرفته‌ایم این فناوری را پیش‌نمایش کنیم اما آن را به‌طور گسترده منتشر نکنیم. امیدواریم این پیش‌نمایش از Voice Engine هم پتانسیل آن را نشان دهد و هم ضرورت تقویت تاب‌آوری اجتماعی در برابر چالش‌هایی را که مدل‌های مولدِ هرچه متقاعدکننده‌تر ایجاد می‌کنند، برجسته سازد. به‌طور مشخص، گام‌هایی مانند موارد زیر را توصیه می‌کنیم:

حذف تدریجی احراز هویت مبتنی بر صدا به‌عنوان یک اقدام امنیتی برای دسترسی به حساب‌های بانکی و سایر اطلاعات حساس
کاوش سیاست‌ها برای محافظت از استفاده از صدای افراد در هوش مصنوعی
آموزش عمومی برای درک قابلیت‌ها و محدودیت‌های فناوری‌های هوش مصنوعی، از جمله امکان وجود محتوای فریبنده‌ی هوش مصنوعی
تسریع در توسعه و پذیرش تکنیک‌هایی برای ردیابی منشأ محتوای دیداری‌شنیداری، تا همیشه مشخص باشد که آیا با یک فرد واقعی تعامل دارید یا با یک هوش مصنوعی

مهم است که مردم در سراسر جهان درک کنند این فناوری به کجا می‌رود، چه در نهایت خودمان آن را به‌طور گسترده مستقر کنیم و چه نکنیم. ما مشتاقانه منتظر ادامه مشارکت در گفت‌وگوها درباره چالش‌ها و فرصت‌های صداهای مصنوعی با سیاست‌گذاران، پژوهشگران، توسعه‌دهندگان و افراد خلاق هستیم.

مقالات مرتبط

مشاهده همه

Video generation models as world simulators

مقالات۲۶ بهمن ۱۴۰۲

Building an early warning system for LLM-aided biological threat creation

مقالات۱۱ بهمن ۱۴۰۲

Weak-to-strong generalization

ایمنی۲۳ آذر ۱۴۰۲