29 مارس 2024

الموازنة بين التحديات والفرص في عالم الأصوات الاصطناعية

نستعرض معكم الدروس المستخلصة من النموذج الأولي محدود النطاق للمحرك الصوتي، وهو النموذج الرائد المصمم لابتكار أصوات ذات سمات مخصصة.

جاري التحميل...

تمضي OpenAI قُدمًا في التزامها بابتكار تقنيات ذكاء اصطناعي تتسم بالأمان والنفع العام⁠. وفي هذا الإطار، نستعرض اليوم بعض الملامح والنتائج الأولية المستخلصة من المعاينة التجريبية لنموذج أطلقنا عليه اسم "المحرك الصوتي"؛ حيث تعتمد فكرة هذا النموذج على استخدام المدخلات النصية مع عينة صوتية واحدة لا تتعدى مدتها 15 ثانية لتوليد كلام يبدو طبيعيًا ويشبه إلى حد كبير نبرة المتحدث الأصلي بدقة مذهلة. ولعل أبرز ما يلفت النظر هو قدرة نموذج بهذا الحجم الصغير، وعبر عينة وجيزة للغاية، على صياغة أصوات واقعية تنبض بالمشاعر.

بدأت رحلة تطويرنا للمحرك الصوتي في نهاية عام 2022، حيث اعتمدنا عليه كركيزة أساسية لتشغيل الأصوات الجاهزة المتوفرة عبر واجهة API لتحويل النص إلى كلام⁠(يفتح في نافذة جديدة)، فضلًا عن ميزتي ChatGPT الصوتي والقراءة بصوت عالٍ⁠. وبالتوازي مع ذلك، فإننا نتبنّى منهجية عمل تتوخى الحذر والتروّي قبل الإقدام على أي إطلاق موسع، وذلك إدراكًا منا لمخاطر التلاعب بالأصوات الاصطناعية. ونهدف من ذلك إلى إرساء دعائم حوار مجتمعي حول النشر المسؤول لهذه الإمكانات الصوتية وسبل التكيف معها. وسيكون لنتائج هذه الحوارات والاختبارات الميدانية المحدودة القول الفصل في اتخاذ قرار مدروس حول جدوى وكيفية طرح هذه التكنولوجيا للجمهور العام.

التطبيقات الأولية للمحرك الصوتي

سعيًا منا لاستيعاب الآفاق التطبيقية لهذه التكنولوجيا، شرعنا في نهاية العام المنصرم في إجراء تجارب سرية مع نخبة من الشركاء الموثوقين. وقد نالت التطبيقات المبتكرة من قِبل هذه المجموعة استحساننا الكبير؛ إذ تساعدنا تجارب النشر المصغرة هذه في صياغة منهجيتنا ووضع ضمانات الأمان، وتعميق تفكيرنا في سبل توظيف المحرك الصوتي في وجوه الخير ضمن مجالات متنوعة. وإليكم بعض الأمثلة على ذلك:

تقديم المساعدة في القراءة للأطفال وللأشخاص الذين يواجهون صعوبات في القراءة عبر أصوات تعبيرية ونبرات طبيعية تعكس تنوعًا أكبر في أصوات المتحدثين يفوق الإمكانات المتاحة في الأصوات الجاهزة. وتستخدم شركة Age of Learning⁠(يفتح في نافذة جديدة)، الرائدة في تقنيات التعليم والتي تكرّس جهودها لتعزيز النجاح الأكاديمي للأطفال، هذه الأداة في تقديم محتوى تعليق صوتي لنصوص مكتوبة مسبقًا. كما توظف الشركة المحرك الصوتي مع نموذج GPT‑4 لابتكار استجابات مخصصة وفورية للتواصل مع الطلبة؛ وهو ما أتاح لها التوسع في إنتاج المحتوى والوصول إلى فئات أوسع من المستفيدين.

ترجمة المحتوى، مثل مقاطع الفيديو والبودكاست، لمساعدة الشركات وصانعي المحتوى على الانتشار عالميًا بأسلوب يتسم بالطلاقة وبنبرات أصواتهم الخاصة. وتبرز منصة HeyGen⁠(يفتح في نافذة جديدة)، المتخصصة في السرد البصري المعزز بالذكاء الاصطناعي، كأحد الرواد في تبني هذه التقنية، حيث توفر لعملائها من المؤسسات أدوات لابتكار شخصيات افتراضية بشرية الملامح لخدمة أغراض تسويقية وبيعية متنوعة. وتعتمد المنصة على المحرك الصوتي في ترجمة الفيديوهات، مما يتيح نقل رسالة المتحدث إلى لغات عدة مع استقطاب جمهور من كافة أنحاء العالم. وما يميز المحرك الصوتي في سياق الترجمة هو قدرته على صون اللكنة الأم للمتحدث؛ فمثلًا، إذا استُخدمت عينة صوتية لشخص فرنسي لإنتاج محتوى بالإنجليزية، فإن النتيجة ستكون خطابًا إنجليزيًا بلكنة فرنسية واضحة.

جاري التحميل...

مد جسور التواصل مع المجتمعات الدولية عبر الارتقاء بجودة الخدمات الأساسية في البيئات النائية. تعمل مؤسسة Dimagi⁠(يفتح في نافذة جديدة) على تطوير وسائل تقنية تمكن كوادر الصحة المجتمعية من توفير خدمات حيوية شتى، كالإرشاد الصحي للأمهات المرضعات. ولصقل مهارات هؤلاء الكوادر، توظف Dimagi كلاً من المحرك الصوتي ونموذج GPT‑4 لتقديم ملاحظات تفاعلية باللغة الأم لكل موظف، سواء كانت السواحيلية أو اللغات الدارجة مثل 'شينغ' (Sheng)، وهي لغة تواصل هجينة واسعة الانتشار في كينيا.

جاري التحميل...

دعم الأشخاص غير القادرين على الكلام، بما في ذلك الاستخدامات العلاجية للمصابين باضطرابات النطق، والوسائل التعليمية المتقدمة لذوي صعوبات التعلم. وتوظف منصة Livox⁠(يفتح في نافذة جديدة)، وهي تطبيق ذكي للتواصل البديل، تقنيات التواصل المعزز والبديل (AAC) لتمكين ذوي الاحتياجات الخاصة من التفاعل مع العالم. وبفضل دمج المحرك الصوتي، استطاعت المنصة تقديم أصوات حيوية ومميزة للمستخدمين غير الناطقين مع دعم لغات شتى، مما يتيح لهم اختيار النبرة التي تعبر عن هويتهم، فضلًا عن ضمان وحدة الصوت وتناسقه عبر اللغات المختلفة التي يتحدث بها المستخدم.

جاري التحميل...

دعم المرضى في استرداد القدرة على الكلام، وتحديدًا من يعانون من اضطرابات نطق فجائية أو أمراض تؤدي لتدهور النطق بمرور الوقت. وفي هذا الصدد، يعمل معهد Norman Prince Neurosciences Institute التابع لمؤسسة Lifespan⁠(يفتح في نافذة جديدة) الصحية، وهي الشريك التعليمي الأول لكلية الطب بجامعة Brown University، على دراسة توظيف الذكاء الاصطناعي في المجالات العلاجية السريرية. وقد أطلقوا مبادرة تجريبية تتيح استخدام المحرك الصوتي للمرضى الذين يعانون من ضعف النطق نتيجة أسباب تتعلق بالأورام أو الأعصاب. وبفضل ميزة المحرك الصوتي التي تكتفي بعينة صوتية وجيزة، استطاع الفريق الطبي، المكوّن من الدكتورة فاطمة ميرزا والدكتور روهيد علي والدكتورة كونستانتينا سفوكوس، إعادة الصوت لمريضة شابة فقدت قدرتها على النطق السليم إثر إصابتها بورم وعائي في الدماغ، عبر الاستعانة بتسجيل صوتي من فيديو لمشروع مدرسي قديم.

جاري التحميل...

بناء المحرك الصوتي بأمان

إننا ندرك تمام الإدراك أن إنتاج أصوات تشبه نبرات البشر يحمل في طياته مخاطر كبيرة، لاسيما مع اقتراب الاستحقاقات الانتخابية هذا العام. ومن هذا المنطلق، نعقد مشاورات مع شركاء أمريكيين ودوليين من مختلف قطاعات الحكومة والإعلام والترفيه والتعليم والمجتمع المدني لضمان دمج ملاحظاتهم في منتجنا النهائي. ويلتزم الشركاء الحاليون الذين يجرون تجارب على المحرك الصوتي بتطبيق سياسات الاستخدام⁠ التي تمنع منعًا باتًا تقمص شخصية أي فرد أو جهة دون موافقة أو تصريح رسمي. كما تفرض بنود التعاقد مع هؤلاء الشركاء نيل موافقة واعية وصريحة من صاحب الصوت الأصلي، مع حظر تمكين المستخدمين الأفراد من ابتكار أصواتهم الخاصة. ويتعين على الشركاء أيضًا الشفافية الكاملة مع الجمهور عبر التنويه بأن المحتوى الصوتي مولد آليًا. وأخيرًا، اتخذنا مجموعة من تدابير السلامة، بما في ذلك وضع العلامة المائية لتتبع أصل أي مقطع صوتي يتم إنتاجه بواسطة المحرك الصوتي، بالإضافة إلى المراقبة الاستباقية لكيفية استخدامه. ونرى ضرورة اقتران أي نشر واسع النطاق لتقنية الصوت الاصطناعي بتجارب مصادقة صوتية تتحقق من أن المتحدث الأصلي يضيف صوته إلى الخدمة عن علم، وقائمة أصوات محظورة تكتشف وتمنع إنشاء أصوات شديدة الشبه بالشخصيات البارزة.

نظرة إلى المستقبل

تمثل تقنية المحرك الصوتي ترسيخًا لالتزامنا الهادف لاستكشاف الحدود التقنية ومشاركة المستجدات الممكنة في عالم الذكاء الاصطناعي مع الجميع. واتساقًا مع نهجنا الخاص بسلامة الذكاء الاصطناعي⁠ والتزاماتنا الطوعية⁠، فقد آثرنا تقديم نموذج أولي للعرض دون اللجوء للنشر الموسع لهذه التقنية في هذه المرحلة. إننا نرجو من خلال هذا النموذج الأولي للمحرك الصوتي تسليط الضوء على قدراته الفائقة، وفي الوقت ذاته لفت الانتباه إلى الحاجة الملحة لتحصين المجتمع ضد التحديات الناجمة عن النماذج التوليدية التي أصبحت أكثر واقعية وإقناعًا من أي وقت مضى. ونحن ندعو على وجه التحديد إلى تبني إجراءات مثل:

التخلص التدريجي من المصادقة الصوتية كإجراء أمني للوصول إلى الحسابات البنكية والمعلومات الحساسة الأخرى
بحث السبل واللوائح الكفيلة بصون حقوق استخدام أصوات الأشخاص ضمن تطبيقات الذكاء الاصطناعي
تثقيف الجمهور حول فهم قدرات تقنيات الذكاء الاصطناعي وحدودها، بما في ذلك إمكانية وجود محتوى مضلل ناتج عن الذكاء الاصطناعي
العمل على وتيرة أسرع لتطوير وتبني آليات تتبع مصادر المحتوى السمعي والبصري، بما يكفل التمييز الدائم واليقيني بين التفاعل مع كائن بشري حقيقي أو مع أنظمة ذكاء اصطناعي

إن فهم التوجهات المستقبلية لهذه التكنولوجيا ضرورة عالمية ملحة، بغض النظر عما إذا كنا سنقوم بتعميمها بأنفسنا في نهاية المطاف أم لا. وإننا نحرص كل الحرص على استمرار النقاشات المعمقة بشأن التحديات والآفاق الواعدة للأصوات الاصطناعية، وذلك بالتعاون مع صُنّاع القرار والباحثين والمبتكرين التقنيين والمبدعين في شتى المجالات.

الموازنة بين التحديات والفرص في عالم الأصوات الاصطناعية

التطبيقات الأولية للمحرك الصوتي

بناء المحرك الصوتي بأمان

نظرة إلى المستقبل

مقالات ذات صلة